Transformerunified3Dobjectdetectionvoxel-basedrepresentation

时间：2023-03-16 02:18:53 科技观察

arXiv论文《UnifyingVoxel-basedRepresentationwithTransformerfor3DObjectDetection》，6月22日，香港中文大学，香港大学，旷视科技（纪念孙博士）Jian)和ThinkTechnology等。在本文中，我们提出了一个统一的多模式3-D对象检测框架，称为UVTR。该方法旨在统一体素空间的多模态表示，从而实现准确且稳健的单模态或跨模态3-D检测。为此，首先设计特定于模态的空间来表示体素特征空间的不同输入。在不压缩高度的情况下保留体素空间，减轻语义歧义并实现空间交互。基于这种统一的方法，提出了一种跨模态交互，以充分利用不同传感器的固有特性，包括知识传递和模态融合。通过这种方式，可以很好地利用点云的几何感知表达和图像中丰富的上下文特征，以获得更好的性能和鲁棒性。Transformer解码器用于从具有可学习位置的统一空间中有效地采样特征，从而促进对象级交互。总的来说，UVTR代表了在统一框架中表示不同模态的早期尝试，优于之前在单模态和多模态输入上的工作，在nuScenes测试集、LiDAR、相机和多模态输出的NDS上取得了领先的性能69.7%、55.1%和71.1%。代码：https://github.com/dvlab-research/UVTR。如图：在表征统一过程中，大致可以分为输入级流和特征级流的表示。对于第一种方法，多模式数据在网络的开头对齐。特别地，(a)中的伪点云是从预测的深度辅助图像转换而来的，而(b)中的远景图像是从点云投影而来的。由于伪点云的深度不准确和距离视图图像中3-D几何的崩溃，数据的空间结构被破坏，导致结果不佳。对于特征级方法，典型的做法是将图像特征转化为平截头体，然后压缩到BEV空间，如图（c）所示。然而，由于其类似射线的轨迹，每个位置的高度信息（高度）压缩聚合了各种对象的特征，从而引入了语义歧义。同时，他的隐式方法几乎不支持3-D空间中的显式特征交互，并限制了进一步的知识转移。因此，需要更统一的表示来弥合模态差距并促进多方面的交互。本文提出的框架将基于体素的表示与变换器统一起来。特别是基于体素的显式空间中图像和点云的特征表示和交互。对于图像，根据预测的深度和几何约束，从图像平面采样特征，构建体素空间，如图（d）所示。对于点云，准确的位置自然允许特征与体素相关联。然后，引入体素编码器进行空间交互，以建立相邻特征之间的关系。这样，跨模态交互自然地随着每个体素空间的特征进行。对于目标级交互，可变形变换器被用作解码器，以在统一体素空间中的每个位置（x，y，z）对目标查询特定的特征进行采样，如图（d）所示。同时，3-D查询位置的引入有效缓解了BEV空间中高度信息（height）压缩带来的语义歧义。如图所示为多模态输入的UVTR架构：给定单帧或多帧图像和点云，首先在单主干中进行处理，转换为模态特定的空间VI和VP，其中视图变换为用于图像。在体素编码器中，特征在空间上相互作用，并且在训练期间很容易支持知识转移。根据设置，通过模态开关选择单模态或多模态特征。最后，从具有可学习位置的统一空间VU中采样特征，并使用transformer解码器进行预测。图为viewtransformation细节：图为knowledgetransfer细节：实验结果如下：

上一篇：全球每年有50%的粮食被浪费？

下一篇：2020年人工智能和区块链将如何革新移动应用行业？

Transformerunified3Dobjectdetectionvoxel-basedrepresentation相关文章