arXiv论文《UnifyingVoxel-basedRepresentationwithTransformerfor3DObjectDetection》,6月22日,香港中文大学,香港大学,旷视科技(纪念孙博士)Jian)和ThinkTechnology等。在本文中,我们提出了一个统一的多模式3-D对象检测框架,称为UVTR。该方法旨在统一体素空间的多模态表示,从而实现准确且稳健的单模态或跨模态3-D检测。为此,首先设计特定于模态的空间来表示体素特征空间的不同输入。在不压缩高度的情况下保留体素空间,减轻语义歧义并实现空间交互。基于这种统一的方法,提出了一种跨模态交互,以充分利用不同传感器的固有特性,包括知识传递和模态融合。通过这种方式,可以很好地利用点云的几何感知表达和图像中丰富的上下文特征,以获得更好的性能和鲁棒性。Transformer解码器用于从具有可学习位置的统一空间中有效地采样特征,从而促进对象级交互。总的来说,UVTR代表了在统一框架中表示不同模态的早期尝试,优于之前在单模态和多模态输入上的工作,在nuScenes测试集、LiDAR、相机和多模态输出的NDS上取得了领先的性能69.7%、55.1%和71.1%。代码:https://github.com/dvlab-research/UVTR。如图:在表征统一过程中,大致可以分为输入级流和特征级流的表示。对于第一种方法,多模式数据在网络的开头对齐。特别地,(a)中的伪点云是从预测的深度辅助图像转换而来的,而(b)中的远景图像是从点云投影而来的。由于伪点云的深度不准确和距离视图图像中3-D几何的崩溃,数据的空间结构被破坏,导致结果不佳。对于特征级方法,典型的做法是将图像特征转化为平截头体,然后压缩到BEV空间,如图(c)所示。然而,由于其类似射线的轨迹,每个位置的高度信息(高度)压缩聚合了各种对象的特征,从而引入了语义歧义。同时,他的隐式方法几乎不支持3-D空间中的显式特征交互,并限制了进一步的知识转移。因此,需要更统一的表示来弥合模态差距并促进多方面的交互。本文提出的框架将基于体素的表示与变换器统一起来。特别是基于体素的显式空间中图像和点云的特征表示和交互。对于图像,根据预测的深度和几何约束,从图像平面采样特征,构建体素空间,如图(d)所示。对于点云,准确的位置自然允许特征与体素相关联。然后,引入体素编码器进行空间交互,以建立相邻特征之间的关系。这样,跨模态交互自然地随着每个体素空间的特征进行。对于目标级交互,可变形变换器被用作解码器,以在统一体素空间中的每个位置(x,y,z)对目标查询特定的特征进行采样,如图(d)所示。同时,3-D查询位置的引入有效缓解了BEV空间中高度信息(height)压缩带来的语义歧义。如图所示为多模态输入的UVTR架构:给定单帧或多帧图像和点云,首先在单主干中进行处理,转换为模态特定的空间VI和VP,其中视图变换为用于图像。在体素编码器中,特征在空间上相互作用,并且在训练期间很容易支持知识转移。根据设置,通过模态开关选择单模态或多模态特征。最后,从具有可学习位置的统一空间VU中采样特征,并使用transformer解码器进行预测。图为viewtransformation细节:图为knowledgetransfer细节:实验结果如下:
