当前位置: 首页 > 科技观察

基于多模态融合的BEV目标检测方法AutoAlignV1和V2

时间:2023-03-19 10:03:07 科技观察

RGB图像或LiDAR点云的目标检测已在自动驾驶中得到广泛探索。然而,如何让这两个数据源相互补充、互惠互利仍然是一个挑战。AutoAlignV1和AutoAlignV2主要是中国科学技术大学、哈尔滨工业大学和商汤科技(最初包括香港中文大学和清华大学)的工作。AutoAlignV1来自于2022年4月上传的arXiv论文“AutoAlign:Pixel-InstanceFeatureAggregationforMulti-Modal3DObjectDetection”。摘要本文提出了AutoAlignV1,一种用于3D对象检测的自动特征融合策略。不是与相机投影矩阵建立确定性对应关系,而是使用可学习的对齐图来对图像点云映射进行建模。该图使模型能够以动态和数据驱动的方式自动对齐非同态特征。具体来说,交叉注意力特征对齐模块旨在自适应地聚合每个体素的像素级图像特征。为了增强特征对齐过程中的语义一致性,还设计了一个自监督的跨模态特征交互模块,通过该模块模型可以通过实例级特征指导学习特征聚合。背景介绍多模式3-D目标检测器可大致分为两类:决策级融合和特征级融合。前者以各自的方式检测对象,然后在3D空间中将边界框组装在一起。与决策级融合不同,特征级融合将多模态特征组合成单一表示来检测目标。因此,检测器可以在推理阶段充分利用来自不同模态的特征。鉴于此,最近开发了更多的特征级融合方法。一个作业将每个点投影到图像平面上,通过双线性插值得到相应的图像特征。虽然特征聚合在像素级别进行得很精细,但由于融合点的稀疏性,图像域中的密集模式将丢失,即图像特征之间的语义一致性将被破坏。另一项工作使用3D检测器提供的初始解决方案来获取不同模态的RoI特征并将它们连接在一起以进行特征融合。它通过执行实例级融合来保持语义一致性,但在初始提案生成阶段存在粗特征聚合和缺少二维信息等问题。为了充分利用这两种方法,作者提出了一种用于3-D对象检测的集成多模态特征融合框架,名为AutoAlign。它使检测器能够以自适应方式聚合跨模态特征,并证明在非同态表示之间的建模关系方面是有效的。同时,它利用像素级细粒度特征聚合,同时通过实例级特征交互保持语义一致性。如图:特征交互作用在两个层面:(i)像素级特征聚合;(ii)实例级特征交互。AutoAlign方法的先前工作主要利用相机投影矩阵以确定性方式对齐图像和点特征。这种方法是有效的,但会引入两个潜在问题:1)该点没有图像数据的更宽视野,以及2)仅保持位置一致性,而忽略了语义相关性。因此,AutoAlign设计了一个Cross-AttentionFeatureAlignment(CAFA)模块来自适应地对齐非同态表示之间的特征。CAFA(Cross-AttentionFeatureAlignment)模块并没有采用一对一的匹配模式,而是让每个体素感知整幅图像,并基于可学习的对齐图动态聚焦像素级的二维特征。如图:AutoAlign包含两个核心组件,CAFA在图像平面上进行特征聚合,提取每个体素特征的细粒度像素级信息,SCFI(Self-supervisedCross-modalFeatureInteraction)进行跨模态特征交互模态自监督,使用实例级引导来增强CAFA模块的语义一致性。CAFA是聚合图像特征的细粒度范例。但是,它无法捕获实例级信息。相比之下,基于RoI的特征融合保持了对象的完整性,同时在提案生成阶段遭受粗糙的特征聚合和缺失2D信息的困扰。为了弥合像素级和实例级融合之间的差距,引入了自监督跨模态特征交互(SCFI)模块来指导CAFA的学习。它直接利用3D检测器的最终预测作为建议,利用图像和点特征来生成准确的建议。此外,不是将跨模态特征连接在一起以进一步优化边界框,而是将相似性约束合并到跨模态特征对中作为特征对齐的实例级指南。给定一个2D特征图和对应的3D体素化特征,随机采样N个区域3D检测帧,然后使用相机投影矩阵投影到一个2D平面上,生成一组2D帧对。一旦获得配对框,2DRoIAlign和3DRoIPooling在2D和3D特征空间中被使用以获得各自的RoI特征。对于每对2D和3DRoI特征,对来自图像分支的特征和来自点分支的体素化特征执行自监督跨模态特征交互(SCFI)。这两个特征都被送入投影头,投影头将一种模式的输出转换为与另一种模式相匹配。引入了具有两个全连接层的预测头。如图:虽然多任务学习非常有效,但很少有工作讨论图像域和点域的联合检测。在大多数以前的方法中,图像主干直接使用外部数据集预训练权重进行初始化。在训练阶段,唯一的监督是从点分支传播的3D检测损失。考虑到图像主干的大量参数,2D分支在隐藏监督下更容易达到过拟合。为了正则化从图像中提取的表示,图像分支被扩展到FasterR-CNN并使用2D检测损失进行监督。实验结果AutoAlignV2来自2022年7月上传的“AutoAlignV2:DeformableFeatureAggregationforDynamicMulti-Modal3DObjectDetection”。摘要AutoAlign受到全局注意力机制引入的高计算成本的影响。为此,在AutoAlign之上,作者提出了AutoAlignV2,一个更快更强的多模态3D检测框架。为了解决计算成本问题,本文提出了跨域DeformCAFA(Cross-AttentionFeatureAlignment)模块。它专注于跨模态关系模型的稀疏可学习采样点,增强了对校准误差的容忍度,并大大加快了跨模态的特征聚合。为了克服多模态设置中复杂的GT-AUG,设计了一种简单而有效的跨模态增强策略,用于给定深度信息的基于图像块的凸组合。此外,通过图像级丢弃训练方案,该模型能够以动态方式进行推理。代码将开源:https://github.com/zehuichen123/AutoAlignV2。注:GT-AUG(“SECOND:Sparselyembeddedconvolutionaldetection”.Sensors,2018),一种数据增强方法Backgroundhowtoeffectivelycombininglidarandcameraheterogeneousrepresentationsfor3-Dobjectdetectionhasbeenfullyexplored。当前训练跨模态检测器的困难归因于两个方面。一方面,结合图像和空间信息的融合策略仍然不是最优的。由于RGB图像和点云之间的异构表示,在将特征聚类在一起之前需要仔细对齐。AutoAlign提出了一个可学习的全局对齐模块用于自动配准,并取得了良好的性能。但是必须借助CSFI模块进行训练,才能得到点与图像像素点之间的内部位置匹配关系。此外,注意力样式的操作复杂度是图像大小的二次方,因此在高分辨率特征图上应用查询是不切实际的。这种限制可能会导致图像信息粗糙和不准确,以及FPN带来的层次表示的损失。另一方面,数据增强,尤其是GT-AUG,是3D检测器取得有竞争力结果的关键步骤。就多模态方法而言,一个重要的问题是在执行剪切和粘贴操作时如何保持图像和点云之间的同步。MoCa在2D域中使用劳动密集型掩码标注来获取精确的图像特征。框级标签也适用,但需要复杂的点过滤。AutoAlignV2方法AutoAlignV2的目的是有效地收集图像特征以进一步增强3D对象检测器的性能。从AutoAlign的基本架构说起:将配对后的图像输入一个轻量级的主干网络ResNet,再输入FPN得到featuremap。然后,通过可学习的对齐图聚合相关图像信息,在体素化阶段丰富非空体素的3D表示。最后,增强的特征被送入后续的3D检测管道以生成实例预测。下图是AutoAlignV1和AutoAlignV2的对比:AutoAlignV2提示对齐模块具有确定性投影矩阵保证的通用映射关系,同时保留了自动调整特征聚合位置的能力。由于计算成本低,AutoAlignV2能够聚合分层图像信息的多层特征。该范例可以以数据驱动的方式聚合异构特征。但是,两个主要瓶颈仍然阻碍性能。首先是低效的特征聚合。虽然全局注意力图自动启用RGB图像和激光雷达点之间的特征对齐,但它们的计算量很大。第二个是图像和点之间复杂的数据增强同步。GT-AUG是高性能3D目标检测器的关键步骤,但如何在训练过程中保持点和图像之间的语义一致性仍然是一个复杂的问题。如图所示,AutoAlignV2由跨域DeformCAFA模块和深度感知GT-AUG数据增强策略两部分组成。此外,还提出了一种图像级丢失训练策略,使模型能够以更动态的方式进行推理。变形特征聚合CAFA的瓶颈在于所有像素都被视为可能的空间位置。基于二维图像的特性,最相关的信息主要位于几何相邻的位置。因此,并未考虑所有位置,而仅考虑了几个关键点区域。如图所示,这里引入了一种新的跨域DeformCAFA操作,大大减少了采样候选,并为每个体素查询特征动态确定图像平面的关键点区域。借助动态生成的采样偏移量,DeformCAFA能够比普通操作更快地对跨域关系进行建模。能够执行多层特征聚合,即充分利用FPN层提供的层次信息。DeformCAFA的另一个优点是它明确地保持与相机投影矩阵的位置一致性以获得参考点。因此,即使不采用AutoAlign中提出的CFSI模块,DeformCAFA也可以产生语义和位置一致的对齐。与普通的非局部操作相比,稀疏式DeformCAFA大大提高了效率。然而,当直接应用体素特征作为标记来生成注意力权重和可变形偏移时,检测性能几乎无法与双线性插值相媲美,甚至更差。仔细分析,在token生成过程中存在跨领域知识翻译的问题。与通常在单峰环境中运行的原始变形不同,跨域注意力需要来自两种模态的信息。然而,体素特征仅由空间域表示组成,难以感知图像域中的信息。因此,减少不同模态之间的交互是非常重要的。假设每个目标的表示可以清楚地分解为两个部分:领域特定信息和实例特定信息。前者指的是与表示本身相关的数据,包括域特征的内置属性,而后者表示的是关于目标的ID信息,而不管目标编码在哪个域中。Depth-AwareGT-AUGFor在大多数深度学习模型中,数据增强是实现竞争结果的关键部分。然而,在多模态3D目标检测方面,当点云和图像在数据增强中组合时,很难保持点云和图像之间的同步,这主要是由于目标遮挡或视点变化。为了解决这个问题,设计了一种名为Depth-AwareGT-AUG的简单而有效的跨模态数据增强算法。该方法放弃了复杂的点云过滤过程或图像域中精细掩模注释的要求。相反,深度信息从3D对象注释引入到混合图像区域。具体来说,给定一个要粘贴的虚拟目标P,遵循GT-AUG的相同3D实现。对于图像域,首先按照从远到近的顺序排序。对于每个要粘贴的目标,从原始图像中裁剪出相同的区域,并在目标图像上以混合比α进行组合。详细实现如下面的算法1所示。深度感知GT-AUG仅在3D域中遵循增强策略,但同时通过基于混合的剪切和粘贴保持图像平面同步。关键在于,MixUp技术在将增强块粘贴到原始二维图像上后,并没有完全去除相应的信息。相反,它削弱了此类信息在深度方面的紧凑性,以保证相应点处存在特征。具体来说,如果一个对象被其他实例遮挡n次,则该对象区域的透明度根据其深度顺序衰减因子(1?α)^n。如图所示是一些增强的例子:image-leveldropouttrainingstrategy在实践中,图像通常是一个输入选项,并不是所有的3D检测系统都支持。因此,更现实和适用的多模态检测解决方案应该采用动态融合的方法:当图像不可用时,模型基于原始点云检测物体;当图像可用时,模型执行特征融合并产生更好的预测。为了实现这一目标,提出了一种图像级丢弃训练策略,以随机丢弃图像级的聚合图像特征,并在训练期间用零填充它们。如图:(a)图像融合;(b)图像级dropout融合。由于图像信息间歇性丢失,模型应该逐渐学会使用2D特征作为替代输入。实验结果