当前位置: 首页 > 科技观察

自动驾驶多模态传感器融合简析

时间:2023-03-21 02:07:40 科技观察

多模态融合是感知自动驾驶系统的一项基本任务,最近引起了许多研究人员的兴趣。然而,由于原始数据嘈杂、信息利用率低和多模式传感器未对准,实现相当好的性能并非易事。本文介绍了现有的基于多模态的自动驾驶感知任务方法的文献综述。分析了50多篇论文,包括相机和激光雷达,试图解决目标检测和语义分割任务。与传统的融合模型分类方法不同,作者从融合阶段的角度,通过更合理的分类方法将融合模型分为两类和四个子类。此外,还研究了当前的融合方法,并讨论了潜在的研究机会。最近,用于自动驾驶感知任务的多模态融合方法发展迅速,从跨模态特征表示和更可靠的模态传感器,到更复杂和鲁棒的多模态融合深度学习模型和技术。然而,只有少数文献综述关注多模态融合方法本身的方法论,大多数文献遵循传统规则将其分为三类:预融合、深度(特征)融合和后融合,重点关于深度学习模型。在融合特征的阶段,无论是数据层面、特征层面还是提案层面。首先,该分类法没有明确定义每个级别的特征表示。其次,它表明激光雷达和相机这两个分支在处理上始终是对称的,掩盖了在激光雷达分支中融合提议级特征和在相机分支中融合数据级特征的情况。综上所述,传统的分类法可能比较直观,但在总结最近出现的越来越多的多模态融合方法方面存在滞后性,阻碍了研究人员从系统的角度对其进行研究和分析。图为自动驾驶感知任务示意图:深度学习模型仅限于对输入的表征。要实现该模型,原始数据需要在数据输入模型之前通过复杂的特征提取器进行预处理。至于图像分支,大多数现有方法都保持与输入下游模块的原始数据相同的格式。但激光雷达分支高度依赖数据格式,强调不同的属性,对下游模型设计影响巨大。因此,这里总结为基于点、基于体素和基于二维地图的点云数据格式,以适应异构深度学习模型。数据级融合或预融合方法通过空间对齐直接融合不同模态的原始传感器数据。特征级融合或深度融合方法通过级联或逐元素乘法在特征空间中混合跨模态数据。目标级融合方法结合来??自各个模态模型的预测来做出最终决策。一种新的分类方法,将所有融合方法分为强融合和弱融合。图中展示了两者的关系:性能对比,KITTIbenchmark的3D检测和鸟瞰图目标检测。下面两张表分别给出了多模态融合方法在BEV和3DKITTI测试数据集上的实验结果。根据激光雷达和相机数据表示的不同组合阶段,强融合进一步分为四类:预融合、深度融合、后融合和非对称融合。强聚变作为研究最多的聚变方法,近年来取得了许多突出的成果。如图:强融合的每个子类都高度依赖激光雷达点云,而不是相机数据。融合前。与数据级融合在原始数据级通过空间对齐和投影直接融合每个模态的数据不同,预融合在数据级融合激光雷达数据,在数据级或特征级相机数据上融合。示例如图:在激光雷达分支中,点云可以是反射图、体素化张量、前视图/远景/鸟瞰图、伪点云等形式。尽管所有这些数据都具有不同的内在特征并且与LiDAR骨干高度相关,但大多数数据都是通过基于规则的处理生成的,伪点云除外。此外,与特征空间嵌入相比,这个阶段的数据仍然是可解释的,因此所有这些LiDAR数据表示都是直观的。对于图像分支,严格的数据级定义应该只包括RGB或灰度等数据,缺乏通用性和合理性。相较于传统的pre-fusion定义,cameradata被宽松化为data-level和feature-level数据。特别是,有利于3D对象检测的图像语义分割任务结果在这里表示为特征级表示,因为这些“对象级”特征不同于整个任务的最终对象级建议。深度融合。深度融合方法在激光雷达分支的特征层面融合跨模态数据,但在图像分支的数据层面和特征层面进行融合。例如,一些方法使用特征提取器分别获取激光雷达点云和相机图像的嵌入表示,并通过一系列下游模块将特征融合到两种模态中。然而,与其他强融合方法不同,深度融合有时会以级联方式融合特征,这两种方法都利用原始和高级语义信息。深度融合的一个例子如图:post-fusion。Post-fusion,也称为object-levelfusion,是指将pipeline在各个modality中的结果进行融合的方法。例如,一些融合后方法利用激光雷达点云分支和相机图像分支的输出,并将其最终预测基于两种模式的结果。注意两个分支提议的数据格式应该与最终结果相同,但在质量、数量和精度上有所不同。Post-fusion是一种使用多模态信息优化最终提案的集成方法。post-fusion的例子如图:asymmetricfusion。除了早期融合、深度融合和后融合之外,一些方法还处理具有不同权限的跨模态分支,从而融合一个分支的对象级信息和其他分支的数据级或特征级信息,定义为非对称融合。其他强融合方法将两个分支视为看似相等的状态,而不对称融合至少有一个分支占主导地位,而其他分支提供辅助信息来执行最终任务。非对称融合的一个例子如图所示:它可能有与proposal相同的提取特征,但是非对称融合只有一个分支的proposal,然后fusion有所有分支的proposal。与强融合不同,弱融合方法不是直接以多种方式融合来自分支的数据/特征/对象,而是以其他方式操作数据。基于弱融合的方法通常使用基于规则的方法来利用一种模态数据作为监督信号来指导另一种模态的交互。弱融合模式的基本框架如图所示:有可能图像分支中CNN的2D提议导致原始激光雷达点云中出现了一个截锥体。然而,与图像特征的组合非对称融合不同,弱融合直接将选定的原始激光雷达点云输入到激光雷达骨干网以输出最终的提议。有些作品不能简单定义为上述任何一种融合,而是在整个模型框架中采用了多种融合方式,如深度融合与后融合相结合、前融合与深度融合相结合等。这些方法从模型设计的角度来看是多余的,不是融合模块的主流。对要解决的问题有一些分析。目前的融合模型面临着错位和信息丢失的问题。此外,扁平融合操作也阻碍了感知任务的进一步性能提升。总结:错位和信息丢失:传统的前融合和深度融合方法利用外部校准矩阵将所有激光雷达点直接投影到相应的像素,反之亦然。然而,由于传感器噪声,这种逐像素对齐不够精确。因此,可以将周围的信息作为补充,从而获得更好的性能。此外,在输入和特征空间的变换过程中还有一些其他的信息损失。通常,降维操作的投影不可避免地会导致大量信息丢失,例如,将3-D激光雷达点云映射到2-DBEV图像。将两种模态数据映射到另一种专为融合设计的高维表示,可以有效利用原始数据并减少信息丢失。更合理的融合操作:连接和逐元素乘法等简单操作可能无法融合分布差异较大的数据,并且难以弥合两种模态之间的语义鸿沟。一些作品试图通过更复杂的级联结构来融合数据并提高性能。前视单帧图像是自动驾驶感知任务的典型场景。然而,大多数框架利用有限的信息而没有详细设计辅助任务来进一步了解驾驶场景。总结一下:使用更多的潜在信息:现有方法缺乏对多维和源信息的有效利用。他们中的大多数都关注前视图的单帧多模态数据。其他有意义的信息是语义、空间和场景上下文信息。一些模型尝试使用图像语义分割任务结果作为附加特征,而其他模型可能利用神经网络骨干网中间层的特征。在自动驾驶场景中,许多指定语义信息的下游任务可能会大大提高目标检测任务的性能。比如车道线检测,语义分割。因此,未来的研究可以通过各种下游任务(如检测车道、红绿灯和标志)共同构建一个完整的城市场景的认知框架,以帮助执行感知任务。此外,当前的感知任务主要依赖于忽略时间信息的单帧。最近基于激光雷达的方法结合了一系列帧来提高性能。时间序列信息包含序列化的监督信号,与单帧方法相比,它可以提供更稳健的结果。表示学习的自我监督:相互监督的信号自然存在于从同一真实世界场景但从不同角度采样的跨模态数据中。然而,由于缺乏对数据的深入理解,目前无法挖掘各种模态之间的协同关系。未来的研究可以集中在如何利用多模态数据进行自我监督学习,包括预训练、微调或对比学习。通过实施这些最先进的机制,融合模型将加深对数据的理解并取得更好的结果。域偏差和数据分辨率与真实场景和传感器高度相关。这些不足阻碍了自动驾驶深度学习模型的大规模训练和实现DomainBias:在自动驾驶感知场景中,不同传感器提取的原始数据都伴随着领域相关的特征。不同的相机系统有自己的光学元件,激光雷达在机械激光雷达和固态激光雷达之间可能有所不同。更重要的是,数据本身可能是领域偏见的,例如天气、季节或地理位置。因此,检测模型无法顺利适应新场景。由于泛化失败,这些缺陷阻碍了大规模数据集的收集和原始训练数据的可重用性。分辨率冲突:不同型号的传感器通常具有不同的分辨率。例如,激光雷达的空间密度明显低于影像。无论使用何种投影方法,都会由于无法找到对应关系而消除一些信息。这可能导致模型被特定模态的数据所支配,无论是特征向量的不同分辨率还是原始信息的不平衡。