什么是BEV感知?自动驾驶学术界和产业界关注的BEV感知内容是什么?本文将为您揭晓答案。为感知模型学习强大的鸟瞰图(BEV)表示是自动驾驶领域的趋势,并引起了工业界和学术界的广泛关注。相较于以往自动驾驶领域的大部分模型基于检测、分割、跟踪等功能,便于后续模块(如规划、控制)的开发部署。由此可见,纯电动汽车感知研究对自动驾驶领域具有巨大的潜在影响,值得学术界和产业界长期关注和投入大量精力。那么BEV感知到底是什么?自动驾驶学术界和产业界领袖关注的BEV感知内容有哪些?本文将通过BEVPerceptionSurvey为您揭晓答案。BEVPerceptionSurvey是上海人工智能实验室自动驾驶OpenDriveLab团队与商汤研究院联合论文《Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe》的实用工具展示方法。分为两部分:基于BEVPercption的最新文献研究和基于PyTorch的开源BEV感知工具箱。论文地址:https://arxiv.org/abs/2209.05324项目地址:https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe总结解读,技术解读BEVPerceptionSurvey最新文献综述研究主要包括三个部分——BEV相机、BEV激光雷达和BEV融合。BEV相机表示用于3D对象检测或来自多个周围相机的分割的仅视觉或以视觉为中心的算法;BEV激光雷达用点云输入描述检测或分割任务;BEV融合描述来自多个传感器的检测或分割任务融合机制的输入,例如相机、LIDAR、GNSS、里程计、HD地图、CAN总线等。BEVPerceptionToolbox为基于BEV相机的3D对象检测提供了一个平台,并提供了一个Waymo数据集上的实验平台,用于手动教程和小规模数据集实验。图1:BEVPerception调查框架具体而言,BEV相机代表了一种用于从多个周围相机检测或分割3D对象的算法;BEV激光雷达代表使用点云作为输入的检测或分割任务;BEV融合使用多个传感器的输出作为输入,如camera,LiDAR,GNSS,odometry,HD-Map,CAN-bus等BEVPercptionLiteratureReviewResearchonBEVCameraBEVcameraperception包括三个部分:2Dfeature提取器、视图变换和3D解码器。下图为BEV摄像头感知流程图。在视图变换中,有两种方式对3D信息进行编码——一种是从2D特征中预测深度信息;另一种是从3D空间中采样2D特征。图2:BEV摄像头感知流程图对于2D特征提取器,在2D感知任务中有很多经验可以借鉴3D感知任务,比如主要干预训练的形式。视图转换模块与2D感知系统有很大不同。如上图所示,进行视图变换一般有两种方式:一种是3D空间到2D空间的变换,另一种是2D空间到3D空间的变换。这两种转换方法要么用于3D空间,要么用于模型中的物理先验知识,要么利用额外的3D信息监督。值得注意的是,并不是所有的3D感知方法都有视图变换模块,例如一些方法直接从2D空间中的特征检测3D空间中的对象。3D解码器接收2D/3D空间中的特征并输出3D感知结果。大多数3D解码器都是根据基于LiDAR的感知模型设计的。这些方法在BEV空间中执行检测,但仍有一些3D解码器利用2D空间中的特征并直接回归3D对象的定位。BEVLiDARBEVLiDAR感知的通用管道由两个分支组成,用于将点云数据转换为BEV表示。下图是BEV激光雷达感知的流程图。上分支提取3D空间中的点云特征,以提供更准确的检测结果。较低的分支提取2D空间中的BEV特征,提供更高效的网络。除了适用于原始点云的基于点的方法外,基于体素的方法还将点体素化为离散网格,通过离散化连续3D坐标提供更有效的表示。基于离散体素表示,3D卷积或3D稀疏卷积可用于提取点云特征。图3:BEV激光雷达感知流程图BEV融合BEV感知融合算法有PV感知和BEV感知两种方法,适用于学术界和工业界。下图是PV感知和BEV感知流程图的对比,两者的主要区别在于2D转3D的转换和融合模块。在PV-aware流程图中,不同算法的结果首先被转换到3D空间,然后使用一些先验知识或手工设计的规则进行融合。在BEV感知流程图中,将PV特征图转换为BEV视角,然后在BEV空间进行融合得到最终结果,这样可以最大程度的保留原有的特征信息,避免过多的人工设计避免。图4:PV感知(左)与BEV感知(右)流程图。适用于BEV感知模型的数据集BEV感知任务的数据集很多。通常数据集由各种场景组成,每个场景在不同的数据集中具有不同的长度。下表总结了学术界常用的数据集。我们可以看到,Waymo数据集比其他数据集拥有更多样化的场景和更丰富的3D检测框。表1:BEV感知数据集概览然而,目前还没有Waymo开发的用于BEV感知任务的公共软件。因此,我们选择基于Waymo数据集进行开发,希望能够推动BEV感知任务在Waymo数据集上的发展。Toolbox-BEVPerceptionToolboxBEVFormer是一种常用的BEV感知方法,它使用时空变换器将骨干网络从多视图输入中提取的特征转换为BEV特征,然后将BEV特征馈入检测头以进行检测得到最终的检测结果。BEVFormer有两个特点,它可以将2D图像特征精确转换为3D特征,并且可以将其提取的BEV特征应用于不同的检测头。我们通过一系列方式进一步提高了BEVFormer的视图翻译质量和最终检测性能。在以BEVFormer++获得CVPR2022WaymoChallenge第一名后,我们推出了Toolbox——BEV感知工具箱,通过提供一整套简单易用的WaymoOpenDataset数据处理,集成了一系列能够显着提升模型性能的方法工具(包括但不限于数据增强、检测头、损失函数、模型集成等),并兼容该领域广泛使用的开源框架,如mmdetection3d和detectron2。与基础Waymo数据集相比,BEV感知工具箱使用了针对不同类型的开发人员使用而优化的技巧。下图展示了基于Waymo数据集使用BEV感知工具箱的示例。图5:基于Waymo数据集BEVPerceptionSurvey的Toolbox使用示例总结总结了近年来BEV感知技术研究的总体情况,包括高层次的概念阐述和更深入的细节讨论。综合分析BEV感知的相关文献,涵盖深度估计、视图变换、传感器融合、域自适应等核心问题,更深入阐述BEV感知在工业系统中的应用。除了理论贡献,BEVPerceptionSurvey还提供了一个非常实用的工具箱,用于提高基于相机的3D鸟瞰图(BEV)目标检测的性能,包括一系列训练数据增强策略、高效编码器设计、损失函数设计、测试数据增强和模型集成策略等,以及这些技术在Waymo数据集上的实现。希望能够帮助更多研究人员实现“on-the-go”,为自动驾驶行业的研究人员提供更多便利。我们希望BEVPerceptionSurvey不仅可以帮助用户方便地使用高性能的BEV感知模型,也可以成为初学者入门BEV感知模型的良好起点。我们致力于突破自动驾驶领域的研发边界,期待与学术界分享思想、交流讨论,不断探索自动驾驶相关研究在现实世界中的应用潜力.
