本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处.最新消息称,阿里达摩院在自动驾驶3D物体检测领域取得了新的研究进展。佛法学院的研究人员提出了一种通用的高性能检测器。在KITTI的鸟瞰图(BEV)数据集上,作为自动驾驶领域最重要的测试集之一,检测速度达到了25FPS,一举占据榜首,与提出的方案相比排名第二,减少一半以上,精度远超其他单级检测器。可以说是第一次同时实现3D物体检测的精度和速度。达摩院研究团队表示:“检测器是自动驾驶系统的核心部件之一,但该领域一直缺乏创新和突破。此次我们实现了3D检测精读和速度提升,这将有助于提高自动驾驶系统的性能。”安全。”从实验结果来看,他们明显取得了不错的进展,而且主要完成研究的人(第一作者)是达摩院实习生。同时,研究也得到了同行的认可并且收录在计算机视觉领域的顶级会议CVPR2020,他们是怎么做到的呢?下面我们就借助阿里达摩院提供的解读,一一了解一下他们是如何做到准确率和速度兼顾的?众所周知,不同于普通的二维图像识别应用,自动驾驶系统对精度和速度的要求更高,不仅需要快速识别周围环境中的物体,还需要准确定位物体的位置在三维空间中,单纯依靠传感器和算法模型通常无法兼顾视觉识别的准确性和速度,因此检测器成为提高识别能力的关键因素自动驾驶系统的安全性。经过多年的研究,目前业界主流的单级检测器在检测速度上都很好,但在检测精度上却不尽如人意。这就是达摩院研究的出发点:找到两者兼得的方法。他们提出的想法是将两级检测器中细粒度表征特征的思想移植到单级检测中。在他们的模型中,用于部署的检测器,即推理网络,由骨干网络和检测头组成。主干网络采用3D稀疏网络实现,用于提取具有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示,并在其上运行2D全卷积网络来预测3D对象框。在训练过程中,他们使用辅助网络将单级检测器中的体素特征转换为点级特征,并应用一定的监督信号。在实现中,他们将卷积特征中的非零信号映射到原始点云空间,然后在每个点进行插值,得到卷积特征的点级表示。使卷积特征也具有结构感知能力,提高检测精度。在做模型推理时,辅助网络不参与计算(detached),保证了单级检测器的检测效率。此外,他们还提出了一项工程改进:Part-sensitiveWarping(PSWarp),用于处理单级检测器中的“box-confidence-mismatch”问题。核心思想是:使用采样器,使用生成的采样网格在对应的局部敏感特征图上进行采样,生成对齐的特征图。最终能够反映置信度的featuremap是K个alignedfeaturemap的平均值。单阶段方法可以达到两阶段方法的准确性。阿里巴巴达摩院的研究人员评估了该方法在KITTI数据集上的有效性。下图中(PRCurve),实线为二阶段法,虚线为一阶段法。可以看出达摩院提出的单阶段法(黑色)可以达到两阶段法才能达到的精度。下图展示了他们在KITTIBird'sEyeView(BEV)和3D测试集上的结果。可以看出,他们提出的方法在不增加额外计算的情况下,可以达到25FPS的检测速度,并且还能保持精度。具体检测结果如下:两位合著者均为达摩院研究实习生。标题是“StructureAwareSingle-Stage3DObjectDetectionfromPointCloud”。一共有5位研究人员参与,分别来自阿里达摩和香港理工大学。第一作者何晨航,阿里巴巴达摩研究院研究实习生,在读博士。香港理工大学博士,预计2022年毕业。导师张雷,达摩院高级研究员,香港理工大学计算系讲座教授,IEEEFellow,同时也是本研究的通讯作者。另一位第一作者曾辉也是阿里巴巴达摩院的研究实习生,张磊的博士生,预计今年毕业。其他作者有达摩院高级研究员、IEEEFellow华先胜、达摩院高级算法专家黄建强等。
