如今,自动驾驶汽车和机器人可以通过激光雷达和摄像头等各种传感器捕捉信息。作为传感器,LiDAR使用光脉冲来测量场景中物体的3D坐标,但它存在稀疏性和范围有限的问题——你离传感器越远,返回的点就越少。这意味着远处的物体可能只会得到几个点,或者根本没有,并且可能不会被LiDAR单独拾取。同时,车载摄像头输入的图像非常密集,有利于检测、物体分割等语义理解任务。凭借其高分辨率,相机在检测远处物体时非常有效,但在测量距离时不太准确。自动驾驶汽车从LiDAR和车载摄像头传感器收集数据。每个传感器测量值都会定期记录,提供4D世界的准确表示。然而,很少有研究算法将两者结合起来。同时使用两种传感模式时存在两个挑战,1)难以保持计算效率,以及2)将来自一个传感器的信息与另一个传感器配对进一步增加了系统复杂性,因为LiDAR点和车载相机RGB图像输入它们之间并不总是直接对应。在ICCV2021上发表的论文《 4D-Net for Learned Multi-Modal Alignment 》中,谷歌和Waymo的研究人员提出了一种可以处理4D数据(3D点云和车载摄像头图像数据)的神经网络:4D-Net。这是第一项结合3DLiDAR点云和来自车载摄像头的RGB图像的研究。此外,谷歌还引入了动态连接学习方法。最后,谷歌证明4D-Net可以更好地使用运动线索和密集图像信息来检测远处的物体,同时保持计算效率。论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf4D-Net谷歌使用4D输入进行目标3D边界检测。4D-Net有效地将3DLiDAR点云与RGB图像及时结合,以学习不同传感器及其特征表示之间的联系。谷歌使用轻量级神经架构搜索来学习两种类型的传感器输入之间的联系及其特征表示,以实现最准确的3D框检测。在高度可变的距离上可靠地检测物体在自动驾驶领域尤为重要。现代LiDAR传感器的检测范围可以达到数百米,这意味着距离较远的物体在图像中会显得较小,与以后几层。与物体相比,它们可以更好地捕捉精细尺度的特征。基于这一观察,谷歌将连接修改为动态的,并使用自注意力机制在所有层的特征中进行选择。谷歌应用了一个可学习的线性层,该层能够将注意力权重应用于所有其他层的权重,并学习手头任务的最佳组合。连接学习方法示意图。因此,谷歌在WaymoOpenDataset基准测试中对其进行了测试,之前的模型仅使用3D点云,或者单个点云和相机图像数据的组合。4D-Net有效地使用传感器输入并在164毫秒内处理32个点云和16个RGB帧,这与其他方法相比毫不逊色。相比之下,次优执行方法的效率和准确性较低,因为它的神经网络计算需要300毫秒,并且使用的传感器输入少于4D-Net。3D场景的结果。上图:与检测到的车辆对应的3D框以不同颜色显示;虚线框表示丢失的对象。底部:出于可视化目的,框显示在相应的相机图像中。检测远处的物体4D-Net的另一个优势是它既利用了RGB提供的高分辨率来准确检测图像上的物体,又利用了点云数据提供的精确深度。因此,4D-Net可以检测点云方法无法检测到的远处物体。这是由于摄像头数据的融合,能够检测远处的物体并将此信息有效地传播到网络的3D部分以产生准确的检测。为了了解4D-Net带来的优势,谷歌进行了一系列的消融研究。实验发现,如果及时流式传输至少一个传感器输入,则可以显着提高检测精度。及时考虑两个传感器输入可以最大限度地提高性能。当使用点云(PC)、时态点云(PC+T)、RGB图像输入(RGB)和时态RGB图像(RGB+T)时,4D-Net用于3D对象检测的性能以平均精度(AP)衡量.Multi-stream4D-Net由于4D-Net动态连接学习机制是通用的,因此Google并不局限于仅将点云流与RGB视频流相结合。事实上,谷歌发现提供一个高分辨率的单一图像流和一个低分辨率的视频流结合3D点云流输入是非常划算的。因此,谷歌在下图中展示了一个四流架构的示例,其性能优于具有实时点云和图像的双流架构。动态连接学习选择特定的特征输入来连接在一起。依赖于多个输入流,4D-Net必须学习多个目标特征表示之间的联系,这是很好理解的,因为算法不会改变,只需要从输入中选择特定的特征。这是一个使用可微架构搜索的轻量级过程,可以发现模型架构内的新连接,然后高效地找到新的4D-Net模型。多流4D-Net架构由实时3D点云流和多个图像流(高分辨率单图像流、中分辨率单图像流和低分辨率视频流图像)组成。谷歌展示了4D-Net是一种高效的物体检测方法,特别适合检测远处的物体。研究人员希望这项工作能为未来的4D数据研究提供宝贵的资源。
