对于自动驾驶中的很多任务,从top-down,maporbird-eyeview(BEV)从一个角度来看更容易做到。由于许多自动驾驶主题仅限于地平面,俯视图是一种更实用的低维表示,非常适合导航、捕获相关障碍物和危险。对于自动驾驶等场景,必须生成语义分割的BEV地图作为瞬时估计,以处理仅访问一次的自由移动物体和场景。从图像推断BEV映射需要确定图像元素与其在环境中的位置之间的对应关系。之前的一些研究用密集的深度图和图像分割图来指导这个转换过程,一些研究扩展了这些方法来隐式解析深度和语义。一些研究利用相机的几何先验,但没有明确学习图像元素和BEV平面之间的相互作用。在最近的一篇论文中,萨里大学的研究人员引入了一种注意力机制,将自动驾驶的二维图像转换为鸟瞰图,使模型的识别准确率提高了15%。这项研究在最近结束的ICRA2022会议上获得了杰出论文奖。论文链接:https://arxiv.org/pdf/2110.00966.pdf不同于以往的方法,本研究将BEV的转换看成是一个“Image-to-World”的转换问题,其目标是学习AlignmentbetweenBEV中的垂直扫描线和极射线。因此,这种射影几何对网络来说是隐含的。在比对模型上,研究人员采用了Transformer,一种基于注意力的序列预测结构。使用他们的注意机制,我们明确地模拟了图像中垂直扫描线与其极BEV投影之间的成对交互。Transformers非常适合解决图像到BEV转换的问题,因为它们推理对象、深度和场景照明之间的相互依赖性以实现全局一致的表示。研究人员将基于Transformer的对齐模型嵌入到端到端学习公式中,该公式将单目图像及其内在矩阵作为输入,然后预测静态和动态类的语义BEV映射。本文构建了一种架构,有助于从对齐模型周围的单目图像预测语义BEV映射。如下图1所示,它由三个主要组件组成:一个标准的CNN主干,用于提取图像平面上的空间特征;将图像平面上的特征转换为BEV的编码器-解码器Transformer;最后一个分割网络将BEV特征解码为语义图。具体来说,这项研究的主要贡献是:(1)一组一维序列到序列的转换用于从图像生成BEV图;(2)构建了一个受限数据高效的Transformer网络,具有Spatialawareness;(3)形式域和语言域单调注意力的结合表明,对于准确映射来说,了解图像中某个点下方的内容比了解其上方的内容更重要,尽管同时使用两者会导致最低(4)显示轴向注意力如何通过提供时间意识来提高性能,并在三个大型数据集上呈现最先进的结果。实验结果在实验中,研究人员进行了多项评估:评估图像到BEV转换作为nuScenes数据集上的转换问题的效用;极地位置信息的影响。最后,将该方法与nuScenes、Argoverse和Lyft数据集上的SOTA方法进行了比较。在下表2第一部分所示的消融实验中,研究人员比较了软注意力(双向观察)、图像底部的单调注意力(向下看)和图像顶部的单调注意力(向上看)).事实证明,从图像中的一个点向下看比向上看要好。沿着局部纹理线索——与人类试图确定城市环境中物体距离的方式一致,我们使用物体与地平面相交的地方。结果还表明,双向观察进一步提高了准确性,使深度推理更具辨别力。水平上下文对长序列的效用。这里的图像到BEV的转换是作为一组一维序列到序列的转换完成的,所以一个问题是当整个图像转换为BEV时会发生什么。考虑到生成注意力图所需的二次计算时间和内存,这种方法非常昂贵。然而,通过在图像平面特征上应用水平轴向注意力,可以实现使用大约整个图像的上下文优势。通过图像线的轴向注意力,垂直扫描线中的像素现在具有远程水平上下文,然后,像以前一样,通过在1D序列之间转换提供远程垂直上下文。如表2的中间部分所示,合并长序列水平上下文对模型没有好处,甚至会略微不利。这说明了两点:首先,每个变换后的射线不需要有关输入图像的整个宽度的信息,或者更确切地说,长序列上下文不会在已经由前端卷积收益聚合的上下文上提供任何额外的上下文。这表明使用整个图像执行变换不会导致模型精度的提高超出基线约束公式;此外,引入水平轴向注意力引起的性能下降意味着难以将注意力用于图像宽度的训练序列,可以看出,使用整个图像作为输入序列进行训练更加困难。Polar-agnosticvspolar-adaptiveTransformers:表2的最后一部分比较了Po-Ag和Po-Ad变体。Po-Ag模型没有偏振位置信息,图像平面的Po-Ad包括添加到Transformer编码器的极性编码,而对于BEV平面,此信息添加到解码器。在任何平面上添加极坐标编码比在不可知模型上添加更有益,其中动态类增加最多。将它添加到两个平面进一步加强了这一点,但静态类的影响最大。与SOTA方法的比较研究人员将我们的方法与一些SOTA方法进行了比较。如下表1所示,空间模型优于最先进的压缩SOTA方法STA-S,平均相对改进15%。在较小的动态类别上,改进更为显着,公共汽车、卡车、拖车和障碍物的检测精度相对提高了35-45%。这一结论也得到了下图2中获得的定性结果的支持,其中我们的模型显示出更大的结构相似性和更好的形状感。这种差异可部分归因于用于压缩的全连接层(FCL):当检测小而远的物体时,图像的很大一部分是冗余上下文。此外,行人等物体经常被车辆部分阻挡。在这种情况下,全连接层将倾向于忽略行人,但保持车辆的语义。在这里,注意力方法显示了它的优势,因为每个径向深度都可以独立地关注图像——因此更深的深度可以使行人的身体可见,而以前的深度只能关注车辆。下表3中Argoverse数据集的结果显示了类似的模式,我们的方法比PON[8]提高了30%。如下表4所示,我们的方法在nuScenes和Lyft上优于LSS[9]和FIERY[20]。在Lyft上不可能进行真正的比较,因为它没有规范的train/val拆分,并且LSS使用的拆分不可用。有关研究的更多详细信息,请参阅原始论文。
