arXiv论文“JPerceiver:JointPerceptionNetworkforDepth,PoseandLayoutEstimationinDrivingScenes”,联合驾驶场景,7月22日上传,报道了澳大利亚悉尼大学陶大成教授和北京京东研究院。深度估计、视觉里程计(VO)和鸟瞰图(BEV)场景布局估计是驾驶场景感知的三个关键任务,是自动驾驶中运动规划和导航的基础。虽然互补,但他们通常专注于不同的任务,很少同时处理所有三个任务。一种天真的方法是以顺序或并行的方式独立进行,但存在三个缺点,即1)深度和VO结果存在固有的尺度模糊问题;2)BEV布局通常分别估计道路和车辆,同时忽略显式的overlay-underlay关系;3)虽然深度图是推断场景布局的有用几何线索,但BEV布局实际上是直接从前视图图像预测的,而不使用任何与深度相关的信息。在本文中,提出了一种联合感知框架JPerceiver来解决这些问题,同时从单目视频序列中估计尺度感知深度、VO和BEV布局。我们使用交叉视图几何变换(CGT)根据精心设计的比例损失将绝对比例从道路布局传播到深度和VO。同时,设计了一个跨视图和跨模式传输(CCT)模块,以使用深度线索通过注意力机制来推理道路和车辆布局。JPerceiver以端到端的多任务学习方式进行训练,其中CGT尺度损失和CCT模块促进任务之间的知识转移并促进每个任务的特征学习。代码和模型可以从https://github.com/sunnyHelen/JPerceiver下载。如图所示,JPerceiver由depth、pose和roadlayout三个网络组成,均基于encoder-decoder架构。深度网络旨在预测当前帧It的深度图Dt,其中每个深度值表示3D点与相机之间的距离。姿态网络的目标是预测当前帧It与其相邻帧It+m之间的姿态变换Tt→t+m。道路布局网络的目标是估计当前帧的BEV布局Lt,即自上而下的笛卡尔平面中道路和车辆的语义占用。这三个网络在训练期间联合优化。用于预测深度和姿势的两个网络以自监督的方式联合优化,具有光度损失和平滑度损失。此外,还设计了CGT尺度损失来解决单目深度和VO估计中的尺度模糊。为了实现尺度感知环境感知,利用BEV布局中的尺度信息,提出了用于深度估计和VO的CGT尺度损失。由于BEV布局显示了BEV笛卡尔平面中的语义占用,分别覆盖了自我车辆前方Z米和左右(Z/2)米的范围。它提供了一个自然距离场(naturaldistancefield)z,每个像素点相对于自车的度量距离zij,如图:假设BEV平面为地面,其原点就在原点下方自车坐标系,基于cameraoutsideParameters可以通过单应变换将BEV平面投影到前置摄像头。因此,BEV距离场z可以投影到前向相机中,如上图所示,并用于调节预测深度d,从而推导出CGT尺度损失:对于道路布局估计,编码器-解码器网络结构被采用。值得注意的是,共享编码器用作特征提取器,不同的解码器用于同时学习不同语义类别的BEV布局。此外,CCT模块旨在增强任务之间的特征交互和知识转移,并为BEV的空间推理提供3-D几何信息。为了规范道路布局网络,将各种损失项组合起来形成混合损失,实现不同类别的平衡优化。CCT是研究forwardviewfeatureFf、BEVlayoutfeatureFb、re-transformedforwardfeatureFf′和forwarddepthfeatureFD之间的相关性,并据此提炼布局特征,如图:分为两部分parts,即cross-view模块和cross-modal模块的CCT-CV和CCT-CM。在CCT中,Ff和Fd由相应感知分支的编码器提取,而Fb是通过将Ff转换为BEV的视图投影MLP获得的,并且受循环损失约束的相同MLP将其转换回Ff'。在CCT-CV中,交叉注意力机制用于发现前视图和BEV特征之间的几何对应关系,然后指导前视图信息的细化,为BEV推理做准备。为了充分利用前视图像特征,将Fb和Ff投影到补丁:Qbi和Kbi,分别作为查询和键。除了利用前视特征外,还部署了CCT-CM以从Fd施加3-D几何信息。由于Fd是从前视图像中提取的,因此使用Ff作为桥梁来减少跨模态差距并学习Fd和Fb之间的对应关系是合理的。Fd起到了Value的作用,从而获得了与BEV信息相关的有价值的3D几何信息,进一步提高了道路布局估计的准确性。在探索联合学习框架同时预测不同布局的过程中,不同语义类别的特征和分布存在很大差异。对于特征,驾驶场景中的道路布局通常需要连接,而不同的车辆对象必须被分割。对于分布,观察到的直路场景多于转弯场景,这在真实数据集中是合理的。这种差异和不平衡增加了BEV布局学习的难度,特别是对于联合预测不同类别,因为在这种情况下,简单的交叉熵(CE)损失或L1损失会失败。几种分割损失(包括基于分布的CE损失、基于区域的IoU损失和边界损失)被组合成混合损失来预测每个类的布局。实验结果如下:
