感知网络

时间：2023-03-16 15:03:34 科技观察

arXiv论文“JPerceiver:JointPerceptionNetworkforDepth,PoseandLayoutEstimationinDrivingScenes”，联合驾驶场景，7月22日上传，报道了澳大利亚悉尼大学陶大成教授和北京京东研究院。深度估计、视觉里程计(VO)和鸟瞰图(BEV)场景布局估计是驾驶场景感知的三个关键任务，是自动驾驶中运动规划和导航的基础。虽然互补，但他们通常专注于不同的任务，很少同时处理所有三个任务。一种天真的方法是以顺序或并行的方式独立进行，但存在三个缺点，即1）深度和VO结果存在固有的尺度模糊问题；2)BEV布局通常分别估计道路和车辆，同时忽略显式的overlay-underlay关系；3)虽然深度图是推断场景布局的有用几何线索，但BEV布局实际上是直接从前视图图像预测的，而不使用任何与深度相关的信息。在本文中，提出了一种联合感知框架JPerceiver来解决这些问题，同时从单目视频序列中估计尺度感知深度、VO和BEV布局。我们使用交叉视图几何变换(CGT)根据精心设计的比例损失将绝对比例从道路布局传播到深度和VO。同时，设计了一个跨视图和跨模式传输（CCT）模块，以使用深度线索通过注意力机制来推理道路和车辆布局。JPerceiver以端到端的多任务学习方式进行训练，其中CGT尺度损失和CCT模块促进任务之间的知识转移并促进每个任务的特征学习。代码和模型可以从https://github.com/sunnyHelen/JPerceiver下载。如图所示，JPerceiver由depth、pose和roadlayout三个网络组成，均基于encoder-decoder架构。深度网络旨在预测当前帧It的深度图Dt，其中每个深度值表示3D点与相机之间的距离。姿态网络的目标是预测当前帧It与其相邻帧It+m之间的姿态变换Tt→t+m。道路布局网络的目标是估计当前帧的BEV布局Lt，即自上而下的笛卡尔平面中道路和车辆的语义占用。这三个网络在训练期间联合优化。用于预测深度和姿势的两个网络以自监督的方式联合优化，具有光度损失和平滑度损失。此外，还设计了CGT尺度损失来解决单目深度和VO估计中的尺度模糊。为了实现尺度感知环境感知，利用BEV布局中的尺度信息，提出了用于深度估计和VO的CGT尺度损失。由于BEV布局显示了BEV笛卡尔平面中的语义占用，分别覆盖了自我车辆前方Z米和左右(Z/2)米的范围。它提供了一个自然距离场（naturaldistancefield）z，每个像素点相对于自车的度量距离zij，如图：假设BEV平面为地面，其原点就在原点下方自车坐标系，基于cameraoutsideParameters可以通过单应变换将BEV平面投影到前置摄像头。因此，BEV距离场z可以投影到前向相机中，如上图所示，并用于调节预测深度d，从而推导出CGT尺度损失：对于道路布局估计，编码器-解码器网络结构被采用。值得注意的是，共享编码器用作特征提取器，不同的解码器用于同时学习不同语义类别的BEV布局。此外，CCT模块旨在增强任务之间的特征交互和知识转移，并为BEV的空间推理提供3-D几何信息。为了规范道路布局网络，将各种损失项组合起来形成混合损失，实现不同类别的平衡优化。CCT是研究forwardviewfeatureFf、BEVlayoutfeatureFb、re-transformedforwardfeatureFf′和forwarddepthfeatureFD之间的相关性，并据此提炼布局特征，如图：分为两部分parts，即cross-view模块和cross-modal模块的CCT-CV和CCT-CM。在CCT中，Ff和Fd由相应感知分支的编码器提取，而Fb是通过将Ff转换为BEV的视图投影MLP获得的，并且受循环损失约束的相同MLP将其转换回Ff'。在CCT-CV中，交叉注意力机制用于发现前视图和BEV特征之间的几何对应关系，然后指导前视图信息的细化，为BEV推理做准备。为了充分利用前视图像特征，将Fb和Ff投影到补丁：Qbi和Kbi，分别作为查询和键。除了利用前视特征外，还部署了CCT-CM以从Fd施加3-D几何信息。由于Fd是从前视图像中提取的，因此使用Ff作为桥梁来减少跨模态差距并学习Fd和Fb之间的对应关系是合理的。Fd起到了Value的作用，从而获得了与BEV信息相关的有价值的3D几何信息，进一步提高了道路布局估计的准确性。在探索联合学习框架同时预测不同布局的过程中，不同语义类别的特征和分布存在很大差异。对于特征，驾驶场景中的道路布局通常需要连接，而不同的车辆对象必须被分割。对于分布，观察到的直路场景多于转弯场景，这在真实数据集中是合理的。这种差异和不平衡增加了BEV布局学习的难度，特别是对于联合预测不同类别，因为在这种情况下，简单的交叉熵(CE)损失或L1损失会失败。几种分割损失（包括基于分布的CE损失、基于区域的IoU损失和边界损失）被组合成混合损失来预测每个类的布局。实验结果如下：

上一篇：Applitools将视觉人工智能测试扩展到原生移动应用

下一篇：如何让你的JS写的更漂亮

感知网络相关文章