ViP3D:Realizeend-to-endvisualtrajectorypredictionvia3Dintelligencequery启智研究院、CMU、复旦、理想汽车和麻省理工学院的联合工作。现有的自动驾驶管道将感知模块与预测模块分开。这两个模块通过手动选择的功能(例如代理框和轨迹)作为接口进行通信。由于这种分离,预测模块仅从感知模块接收部分信息。更糟糕的是,来自感知模块的错误可能会传播和累积,从而对预测结果产生不利影响。这项工作提出了ViP3D,这是一种视觉轨迹预测管道,它利用原始视频的丰富信息来预测场景中代理的未来轨迹。ViP3D在整个管道中使用稀疏代理感知查询,使其完全可区分和可解释。此外,提出了一种新的端到端视觉轨迹预测任务评价指标——端到端预测精度(EPA,End-to-endPredictionAccuracy),综合考虑感知和预测精度,预测轨迹和预测精度。对地面实况轨迹进行评分。图为传统多步级联流水线与ViP3D的对比:传统流水线涉及检测、跟踪、预测等多个不可微模块;ViP3D以多视点视频为输入,以端到端的方式生成预测轨迹,可以有效利用车辆转向信号等视觉信息。ViP3D旨在以端到端的方式解决原始视频的轨迹预测问题。具体来说,给定多视角视频和高清地图,ViP3D预测场景中所有代理的未来轨迹。ViP3D的总体流程如图所示:首先,基于查询的跟踪器处理来自周围摄像机的多视图视频,以获得使用视觉特征跟踪的代理的查询。代理查询中的视觉特征捕获代理的运动动态和视觉特征,以及代理之间的关系。之后,轨迹预测器将跟踪代理的查询作为输入,将其与高清地图特征相关联,最终输出预测轨迹。基于查询的跟踪器从摄像机周围的原始视频中提取视觉特征。具体来说,对于每一帧,在DETR3D之后提取图像特征。对于时域特征聚合,根据MOTR(《Motr:End-to-endmultiple-objecttrackingwithtransformer》.arXiv2105.03247,2021)设计了一个基于查询的跟踪器,包括两个关键步骤:查询特征更新和查询监督。代理查询随时间更新,对代理的运动动力学进行建模。大多数现有的轨迹预测方法可以分为三个部分:智能体编码、地图编码和轨迹解码。基于query-basedtracking之后,得到被跟踪agent的query,可以看作是通过agentencoding得到的agent的特征。因此,剩下的任务就是地图编码和轨迹解码。将预测和真实代理分别表示为无序集S^和S,其中每个代理由当前时间步长的代理坐标和K个可能的未来轨迹表示。对于每个代理类型c,计算Sc^和Sc之间的预测精度。定义predictedagent和trueagent之间的cost为:Sc^和Sc之间的EPA定义为:实验结果如下:注:这个targetrendering做得很好。
