arXiv论文“ST-P3:End-to-endVision-basedAutonomousDrivingviaSpatial-TemporalFeatureLearning”,7月22日,作者来自上海交通大学、上海人工智能实验室、加州大学圣地亚哥分校和京东北京研究院。提出了一种时空特征学习方案,它可以同时为感知、预测和规划任务提供一组更具代表性的特征,称为ST-P3。具体来说,提出了一种以自我为中心对齐的累积技术,以在感知BEV转换之前在3-D空间中保存几何信息;作者设计了一个双路径模型,将过去的运动变化考虑在内,用于未来的预测;引入了基于时域的细化单元来补偿规划中的视觉元素识别。源代码、模型和协议详细信息开源https://github.com/OpenPerceptionX/ST-P3。开创性的LSS方法从多视角相机中提取透视特征,通过深度估计将它们提升到3D,并将它们融合到BEV空间。两个视图之间的特征转换,其潜在深度预测至关重要。将2D平面信息提升到3D需要一个额外的维度,即适合3D几何自动驾驶任务的深度。为了进一步改进特征表示,将时间信息合并到框架中是很自然的,因为大多数场景的任务都是视频源。ST-P3的总体框架如图所示:具体来说,给定一组周围的摄像头视频,将其馈入主干,生成初步的前视特征。执行辅助深度估计以将2D特征转换为3D空间。以自我为中心对齐的累积方案首先将过去的特征与当前视图坐标系对齐。当前和过去的特征然后在3D空间中聚合,在转换为BEV表示之前保留几何信息。除了常用的预测时间模型外,还通过构建第二条路径来考虑过去的运动变化,从而进一步提高性能。这种双路径建模确保了更强的特征表示来推断未来的语义结果。为了实现轨迹规划的最终目标,集成了网络早期阶段的特征先验知识。细化模块旨在在没有高清地图的情况下借助高级命令生成最终轨迹。如图所示为感知自中心对齐累加法。(a)使用深度估计将当前时间戳的特征提升到3D,并在对齐后合并到BEV特征中;(b-c)先前帧的3D特征与当前帧视图对齐,并与所有过去和当前状态融合,从而增强特征表示。如图所示是一个双向预测模型:(i)latentcodesaredistributionfromfeaturemaps;(iiiii)waya包含了不确定性分布,表示未来的多模态,而wayb从过去的变化中学习中间有助于补偿roada的信息。作为最终目标,需要规划一条安全舒适的轨迹到达目标点。该运动规划器对一组不同的轨迹进行采样,并选择最小化学习成本函数的轨迹。但是,有关目标点和交通灯的信息是通过时间模型以及额外的优化步骤集成的。图为规划先验知识的整合和细化:总成本图包括两个子成本。使用前瞻功能进一步细化最小成本轨迹,以聚合来自相机输入的基于视觉的信息。惩罚具有大横向加速度、加加速度或曲率的轨迹。希望这条轨迹能高效的到达目的地,所以向前推进轨迹会有回报。但是,上述成本项不包含路线图通常提供的目标信息。接受高级命令,包括前进、左转和右转,并仅根据相应的命令评估轨迹。此外,交通信号灯对于SDV至关重要,可通过GRU网络优化轨迹。隐藏状态用编码器模块的前置摄像头特征初始化,代价项的每个采样点作为输入。实验结果如下:
