当前位置: 首页 > 科技观察

Trajectory-guidedControlPredictionforEnd-to-endAutonomousDriving-ASimpleYetStrongBaselineTCP

时间:2023-03-17 14:04:16 科技观察

arXiv论文“Trajectory-guidedControlPredictionforEnd-to-endAutonomousDriving:ASimpleyetStrongBaseline”,2022年6月,上海人工智能实验室和上海交通大学。当前的端到端自动驾驶方法要么根据计划轨迹运行控制器,要么直接执行控制预测,这跨越了两个研究领域。鉴于两者之间潜在的互惠互利,本文积极探索两者的结合,称为TCP(Trajectory-guidedControlPrediction)。具体来说,集成方法有两个分支,分别用于轨迹规划和直接控制。轨迹分支预测未来轨迹,而控制分支涉及一种新颖的多步预测方案,推断当前动作与未来状态之间的关系。这两个分支相连,使得控制分支在每个时间步长从轨迹分支接收相应的引导。然后融合两个分支输出以实现优势互补。在具有挑战性场景的闭环城市驾驶环境中使用Carla模拟器进行评估。即使是单目摄像头输入,这种方法在CARLA官方排行榜上也排名第一。源代码和数据将开源:https://github.com/OpenPerceptionX/TCP选择Roach(“End-to-endurbandrivingbyimitatingareinforcementlearningcoach”.ICCV,2021)作为专家。Roach是一个由RL训练的简单模型,具有特权信息,包括道路、车道、路线、车辆、行人、交通信号灯和车站,所有这些都呈现为2DBEV图像。与手工制作的专家相比,这种基于学习的专家可以传达比直接监督信号更多的信息。具体来说,有一个特征损失,它迫使学生模型的潜在特征在最终输出头之前与专家相似。还增加了一个价值损失作为学生模型的辅助任务,用于预测预期收益(return)。如图所示,整个架构由输入编码阶段和两个后续分支组成:输入图像i通过基于CNN的图像编码器(例如ResNet)生成特征图F。同时,导航信息g被连接起来与当前速度v形成测量输入m,然后基于MLP的测量编码器将m作为其输入并输出测量特征jm。然后,编码后的特征由两个分支共享,用于后续轨迹和控制预测。具体来说,控制分支是一种新的多步预测设计,由轨迹分支提供指导。最后,采用基于场景的融合方案来结合两种输出范例中的最佳模式。如图所示,TCP通过学习注意力图来寻求轨迹规划分支的帮助,以从编码的特征图中提取重要信息。两个分支(轨迹和控制)之间的交互增强了这两个密切相关的输出范式的连贯性,并进一步阐述了多任务学习(MTL)的精神。具体来说,利用图像编码器F在时间步t提取二维特征图,并使用控制分支和轨迹分支中相应的隐藏状态来计算注意力图。信息表示特征被馈送到策略头中,该策略头在所有时间t步共享,预测相应的控制动作。请注意,对于初始步骤,仅使用测量特征来计算初始注意力图,并将注意力图像特征与测量特征组合以形成初始特征向量。为了确保特征真正描述该步骤的状态并包含用于控制预测的重要信息,在每一步添加特征损失,以便初始特征向量也接近专家的特征向量。TCP框架有两种形式的输出表示:计划轨迹和预测控制。为了进一步融合,设计了一种基于场景的融合策略,如算法1的伪代码所示。具体来说,α表示为组合权重,其取值在0到0.5之间。根据先验信念,在某种情况下,一种表示更合适,对权重α进行平均,将轨迹和控制预测结果相结合,更合适的表示占据更多的权重(1-α)。注意,组合权重α不需要是常量或对称的,这意味着它可以在不同的情况下设置为不同的值,或者针对特定的控制信号设置为不同的值。在实验中,场景是根据自我车辆是否转弯来选择的,这意味着,如果它正在转弯,场景是特定于控制的,否则是特定于轨迹的。实验结果如下: