自动驾驶汽车如何解决复杂的交互问题？清华和麻省理工联合提出了M2I解决方案

时间：2023-03-22 15:00:24 科技观察

自动驾驶汽车上路的时候，难免要学习一些路上的“潜规则”。自动驾驶系统需要观察情况，随机应变，及时发现自己什么时候该减速让行，什么时候发现别人让行并尽快加速。由于道路环境的复杂性，很多新手司机可能无法做出合适的判断。这种复杂性使得基于规则的方法很难涵盖所有情况而不会出现冲突情况。清华大学研究团队提出了一种基于自监督学习的方法，从已有的轨迹预测数据集中学习道路上的各种“礼仪”，正确判断冲突中的礼让关系。该研究在充满复杂交互的WaymoInteractiveMotionPrediction数据集上测试了预测关系，并提出了一个M2I框架来使用预测关系进行场景级交互轨迹预测。该项目主要由清华大学孙乔和麻省理工学院黄鑫完成，并得到清华MARS实验室赵兴老师的指导。论文地址：https://arxiv.org/abs/2202.11884项目地址：https://tsinghua-mars-lab.github.io/M2I/轨迹预测问题是自动驾驶系统的重要组成部分。安全驾驶至关重要。轨迹预测模块通常作为识别（Detection）和跟踪（Tracking）的下游系统，利用现有的高精度地图和周围其他车辆或行人的识别信息，预测其未来可能的行为。轨迹预测系统会将预测结果以轨迹或热图的形式输出，以便下游的规划（Planning）系统可以规划出对自动驾驶车辆自身来说最合理的下一步决策或轨迹。尽管大多数轨迹预测方法都试图通过GNN或基于注意力的方法来学习道路上车辆与行人之间的关系，但这些方法通常面临以下难以克服的挑战：1.模型预测的关系是隐含的，因此存在不足可解释性，也很难确定模型是否真的学习了这些关系；2.模型预测的关系和最终输出的轨迹并不统一（如图1第一行所示），自然会出现重叠3.道路使用者的决策具有时序关系，并且模型预测无法区分逻辑预测顺序，只能并行预测。图1：逐车轨迹预测方法的输出轨迹之间会发生碰撞。为了解决这些问题，研究人员提出了一个简单有效的框架M2I（图1，第二行）。使用M2I框架，可以快速改造现有的任何轨迹预测模型，获得场景级的关系预测能力，以及根据一辆车的轨迹预测另一辆车的轨迹的能力。使用这两个功能将确保您的新模型能够更好地预测交互场景。多智能体轨迹预测到单智能体轨迹预测我们先来看一下M2I的整体框架。M2I由三个模块组成，如图2所示。这三个模块分别是关系预测模块、单智能体轨迹预测和条件轨迹预测。图2：M2I轨迹预测框架关系预测道路使用者之间的复杂关系可以抽象为多个关系对。本研究将每对道路使用者分为影响者（Influencer）和响应者（Reactor）），将响应者定义为冲突中需要礼让的一方，而影响者为不需要礼让的一方。因此，交互中的轨迹预测问题可以抽象为两种轨迹预测，一种是预测影响者的轨迹，另一种是利用预测的影响者轨迹来预测响应者的轨迹。这样的方法保证了两者预测的轨迹在场景层面的一致性，从而最大程度避免重叠等不合理的情况。那么，您如何预测谁是影响者，谁是响应者？或者预测谁应该在冲突中让步。本研究提出了一种基于时空轨迹交织的方法，从现有数据集中挖掘地面实况标签。具体来说，在数据集中，如果任意两个道路使用者的轨迹在不同时间相交，则该方法将先通过该交叉路口的代理标记为影响者，然后将通过它的代理标记为响应者。通过学习这个自动生成的标签，模型可以学习到冲突中的前因关系。本研究中使用的关系预测模型是将DenseTNT的TrajectoryPredictionHead替换为普通分类ClassificationHead得到的。研究人员发现，在不对现有模型的其他部分进行任何修改的情况下，关系预测的准确率可以达到90%以上。对比实验表明，使用精度更高的关系进行ConditionalTrajectoryPrediction可以取得更好的效果。研究人员还将关系预测扩展到多主体关系预测。对于多智能体，本研究将它们成对预测，并形成一个有向图来表示它们之间的关系。结果如图3所示，M2I的关系预测模块可以很好的扩展为Multi-AgentRelationshipPrediction。图3：复杂场景中的多智能体关系预测轨迹预测可以使用任何通用轨迹预测模块来替代M2I框架中的单智能体轨迹预测模块。在本文的实验中，研究人员使用DenseTNT进行单智能体AgentTrajectoryPrediction。对于ConditionalTrajectoryPrediction，研究人员修改了DenseTNT的Encoder，将影响者的未来轨迹（在使用的Waymo数据集中，未来轨迹为8s，共80帧）与其他信息一起编码，供模型学习。训练时影响者的未来轨迹是数据集中的groundtruth轨迹，预测时影响者的未来轨迹是单智能体模块输出的轨迹。对于ConditionalTrajectoryPrediction，除了Encoder之外，研究没有修改模型的其他结构。实验结果实验结果证明，与排行榜上的其他几种方法相比，使用M2I框架的DenseTNT模型表现明显优于其他方法。特别是在车辆之间的交互中，使用M2I预测相比其他模型在mAP上有显着的性能提升。图4：M2I在交互式运动预测上的性能明显优于其他现有方法。该研究还尝试使用TNT作为Backbone。实验结果表明，使用M2I框架还可以帮助TNT提升交互场景下的性能，从而证明M2I框架不局限于特定的骨干网。定性分析表明，使用M2I框架后，预测的轨迹在场景级别表现得更接近真实的交互轨迹，如图5所示。图5：M2I更好地学习了场景中两个交互车辆应该如何依次完成转弯

上一篇：神经网络与人类思维的深层关系

下一篇：阿里采访问：Redis为什么要把简单的字符串设计成SDS？_1

自动驾驶汽车如何解决复杂的交互问题？清华和麻省理工联合提出了M2I解决方案相关文章