当前位置: 首页 > 科技观察

MotionPlanningwithUncertaintyinAutonomousDriving-AReinforcementLearning-BasedMethod

时间:2023-03-17 10:11:12 科技观察

arXiv2021年10月1日上传《MotionPlanningforAutonomousVehiclesinPresenceofUncertaintyUsingReinforcementLearning》,作者来自华为,加拿大诺亚实验室,魁北克大学。不确定的运动规划是开发自动驾驶汽车的主要挑战之一。本文重点研究由有限视野、遮挡和感应距离限制引起的感知不确定性。通常考虑遮挡区域或传感器感知范围外的隐藏目标假设来解决这个问题,保证被动安全。然而,这可能导致保守的规划和昂贵的计算,尤其是当存在大量假设目标时。作者提出了一种基于强化学习(RL)的解决方案,该解决方案通过优化最坏情况结果来处理不确定性。这种方法与传统的RL不同。传统的RL代理仅尝试最大化平均预期奖励,这是一种不安全且稳健的方法。该方法基于分布式RL(DistributionalRL),其策略优化方法最大化随机结果的Lowerbound。此校正可应用于一系列RL算法。作为概念证明,它在这里应用于两种不同的RL算法,SoftActor-Critic(SAC)和DeepQ-Network(DQN)。该方法在两个具有挑战性的驾驶场景、遮挡下的行人过马路和视野受限的弯曲道路上进行了评估。该算法使用SUMO交通模拟器进行训练和评估。与传统的RL算法相比,所提出的方法用于生成更好的运动规划行为,可与人类驾驶方式相媲美。RL方法主要有两种类型:基于价值的和基于策略的。本文分别讨论了两种方法的不确定性。分布RL(论文“Distributionalreinforcementallearningwithquantileregression”,AA人工智能会议,2018年)旨在估计每个状态-动作对的可能结果的分布。通过访问奖励分配,可以将状态的值指定为其可能结果的最坏情况(下限)。在RL中估计随机变量分布的一种有效方法是分位数回归(QR),这是一种用N个分位数定义的分布,其第一个分位数是可能奖励的近似下限。这种方法QR-DQN可以应用于任何包含值函数的RL算法。为此,需要增强价值函数以估计N个分位数,从而逼近其分布。当分位数回归(QR)用于估计分位数值时,回归过程会导致值从最低到最高排序。因此,直接使用第一个值作为下界估计。这种方法,称为保守QR-DQN(CQR-DQN)。另一种RL算法SAC(参见论文“Softactor-critic:Off-policymaximumentropydeepreinforcementlearningwithastochasticactor”,ICLR2018)遵循Actor-Critic框架。它训练Q网络来估计遵循策略的价值,并训练策略以最大化Q值。这里使用分位数回归(QR)来扩展SAC,即QR-SAC。实际上,Q-network被扩展到估计分位数。然后,类似于QR-DQN,估计状态-动作对的Q值,即分位数的第一个值作为下界估计。据此,通过修改QR-DQN的分布Bellman方程,可以得到Critic分布SACBellman的更新规律。这种方法,称为保守QR-SAC(CQR-SAC)。在输入感知中,OGM提供有关遮挡区域的信息,道路网络的光栅图像,识别道路使用者可能出现的位置。此外,运动规划器希望在不提供任何关于场景目标的明确信息的情况下从OGM感知目标。为了解决这个运动规划问题,在Frenet框架中搜索最优轨迹。这类似于使用Frenet框架的传统运动规划方法。在Frenet框架中,沿着车道中心的轨迹变成了直线轨迹,简化了搜索空间。每条迹线包括当前速度、当前横向偏移、最终速度和最终横向偏移。轨迹建立后,车速和横向位置在预定时间内按一阶指数轨迹从初值逐渐变化到终值。RL代理的输入包括2帧(当前和先前时刻)OGM,道路网络的当前帧和当前速度,奖励在安全性、舒适性和机动性方面定义。一种思路,从RL的角度,如果把agent的动作定义为轨迹,假设agent在未来状态的动作和当前状态的动作一样,那么对轨迹的评价就相当于估计Q值。此类算法分别记录为(CQR-DQN,CQR-SAC)值版本。另一种思路,在RL公式中,未来状态的动作(轨迹)取决于代理策??略,在知道未来动作可能与当前动作不同的情况下进行评估。如果遵循代理策略,则分配给状态-动作对的Q值是预期的奖励。此类算法分别记录为(CQR-DQN,CQR-SAC)策略版本。遵循和评估策略会带来更大的灵活性,运动规划器可能会找到更好的解决方案。图中说明了评估轨迹和策略时要评估的路径:实验分为两种场景。一种是如图所示的行人过马路,存在遮挡;另一种是弯道造成的遮挡如图:实验采用SUMO模拟。比较的RL方法包括:SAC、QR-SAC、CQR-SACPolicyEdition、CQR-SACValueEdition、DQN、QR-DQN、CQR-DQNPolicyEdition、CQR-DQNValueEdition。用作基准的规则方法分为三种:固定的、朴素的和感知的。无论其他目标如何,以固定限速行驶。朴素的方法忽略遮挡并以限速行驶,除非它在其路径中看到物体。在这种情况下,它会以高达-4[m/s2]的恒定减速度制动,从而在目标前方停止。感知方法使用遮挡感知IADSR算法(论文“Whatliesintheshadows?safeandcomputation-awaremotionplanningforautonomousvehiclesusingintent-awaredynamicshadowregions”,ICRA,2019年)。假设一个物体存在于遮挡区域,如果一个物体从遮挡区域出现,则它制动并减速(以-4[m/s2]减速度)完全停止而不会发生碰撞。此外,Awareness还可以避开遮挡物以增加遮挡物附近的视力。实验结果对比如下:下标Pai为策略版本,下标Tao为价值版本。这项工作重点关注由遮挡引起的具有不确定性的运动规划问题,并讨论最大化最坏情况奖励的策略如何更好地匹配实际RL问题中的期望行为,使用分布式RL最大化最坏情况奖励而不是平均奖励。使用分位数回归(QR)扩展SAC和DQN,以找到优化最坏情况的操作。使用SUMO模拟环境在一组遮挡场景下设计和评估自动驾驶的运动规划器。提出了一种基于CQR-SAC和CQR-DQN的运动规划器,以避免在不微调奖励函数的情况下与被遮挡的视图发生碰撞。未来的工作希望应用于更复杂和多样化的环境,包括十字路口、环岛和涉及移动车辆的场景。工作期望是自我代理可以隐式地从其他车辆的行为中推断出遮挡区域的状态。