强化学习在自动驾驶中的应用：一种基于人类引导和优先经验的方法

时间：2023-03-22 11:44:03 科技观察

arXiv于2021年9月26日上传了论文《PrioritizedExperience-basedReinforcementLearningwithHumanGuidance:MethodologyandApplicationtoAutonomousDriving》，作者来自新加坡南洋理工大学。强化学习（RL）需要定义和计算来解决优化和控制问题，这可能会损害其发展前景。将人类指导引入强化学习是提高学习性能的有前途的方法，并且本文建立了基于人类指导的强化学习框架。提出了一种在强化学习过程中适应人类指导的优先经验回放（PER）机制，以提高RL算法的效率和性能。为了减少重人的工作量，基于增量建立行为模型tal模仿人类的在线学习方法。作者设计了两个具有挑战性的自动驾驶任务来评估所提出的算法：一个是在丁字路口无保护左转，另一个是高速交通拥堵。最近，强化学习将一些流行的方法引入深度神经网络，例如彩虹深度Q学习、近端策略优化(PPO)和软演员评论家(SAC)，它们可以处理高维环境表示和泛化。但问题是环境和代理之间的交互效率相对较低。为此，引入人工指导的方式有以下三种：1）人类专家反馈，即行为评分；2）人为干预，一般是rewardshaping方法；3）人类示范，上下文监督学习。图为本文方法的RL算法框架：在提出的human-guidedpriorityexperienceplayback(PER)机制中，TDQA代表提出的优先级计算方案，即TimeDifferenceQ-advantage，数字1-4代表数据流顺序、动作信号的虚线表示该框架允许间歇性的人在环路指导。强化学习是基于离散MDP来定义交互过程，这里使用了无策略的AC（actor-critic）架构。政策函数（即演员）最大化价值函数Q，该价值函数Q是基于Bellman价值函数（即评论家）从累积的未来奖励中导出的。这个Bellman值函数只评估最优策略，而不考虑执行交互的策略。因此，RL将策略评估过程与策略行为分离，使代理能够以无策略的方式更新状态。作者使用神经网络作为函数逼近来制定演员和评论家，然后可以通过损失函数来实现目标。传统上，缓冲区中存储的经验服从均匀分布，采用均匀随机抽样从缓冲区中获取批量经验进行强化学习训练。在有限经验重放机制中，经验是非均匀分布的，实际优先级取决于TD误差（temporaldifferenceerror）。TD误差越大，说明经验值得学习的程度越高。因此，基于TD误差的优先经验重放（PER）机制可以提高RL的训练效率。在强化学习训练中，采用了两种以人为导向的行为模式：干预和示范。干预：人类参与者识别RL交互场景，并根据先验知识和推理能力确定是否应该进行指导。如果人类参与者决定进行干预，则可以操纵设备以从RL代理获得（部分或全部）控制权。当RL智能体做了一些灾难性的事情或陷入局部最优时，通常会进行干预。因此，RL可以学会避免因干预而出现的不利情况。演示：当干预事件发生时，人类演员执行一个动作，产生相应的奖励信号和下一步状态。生成的转换元组可以看作是一段演示数据，因为它是由人类策略而不是RL行为策略引起的。RL算法可以从演示中学习人类专家的行为。在标准的RL代理-环境交互中，RL行为策略输出探索环境的动作。一旦一个动作被发送到环境中，交互的转换集就会被记录下来并存储在体验回放缓冲区中。请特别注意，来自人工策略和RL策略的操作存储在同一缓冲区中。由于先验知识和推理能力，人类的示范往往比大多数RL行为策略的探索更重要。因此，需要一种更有效的方法来对缓存的专家演示进行加权。在本文中，采用基于优势的措施代替传统的优先经验重放（PER）TD错误来建立优先专家演示重放机制。除了TD误差度量外，此优势度量（称为QA或Q-优势，因为它基于Q计算）还评估应在多大程度上检索一组特定的专家演示转换。通过强化学习训练过程，强化学习代理的能力发生变化，专家演示切换组的优先级也发生变化，从而产生动态优先级机制。整个机制称为TDQA，将这两项措施结合为一项针对人们的指导措施。优先级机制在价值函数的预期估计中引入了偏差，因为它改变了缓存中的经验分布。偏值网络对强化学习渐近影响不大，但在某些情况下可能会影响成熟策略的稳定性和鲁棒性。可选地，可以通过将重要性采样权重引入价值网络的损失函数来消除偏差。人类参与者在RL训练循环中的行为讨论如下：在训练过程中不断进行演示变得乏味，因此间歇性干预成为更可行的解决方案。在这种情况下，人类参与者只会干预那些关键场景（灾难性行为或陷入局部最优）以拯救RL智能体并延长训练时间。这里使用rewardshaping方法来防止RL陷入人为干预的状态。但是，它只会在第一次发生人为干预事件时触发惩罚。这背后的基本原理是，一旦人类参与者获得控制权，其专家演示会惯性地持续一段时间，其中只有初始场景被确定为关键场景。接下来，将上述组件集成在一起，即PrioritizedHuman-In-the-Loop(PHIL)RL。具体来说，通过基于人类指导的演员-评论家框架，配备了优先专家演示重放和基于干预的奖励塑造机制，获得了整体的人在环路RL配置。PHIL算法基于非策略RL算法，双延迟深度确定性策略梯度（TD3）实例化。上述组件适用于各种没有策略的actor-criticRL算法。最后，将整个PHIL-TD3算法总结如下：结合之前的PHIL-RL，需要一个人类策略模型。该模型通过模仿实际人类参与者的行为策略来减轻human-in-the-loopRL过程的工作量。虽然有人类参与者参与的PHIL-RL对提高性能最有帮助，但过度参与会导致疲劳。作者在RL运行的同时训练了一个模拟人类政策的回归模型，如果有必要，这个政策模型可以代替人类。分析强化学习训练过程中的人类行为：间歇性地对环施加人类干预，将人类示范逐渐补充到训练集（缓存）；考虑到这一点，基于在线和增量的模仿学习算法（即数据聚合，DAgger）训练了一个人类策略模型，该模型不受离线大规模演示数据收集的影响。注意：如果使用PHIL这个个人保单模型，模型的激活条件将根据具体环境手动定义。下面讨论如何在自动驾驶场景中应用：选取端到端问题的两个应用，即丁字路口无保护左转和高速堵车。自动驾驶任务的环境配置如图：CARLA设立的丁字路口无防护左转场景设计；b左转场景鸟瞰图，红色虚线表示左转轨迹；cCARLA场景中建立的设计高速公路拥堵；d拥堵场景鸟瞰图，红色虚线表示后续车辆轨迹。T字路口无保护左转：小路上自车试图左转并入主路，路口无交通信号引导车辆；假设self-car的横向路径由其他技术规划，纵向控制分配给RLagent；周围车辆以[4,6]米/秒范围内的随机不同速度初始化，并由智能驾驶员模型（IDM）控制以执行车道保持行为；周围的所有司机都很咄咄逼人，这意味着他们不会给自己的车辆让路；所有车辆的控制间隔设置为0.1秒。高速拥堵：本车陷入严重拥堵，被其他车辆包围；所以它试图缩小与领先汽车的差距，并以目标速度跟随汽车；假设纵向控制由IDM完成，目标速度为6m/s，横向控制分配给RL代理；周围车辆初始化为[4,6]m/s的速度范围，并由IDM控制以执行跟车行为；所有车辆的控制间隔设置为0.1秒；周围拥挤的车辆覆盖车道标记，而自我车道没有特定的前车，这可能导致传统的横向规划方法在这种情况下无效。下面定义了RL的状态。两种场景RL的动作不同：T-路口左转高速拥堵奖励（reward）两种场景也不同：T-路口左转高速值和策略函数的逼近采用DeepCNN，如图：a)策略函数；b)值函数辅助函数：主要用于车辆控制；RL操纵方向盘时，纵向控制由IDM实现；当RL操纵踏板间隙时，横向运动目标通过比例积分（PI）控制器跟踪规划的路点。实验比较的基准算法有：IA-TD3：InterventionAidedReinforcementLearning(IARL)HI-TD3：HumanInterventionReinforcementLearning(HIRL)RD2-TD3：RecurrentReplayDistributedDemonstration-basedDQN(R2D3)PER-TD3：vanillaPrioritized经验Replay(PER)RL训练和推理的实验工作流程如图（a-b）所示：训练硬件包括驾驶模拟器和高性能工作站。驾驶模拟器用于收集人类驾驶数据以训练人类策略模型，工作站专门用于处理RL训练。高保真自动驾驶仿真平台CARLA用于实现驾驶场景并生成RL-环境交互信息。测试硬件是机器人车辆。经过训练的RL策略在车辆的计算平台上实施，该平台通过无线网络与CARLA服务器通信。车载RL策略接收来自CARLA的状态信息并发回其控制指令，远程操作完成自动驾驶任务。机器人车辆旨在测试RL策略在车载计算和通信的当前情况下是否有效。部分实验结果对比如下：作者提出了一种算法PHIL-TD3，旨在提高human-in-the-loop（human-in-the-loop）RL的算法能力。此外，引入了人类行为建模机制以减轻人类参与者的工作量。PHIL-TD3解决了无防护丁字路口左转和高速拥堵两大挑战自动驾驶任务。

上一篇：麒麟985、麒麟990设计出来了，海思却面临严峻挑战

下一篇：我们对端到端语音翻译的一些思考和尝试

强化学习在自动驾驶中的应用：一种基于人类引导和优先经验的方法相关文章