arXiv于2021年9月26日上传了论文《PrioritizedExperience-basedReinforcementLearningwithHumanGuidance:MethodologyandApplicationtoAutonomousDriving》,作者来自新加坡南洋理工大学。强化学习(RL)需要定义和计算来解决优化和控制问题,这可能会损害其发展前景。将人类指导引入强化学习是提高学习性能的有前途的方法,并且本文建立了基于人类指导的强化学习框架。提出了一种在强化学习过程中适应人类指导的优先经验回放(PER)机制,以提高RL算法的效率和性能。为了减少重人的工作量,基于增量建立行为模型tal模仿人类的在线学习方法。作者设计了两个具有挑战性的自动驾驶任务来评估所提出的算法:一个是在丁字路口无保护左转,另一个是高速交通拥堵。最近,强化学习将一些流行的方法引入深度神经网络,例如彩虹深度Q学习、近端策略优化(PPO)和软演员评论家(SAC),它们可以处理高维环境表示和泛化。但问题是环境和代理之间的交互效率相对较低。为此,引入人工指导的方式有以下三种:1)人类专家反馈,即行为评分;2)人为干预,一般是rewardshaping方法;3)人类示范,上下文监督学习。图为本文方法的RL算法框架:在提出的human-guidedpriorityexperienceplayback(PER)机制中,TDQA代表提出的优先级计算方案,即TimeDifferenceQ-advantage,数字1-4代表数据流顺序、动作信号的虚线表示该框架允许间歇性的人在环路指导。强化学习是基于离散MDP来定义交互过程,这里使用了无策略的AC(actor-critic)架构。政策函数(即演员)最大化价值函数Q,该价值函数Q是基于Bellman价值函数(即评论家)从累积的未来奖励中导出的。这个Bellman值函数只评估最优策略,而不考虑执行交互的策略。因此,RL将策略评估过程与策略行为分离,使代理能够以无策略的方式更新状态。作者使用神经网络作为函数逼近来制定演员和评论家,然后可以通过损失函数来实现目标。传统上,缓冲区中存储的经验服从均匀分布,采用均匀随机抽样从缓冲区中获取批量经验进行强化学习训练。在有限经验重放机制中,经验是非均匀分布的,实际优先级取决于TD误差(temporaldifferenceerror)。TD误差越大,说明经验值得学习的程度越高。因此,基于TD误差的优先经验重放(PER)机制可以提高RL的训练效率。在强化学习训练中,采用了两种以人为导向的行为模式:干预和示范。干预:人类参与者识别RL交互场景,并根据先验知识和推理能力确定是否应该进行指导。如果人类参与者决定进行干预,则可以操纵设备以从RL代理获得(部分或全部)控制权。当RL智能体做了一些灾难性的事情或陷入局部最优时,通常会进行干预。因此,RL可以学会避免因干预而出现的不利情况。演示:当干预事件发生时,人类演员执行一个动作,产生相应的奖励信号和下一步状态。生成的转换元组可以看作是一段演示数据,因为它是由人类策略而不是RL行为策略引起的。RL算法可以从演示中学习人类专家的行为。在标准的RL代理-环境交互中,RL行为策略输出探索环境的动作。一旦一个动作被发送到环境中,交互的转换集就会被记录下来并存储在体验回放缓冲区中。请特别注意,来自人工策略和RL策略的操作存储在同一缓冲区中。由于先验知识和推理能力,人类的示范往往比大多数RL行为策略的探索更重要。因此,需要一种更有效的方法来对缓存的专家演示进行加权。在本文中,采用基于优势的措施代替传统的优先经验重放(PER)TD错误来建立优先专家演示重放机制。除了TD误差度量外,此优势度量(称为QA或Q-优势,因为它基于Q计算)还评估应在多大程度上检索一组特定的专家演示转换。通过强化学习训练过程,强化学习代理的能力发生变化,专家演示切换组的优先级也发生变化,从而产生动态优先级机制。整个机制称为TDQA,将这两项措施结合为一项针对人们的指导措施。优先级机制在价值函数的预期估计中引入了偏差,因为它改变了缓存中的经验分布。偏值网络对强化学习渐近影响不大,但在某些情况下可能会影响成熟策略的稳定性和鲁棒性。可选地,可以通过将重要性采样权重引入价值网络的损失函数来消除偏差。人类参与者在RL训练循环中的行为讨论如下:在训练过程中不断进行演示变得乏味,因此间歇性干预成为更可行的解决方案。在这种情况下,人类参与者只会干预那些关键场景(灾难性行为或陷入局部最优)以拯救RL智能体并延长训练时间。这里使用rewardshaping方法来防止RL陷入人为干预的状态。但是,它只会在第一次发生人为干预事件时触发惩罚。这背后的基本原理是,一旦人类参与者获得控制权,其专家演示会惯性地持续一段时间,其中只有初始场景被确定为关键场景。接下来,将上述组件集成在一起,即PrioritizedHuman-In-the-Loop(PHIL)RL。具体来说,通过基于人类指导的演员-评论家框架,配备了优先专家演示重放和基于干预的奖励塑造机制,获得了整体的人在环路RL配置。PHIL算法基于非策略RL算法,双延迟深度确定性策略梯度(TD3)实例化。上述组件适用于各种没有策略的actor-criticRL算法。最后,将整个PHIL-TD3算法总结如下:结合之前的PHIL-RL,需要一个人类策略模型。该模型通过模仿实际人类参与者的行为策略来减轻human-in-the-loopRL过程的工作量。虽然有人类参与者参与的PHIL-RL对提高性能最有帮助,但过度参与会导致疲劳。作者在RL运行的同时训练了一个模拟人类政策的回归模型,如果有必要,这个政策模型可以代替人类。分析强化学习训练过程中的人类行为:间歇性地对环施加人类干预,将人类示范逐渐补充到训练集(缓存);考虑到这一点,基于在线和增量的模仿学习算法(即数据聚合,DAgger)训练了一个人类策略模型,该模型不受离线大规模演示数据收集的影响。注意:如果使用PHIL这个个人保单模型,模型的激活条件将根据具体环境手动定义。下面讨论如何在自动驾驶场景中应用:选取端到端问题的两个应用,即丁字路口无保护左转和高速堵车。自动驾驶任务的环境配置如图:CARLA设立的丁字路口无防护左转场景设计;b左转场景鸟瞰图,红色虚线表示左转轨迹;cCARLA场景中建立的设计高速公路拥堵;d拥堵场景鸟瞰图,红色虚线表示后续车辆轨迹。T字路口无保护左转:小路上自车试图左转并入主路,路口无交通信号引导车辆;假设self-car的横向路径由其他技术规划,纵向控制分配给RLagent;周围车辆以[4,6]米/秒范围内的随机不同速度初始化,并由智能驾驶员模型(IDM)控制以执行车道保持行为;周围的所有司机都很咄咄逼人,这意味着他们不会给自己的车辆让路;所有车辆的控制间隔设置为0.1秒。高速拥堵:本车陷入严重拥堵,被其他车辆包围;所以它试图缩小与领先汽车的差距,并以目标速度跟随汽车;假设纵向控制由IDM完成,目标速度为6m/s,横向控制分配给RL代理;周围车辆初始化为[4,6]m/s的速度范围,并由IDM控制以执行跟车行为;所有车辆的控制间隔设置为0.1秒;周围拥挤的车辆覆盖车道标记,而自我车道没有特定的前车,这可能导致传统的横向规划方法在这种情况下无效。下面定义了RL的状态。两种场景RL的动作不同:T-路口左转高速拥堵奖励(reward)两种场景也不同:T-路口左转高速值和策略函数的逼近采用DeepCNN,如图:a)策略函数;b)值函数辅助函数:主要用于车辆控制;RL操纵方向盘时,纵向控制由IDM实现;当RL操纵踏板间隙时,横向运动目标通过比例积分(PI)控制器跟踪规划的路点。实验比较的基准算法有:IA-TD3:InterventionAidedReinforcementLearning(IARL)HI-TD3:HumanInterventionReinforcementLearning(HIRL)RD2-TD3:RecurrentReplayDistributedDemonstration-basedDQN(R2D3)PER-TD3:vanillaPrioritized经验Replay(PER)RL训练和推理的实验工作流程如图(a-b)所示:训练硬件包括驾驶模拟器和高性能工作站。驾驶模拟器用于收集人类驾驶数据以训练人类策略模型,工作站专门用于处理RL训练。高保真自动驾驶仿真平台CARLA用于实现驾驶场景并生成RL-环境交互信息。测试硬件是机器人车辆。经过训练的RL策略在车辆的计算平台上实施,该平台通过无线网络与CARLA服务器通信。车载RL策略接收来自CARLA的状态信息并发回其控制指令,远程操作完成自动驾驶任务。机器人车辆旨在测试RL策略在车载计算和通信的当前情况下是否有效。部分实验结果对比如下:作者提出了一种算法PHIL-TD3,旨在提高human-in-the-loop(human-in-the-loop)RL的算法能力。此外,引入了人类行为建模机制以减轻人类参与者的工作量。PHIL-TD3解决了无防护丁字路口左转和高速拥堵两大挑战自动驾驶任务。
