当前位置: 首页 > 科技观察

边想边做,谷歌大脑提出了并发RL算法,使机械臂的抓取速度提高了一倍

时间:2023-03-19 11:08:05 科技观察

RL算法通常假设在获取观察、计算动作和执行动作的过程中环境状态不变.这种假设在仿真环境中很容易实现,但在真实的机器人控制中并不成立,可能导致控制策略运行缓慢甚至失效。为了缓解上述问题,近期谷歌大脑、加州大学伯克利分校和XLab联合提出了并发强化学习算法,使机器人能够像人类一样“边做边想”。目前,这篇论文已被ICLR2020接受。这项研究在受控系统随时间演变的同时采样动作的背景下研究强化学习。换句话说,被研究的机器人在执行前一个动作的同时,还要考虑下一个动作。就像人或动物一样,机器人必须同时思考和行动,在前一个动作完成之前决定下一个动作。为了开发此类并发控制问题的算法框架,研究人员从连续时间贝尔曼方程开始,随后以考虑系统延迟的方式对其进行离散化。通过对现有基于价值的深度强化学习算法的简单架构扩展,该团队提出了一类新的近似动态规划方法,并在模拟基准任务和大规模机器人抓取任务(机器人必须“边走边想”)上进行评估.以下是该方法在仿真和真实机器人上的运行效果:论文地址:https://arxiv.org/abs/2004.06089项目网页:https://sites.google.com/view/thinkingwhilemoving并发动作环境如下(a)表示在阻塞环境中,动作以顺序阻塞的方式执行,假设环境的状态在获取状态和执行动作之间没有变化。我们也可以理解为:从agent的角度来看,获取状态和推断策略是瞬间完成的。相比之下,图(b)中表示的并发环境并不假设环境在获取状态和推断策略之间是恒定的,而是允许环境同时发生变化。阻塞环境和并发环境下不同阶段的执行顺序对比图。Value-basedConcurrentvs.DiscreteConcurrentReinforcementLearningAlgorithms研究人员从连续时间强化学习的角度进行探索,因为它可以很容易地表示系统的并发性质。研究人员随后证明,基于连续情况得出的结论也适用于随后用于所有实验的更常用的离散环境。连续环境方程为了进一步分析并发环境,研究人员引入了以下符号。agent在一个周期内选择N条动作轨迹(a_1,...,a_N),其中每条a_i(t)都是以时间t为变量的连续函数,用于产生控制。令t_{AS}为获取状态、推断策略和任何额外通信延迟之间的时间。在时间t,agent开始计算状态s(t)的第i个动作a_i(t)。同时,先前选择的动作a_{i?1}(t)在时间间隔(t?H+t_{AS},t+t_{AS})内执行。在时间t+t_{AS}(t≤t+t_{AS}≤t+H),代理切换到执行来自a_i(t)的动作。并发环境下的连续Q函数可以表示为:前两项对应动作??a_{i?1}(t)和(t+t_{AS},t+t_{AS}+H)的预期折扣在瞬间对动作a_i(t)的奖励。通过对随机方程p进行采样,可以得到用于策略推出的单样本蒙特卡洛估计量Q:接下来,对于连续时间的情况,研究人员定义了一种新的并发贝尔曼备份算法Sub:上述算子将贝尔曼算子扩展为考虑并发行动。研究人员证明,改进后的算子保持了其吸引力领域的特征,这对于Q-learning的收敛性至关重要。离散环境方程为了简化离散情况下的符号(此时不需要动作方程a_i(t)和方程在t时刻的值a_i(t)),研究者将当前状态设为s_t并且当前动作为a_t,将上一时刻的动作设置为a_{t?1}(分别将其下标i替换为t)。在上述符号下,研究人员定义了离散情况下的并发Q方程:其中t_{AS′}是动作a_t在t+t_{AS}开始执行时的“溢出持续时间”。因此,并发贝尔曼算子(下标c表示)为:与连续情况类似,研究人员也证明了离散贝尔曼算子是一个有吸引力的领域。实验结果简单的一阶控制问题首先,研究人员通过对标准Cartpole和Pendulum环境的并发版本进行控制变量研究,说明了并发控制范式对基于价值的DRL方法的影响。为了估计不同并发知识表示的相对重要性,研究人员分析了每个并发知识表示对其他超参数值组合的敏感性,如下图所示:Cartpole和Pendulum环境中的实验结果。大型机械臂抓取任务接下来,研究人员在模拟和真实机械臂上进行了实验。图3:模拟和真实环境中机械臂抓取任务的示意图。表1通过比较无条件模型和并发知识模型总结了阻塞和并发模式的性能。与阻塞无条件模型相比,并发知识模型能够学习更快的轨迹,周期持续时间减少31.3%。表1:大规模模拟机械臂抓取任务的实验结果。此外,研究人员比较了真实世界机器人抓取任务中并发模型和阻塞模型的定性策略行为,如图3b所示。如表2所示,模型在获取成功方面表现相当,但并发模型在策略持续时间方面比阻塞模型快49%(策略持续时间衡量策略的总执行时间,但不包括在周期中持续时间中的基础架构设置和拆卸时间,无法针对并发操作进行优化)。表2:真实的机械臂抓取结果。