穿越石滩、穿越草地、加州大学伯克利分校等研发新型机器人运动算法,实时快速适应变化环境摄像头和激光雷达,会翻筋斗的MIT机器人等等。这些有腿机器人有一定的适应外界环境的能力,但还不够。在现实世界中成功部署有腿机器人需要它们实时适应看不见的和不断变化的场景,例如不同的地形、不同重量的负载以及不同程度的磨损和撕裂。近日,来自加州大学伯克利分校、CMU和FAIR的研究人员在腿式机器人对具有挑战性和陌生地形和环境的实时智能适应方面取得重大突破,引入了快速电机适应(RapidMotorAdaptation,RMA)算法。该算法由两个子策略组成,一个是使用强化学习训练的基本策略和使用监督学习训练的适应模块,两者都是完全在模拟中学习的。在RMA算法的支持下,四足机器人具有适应所有智能体共有的环境因素的能力。论文地址:https://ashish-kmr.github.io/rma-legged-robots/rma-locomotion-final.pdf项目主页:https://ashish-kmr.github.io/rma-legged-robots/中过去的四足机器人要么完全针对它们所适应的环境进行手动编码,要么通过手动编码和学习技巧相结合的方式教会它们在环境中导航。与这些不同,RMA是第一个完全基于学习的系统,它使有腿机器人能够通过探索世界并与世界互动从头开始适应环境。具体来说,RMA完全在模拟中训练,没有使用任何领域知识,例如基线轨迹或预定义的脚轨迹生成器,并且可以部署在Unitree的A1机器人上而无需任何微调。研究人员在各种地形生成器上训练RMA,包括多岩石的海滩、泥泞、不平坦的草地、混凝土、鹅卵石、石阶和沙滩。结果表明,RMA在不同的真实环境和模拟实验中取得了比其他有腿机器人更好的性能。悠闲地漫步在多岩石的海滩上:穿过崎岖不平的草地:在涂油的塑料上不会打滑:此外,RMA中的适配模块也至关重要。测试表明,带有适配模块的四足机器人可以承载8公斤的重量,没有适配模块是无法承载的。没有适应模块的四足机器人也无法在海绵板上行走:支持RMA的四足机器人不仅可以承载不同的重量,还必须能够适应预期的磨损和其他不可预测的变化,这些变化可能发生在现实世界中。由于其能力完全基于所遇到的环境,支持RMA的四足机器人还可以适应其程序员未曾考虑过的情况。对于这款能适应复杂多变环境的四足机器人,网友纷纷表示:“我能想到的就是电视剧里的机器狗《黑镜》……”机器人是怎么做到的呢?手工编码改进可以提高机器人在受控环境中的性能,但机器人真正适应现实世界变化的唯一方法是教会机器人真正适应环境,类似于人类的学习方式。为了赋予机器人适应不断变化的世界的能力,研究人员需要通过数百万次重复实验来教会它们,而最好的方法不是在现实世界中,机器人可以边走边学。损坏或磨损,研究人员在模拟环境中进行。RMA始终使用端到端学习,甚至直接输出关节位置,而不依赖于预定义的腿部运动或其他控制原语。然而,这些机器人在模拟环境中学习技能,这在部署到现实环境中时会带来许多挑战。在模拟环境中,机器人的物理结构和模型通常在细微但重要的方面存在差异。例如,在发送控制信号和执行器移动之间可能存在轻微的延迟,或者脚的磨损使其比以前更滑,或者关节的角度可能偏离百分之一度。物理世界本身呈现出复杂的情况,这些情况无法通过以在自由空间中移动的刚体为模型的模拟器准确捕获。床垫或泥坑等表面在接触时会变形。在模拟中相当标准化的环境在现实世界中变得更加多样化和复杂,当考虑到室内和室外空间中可能存在的大量地形时更是如此。当然,现实世界的因素从来都不是一成不变的,所以有腿机器人所能掌握的现实世界环境可能会大不相同。在现实世界中模拟和部署训练RMA通过使用两个不同的子系统克服了这些挑战:基本策略和适应模块。底层策略是在RL模拟中学习的,使用来自不同环境的信息(例如摩擦量以及有效载荷的重量和形状)。研究人员设置了不同的变量——模拟或多或少的湿滑地面或斜坡的坡度——这样机器人就可以在不同条件下学习正确的控制,研究人员将这些变量的信息编码为“外部变量”。环境参数范围。当然,仅凭这种基本策略不能部署机器人,因为我们不知道它在现实世界中会遇到什么外部属性。因此,研究人员依赖于机器人在其周围环境中自行学习的信息,即机器人最近的动作。我们知道关节的实际运动与命令的预期运动之间的差异取决于这些外在属性。例如,突然的腿部障碍物会阻止机器人,但也会显示有关其周围地面高度的信息。同样,在柔软的表面上,机器人的腿会随着脚下沉而伸得更远,而在坚硬的表面上,机器人会迅速停下来。由于我们知道机器人在模拟中会遇到的实际外部属性,我们可以使用监督学习来训练自适应模块,以根据机器人最近的历史状态来预测当前行为。几乎立即适应新条件借助基本策略和适应模块的这种组合,机器人可以在几分之一秒内适应新条件。相比之下,使用以前基于RL的方法训练机器人需要几分钟,有时还需要人工干预才能适应新条件,这使得这些机器人在现实世界中不切实际。在部署启用RMA的机器人时,基本策略和自适应模块异步协同工作(基本策略运行得更快,自适应模块运行得更慢)以使机器人能够在没有任何微调和自适应移动性的情况下稳健地执行。异步运行这两个策略并以完全不同的频率运行也有助于部署具有小型机载计算的RMA。一个小的基础策略让机器人以高频率行走,而一个更大的适应模块以低频率发送外部向量。异步运行这两种策略还增加了一些不可预测的硬件速度和时间的鲁棒性。实验表明,支持RMA的机器人在几个具有挑战性的环境中成功行走,优于未部署RMA的机器人,并且与Unitree机器人相当,甚至优于Unitree机器人。我们使用相同的策略执行所有真实世界的部署,没有任何模拟校准或真实世界的微调。在所有试验中,该机器人能够在沙地、泥土、远足径、高草和土丘上行走,没有一次失败。在70%的试验中,机器人成功地沿着徒步路线走下台阶。在80%的试验中,它设法通过了成堆的水泥和成堆的鹅卵石,尽管从未见过如此不稳定或下沉的地面,阻挡了植被或训练台阶。它还可以在12公斤(其体重的100%)的有效载荷下移动时保持高成功率。RMA是机器人技术的一项激动人心的进步,它能够在现实世界中部署新型、高效且适应性强的步行机器人。这项工作还表明,人工智能的进步可以改变机器人领域,增强它们的能力,同时更容易将这些改进扩展到新的条件和应用程序。完全依赖学习的方法有可能在更便宜、不准确的硬件上工作,从而显着降低未来机器人的成本。提高效率和降低成本可能意味着RMA支持的机器人在未来可以担任多种角色,例如在搜索和救援行动中担任助手,尤其是在对人类来说太危险或不切实际的地区。除了机器人技术,RMA还指出了构建AI系统的方法,这些系统可以通过利用动态数据了解特定算法运行的环境来实时适应许多困难的挑战。
