人类善于模仿。我们和其他动物通过观察行为进行模仿,了解其对环境状态的感知影响,并找出我们的身体可以采取哪些行动来达到类似的结果。模仿学习是机器人学习任务的有力工具。但是在这样的上下文感知任务中,很难使用强化学习来指定奖励函数。DeepMind最新的论文主要探讨了仅从第三人称视角模仿操作轨迹的可能性,而不依赖于动作状态。该团队的灵感来自模仿视觉演示复杂行为的机器人操纵器。DeepMind提出的方法主要分为两个阶段:1.提出一个与操作者无关的表示(MIR,Manipulation-IndependentRepresentations),即无论是机械手、人手还是其他设备,都保证这个表示可用于后续任务的学习2.使用强化学习学习动作策略。独立于操纵器的表示。领域适应性问题是机器人仿真现实中最关键的问题,即解决视觉仿真与现实的差异问题。1、随机使用各种类型的机械手,使用各种模拟环境来模拟现实世界。2.增加拆下机械臂后的观察结果。3.Temporally-SmoothContrastiveNetworks(TSCN,时间平滑对比网络),相比于TCN,在softmax交叉熵目标函数中加入了一个分布系数p,使得学习过程更加平滑,尤其是在跨域的情况下.强化学习MIR用于表示对空间的需求是可操作的,即可以用于强化学习,表示为具体的动作。一种解决方案是使用目标条件策略来训练当前状态o和目标状态g作为输入。本文提出了一种扩展方法,跨域目标条件策略,输入当前状态o和跨域目标状态o',并最小化达到目标的动作数。数据与实验研究团队针对8种环境和场景(规范模拟、隐形手臂、随机手臂、随机域、JacoHand、真实机器人、手杖、人手)进行实验,评估通过未知机械手模拟无约束操作轨迹的性能.表现。他们还使用了一些基线方法,例如朴素目标条件函数(GCP)和时间距离。MIR在所有测试域中都取得了最好的性能。它在堆叠成功方面表现得更好,并且在模拟JacoHand和InvisibleArm时表现出色,得分为100%。本研究证明了视觉模仿表征在视觉模仿中的重要性,并验证了操作独立表征在视觉模仿中的成功应用。未来工厂中的机器人将具有更强的学习能力,不局限于特定的工具或特定的任务。
