随着任务数量的增加,使用当前计算方法构建通用日常机器人的成本变得令人望而却步,人们正在迅速寻求解决方案。我们都想要能够执行一系列复杂任务的通用机器人,例如清洁、维护和交付等。然而,即使使用离线强化学习(RL)来训练单个任务(例如清洁),也需要大量工程并花费很长时间,这似乎是不可能的!上图是离线和非离线强化学习的演示动画MT-Opt+ActionableModel=离线强化学习但是经过科学家的不断努力,机器人的发展遇到了前所未有的机遇。几位在谷歌工作的杰出计算机科学家率先开发了可处理大规模任务的新型机器人。德米特里·卡拉什尼科夫(DmitryKalashnikov)是这项研究的第一作者。年纪轻轻,他于2009年创立了AIDigit公司,并于2013年加入谷歌,担任了7年的软件工程师。一年多了。JakeVarley,作为第二作者,毕业于麻省理工学院(MIT)计算机科学专业。2013年顺利成为哥伦比亚大学博士生。他一毕业就收到了谷歌的橄榄枝。现在Google我在SWE的位置已经3年了。作为第三作者,KarolHausman是南加州大学计算机科学专业的博士生。他还于2018年加入谷歌,目前在谷歌机器人控制和谷歌大脑实验室担任科学家。这项研究主要展示了机器人离线强化学习(RL)的两项新进展,即MT-Opt(一种用于自动数据收集和多任务RL训练的系统)和ActionableModels(可移动模型),该模型使用获取的数据达到离线学习的目的。MT-Opt引入了一种可扩展的数据收集机制,可以在真实机器人上收集超过800,000个任务,并且与之前许多多任务离线学习的成功应用相比,其平均性能比基线高出约3倍。更神奇的是,它还可以让机器人在不到1天的时间内适应新任务,进而快速掌握新任务。即使没有特定的任务和奖励,机器人也可以学习,这不仅大大增加了机器人可以执行的任务数量,而且可以更高效地学习下游任务。因此,为了大规模收集不同的任务数据,我们创建了一个可扩展且直观的多任务检测器来指定任务,以便收集具有平衡结果的最终数据集。具体步骤如下:为了训练系统,科学家们收集了9,600个机器人数据(来自七个机器人连续57天的数据收集),并使用监督学习(supervisedlearning)来训练多任务,甚至让用户快速定义新任务的设置及其奖励。首先,在收集数据时,需要针对各种现实因素对其进行监控和定期更新。(例如不同的光照条件、不断变化的背景环境、机器人的灵活状态)。其次,通过使用更简单的任务解决方案,有效引导机器人学习更复杂的任务,从而在针对不同任务时可以使用多个机器人同时操作。一旦形成有针对性的训练,每个任务的数据量和成功的情节数将随着时间的推移而增长。为了进一步提升性能,科学家们还针对一些表现不佳的任务进行了重点调试和训练,一一突破!成功率高达89%!虽然这种数据收集策略可以有效地收集大量数据,但成功率和数据量在任务之间是不平衡的。因此,为了解决这个问题,他们命令机器人将每项任务标记为成功或失败。在此步骤之后,平衡任务被发送到多任务RL训练管道。好消息是,对于具有多个数据的常见任务,MT-Opt的成功率为89%(相比之下,QT-Opt为88%),MT-Opt对于稀有任务的平均成功率为50%。使用可操作模型(ActionableModel)使机器人能够系统地学习大量的教学技能,例如物体抓取、容器放置和物体重新排列。此外,该模型还可以训练数据中看不到的物体和视觉目标,新机器人具备“学习世界”的能力!总结:MT-Opt模型和可操作模型的结果表明,真实的机器人可以学习许多不同的任务,并且这些模型有效地分摊了学习技能的成本。这是朝着通用机器人学习系统迈出的重要一步,该系统可以进一步扩展到现实生活中,执行许多对人类有帮助的服务。有兴趣的读者可以具体参考这两篇论文:《MT-Opt:Large-ScaleContinuousMulti-TaskRoboticReinforcementLearning》和《AFeasibleModel:UnsupervisedOfflineReinforcementLearningforRobotics》,网站上有很多论文。有关MT-Opt的更多信息、视频和工作模型。
