注意,眼前的人正在不断向机器人发出自然语言指令,比如“推红色方块之间的绿色星星”,“将蓝色方块移到左下角”,机器人可以实时完成每一个输入指令。自1960年代以来,机器人专家一直在努力让机器人理解人的“自然语言指令”并执行特定的动作。理想情况下,未来的机器人将实时响应用户能够用自然语言描述的任何相关任务。特别是在开放的人类环境中,用户可能需要自定义机器人在发生时的行为,提供快速纠正,例如“停止,将手臂向上移动一点”或指定限制“向右缓慢移动”。此外,实时语言可以让人类和机器人更容易在复杂的长期任务上进行协作,人类可以通过偶尔的语言反馈迭代和交互地指导机器人操作。目前的相关工作大致可以分为以下三个部分:1.机器人本身需要存在于现实世界中;2、可以响应大量丰富的自然语言命令;3.可以执行交互式(interactive)语言指令,即机器人在任务执行过程中需要接受新的自然语言指令。至于第三点,目前机器人领域交互发展的步伐还很缓慢,这也使得机器人缺乏“生命感”。近日,谷歌发表论文提出了一种新的框架,可以生产出执行自然语言指令的真实世界、实时交互的机器人,相关的数据集、环境、基准和策略已经开放使用。论文链接:https://arxiv.org/pdf/2210.06407.pdf项目主页:https://interactive-language.github.io/通过对数十万条语言标记轨迹的数据集进行行为克隆训练,生成该策略可以熟练地执行比以前的工作多一个数量级的命令。在现实世界中,研究人员估计该方法在87,000个不同的自然语言字符串上的成功率为93.5%。同样的策略可以由人??类通过自然语言实时指导,以解决范围广泛的精确长距离重排目标,例如“用积木做一张笑脸”。随论文发布的数据集包括近600,000条语言标记轨迹,比以前可用的数据集大一个数量级。交互语言:与机器人实时对话机器人融入现实世界最重要的是能够处理开放式的自然语言指令,但从机器学习的角度来看,这对机器人来说是一个巨大的挑战学习开放式词汇语言。开放表示模型需要执行大量任务,包括小的修正指令等。现有的多任务学习设置利用精心设计的模仿学习数据集或复杂的强化学习奖励函数来驱动每个任务的学习,并且以这种方式设计的预定义集必然很小。因此,开放词汇任务中的一个关键问题是:如何将机器人数据收集过程扩展到覆盖真实环境中的数千个动作,以及如何将所有这些动作与链接的实际自然语言指令联系起来?在交互式语言中,谷歌提出的大规模模拟学习框架的关键是创建大型、多语言条件机器人演示数据集的可扩展性。与以前的设置不同,这需要定义所有技能,然后收集每项技能的策划演示,研究人员不断地在多个机器人上执行此操作,而无需场景重置或低水平技能分割。收集数据。所有数据,包括故障数据(例如从表中敲出块),在与文本配对之前都要经过事后语言重新标记过程。在这个过程中,标注者需要通过观看机器人的长视频来识别尽可能多的行为,标记每个行为的开始和结束时间,并使用不受限制的自然语言形式描述每个片段。最重要的是,与之前设置的自举相比,所有用于训练的技能都是从数据本身自下而上揭示的,而不是由研究人员预先确定的。研究人员有意尽可能地简化学习方法和架构。机器人策略网络是一个交叉注意力转换器,使用行为克隆目标的标准监督学习,将5Hz视频和文本映射到5Hz机器人动作。在测试时,可以将新的自然语言命令以高达5Hz的速率通过语音转文本发送到策略网络。开源基准在标注过程中,研究人员收集了一个Language-Table数据集,其中包含超过440,000个真实和180,000个机器人执行自然语言命令的模拟演示,以及机器人在演示过程中采取的动作序列。这也是目前最大的语言条件机器人演示数据集,直接提升了一个数量级。Language-Table引入了一个模拟学习基准,可用于模型选择或评估通过不同方法训练的机器人执行指令的能力。实时语言行为学习在实验中,研究人员发现,当机器人能够遵循实时输入的自然语言指令时,其能力尤为强大。在项目网站上,研究人员展示了仅使用自然语言,用户就可以通过复杂的长视距序列来引导机器人解决需要长期精确协调控制的目标。例如,桌子上有很多块,命令可以是“用绿色的眼睛做一个笑脸”或“把所有的都放在一条垂直线上”等。因为机器人被训练为遵循开放式词汇语言,它在实验中看到,机器人可以对一系列不同的口头纠正做出反应,例如“将红星稍微向右移动”。最后,研究人员探索了实时语言的优势,例如使机器人数据收集更加高效。一名人类操作员可以使用口头语言同时控制四台机器人。未来有可能扩大机器人数据采集的规模,而不需要为每个机器人都配备一个标注器。结论虽然该项目目前仅限于桌面上的一组固定对象,但交互式语言的实验结果可以初步表明,大规模模仿学习确实可以产生能够遵循自由形式的最终用户命令的实时交互式机器人.为了推动物理机器人实时语言控制技术的进步,研究人员开源了Language-Table,这是目前最大的基于语言条件的真实世界机器人演示数据集,也可以作为相关的模拟基准。研究人员认为,该数据集的用处可能不仅限于机器人控制领域,还可能对研究语言和动作条件视频预测、机器人视频条件语言建模或更广泛领域的许多其他有趣主题有用。机器学习环境。活跃的问题提供了一个新的起点。
