当前位置: 首页 > 科技观察

模仿学习:机器人无需编程也能听懂自然语言!

时间:2023-03-20 20:22:25 科技观察

使用人类在日常交流中所说的自然语言指令来命令机械臂执行任务是一个很大的挑战。来自亚利桑那州立大学、英特尔人工智能实验室和俄勒冈州立大学的研究团队在操纵任务中以语言作为灵活的目标进行模仿学习(ImitationLearning),为人类专家和机器人之间提供了桥梁。在训练期间,该模型学习互连并捕获语言、视觉和运动控制之间的相关性,从而产生以语言为条件的控制策略。然后,这些策略为人类用户提供了一个简单直观的界面来发出非结构化命令。未来,将非结构化自然语言纳入模仿学习可以减少对自主机器人编程的需求,并实现自然的人机交互。这项创新可以将自动化机器人的使用提升到医疗保健、零售、制造和食品等行业的新水平。通过消除机器人对特定句子结构、完美语法或特定领域语言的需求,人类可以更轻松地引导机器人执行任务,例如从零售仓库挑选和包装商品,或命令机械臂准备饭菜一个餐厅。在医疗保健领域,人类还可以使用语音命令来驾驶自动轮椅,药店可以使用机械臂来包装药品。1模仿学习和交流渠道研究团队与亚利桑那州立大学研究人员SimonStepputtis、JosephCampbell、ChittaBaral和HeniBenAmor以及俄勒冈州立大学研究员StefanLee合作,在2020年NeurIPS会议论文的主题演讲中发表《机器人操作任务中以语言为条件的模仿学习(Language-Conditioned Imitation Learning for Robot Manipulation Tasks)》。图例:论文《机器人操作任务中以语言为条件的模仿学习》论文链接:https://arxiv.org/abs/2010.12083模仿学习以简单的方式教会机器人新技能。无需编程,只需要提供一组可以转换为功能或概率表示的演示。然而,这种方法的局限性在于必须仔细设计状态表示以确保所有必要的信息都可用。神经方法通过让机器人学习特定于任务的特征表示,将模仿学习扩展到高维空间。然而,这些方法缺乏允许用户以很少的额外成本提供有关预期任务的更多信息的通信渠道。因此,程序员和用户都必须求助于数值方法来定义目标。为了克服这些挑战,研究团队开发了一种端到端的、受语言约束的控制策略来处理由高级语义模块和低级控制器组成的操作任务,将语言、视觉和控制集成在一个框架中。策略生成可以看作是从语言到视觉的翻译过程。当使用端到端方法时,该方法在概念上分为两部分:语义模型和控制模型。语义模型从语言和视觉角度创建独特的任务表示。控制模型将任务表示转换为特定于任务的控制策略,同时考虑机器人的当前状态。2评估:拾取和倾倒任务该团队在桌面设置的模拟机器人任务中评估了新方法。在此任务中,专家教七自由度机器人机械手如何执行一系列拾取和倾倒动作。在培训期间,专家负责提供任务的动觉演示,以及口头描述,例如“往红色碗里倒一点”。桌子上可能有几个不同形状、大小和颜色的物体,这往往会导致自然语言描述中的歧义。机器人必须学习如何有效地从可用的原始数据源中提取关键信息,以决定做什么、如何做以及移动到哪里。1图例:执行倾倒任务的机械臂为了生成训练和测试数据,五位专家使用同义词替换方法提供了200个口头任务描述模板。模仿学习需要大量的演示,因此该团队使用这种自动化方法通过为任务创建相同句子的变体来生成演示。该模型在40,000个合成生成的场景上进行训练。3语言限制操作任务的结果该模型的总体任务描述了首先举起然后成功倒入正确碗中的杯子的百分比。这一系列步骤在84%的新环境中成功执行。只采摘成功率98%,倾倒成功率85%。这些结果表明,该模型成功地将受训行为概括为对象位置、口头命令或感知输入的变化。该团队的成果为成功整合语言、视觉和控制设定了基准。该团队使用辅助损失来补充由此产生的机器人控制信号。引导对象检测注意力和策略生成都提高了倾倒任务的性能。该团队还通过要求五名新参与者发出命令并将其与合成语言进行比较来评估该模型。总体而言,该模型对来自新参与者的新自然语言命令反应良好。从这个角度来看,自然语言指令可以在未来为机器学习和机器人技术开辟新的应用。