当前位置: 首页 > 科技观察

李飞飞与两位高阶徒弟联手指导:能理解“多模态提示”的机器人零击性能2.9倍

时间:2023-03-21 18:52:52 科技观察

人工智能领域的下一个发展机会可能是装备AI具有“身体”的模型,通过与现实世界的互动来学习。与现有的在特定环境下执行的自然语言处理、计算机视觉等任务相比,开放领域的机器人技术显然更加困难。例如,基于提示的学习允许单一语言模型执行任何自然语言处理任务,例如编写代码、总结和提问,只需修改提示即可。但机器人技术中有更多种类的任务规范,例如模仿一次性演示、遵循口头指令或实现特定视觉目标,这些通常被视为不同的任务并由经过专门训练的模型处理。近日,来自NVIDIA、斯坦福大学、麦卡莱斯特学院、加州理工学院、清华大学和德克萨斯大学奥斯汀分校的研究人员联合提出了一种基于Transformer的通用机器人代理VIMA,利用多模态提示实现极高的泛化性能,能够处理一个大量的机器人操作任务。论文链接:https://arxiv.org/abs/2210.03094项目链接:https://vimalabs.github.io/代码链接:https://github.com/vimalabs/VIMA交错文本和视觉符号的输入提示。为了训练和评估VIMA,研究人员提出了一个新的模拟基准数据集,该数据集由数千个具有多模态线索的程序生成的桌面任务和超过600,000个用于模仿学习的专家轨迹组成,有四个级别来评估模型的泛化性能。在相同尺寸模型和相同训练数据量的情况下,VIMA在最困难的零样本泛化设置下的任务成功率是当前sota方法的2.9倍。在训练数据减少10倍的情况下,VIMA的性能仍然比其他方法高出2.7倍。所有代码、预训练模型、数据集和模拟基准现在都是完全开源的。论文第一作者姜云帆,斯坦福大学硕士二年级学生,目前在NVIDIAResearch实习。2020年毕业于爱丁堡大学。主要研究方向为具身人工智能(embodiedAI),即通过与环境的交互来学习。具体研究内容是如何利用大规模基础模型实现开放式具身代理(embodiedagents)。论文有两位导师,他们都是李飞飞以前的学生。朱玉科毕业于浙江大学,获学士学位,并获得浙江大学和加拿大西蒙弗雷泽大学双学位。硕士和博士生就读于斯坦福大学,师从李飞飞,于20??19年8月获得博士学位。朱宇科现任UTAustin计算机科学系助理教授,机器人感知与学习中心主任实验室,以及NVIDIAResearch的高级研究科学家。范林熙博士毕业于斯坦福大学,师从李飞飞,目前是NVIDIAAI的研究科学家。主要研究方向是开发通用且强大的自主代理(generallycapableautonomousagents),具体研究工作涵盖基础模型、策略学习、机器人、多模态学习和大规模系统。Robots和multimodalpromptTransformer在NLP领域的多任务处理中取得了非常高的性能。只需一个模型即可同时完成问答、机器翻译、文本摘要等,实现不同任务的接口在于输入文本提示,从而将具体的任务需求传递给通用的大模型。这种提示界面可以用在一般的机器人代理上吗?对于家政机器人来说,理想情况下,只需要输入<杯子的图片>,机器人就可以根据图片拿走杯子。当机器人需要学习一项新技能时,最好是通过输入视频演示来学习它。如果机器人需要与不熟悉的物体进行交互,可以通过图例轻松解释。同时,为了保证安全部署,用户可以进一步指定视觉约束,比如不能进入房间。2.一种新的能够进行多任务操作的机器人代理模型3.具有不同任务的大规模基准系统地评估代理的可扩展性和通用性首先,以多模态提示为首由此产生的灵活性允许开发者指定和构建能够支持的模型大量的任务规范。本文主要考虑六类任务:1.简单对象操作(Simpleobjectmanipulation),任务提示形式为putinto,其中对应的slot是对象的图像;2.实现视觉目标(Visualgoalreaching),操纵物体实现目标设定,如重排(rearrangement);3.接受新概念(Novelconceptgrounding),提示中包含一些生僻词,如dax,blicket等,可以在提示中通过图片进行解释,然后在instruction中直接使用,可以测试代理人对新概念的认知速度;4.单样本视频模仿(One-shotvideoimitation),观看视频演示,学习如何以相同的运动路径再现特定物体;5.满足视觉约束(Visualconstraintsatisfaction),机器人必须小心操作物体,避免违反安全6.视觉推理,有些任务需要agent能够推理,比如“把所有具有相同纹理的物体作为intoacontainer”,或者需要视觉记忆,比如“把放到容器里,然后放回原来的位置。”需要注意的是,这六类任务并不是相互排斥的,比如有些任务可能会通过演示视频引入一个以前没有见过的动词(模仿)。(新概念)新的基准VIM-BENCH很难巧妇难为无米之炊为了训练模型,研究人员还准备了一些支持数据作为多模态机器人学习基准VIMA-BENCH。在模拟环境(SimulationEnvironment)中,现有的基准测试一般都是针对特定的任务规范。目前还没有benchmark能够提供丰富的多模态任务套件和综合测试平台,有针对性地检测agent能力。为此,研究人员通过扩展Ravens机器人模拟器以支持可扩展的对象和纹理集合来构建VIMA-BENCH,以组成多模态线索并按程序生成大量任务。具体来说,VIMA-BENCH提供了17个具有多模态提示模板的元任务,可以实例化为1000个独立的任务。每个元任务属于上述6种任务规范方法中的一种或多种。VIMA-BENCH可以通过脚本化的预言机代理生成大量的模仿学习数据。在ObservationandActions上,模拟器的观察空间包括从正面和自上而下视图渲染的RGB图像,基准还为训练以对象为中心的模型提供逼真的对象分割和边界框。VIM-BENCH继承了前作的高级动作空间,由最基本的运动技能组成,如“拾放”、“擦拭”等,由终端效果的姿势决定。该模拟器还具有一个脚本化的oracle,可以通过使用特权模拟器状态信息生成专家演示,例如所有对象的精确位置,以及多模式命令的基础解释。最后,研究人员通过预编程的oracles生成了一个大型离线专家轨迹数据集,用于模仿学习。该数据集包括每个元任务的50,000个轨迹,总共有650,000个成功轨迹。我们还保留了一部分对象模型和纹理用于评估,并使用17个元任务中的4个进行零样本泛化测试。VIMA-BENCH的每个任务标准只有成功和失败,中间状态没有奖励信号。在测试时,研究人员在物理模拟器中执行代理的策略以计算最终报告指标的成功率,即所有评估的元任务的平均成功率。评估协议由四个级别组成,以系统地探测代理的泛化能力,每个级别偏离训练分布更多,因此严格来说比下一个级别更难。1.放置泛化:在训练期间,所有提示都是逐字的,但在测试时,物体在桌子上的放置是随机的。2.Combinatorialgeneralization:所有材料(形容词)和三维物体(名词)在训练中都看到了,但在测试中出现了一些新的组合。3.新颖的对象泛化:测试提示和模拟工作空间包括新颖的形容词和对象。4.新任务泛化:新的元任务VIMA模型多模态提示,新的提示模板,测试时一共包含三种格式:1.文本,使用预训练的T5模型进行分词和获取词向量;2.对于整个桌面场景,首先使用MaskR-CNN识别所有独立的物体,每个物体由一个边界框和裁剪后的图像表示,然后分别使用一个boundingboencoder和ViT进行编码。3.单个物体的图像,同样使用ViT获取tokens,然后将得到的序列输入到预训练好的T5编码器模型中。机器人控制器(RobotController),即解码器的输入是在提示序列上经过多个交叉注意力层后的表示和轨迹历史序列。这样的设计可以加强与提示的联系;更好地保留和更深入地处理原始提示令牌;更好的计算效率。测试阶段的实验设计主要是回答三个问题:1.VIMA与之前基于SOTATransformer的agent在多模态提示的各种任务上的性能比较;2.VIMA在模型容量和数据量方面3.不同的视觉分词器、条件提示和条件编码是否会影响最终决策。用于比较的基线模型包括Gato、Flamingo和DecisionTransformer(DT)。首先,在模型缩放上,研究人员训练了从2M到200M参数的所有方法,并且编码器的大小始终保持在T5-base。在各个层面的零样本泛化评价方面,VIMA绝对优于其他作品。尽管Gato和Flamingo在较大模型上的性能有所提升,但VIMA仍然优于所有模型。在数据缩放(Datascaling)方面,研究人员分别在0.1%、1%、10%和全模仿学习数据集上对每种方法的训练数据进行了不同的实验。VIMA只需要1%的数据就可以实现其他方法。L1和L2泛化指标在10倍以上的数据上训练。在L4指标上,只需要1%的训练数据,VIMA在全量数据上已经优于其他模型。在ProgressiveGeneralization性能比较中,没有微调用于更困难的泛化任务。VIMA模型的性能退化最少,尤其是从L1到L2和L1到L3,而其他模型退化超过20%,这也意味着VIMA学习了更泛化的策略和更稳健的表示。参考:https://arxiv.org/abs/2210.03094