人工智能领域的下一个发展机会可能是装备AI具有“身体”的模型,通过与现实世界的互动来学习。与现有的在特定环境下执行的自然语言处理、计算机视觉等任务相比,开放领域的机器人技术显然更加困难。例如,基于提示的学习允许单一语言模型执行任何自然语言处理任务,例如编写代码、总结和提问,只需修改提示即可。但机器人技术中有更多种类的任务规范,例如模仿一次性演示、遵循口头指令或实现特定视觉目标,这些通常被视为不同的任务并由经过专门训练的模型处理。近日,来自NVIDIA、斯坦福大学、麦卡莱斯特学院、加州理工学院、清华大学和德克萨斯大学奥斯汀分校的研究人员联合提出了一种基于Transformer的通用机器人代理VIMA,利用多模态提示实现极高的泛化性能,能够处理一个大量的机器人操作任务。论文链接:https://arxiv.org/abs/2210.03094项目链接:https://vimalabs.github.io/代码链接:https://github.com/vimalabs/VIMA交错文本和视觉符号的输入提示。为了训练和评估VIMA,研究人员提出了一个新的模拟基准数据集,该数据集由数千个具有多模态线索的程序生成的桌面任务和超过600,000个用于模仿学习的专家轨迹组成,有四个级别来评估模型的泛化性能。在相同尺寸模型和相同训练数据量的情况下,VIMA在最困难的零样本泛化设置下的任务成功率是当前sota方法的2.9倍。在训练数据减少10倍的情况下,VIMA的性能仍然比其他方法高出2.7倍。所有代码、预训练模型、数据集和模拟基准现在都是完全开源的。论文第一作者姜云帆,斯坦福大学硕士二年级学生,目前在NVIDIAResearch实习。2020年毕业于爱丁堡大学。主要研究方向为具身人工智能(embodiedAI),即通过与环境的交互来学习。具体研究内容是如何利用大规模基础模型实现开放式具身代理(embodiedagents)。论文有两位导师,他们都是李飞飞以前的学生。朱玉科毕业于浙江大学,获学士学位,并获得浙江大学和加拿大西蒙弗雷泽大学双学位。硕士和博士生就读于斯坦福大学,师从李飞飞,于20??19年8月获得博士学位。朱宇科现任UTAustin计算机科学系助理教授,机器人感知与学习中心主任实验室,以及NVIDIAResearch的高级研究科学家。范林熙博士毕业于斯坦福大学,师从李飞飞,目前是NVIDIAAI的研究科学家。主要研究方向是开发通用且强大的自主代理(generallycapableautonomousagents),具体研究工作涵盖基础模型、策略学习、机器人、多模态学习和大规模系统。Robots和multimodalpromptTransformer在NLP领域的多任务处理中取得了非常高的性能。只需一个模型即可同时完成问答、机器翻译、文本摘要等,实现不同任务的接口在于输入文本提示,从而将具体的任务需求传递给通用的大模型。这种提示界面可以用在一般的机器人代理上吗?对于家政机器人来说,理想情况下,只需要输入<杯子的图片>,机器人就可以根据图片拿走杯子。当机器人需要学习一项新技能时,最好是通过输入视频演示来学习它。如果机器人需要与不熟悉的物体进行交互,可以通过图例轻松解释。同时,为了保证安全部署,用户可以进一步指定视觉约束,比如不能进入
房间。2.一种新的能够进行多任务操作的机器人代理模型3.具有不同任务的大规模基准系统地评估代理的可扩展性和通用性首先,以多模态提示为首由此产生的灵活性允许开发者指定和构建能够支持的模型大量的任务规范。本文主要考虑六类任务:1.简单对象操作(Simpleobjectmanipulation),任务提示形式为put