当前位置: 首页 > 科技观察

机器人领域有个“RoboGPT”:一种处理不同感官输入的模型,来自谷歌

时间:2023-03-21 14:48:24 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处用于转载。懒得打扫房间,就让机器人直接打扫吧。如果你想吃零食,机器人也可以为你服务。为您准备了薯片和纸巾。而且,这个机器人只需要一个单一的预训练模型就可以从不同的感官输入(如视觉、文本等)生成命令来执行多项任务。要知道,以往机器人在执行命令时,在处理这些不同的任务时,IO规范、神经网络架构和目标都是不同的。现在,谷歌已经解决了这个问题。他们开发了适合机器人领域的Transformer模型:RT-1,甚至被称为RoboGPT。△来源:推特@JimFan更重要的是,RT-1的代码是开源的!具体原理我们先从RT-1整体来看一下。它主要靠7+3+1来执行任务。所谓7是指它的手臂有7个自由度,分别是x、y、z、roll、pitch、yaw、clawopening。3指的是基本运动的三个维度,即在地面上运动时的x、y、yaw。1指的是RT-1的整体控制,即在这三种模式之间切换:控制手臂,基本运动,或者终止任务。△来源:EverydayRobotsRT-1执行任务时,其底层逻辑是纯监督学习。要做好监督学习,必须满足两个条件:丰富的数据集和强大的神经结构。首先是数据集。RT-1是在一个大规模的、真实世界的机器人数据集上训练的,可以概括为4个数字:130,000、700+、13、17,分别为:包括130,000集;涵盖了700多项任务;使用了13个机器人;花了17个月。然后就是RT-1的结构,它的任务执行过程如下图所示。具体来说,图像和文本首先通过ImageNet预训练的卷积神经网络(EfficientNet)进行处理。其中,为了保证文本和图像能够很好地融合在一起,RT-1还使用了FiLM层,这是一种通过语言嵌入来调节视觉活动的经典技术。这使得RT-1能够很好地提取与手头任务相关的视觉特征。这些视觉特征随后被TokenLearner模块计算成一组紧凑的token并传递给Transformer,从而使机器人的推理速度提高了2.4倍以上。接下来Transformer会对这些token进行处理,生成离散的运算token,运算token就是开头说的7+3+1。通过控制手臂,基本动作和模式都能够执行任务。在执行任务的整个过程中,RT-1也会以3Hz的频率进行闭环控制和指挥操作,直到出现终止操作或用完预设的时间步数。不过话虽如此,既然这款机器人具备多任务处理能力,那么它在执行通用任务方面的表现如何呢?研究人员测试了RT-1对干扰物数量(第一行)、不同背景和环境(第二行)以及真实场景(第三行)的稳健性。并且与其他基于模仿学习的baselines相比,结果如下图所示(第一项是训练时的表现)。很明显,RT-1在每个任务类别中都明显优于以前的模型。ResearchTeam这个机器人来自谷歌,研究团队的成员也比较多。他们来自三个研究团队:第一个是RoboticsatGoogle,是GoogleResearch下的一个细分团队。目前正在探索“如何教机器人传递技能”。他们不断公开他们的培训数据,以帮助推进该领域的最新技术水平。然后是EverydayRobots,这是X-MoonshotFactory的一个小众团队,与Google团队合作,他们目前正在构建一种新型机器人,一种可以自学并帮助任何人做任何事情的通用机器人。还有谷歌研究院,这是谷歌的一个部门,进行各种最先进的技术研究。他们也有自己的开源项目,在GitHub上公开。项目地址:https://github.com/google-research/robotics_transformer论文地址:https://arxiv.org/abs/2212.06817