谷歌RT-1模型让一个机器人干几份活，700条指令成功率达97%

时间：2023-03-21 23:03:21 科技观察

谷歌的RT-1模型让机器人完成多项工作，700条指令的成功率为97%建立在利用大型、多样化的数据集和表达模型的基础上，可以有效地吸收它们。然而，这种高性能模型方法在机器人领域的应用相对较少。原因很简单，首先是缺乏大规模和多样化的机器人数据，限制了模型吸收广泛机器人经验的能力。其次，缺乏可以从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。此次，Google的RoboticsTransformer1（简称RT-1）是一个多任务模型，可以标记机器人输入和输出动作（例如，相机图像、任务指令和电机命令），以实现运行时的高效推理，以及使实时控制成为可能。RT-1吸收大量数据，让机器人在不同环境下执行多项任务，从而提高机器性能和泛化能力。简单来说，就是让一个机器人同时做几项工作。该模型在包含130k集的大型真实世界机器人数据集上进行训练，涵盖700多项任务，这些数据集是使用EverydayRobots(EDR)的13个机器人在17个月内收集的。结果表明，与最先进的技术相比，RT-1可以显着提高对新任务、环境和对象的零样本泛化能力。Github链接小编也贴心的放在了下面，有兴趣的可以去看看。https://github.com/google-research/robotics_transformerRT-1模型具体原理RT-1建立在Transformer架构之上，可以从机器人的摄像头获取图像历史记录，并以自然语言描述任务作为输入，同时直接输出标记化的动作。RT-1的架构类似于在具有因果掩蔽的标准分类交叉熵目标上训练的仅解码器序列模型。该模型以文本指令和一组图像作为输入，通过预训练的FiLMEfficientNet模型将它们编码成令牌，通过TokenLearner对其进行压缩，然后通过Transformer输出动作令牌。其主要功能包括：ImageTokenization、ActionTokenization和TokenCompression。图像标记化：我们通过在ImageNet上预训练的EfficientNet-B3模型传递图像，然后将生成的9×9×512空间特征图扁平化为81个标记。图像标记器以自然语言任务指令为条件，并在使用初始化为身份的FiLM层早期提取与任务相关的图像特征。Actiontokenization：机器人的动作维度是手臂运动的7个变量（x,y,z,roll,pitch,yaw,clampopening），3个基本运动变量（x,y,yaw），以及一个附加的离散用于在三种模式之间切换的变量。令牌压缩：该模型自适应地选择图像令牌的软组合，这些组合可以根据它们对使用基本注意模块TokenLearner学习的影响进行压缩，从而使推理速度提高2.4倍以上。我们使用人类通过远程操作提供的演示，并用机器人执行的指令的文本描述来注释每一集。而这款机器人依靠“7个自由度的手臂、一个双指夹持器和一个移动底座”来执行任务。数据集中表示的一组高级技能包括诸如拾取和放置物体、打开和关闭抽屉、将物体放入和取出抽屉、将细长物体直立以及将物体打翻等操作。集成异构数据源为了进一步推动RT-1，我们使用从另一个机器人收集的数据对其进行训练以测试（1）模型是否在存在新数据源的情况下保持其在原始任务上的性能，以及（2）模型是否使用新的和不同的数据提高泛化能力。我们转换收集的数据以匹配我们使用EDR收集的原始数据集的操作规范和边界，并用任务说明标记每个数据集。然后在每个训练批次中将Kuka数据与EDR数据以1:2的比例混合，以控制原始EDR技能的回归。图为多台机器人采集数据时的训练方式。结果表明，RT-1能够通过观察其他机器人的经验来获得新技能。当RT-1接受Kuka的垃圾箱拣选数据和来自RoboticsClassroom的现有EDR数据的训练时，它的准确率从仅接受EDR数据训练时的22%“跃升了近2倍”，达到39%。当RT-1单独接受来自Kuka的采摘数据训练并评估来自EDR机器人的采摘数据时，准确率为0%。实验结果为了更好地理解RT-1的泛化能力，我们针对三个基线调查了它的性能：Gato、BC-Z和BC-ZXL（即，参数数量与RT-1相同的BC-Z）。并且分为四类：图为RT-1和对照组在测试环境下的表现。Seentasksperformance：训练过程中观察到的任务表现；Unseentasksperformance：在Performanceonunseentasks中，技能和对象在训练集中是分开的；鲁棒性：干扰因素干预期间的表现和远处场景（远景场景）中背景变化（新厨房、照明、背景场景）的表现：在真实厨房中执行类似SayCan的自然语言指令。RT-1的高性能和泛化能力，可以通过SayCan实现远程、移动作业任务。SayCan的工作原理是将语言模型放置在机器人的功能表中，并利用少量线索将以自然语言表达的长期任务分解为一系列低级技能。我们在两个真实厨房中使用RT-1和其他两个基线（SayCanwithGato和SayCanwithBC-Z）评估SayCan。下面，“Kitchen2”提出了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在Kitchen1之后建模的。可以看出，SayCanwithRT-1在Kitchen1中的执行成功率为67%，优于其他baseline。SayCanwithGato和SayCanwithBCZ由于新的unseenkitchen带来的泛化困难导致性能下降，但是RT-1的成功率没有下降。

上一篇：获得1000个赞的程序员高薪职业建议

下一篇：高密度、模块化……数据中心还有哪些趋势不容忽视？

谷歌RT-1模型让一个机器人干几份活，700条指令成功率达97%相关文章