译者|李锐审稿人|孙淑娟对于人类来说,搬运可变形物体并不比搬运刚性物体困难多少。人们自然而然地学会以不同的方式塑造、折叠和操纵它们,并且仍然能认出它们。但是操纵可变形物体对机器人和人工智能系统来说是一个巨大的挑战。例如,机器人必须采取一系列步骤才能将面团制成比萨饼皮。当面团改变形状时,必须对其进行记录和跟踪,同时必须为工作的每个步骤选择正确的工具。这些对于当前的AI系统来说都是具有挑战性的任务,在处理状态更可预测的刚性物体时,AI系统更加稳定。现在,麻省理工学院、卡内基梅隆大学和加州大学圣地亚哥分校的研究人员开发了一种新的深度学习技术,有望使机器人系统在处理可变形物体时更加稳定。这项名为DiffSkill的技术使用深度神经网络学习简单的技能,并使用规划模块将这些技能结合起来以解决需要多个步骤和工具的任务。通过强化学习和深度学习处理可变形物体如果人工智能系统想要处理一个物体,它必须能够检测和定义它的状态,并预测它未来的样子。对于刚性物体,这是一个很大程度上已解决的问题。通过一组良好的训练示例,深度神经网络将能够从不同角度检测刚性物体。当谈到可变形物体时,它们的多状态空间变得更加复杂。“对于一个刚性物体,我们可以用六个数字来描述它的状态:三个是它的XYZ坐标,三个是它的方向。但是,面团或织物等可变形物体具有无限的自由度,因此更难描述它们状态精确。此外,它们变形的方式比刚性物体更难在数学上建模“可微分物理模拟器的发展使得基于梯度的方法的应用能够解决可变形物体操纵任务。这不同于传统的强化学习方法,后者试图通过纯粹的试错交互来学习环境和物体的动态。DiffSkill的灵感来自可微分物理模拟器PlasticineLab,并在2021年的ICLR会议上进行了展示。PlasticineLab表明可微分模拟器可以帮助完成短期任务。PlasticineLab是一个基于微分物理的可变形物体模拟器。它适用于训练基于梯度的模型,但可微分模拟器仍在处理需要多个步骤和使用不同工具的长期问题。基于可微分模拟器的人工智能系统还需要了解完整的模拟状态和环境的相关物理参数。这对于现实世界的应用程序尤其有限制,在现实世界的应用程序中,代理通常通过视觉和深度感应数据(RGB-D)来感知世界。林星宇说,“我们开始思考是否可以将完成一项任务所需的步骤提取为技能,并学习关于技能的抽象概念,以便我们将它们联系起来解决更复杂的任务。”DiffSkill是一个框架,其中人工智能代理使用可区分的物理模型学习技能抽象并将它们组合起来以完成复杂的操作任务。他过去的工作重点是使用强化学习来操纵布料、绳索和液体等可变形物体。对于DiffSkill,他选择面团操作是因为它带来的挑战。“面团操作特别有趣,因为它不容易用机器人抓手完成,而是需要连续使用不同的工具,这是人类擅长但机器人不太常见的事情,”他说。经过训练,DiffSkill可以仅使用RGB-D输入成功完成一组面团操作任务。UsingneuralnetworkstolearnabstractskillsDiffSkilltr??ainsneuralnetworksFeasibilityofpredictingtargetstatesfromtheinitialstateandparametersobtainedfromadifferentiablephysicssimulatorDiffSkill包含两个关键组件:一个是“神经技能抽象器”,它使用神经网络来学习个体技能”,另一个是解决长期任务的“计划者”。DiffSkill使用可微物理模拟器为技能抽象器生成训练示例。这些示例展示了如何使用单一工具来实现短期目标,例如用擀面杖擀面团或用抹刀将面团四处移动。这些示例以RGB-D视频的形式呈现给技能抽象者。给定图像观察,技能抽象器必须预测期望的目标是否可行。该模型通过将其预测与物理模拟器的实际结果进行比较来学习和调整其参数。机器人操纵面团等可变形物体需要对不同工具的使用进行长期推理。DiffSkill方法利用可区分的模拟器来学习和结合这些具有挑战性的任务的技能。同时,DiffSkill训练变分自动编码器(VAE)来学习物理模拟器生成的示例的潜在空间表示。变分自编码器(VAE)保留重要特征并丢弃与任务无关的信息。变分自动编码器(VAE)在使DiffSkill能够规划更长的视野并通过将高维图像空间转换为潜在空间来预测感官数据观察结果方面发挥着重要作用。训练变分自动编码器(VAE)的重要挑战之一是确保它学习正确的特征并泛化到现实世界。在现实世界中,视觉数据的组成与物理模拟器生成的数据不同。例如,擀面杖或砧板的颜色与任务无关,但擀面杖的位置和角度以及面团的位置是相关的。目前,研究人员正在使用一种称为“域随机化”的技术,该技术将训练环境的不相关属性(例如背景和照明)随机化,同时保留工具的位置和方向等重要特征。这使得训练变分自动编码器(VAE)在应用于现实世界时更加稳定。林星宇说,“做到这一点并不容易,因为我们需要覆盖模拟和现实世界之间所有可能的差异(称为sim2realgap),更好的方法是使用3D点云作为场景的表示,这更容易从模拟到现实世界。事实上,我们正在开发一个使用点云作为输入的后续项目。”规划可变形物体的长期任务DiffSkill使用一个规划模块来评估不同的技能组合和序列,一旦技能抽象器被训练就能达到一个目标,DiffSkill使用一个规划模块来解决长期任务。规划者必须确定从初始状态到目的地所需技能的数量和顺序。规划器迭代可能的技能集和它们产生的中间结果。变分自动编码器在这里派上用场。DiffSkill不是预测完整的图像结果,而是使用VAE来预测最终目标的中间步骤的潜在空间结果。抽象技能和潜在空间表示的结合使得绘制从初始状态到目标的轨迹在计算上是有效的。事实上,研究人员没有优化搜索功能,而是进行了详尽的搜索所有的组合。林星宇说道:“既然是规划技能,那么计算工作不会太多,也不会花很长时间。这种详尽的搜索消除了为规划者设计草图的需要,这可能导致设计师无法以更通用的方式进行设计。考虑新颖的解决方案,尽管我们没有在我们尝试的有限数量的任务中观察到这一点。此外,还可以应用更复杂的搜索技术。”DiffSkill论文指出,“在单个NVIDIA2080TiGPU上,每个技能组合的优化可以在大约10秒内高效完成。”使用DiffSkill准备比萨饼面团研究人员针对已应用于可变形物体的几种基线方法测试了DiffSkill的性能,包括两种无模型强化学习算法和仅使用物理模拟器的轨迹优化器模型在需要的多项任务上进行了测试多个步骤和工具。例如,在一项任务中,AI代理必须用抹刀提起面团,将其放在砧板上,然后用擀面杖将其摊开。研究结果表明,DiffSkill在仅使用感官信息解决长期、多工具任务方面明显优于其他技术。实验表明,经过良好训练后,DiffSkill的规划器可以在初始状态和目标状态之间找到良好的中间状态,并找到合适的技能序列来解决任务。林星宇说,DiffSkill的规划器可以非常准确地预测中间步骤。在不同的时间抽象中思考,而不是思考下一秒要做什么。”但是,DiffSkill的能力也是有限的。例如,当执行一项需要三阶段规划的任务时,DiffSkill的性能会显着下降(尽管它仍然优于其他技术)。林星宇还提到,在某些情况下,可行性预测器会产生误报。研究人员认为,学习更好的潜在空间可以帮助解决这个问题。研究人员还在探索改进DiffSkill的其他方向,包括可用于更长任务的更高效的规划算法。林星宇表示,希望有一天,他能在真正的披萨制作机器人上使用DiffSkill。“我们离那里还差得很远。在控制、sim2real传输和安全方面存在各种挑战。但我们现在更有信心尝试执行一些长期任务,”他说。原标题:这种深度学习技术解决了机器人技术的一项艰巨挑战,作者:BenDickson
