目前机器人学的研究主要是设计机械臂来抓取特定形状的物体,而抓取可变形物体的相关研究较少。操纵可变形物体的一个困难是无法知道物体的内部参数。例如,对于一个刚性立方体,知道一个固定点相对于它的中心的位置就足以描述它在三维空间中的形状,但是对于一个柔软的物体,就像丝绸一样,布料上的一个点可以保持固定,而其他点零件移动。这使得感知算法很难描述织物的完整“状态”,尤其是在遮挡下。此外,即使具有完全描述的可变形物体,其动力学也是复杂的。这使得在对其进行一些操作后很难预测可变形物体的未来状态,通常需要多步规划才能达到目标状态。在ICRA2021大会上,谷歌发布了名为deformaleravens的开源仿真基准测试,这将极大地推动对可变形物体操纵的研究。论文共设计了12个任务,包括操纵电缆、织物和袋子,还包括一系列用于操纵可变形物体以达到所需目标状态的模型架构。这些模型架构还使机器人能够重新排列电线以达到目标状态,顺利地将非钢物体(如织物)带到指定的形状,或将物体放入袋子中。这是第一个包含机器人必须使用袋子来装其他物品的特定任务的模拟器,这对机器人学习更复杂的相对空间关系提出了关键挑战。DeformableRavens基准数据集Deformaleravens扩展了谷歌之前在重新排列对象方面的工作,包括一组12个模拟任务,涵盖1D、2D和3D可变形结构。每项任务都包含一个模拟UR5手臂和一个用于夹紧抓握的模拟抓手,并捆绑了一个脚本演示器,该演示器可以自动收集数据以进行模仿学习。该任务随机化分布中项目的起始状态,以测试不同对象配置的普遍性。UR5是一款轻型、适应性强的协作式工业机器人,极其灵活,可以处理中型应用。UR5e专为无缝集成到广泛的应用程序而设计。UR5e也可用作带3位示教器的OEM机器人系统。指定操作任务的目标对于可变形物体尤其具有挑战性。鉴于其复杂的动力学和高维配置空间,目标不能像一组刚性物体姿势那样容易确定,并且可能涉及复杂的相对空间关系,例如“将物品放入包中”。因此,除了分发脚本演示定义的任务外,我们的基准测试还包含目标图像指定的目标条件任务。对于目标受限任务,对象的给定起始配置必须与显示同一对象所需配置的单独图像配对。这种特殊情况的成功取决于机器人是否能够使当前配置足够接近目标图像中传达的配置。Goal-ConditionedTransporterNetworks是一种以动作为中心的模型架构,它将目标调节集成到谷歌之前发布的TransporterNetwork架构中,以补充模拟基准中的目标调节任务。对深层特征进行排序以从视觉输入推断空间位移非常适合刚性对象操作。该架构将当前环境的图像和目标图像作为输入,计算这两幅图像的深度视觉特征,然后使用逐元素乘法来组合这些特征,以关联场景中的刚性和可变形物体。Transporter网络结构的一个优点是它保留了视觉图像的空间结构,提供归纳偏差,将基于图像的对象条件化为更简单的特征匹配问题,并提高了卷积网络的学习效率。涉及目标条件的示例任务,例如,将绿色块放入黄色袋子中,机器人需要学习空间属性,使其能够执行一系列多步动作以打开黄色袋子的顶部开口并放置把块放进去。它把立方体放入黄色袋子后,就成功结束了。如果方块放在目标图像中的蓝色包中,则需要将方块放入蓝色包中。结果表明,目标条件传输网络使代理能够将可变形结构操纵成灵活指定的配置,而无需测试时间视觉锚定目标位置。我们还通过测试2D和3D可变形身体任务,显着扩展了之前使用传输网络操纵可变形物体的工作。实验结果进一步表明,所提出的方法比基于地面真实姿态和顶点位置的传统方法具有更高的采样效率。例如,学习到的策略可以有效地模拟装袋任务,还可以提供目标图像,以便机器人必须推断出物品应该放在哪个袋子里。未来的工作还有几个可扩展的目标,例如减少观察到的故障模式。例如,当机器人向上拉袋子并导致其抓握的物体掉落时,它失败了。在另一个案例中,机器人将物品放在袋子不规则的外表面上,导致物品掉落。未来的算法改进可能允许动作以更高的频率运行,以便机器人可以实时做出反应以抵消这些可能的故障情况。另一个发展领域是基于Transporter网络的可变形物体操纵模型的训练,使用不需要专家演示的技术,例如基于实例的控制或基于模型的强化学习。
