人们通常会观察场景中的物体以及物体之间的关系。比如我们经常描述这样一个场景:桌面上有一台笔记本电脑,笔记本电脑的右侧放着一部手机。但这种观察对于深度学习模型来说很难,因为这些模型不了解每个对象之间的关系。如果不了解这些关系,功能机器人将很难完成任务。例如,厨房机器人将难以执行诸如:“拿起炒锅左侧的水果刀并将其放在砧板上”之类的命令。为了解决这个问题,麻省理工学院的研究人员在NeurIPS2021Spotlight论文中开发了一种模型,可以理解场景中对象之间的潜在关系。该模型一次表示一个单独的关系,然后组合这些表示来描述整个场景,使模型能够从文本描述中生成更准确的图像。论文地址:https://arxiv.org/abs/2111.09297在现实生活中,人们并不是依靠坐标来定位物体,而是依靠物体之间的相对位置关系。这项研究的结果将应用于工业机器人必须执行复杂的多步骤操作任务的情况,例如在仓库中堆放物品和组装电器。此外,这项研究可以帮助机器以与人类相同的方式从环境中学习并与之互动。一次表示一种关系本研究提出使用基于能量的模型来表示个体关系并将其分解为非标准化密度。关系场景描述表示为关系上的独立概率分布,每个单独的关系指定单独图像上的概率分布。这种组合方法可以对多个关系之间的交互进行建模。这项研究表明,所提出的框架可以可靠地捕获和生成具有多种组成关系的图像,并且可以推断潜在的关系场景描述,并且可以稳健地理解语义等价的关系场景描述。在泛化方面,该方法泛化到以前看不见的关系描述,包括训练期间看不见的数据集中的对象和描述。这种概括对于通用人工智能系统适应周围世界的无限变化至关重要。一些以前的系统可能会从整体上考虑所有关系,并一次性从描述中生成图像。然而,这些模型并不能真正适应添加了更多关系的图像。相比之下,该研究的方法结合了独立的、更小的模型,这些模型能够模拟更多的关系并适应新的关系组合。此外,该系统以相反的方式工作——给定一张图像,它可以找到与场景中对象之间的关系相匹配的文本描述。该模型还可以通过重新排列场景中的对象来编辑图像,使其与新描述相匹配。研究人员将他们的模型与几种类似的深度学习方法进行了比较,实验表明他们的模型在每种情况下都优于基线。他们还邀请人类评估生成的图像是否与原始场景描述相符。在描述具有三种关系的示例时,91%的参与者认为该模型比以前的模型表现更好。这些早期结果令人鼓舞,研究人员希望未来该模型能够在更复杂的真实世界图像上运行,这些图像需要解决对象遮挡、场景混乱等问题。他们还期望该模型最终能够集成到机器人系统中,使机器人能够推断出现实世界中的对象关系并更好地执行交互任务。感兴趣的读者可以阅读论文原文了解更多研究细节。
