本文转载自雷锋网。人类在描述场景时,往往会描述物体之间的空间关系。生物视觉识别涉及自上而下和自下而上路径的相互作用,而深度神经网络仅模拟第二条路径。自上而下的视觉通路涉及生物视觉感知的整体性、拓扑性和多解特性,尤其是在理解图像时,会面临无穷无尽的数学解。而这些特性可能是深度神经网络下一步的改进方向。“视觉场景理解包括检测和识别物体,推断检测到的物体之间的视觉关系,以及使用句子来描述图像区域。”根据《我们赖以生存的隐喻》,客体关系比语义关系更基础,因为语义关系背后都包含了对客体关系的假设。就像下图,两只猫在“打架”,另一只猫在旁边看热闹。通过这个例子,人类可以非常清晰、直接地观察和捕捉猫的位置、行为和联想。但许多深度学习模型无法以同样的方式理解复杂的现实,捕获所有信息并进行解析,因为它们不理解个体对象之间的“纠缠”关系。那么问题来了,如果这些关系“不清楚”,设计用于厨房的机器人就很难执行“拿起左边柜子下面炉子上的铁锅”这样的指令。菜板炖大鹅”。为了让机器人准确地完成这些任务,麻省理工学院的李双和杜一伦与伊利诺伊大学厄巴纳-香槟分校的刘楠合作提出了一个模型,可以理解场景中物体之间的空间关系。该模型具有良好的泛化能力,可以结合多个对象的空间关系生成或编辑复杂的图片。该论文已被NeurIPS2021接受为Spotlight演讲。论文链接:https://arxiv.org/abs/2111.09297总的来说,该研究有三个主要贡献:1.提出了一个框架来分解和组合对象之间的关系,可以根据所描述的组合生成和编辑图像对象之间的空间关系,并且明显优于基线方法。2.能够推断出潜在对象之间的场景描述,对对象之间的语义等价有很好的理解。语义等价是同一场景但表达不同,例如苹果在香蕉的左边,香蕉在苹果的右边。3.最重要的是,通过组合对象关系的描述,该方法可以扩展到以前从未见过的更复杂的关系描述。这种概括可以应用于执行复杂的多步骤操作任务的工业机器人,例如在仓库中堆放物品或组装电器。让机器进一步“仿生”人类从环境中学习和交互,并通过不断的学习分解和组合来快速适应新环境,学习新任务。合著者杜逸伦说:“当我们看到一张桌子时,我们不会用空间坐标系的XYZ三个轴来表示物体的位置,因为人的大脑不是这样工作的。我们洞察到“周围环境是基于物体之间的距离关系。通过构建一个能够理解物体之间关系的系统,它可以更有效地操纵机械来改变周围的场景。”单次单关系研究者提出的框架的亮点在于“能够以人性化的方式‘解读’场景中物体之间的关系”。比如输入一段文字——木桌在蓝色沙发的右侧,木桌在木柜的前面。系统首先将句子拆分成两部分:“木桌在蓝色沙发的右侧”和“木桌在木柜前面”,然后分别描述各个部分之间的空间关系一个,然后为每个关系构造一个概率分布。模型,这些分离的“结构”通过优化过程汇集在一起??,最终生成完整而准确的场景图像。基于能量的模型(Energy-BasedModel)研究人员利用机器学习中的“基于能量的模型”对每一对物体的直接空间关系进行编码,然后像乐高积木一样将它们组合起来描述整个场景。合著者李爽解释说:“该系统通过重新组合对象之间的描述,产生了良好的泛化能力,可以生成或编辑以前从未见过的场景。”杜一伦还表示:“其他系统都是从整体上考虑场景中物体之间的关系,然后根据文本描述一次性生成场景图像。一旦包含更复杂的场景描述,这些模型就无法真正理解和理解产生想要的场景图像。我们将这些分离出来,将更小的模型集成起来,对更多的关系进行建模,从而可以产生新颖的组合。这个模型也可以反过来,给定一张图像和不同的描述文本,它可以准确地找到场景结构是与匹配对象关系的描述文本相关。理解复杂场景,NanLiu等人提出的模型在每种情况下都优于基线。“我们的模型在训练期间只看到一个对象关系描述,但在测试中,当对象关系时描述增加到两个,三个,甚至四个,我们的模型仍然运行良好,其他机器学习方法失败。”如图所示,图像Editing列出了不同方法在CLEVR和iGibson数据集上的分类结果。这两种方法都大大优于基线——StyleGAN2和StyleGAN2(CLIP)。模型在2R和3R测试子集上也表现良好,所提出的方法对描述训练分布之外的关系场景具有良好的泛化能力。研究人员还要求实验参与者对生成的图像与场景描述的匹配程度进行评分。在描述三对象关系的最复杂示例中,91%的人认为该模型比其他基线表现更好。在模型代码网页的InteractiveDemo展示中,可以清楚的看到,新模型在多层物体的位置,依然可以根据指令准确生成我们想要的图像。由OpenAI训练的神经网络模型“DALLE”还可以根据自然语言中的各种概念创建带有文本标题的图像。DALL·E虽然可以很好地理解对象,但不能准确理解对象之间的关系。可以说刘楠等人提出的新模型的鲁棒性。非常优越,尤其是在处理从未遇到过的场景描述时,其他算法只能望其项背。虽然早期的实验效果很好,但研究人员希望该模型能够在更复杂的现实场景中进一步执行任务,例如背景嘈杂和物体相互阻挡的场景。更进一步,机器人可以从视频中推断出物体的空间关系,然后应用这些知识与周围环境中的物体进行交互。“开发能够理解事物之间的关系并通过不断组合识别新事物的事物是计算机视觉领域的关键开放问题之一,”捷克信息学、机器人学和控制论研究所的杰出研究员JosefSivic说。捷克技术大学。他们的实验结果确实令人震惊。》作者介绍刘楠,伊利诺伊大学香槟分校硕士,2021年毕业于密歇根大学安娜堡分校计算机专业,获计算机学士学位。目前从事计算机视觉和计算机视觉方面的研究。机器学习.ShuangLi,Ph.D.,MITCSAIL,师从AntonioTorralba.主要研究语言作为交流和计算工具的使用,以及构建可以持续学习并与周围世界交互的智能体.YilunDu,MITCSAIL博士生,师从LeslieKaelbling,TomasLozano-Perez和JoshTenenbaum教授。他的兴趣在于构建能够像人类一样感知和理解世界的智能体,以及构建模块化系统。曾获得国际金奖生物奥林匹克。JoshuaB.Tenenbaum是麻省理工学院脑与认知科学系的教授,也是CSAIL的研究员。1993年获得耶鲁大学物理学博士学位,并获得博士学位。Tenenbaum于1999年获得麻省理工学院博士学位。Tenenbaum因其对数学心理学和贝叶斯认知科学的贡献而闻名,他是最早开发并将概率和统计建模应用于人类学习、推理和感知研究的人之一。2018年,R&D杂志将Tenenbaum评为“年度创新者”。麦克阿瑟基金会授予他2019年麦克阿瑟院士称号。AntonioTorralba,麻省理工学院电气工程与计算机科学系(EECS)人工智能与决策系主任,CSAIL首席研究员,MIT-IBM主任沃森人工智能实验室,2021年AAAI院士。1994年在TelefónicaBCN获得电信工程学士学位,2000年在法国格勒诺布尔国立理工学院获得信号、图像和语音处理博士学位。他是国际计算机视觉杂志的副主编,也是2015年计算机视觉与模式识别会议。2008年美国国家科学基金会职业奖,2009年IEEE计算机视觉与模式识别会议最佳学生论文奖,2010年JK国际模式识别协会Aggarwal奖。2017年FrankQuick学院研究创新奖学金和LouisD.Smullin卓越教学奖。
