来自MIT-IBM沃森人工智能实验室首席科学家甘创团队提出的新一代视觉推理数据集,即数据集提出了Part-basedvisualreasoning,它融合了五类人类认知推理任务:概念推理、关系推理、类比推理、数学推理和物理推理。人类视觉感知的一个关键点是将视觉场景分解为对象,进一步分解为对象的各个部分,从而形成部分-整体的层次结构。这种层次结构可以归纳出丰富的语义概念和关系,对视觉信息的解释和组织以及视觉感知和推理的概括具有重要作用。然而,现有的视觉推理数据集主要关注整个对象而不是对象的局部。由于更细粒度的概念、更丰富的几何关系和更复杂的物理关系,基于部分-整体层次结构的视觉推理比以对象-整体为中心的推理更具挑战性。因此,为了更好地说明和理解基于局部的概念和关系,本文引入了一个新的名为PTR的大规模诊断视觉推理数据集。PTR包含大约七万张RGBD合成图像,其中包含关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(如稳定性)的对象和局部注释。这些图像伴随着五种类型的问题:概念推理、关系推理、类比推理、数学推理和物理推理。这些类型都来自人类认知推理的重要方面,但在以前的工作中尚未得到充分探索。本文检查了该数据集上的几个最先进的视觉推理模型。研究人员观察到它们的表现远低于人类表现,尤其是在一些较新类型的推理(例如几何、物理问题)任务上。研究期望该数据集能够推动机器推理向更复杂的人类认知推理推进。论文地址:http://ptr.csail.mit.edu/assets/ptr.pdf项目主页:http://ptr.csail.mit.edu1。背景介绍视觉推理需要机器通过观察给定的场景问题来回答推理。近年来,由于自然数据中存在大量噪声和偏差,研究人员合成了数据集。合成数据集的生成是完全可控的,使研究人员更容易诊断推理模型中的缺陷。CLEVR[1]是此类数据集的代表。然而,各种视觉推理模型在CLEVR上的准确率已经接近饱和,这是因为CLEVR数据集的推理仅限于感知层面,远远落后于人类在认知层面的推理能力。因此,本文提出了新一代视觉推理数据集,重点关注对人类来说相对容易但在机器推理领域尚未得到充分探索的新任务。同时,以前的视觉推理数据集主要关注对象的全局特征,而不太重视详细的局部理解。然而,心理学证据表明人类将视觉场景解析为部分-整体层次结构。因此,本文提出的数据集主要侧重于整体-部分关系的推理。图2:PTR数据集介绍2.数据集介绍PTR数据集有70,000张RGBD图像和基于这些图像的700,000个问题。这篇论文的作者提供了详细的图像标注,包括语义实例分割、几何和物理状态标注。数据集是通过细粒度偏差和噪声控制生成的。下图总结了PTR数据集涵盖的概念。图3:PTR数据集中的概念可以看出,PTR数据集在认知层面具有丰富的概念和关系。就整体而言,有空间关系、物理状态等概念,就局部而言,有几何关系等概念。whole-part的加入大大增加了视觉推理的层次和丰富度。PTR数据集包含五类问题:概念推理、关系推理、类比推理、数学推理和物理推理。2.1概念推理主要考察机器对概念和整体-部分关系的理解。2.2关系推理主要考察机器对物体之间的空间关系和零件之间的几何关系的理解。2.3类比推理主要考察机器能否将物体/部件之间的关系迁移到其他物体/部件上。2.4数学推理主要考察机器能否对场景进行数学推理。2.5物理推理主要考察机器能否对物体的物理状态做出判断。3.实验部分本文测试了几种SOTA视觉推理模型对该数据集的效果,包括NS-VQA[2]、MDETR[3]、MAC[4]等。图4:实验结果从结果来看,可以可见视觉推理模型的效果远低于人类表现。其中,NS-VQA使用了ground-truth分割和语义等训练模型。然而,在物理和几何等较难的问题上效果仍然很差。为了进一步探究这一结果是源于感知不准确还是认知推理能力不足,本文对NS-VQA模型进行了消融研究。图5:NS-VQA模型的消融研究结果表明,即使具有完美的感知和模型所需的所有对象和局部分割,该模型在几何、类比和物理问题上仍然不被看好。实验表明,这个研究数据集为未来机器如何进行与人类相同的认知推理提供了一个非常重要的方向,尤其是在一些困难的物理和集合问题上。
