动态视觉推理(DynamicVisualReasoning),特别是涉及物体之间物理关系的推理,是计算机视觉中的重要难点问题。给定一段观察视频,不仅需要模型根据视频推断出视频中物体的交互过程,还需要预测物体的长期未来(Long-term)和反事实(Counterfactual)情况视频,而这两个预测恰好是现有神经网络模型的弱点。现有的方法大致可以分为两类:使用端到端神经网络(如VisionTransformer)对对象之间的关系进行建模的方法[3],以及基于神经符号(Neuro-Symbolic)的推理模型[2],4];前者得益于Transformer等强大的表示能力,性能良好,但依赖数据量大,推理过程不透明,难以解释;而后者的推理是基于神经符号一步步进行的,模型具有良好的可解释性,但准确性有限。此外,现有方案难以解决长期和反事实预测的问题。本文提出的基于可微物理模型的神经符号推理框架很好地解决了这个问题。它从视频和问题对中学习物理模型,并使用显式物理模型对对象动力学进行建模。基于的准确动态预测,回答长期和反事实预测问题。我们的框架是透明可解释的,并且在准确性上优于基于Transformer的模型。此外,它显示出良好的数据效率,仅使用20%或更少的数据就取得了良好的结果。这篇论文的作者分别来自香港大学(HKU)、麻省理工学院(MIT)和麻省理工学院-IBM沃森人工智能实验室,该论文已被NeurIPS2021接收。图1.[NeurIPS2021]VRDP作者介绍项目主页:http://vrdp.csail.mit.edu/论文链接:http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf代码链接:https://github.com/dingmyu/NCP背景及数据介绍本文中使用最多的数据集是CLEVRER数据集[2]。如下图所示,它使用简化的物体(球体、圆柱体、立方体等)来学习动力学相关的推理问题:1.发生了什么?(描述性问题);2.为什么会这样?(解释性问题);3.会发生什么?(预测问题);4.如果……会发生什么(反事实问题)。人类可以利用物理直觉和常识相对容易地推断出这些问题,但这对机器来说有些困难,尤其是Counterfactual问题。例如,如果没有黄色金属圆筒会怎样?这就考验了物理建模和空间想象的能力。尽管基于Transformer的模型可以很好地解决描述性和解释性问题,但在反事实情况下它们总是失败。图2.CLEVRER推理数据集示例方法介绍本文作者发现现有方案的缺点是没有显式地使用物理模型,而是过于依赖神经网络或GNNs的隐式推理,这导致它们在长期预测和反事实。视频中的逻辑在推理中无法很好地捕捉到。基于此,作者引入了可微物理引擎,通过从视频中捕捉到的物体轨迹和属性,还原出视频中物体和场景的物理参数(速度、加速度、质量、弹性系数、摩擦力等)。一旦推断出所有相关物理参数,即获得显式物理模型,作者利用物理模型进行基于预测和反事实的物理模拟,并根据模拟的轨迹和特征回答相关问题。具体过程如下图所示。图3.基于物理模型的推理示例。(1)利用感知模块从视频中获取每个物体及其对应的轨迹和属性;(2)利用上述视频观察,通过可微物理模拟学习相关物理参数;(3)通过物理模拟预测并回答相关问题。但是,上述框架仍然存在难点。在现实世界中,物体的属性往往是没有标注的。在这种情况下,很难通过感知模块获取物体的相关属性(如颜色、形状)。没有这样的先验信息,就不可能进行可微的物理模拟,也就不可能学习到准确的物理模型。因此,作者提出了VRDP框架,将视觉感知模块、概念学习器和物理模型结合起来,利用三个无缝模块来解决上述问题。其中,视觉感知模块用于对每一帧图片进行分割,得到每个物体以及对应的轨迹;概念学习器负责从物体的轨迹信息和问题对中学习物体的属性;得到物体的运动轨迹和属性后,通过可微的物理模拟,学习到更准确的物理模型;完成基于物理模型的长期反直觉推理。整体框架如下:图4.VRDP框架。由三部分组成:视觉感知模块、概念学习器、可微分物理模型具体来说,框架中的物理引擎是一个基于动量和动能守恒的碰撞模型,它从一个角度估计物体的实时速度和加速度singlevideotrajectory,并用它来估计场景的摩擦力等参数。此外,它通过碰撞事件来估计碰撞物体的相对质量和弹性系数,一旦这些参数被学习,就可以自由地进行各种模拟和推理。本文概念学习器为问题中的每个概念词分配一个编码(embedding),从视频轨迹中学习物体感知的特征,通过将视觉特征和语义编码投影到同一个空间并检索得到每个物体他们。相应的属性参见NS-CL[1]。如下所示。图5.概念学习器本文中的神经符号执行器使用NS-DR[2]和DCL[4]中的方案,通过预测的物体轨迹和碰撞事件进行显式符号推理,例如filter(Green)意味着得到所有绿色物体,filter(Collision,filter(Green),filter(Cube))表示找出绿色物体与立方体的碰撞事件。通过显式物理模型和神经符号执行器,本文框架的每一步都是可解释和完全透明的,整个推理过程类似于人类的逐步推理。Demo展示图6.物理仿真实例,左边是原始视频,右边是仿真结果在数据集上测试,在比较难的PredictiveandCounterfactual问题上取得了最高性能,并且还取得了描述性和解释性问题的竞争结果,如下表所示。图9实验结果(全数据)另外,它具有极高的数据利用效率,仅使用20%的数据就得到了相当不错的结果,远超现有的其他方案,如下图所示。图10.数据效率评估(部分数据)。作者还证明,通过使用可微物理模型,VRDP可以轻松扩展到数据集中不存在的新概念,例如“更重”的概念。VRDP成功地模拟了物理并准确地预测了当蓝色圆柱体更重时会发生什么,这是一种更复杂的反事实情况。图11.扩展到新的反事实概念“较重”
