DeepMind旨在建立一个可以学习直觉物理的模型,并分析模型实现这种能力的原因。从AlphaFold到数学推理,DeepMind一直在尝试将AI和基础科学结合起来。现在,DeepMind创造了一个可以学习简单物理规则的新模型。发展心理学家测试了婴儿如何用眼睛跟随物体的运动。例如,当孩子们在播放视频时突然发现一个球消失了,他们会表现出惊讶。DeepMind计算机科学家LuisPiloto及其同事希望为人工智能(AI)开发类似的测试。使用立方体和球等简单物体的动画视频,该团队训练了一个神经网络,该网络通过在大量数据中发现模式来学习。该研究论文于7月11日发表于《Nature Human Behaviour》。论文地址:https://www.nature.com/articles/s41562-022-01394-8数据集地址:https://github.com/deepmind/physical_concepts这个模型通过自动编码和跟踪对象来学习物理,因此命名为PLATO(PhysicsLearningthroughAuto-encodingandTrackingObjects)。PLATO从视频中接收原始图像和突出显示场景中每个对象目标的图像版本。PLATO旨在开发物体物理特性的内部表示,例如它们的位置和速度。该系统接受了大约30小时的视频训练,这些视频显示了简单的运动机制(例如球从斜坡上滚下),并开发了预测这些物体在不同情况下的行为方式的能力。特别是,PLATO学习了连续性和鲁棒性,确保物体的轨迹不间断,物体形状持久。随着视频的播放,模型的预测变得更加准确。当播放带有“不可能”事件(例如物体突然消失)的视频时,PLATO可以测量视频与它自己的预测之间的差异,从而提供“惊喜”的衡量标准。“柏拉图并不是被设计成婴儿行为的模型,但它可以检验关于人类婴儿如何学习的假设,”Piloto说。“我们希望认知科学家最终可以用它来模拟婴儿的行为。”不列颠哥伦比亚大学的计算机科学家JeffClune表示:“将AI与人类婴儿的学习方式进行比较是一个重要的研究方向。PLATO研究人员手工设计了许多赋予AI模型优势的先验知识。像Clune这样的研究人员正试图让程序开发自己的算法来理解物理世界。应用发展心理学的知识为了在AI系统中追求更丰富的物理直觉,DeepMind的研究团队从发展心理学中汲取了灵感。该研究团队构建了一个深度学习系统,该系统结合了发展心理学的核心见解,即在离散对象及其相互作用的层面上理解物理学。在其核心,直觉物理学依赖于一组离散的概念(例如,对象持久性、坚固性、连续性等),这些概念可以被区分、操纵和单独探测。传统AI学习直觉物理学的标准方法是通过视频或状态预测器、二进制结果预测、问答性能或强化学习任务来学习物理世界。这些方法似乎需要理解直觉物理学的某些方面,但并没有明确地操作或战略性地探索一组清晰的概念。另一方面,发展心理学认为物理概念对应于对未来将如何展开的一系列期望。例如,人们期望物体不会突然神奇地从一个地方传送到另一个地方,而是在时间和空间中追踪连续的路径,这就引出了连续性的概念。因此,有一种方法可以衡量特定物理概念的知识:违反期望(VoE)范式。在使用VoE范式探索特定概念时,研究人员向婴儿展示了视觉上相似的阵列(称为探针),这些阵列与物理概念一致(物理上可能)或不一致(物理上不可能)。在这个范例中,“惊讶”是通过注视持续时间来衡量的。方法介绍首先,DeepMind提出了一个非常丰富的视频语料库——PhysicalConcepts数据集。该数据集包含针对五个重要物理概念的VoE探索视频,这些物理概念被认为是发展心理学的核心要素,包括连续性、目标持久性和稳定性。第四个是不变性,它抓住了某些目标属性(例如形状)不会改变的概念;五是方向性惯性,即期望运动物体会朝着符合惯性原理的方向变化。最重要的是,物理概念数据集还包括一个单独的视频语料库作为训练数据。这些视频展示了各种程序生成的物理事件。图2:用于训练模型的视频数据集示例。PLATO模型架构Deepmind旨在构建一个能够学习直觉物理的模型,并剖析该模型实现这种能力的原因。人工智能领域的一些先进系统在PLATO模型中被实例化。首先是目标个性化过程。目标个性化过程将视觉的连续感知输入切分为一组离散的实体,其中每个实体都有一组相应的属性。在PLATO中,每个分段视频帧都被感知模块分解为一组对象代码(图3a-c),从而实现从视觉输入到单个对象的映射。PLATO不会学习分割场景,但它会学习给定分割目标的压缩表示。其次,对象跟踪(或对象索引)为每个对象分配一个索引,从而实现对象感知和动态属性计算之间的跨时间对应(图3b、c)。在PLATO中,对象代码在对象缓冲区中的帧上累积和跟踪(图3d)。最后一个组成部分是这些被跟踪对象的关系处理,这是一个受发展心理学中提出的“物理推理系统”启发的过程,它可以动态处理对象的表示,生成将受对象影响的新表示。与其他对象的关系和交互的影响。PLATO学习对象记忆和对象感知历史之间的相互作用(图3d),为下一个对象生成预测视频帧并更新基于对象的记忆。图3:PLATO由两部分组成:感知模块(左)和动态预测(右)。实验结果。在测试时,当使用五个不同的随机种子进行训练时,PLATO被证明在所有五个探测类别中都很稳健。VoE效应。图5:PLATO在物理概念数据集的检测中表现出稳健的性能。PhysicalConcepts数据集中的训练语料库包含总共300,000个视频。使用保守的计算方法,大约需要52天的连续视觉体验。从AI和开发的角度来看,这提出了一个问题,即实际需要多少训练数据才能在测试中产生VoE效果。为了评估这一点,Deepmind在大小递减的数据集上训练了PLATO动态预测器的三个随机种子(图6),计算了所有五个探测类别的VoE效应的总体平均值。在仅对50,000个示例进行训练后,研究结果显示,在使用少至50,000个示例(相当于28小时的视觉体验)进行训练后,Deepmind的模型具有强大的VoE效果。图6:PLATO在短短28小时的视觉体验中展示了强大的结果。泛化测试:DeepMind使用ADEPT数据集,旨在探索直观的物理知识。如图7所示,PLATO对所有三种检测类别都显示出明显的VoE效应。图7:PLATO在没有任何再训练的情况下展示了对看不见的物体和动力学的鲁棒性。更多内容请查看原论文。
