一只狗,即使是我们从未见过的品种和颜色,我们也能一眼认出。感知周围的任何变化是人类与生俱来的能力。但是人工智能系统不同。即便到了SOTA级别,它也能完成人类无法完成的无数任务,但也有很多人类很容易做到的事情,它却无法胜任。比如让金毛换个角度:正面,侧面,正面,后面人工智能可能很难识别。深度学习模型擅长解释像素和标签之间的统计模式,但难以通过许多潜在的自然变化正确识别对象。路上有扫雪机吗?还是校车翻了?上图取自M.A.Alcorn等人的“Strike(with)apose:Neuralnetworksareeasilyfooledbystrangeposeoffamiliarobjects”,显示了深度神经网络将公共汽车错误分类为扫雪机。人类可以立即分辨,但颜色、大小和视角等因素会使情况复杂化,使AI模型难以做出预测。FacebookAI一直在探索如何更好地捕捉自然变化,传统解决方案在这方面有很大的局限性,称为分离。我们最近还引入了等变移位运算符的概念,这是替代解决方案的概念证明,可帮助模型通过模拟最常见的转换来了解对象可能如何变化。目前,FacebookAI在这方面的工作主要是理论性的,但对于深度学习模型,尤其是计算机视觉,潜力是巨大的:增加可解释性和准确性,即使在小数据集上训练时也有更好的性能,并提高泛化能力。FacebookAI希望这些贡献能够推动计算机视觉更进一步,更好地理解视觉世界的复杂性。当前方法的局限性当前的分离方法试图通过将模型中的每个因素编码到模型内部表示的单独子空间中来学习模型中对象的基本变换。例如,分离可能会将狗图像的数据集编码为姿势、颜色和品种子空间。这种方法擅长识别刚性数据集中变化的变量,例如单个MNIST数字或单个对象(例如椅子),但我们发现解缠在多个类别中表现不佳。想象一下多个旋转的形状,例如三角形和正方形。分离模型试图将物体的形状和方向这两个变量分离成两个变量。下图说明了传统的解缠绕无法隔离多个形状的数据集中的旋转。我们希望突出显示的形状旋转,但由于解缠失败,形状保持固定。解缠还会引入拓扑缺陷,这是一长串变换中的另一个问题。拓扑缺陷违反了连续性——深度学习模型的一个基本属性。没有连续性,深度学习模型就很难有效地学习数据中的模式。想象一下正三角形的旋转。旋转120度的正三角形与原始三角形没有区别,导致方向空间中的表示相同。然而,通过在三角形的一个角上添加一个无穷小的点,表示变得可辨认,违反了连续性。附近的图像被映射到相距较远的图像。FacebookAI的研究还表明,拓扑缺陷出现在不对称形状和许多其他常见的变换中。利用等变运算符揭示变化因素与其将每个变换限制为表示的一个组成部分,不如一个变换可以改变整个表示会怎样?这种方法的目标是发现能够操纵图像及其表示的运算符——每个变化因子对应一个运算符。这些被称为等变量。有一个数学分支叫做“群论”,可以教会我们很多关于应用等变算子的知识。它表明理解变化因素的一种直观方法是将它们建模为一组转换。例如,三角形的旋转有一个群结构:90度旋转和30度旋转组合产生120度旋转。FacebookAI使用这些想法来识别传统解耦的缺点,并确定如何训练此类变更操作员进行解耦。我们提出了一个称为移位算子的等变算子。这是一个矩阵,其块模仿常见变换的组结构——旋转、平移和重新缩放。然后在原始图像及其转换上训练AI模型。这表明即使在包含多个类的数据集中,移位运算符也能成功地学习转换——传统的解缠结经常失败的情况。未来基于群论的等变模型极大地扩展了理解纠缠的研究范围,而现有模型依赖于强监督,例如先验地理解兴趣的转换,并在模型中实现。但是,如何在最少的监督下发现数据集中的对称性?此前该领域的研究大多应用于合成数据,因此了解底层对称性可以使模型更加可靠。人类通过直观地将它们与以前见过的物体进行比较来识别未识别的物体。可以训练模型来变换图像的等分部分,而且关键的是,模型可以在遇到未知对象时重新组合分部分。最后,使用基于群论的模型处理真实数据集具有挑战性,因为群结构没有得到充分尊重。例如,在不均匀背景下旋转物体时,有很多方法可以推断出旋转后出现的像素值。将这个想法扩展到更真实的设置和数据集,例如没有人工增强的图像,可能被证明是一种有价值的方法。
