当前位置: 首页 > 科技观察

让AI认“生狗”?Facebook构建了一个可以感知变化运算符的人工智能

时间:2023-03-21 21:21:51 科技观察

一只狗,即使是我们从未见过的品种和颜色,我们也能一眼认出。感知周围的任何变化是人类与生俱来的能力。但是人工智能系统不同。即便到了SOTA级别,它也能完成人类无法完成的无数任务,但也有很多人类很容易做到的事情,它却无法胜任。比如让金毛换个角度:正面,侧面,正面,后面人工智能可能很难识别。深度学习模型擅长解释像素和标签之间的统计模式,但难以通过许多潜在的自然变化正确识别对象。路上有扫雪机吗?还是校车翻了?上图取自M.A.Alcorn等人的“Strike(with)apose:Neuralnetworksareeasilyfooledbystrangeposeoffamiliarobjects”,显示了深度神经网络将公共汽车错误分类为扫雪机。人类可以立即分辨,但颜色、大小和视角等因素会使情况复杂化,使AI模型难以做出预测。FacebookAI一直在探索如何更好地捕捉自然变化,传统解决方案在这方面有很大的局限性,称为分离。我们最近还引入了等变移位运算符的概念,这是替代解决方案的概念证明,可帮助模型通过模拟最常见的转换来了解对象可能如何变化。目前,FacebookAI在这方面的工作主要是理论性的,但对于深度学习模型,尤其是计算机视觉,潜力是巨大的:增加可解释性和准确性,即使在小数据集上训练时也有更好的性能,并提高泛化能力。FacebookAI希望这些贡献能够推动计算机视觉更进一步,更好地理解视觉世界的复杂性。当前方法的局限性当前的分离方法试图通过将模型中的每个因素编码到模型内部表示的单独子空间中来学习模型中对象的基本变换。例如,分离可能会将狗图像的数据集编码为姿势、颜色和品种子空间。这种方法擅长识别刚性数据集中变化的变量,例如单个MNIST数字或单个对象(例如椅子),但我们发现解缠在多个类别中表现不佳。想象一下多个旋转的形状,例如三角形和正方形。分离模型试图将物体的形状和方向这两个变量分离成两个变量。下图说明了传统的解缠绕无法隔离多个形状的数据集中的旋转。我们希望突出显示的形状旋转,但由于解缠失败,形状保持固定。解缠还会引入拓扑缺陷,这是一长串变换中的另一个问题。拓扑缺陷违反了连续性——深度学习模型的一个基本属性。没有连续性,深度学习模型就很难有效地学习数据中的模式。想象一下正三角形的旋转。旋转120度的正三角形与原始三角形没有区别,导致方向空间中的表示相同。然而,通过在三角形的一个角上添加一个无穷小的点,表示变得可辨认,违反了连续性。附近的图像被映射到相距较远的图像。FacebookAI的研究还表明,拓扑缺陷出现在不对称形状和许多其他常见的变换中。使用等变算子揭示变分因子数学中有一个分支叫做“群论”,它可以教会我们很多等变算子的应用。它表明理解变化因素的一种直观方法是将它们建模为一组转换。例如,三角形的旋转有一个群结构:90度旋转和30度旋转组合产生120度旋转。FacebookAI使用这些想法来识别传统解耦的缺点,并确定如何训练此类变更操作员进行解耦。我们提出了一个称为移位算子的等变算子。这是一个矩阵,其块模仿常见变换的组结构——旋转、平移和重新缩放。然后在原始图像及其转换上训练AI模型。