本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。你能想象有一天打开深度学习的入口,发现:深度学习的江湖已经统一了吗?几何对称能玩转整个深度学习吗?通过对称和变换,你能提取出你需要构建的涵盖CNNs、GNNs、LSTMs、Transformers、DeepSets、meshCNN等的架构吗?不要惊讶,不要怀疑。一百多年前,埃尔兰根大学一位23岁的小伙给出了答案。他一手开创了“埃尔兰根计划”,从而做出了改变数学史的几何学开创性工作。几何对称问题的起源是在182年1月,当时德国埃尔朗根大学聘请了一位新的年轻教授。按照惯例,他被要求提供一份就职研究计划,他以冗长乏味的标题VergleichendeBetrachtungenüberneueregeometrischeForschungen(“最新几何研究的比较评论”)发表。这就是FelixKlein,当时年仅23岁,他的开创性工作被称为“埃尔兰根计划”,在数学史上具有浓厚的一笔。十九世纪是直线几何爆炸的时代。在欧几里得之后近两千年,庞斯莱特构建了射影几何,高斯、波利亚里和罗巴切夫斯基构建了双曲几何,而黎曼构建了椭圆几何。克莱因的埃尔兰根计划的突破是在几何学研究中使用结构对称性。克莱因采用群论的形式来定义这种变换,并采用群及其子群的层次结构来对产生的不同几何进行分类。因此,刚性运动产生传统的欧氏几何,而仿射或射影变换分别产生仿射和射影几何。埃尔兰根计划不仅对几何学和数学产生了深远的影响,而且影响到物理学领域。对称性可以从守恒定律的第一原理,即诺特定理推导出来。经过几十年的发展,直到1954年杨振宁和米尔斯提出规范不变性概念的广义形式,证明了这一基本原理,成功统一了除引力之外的自然界所有基本力。这个标准模型已经描述了我们目前所知的所有物理学。所以,诺贝尔物理学奖得主菲利普·安德森(PhilipAnderson)的话很好:“说物理学是对称性的研究只是稍微夸大了一点。”“说物理学本质上是研究对称的,这有点夸张。”深度学习的现状与19世纪的几何图形惊人地相似:一方面,在过去的十年中,深度学习带来了数据科学的一场革命,并且它完成了许多以前被认为不可能完成的任务:无论是计算机视觉、语音识别、自然语言翻译,还是下围棋。另一方面,现在有针对不同类型数据的不同神经网络架构的“动物园”,但统一的原则很少。这使得很难理解不同方法之间的关系,也会导致同一个概念的多次发明和资源浪费。在机器学习中,pairness的重要性其实早就被认识到了。特别是在模式识别和应用中计算机视觉,等变特征检测的早期工作可以追溯到ShunichiAmari和ReinerLenz。在神经网络文献中,组不变MarvinMinsky和??SeymourPapert提出的感知器ance定理对(单层)感知器学习不变性的能力进行了基本限制。如何“统一”几何深度学习,请看采用的“几何深度学习”:几何深度学习是MichaelM.Bronstein、JoanBruna、TacoCohen、PetarVeli?kovi?等人介绍的一个统称,指的是类似的基于Klein的Erlangen程序,对几何机器学习的统一尝试的总称。它有两个目的:首先,为推导最成功的神经网络架构提供一个通用的数学框架,其次,给出一个建设性的过程并以有原则的方式构建未来的架构。在最简单的情况下,有监督机器学习本质上是一个函数估计问题:给定训练集上某个未知函数的输出(例如,狗和猫的标记图像),我们试图从某个假设的函数类中推导出一个函数f适合训练并且可以预测以前看不见的输入的输出。在过去十年中,ImageNet等大型高质量数据集的可用性与不断增长的计算资源(GPU)相吻合,从而允许设计可以插入此类大型数据集的功能丰富的类。神经网络似乎是表示函数的合适选择,因为即使是最简单的体系结构(例如感知器)也可以在仅使用两层时生成类似密集的函数,允许任何连续函数近似到任何所需的精度,此属性称为《万能逼近》(UniversalApproximation)。低维问题的设定是逼近理论中的经典问题,得到了广泛的研究,其估计误差由精确的数学方法控制。然而,在高维情况下情况就完全不同了:可以很快看到,即使是逼近一类简单的Lipschitz连续函数,样本数量也会随着维数呈指数增长,这种现象通常被称为“维数灾难”。由于现代机器学习方法需要处理数千甚至数百万维度的数据,维度的诅咒总是在幕后上演,阻止我们以一种天真的方式学习。△维数灾难图示:要逼近一个由高斯核组成的连续Lipschitz函数,在一个d维单位超立方体(蓝色)的象限内,误差为ε,需要(1/ε?)个样本(红点)。这可能在图像分类等计算机视觉问题中最为常见。即使是小图像也往往具有非常高的维度,但直觉上,当将图像解析为向量以将它们输入感知器时,许多图像的结构会被破坏并丢弃。如果现在将图像仅移动一个像素,则矢量化输入将大不相同,神经网络将需要显示许多示例,因此必须以相同的方式对移动后的输入进行分类。原理简单介绍,通过对称性、不变性和群的角度,包含两个原理:“先验对称性”在很多高维ML问题的情况下,我们可以采用一个额外的结构信息,它来自于几何输入信号。我们称这种结构为“先验对称”,它是一个普遍有效的原则,可以让我们对维数引起的问题持乐观态度。在我们的图像分类示例中,输入图像x不仅是一个d维向量,而且还是一个在某个域Ω上定义的信号,在本例中是一个二维网格。域的结构由对称群变换(在我们的例子中是一组二元变换——作用于域上的点。在信号空间(Ω)中,底层域上的群动作(群元素,∈)由所谓的群表示ρ()表示,在我们的例子中是平移操作,即Ad-by-d向量矩阵。输入信号下域的几何结构将架构信息强加给我们试图学习的函数f的类别。不变函数可以不受群运算的影响,即f(ρ()x)=f(x)对于任何∈和x。另一方面,一个函数可能具有相同的输入和输出结构,并以与输入相同的方式进行变换,这样的函数称为等变函数,即满足f(ρ()x)=ρ()f(X)。在计算机视觉领域,图像分类是人们期望不变函数的典型任务(例如,无论猫在图像中的位置如何,我们都希望将图像分类为猫);而图像分割任务的输出是一个像素级的标签mask,它是一个齐次函数(分割mask需要跟随输入图像的变化)。“尺度分离”另一个强大的几何先验是“尺度分离”。在某些情况下,我们可以通过“同化”附近的点并生成与粗粒度运算符P相关联的信号空间层次结构来构建域的多尺度层次结构(下图中的Ω和Ω')。在这些粗尺度上,我们可以应用粗缩放函数。我们分析,如果函数f可以近似为粗粒度算子P和粗尺度函数f≈f’°P的组合,则f是局部稳定的。尽管f可能依赖于长程依赖性,但如果f是局部稳定的,则它们可以分解为局部相互作用,然后向粗尺度传播。这两个原则为他们提供了一个非常通用的深度学习蓝图,可以在最流行的表示学习深度神经架构中找到:典型的设计由一系列等变层(例如,卷积层)组成,可能遵循所有事物的聚合通过不变的全局池化层转换为单个输出。在某些情况下,域的层次结构也可以通过局部池化形式的粗化过程来创建。这是一个非常通用的设计,可以应用于不同类型的几何结构,包括几何深度学习的“5G”(Grid、Groups、Graphs、Geodesics&Gauges):网格(具有全局变换组的齐次空间)、图(和在特殊情况下的集合)和流形,几何先验由全局等距不变性(可以使用测地线表示)和局部规范对称性表示。这些原则的实施导致了当今深度学习中存在的一些最流行的架构:卷积网络(CNN)、图神经网络、DeepSets和从平移对称派生的Transformers,实现了置换不变性,时间扭曲不变派生的门控RNN,例如LSTM网络和IntrinsicMeshCNN用于计算机图形学和源自规范对称性的视觉。下一步,他们还计划在“5G”上继续“几何深度学习”的蓝图。看似先进的理论使用了群论、微分几何和机器学习的各种先进算法。期待更多的研究人员参与进来,进行更深入的研究。未来,或许整个深度学习“动物园”的原理统一起来真的不是梦。
