不要盲目追大模型堆算力!沉向洋、曹颖、马伊琍提出理解AI的两个基本原则:简单和自洽,顺应潮流。但其背后巨大的计算成本和资源消耗问题也越来越不利。一些科学家开始认真看待大模型,积极寻求解决方案。新的研究表明,要实现AI模型的优异性能,并不一定取决于堆计算能力和堆大小。深度学习火了十年。不得不说,它的机遇和瓶颈在这十年的研究和实践中引起了很多关注和讨论。其中,瓶颈维度,最引人注目的是深度学习的黑盒特性(缺乏可解释性)和“强大的奇迹”(模型参数越来越大,算力需求越来越大,以及计算成本越来越高。来得更高)。此外,还存在模型稳定性不足、安全漏洞等问题。从本质上讲,这些问题部分是由深度神经网络的“开环”系统性质引起的。要打破深度学习的B端“魔咒”,单靠扩大模型规模和计算能力可能还不够,还需要追本溯源,从人工智能系统的基本原理出发,从一个新的角度(如作为闭环)理解“智能”。7月12日,中国人工智能领域三位知名科学家马毅、曹颖、沈向阳在arXiv上联合发表文章《论智能涌现的简约自洽原则》,一个新的提出理解深度网络的框架:压缩闭环转录。这个框架包含两个原则:parsimony和self-consistency/self-consistency,分别对应AI模型学习过程中的“学什么”和“怎么学”,被认为构成人工/自洽的两种自然智能的基础研究引起了国内外人工智能研究领域的广泛关注。论文链接:https://arxiv.org/pdf/2207.04630.pdf三位科学家认为,真正的智能必须具备两个特征,一是可解释性,二是可计算性。然而,在过去的十年里,人工智能的进步主要是基于使用“蛮力”训练模型的深度学习方法。在这种情况下,虽然AI模型也可以获得感知和决策的功能模块,但学习到的特征表征往往是隐含的,难以解释。此外,单纯依靠算力训练模型也增加了AI模型的规模和计算成本不断增加,在应用中出现了很多问题,比如学习到的表示缺乏多样性等由神经崩溃和模型崩溃引起。这导致训练缺乏稳定性、模型适应性差和对灾难性遗忘的敏感性等。三位科学家认为,出现上述问题是因为在目前的深度网络中,训练用于分类的判别模型和用于采样或重放的生成模型是大部分是分开的。此类模型通常是开环系统,需要通过监督或自我监督进行端到端的训练。然而,Weiner等人早就发现,这样的开环系统无法自动纠正预测中的错误,也无法适应环境的变化。因此他们提倡在控制系统中引入“闭环反馈”,让系统学会自行纠正错误。在这项研究中,他们还发现:使用判别模型和生成模型形成一个完整的闭环系统,系统可以自主学习(无需外部监督),并且更加高效、稳定和适应性强。图例:从左至右依次为沉向阳(中港深董事长、美国国家工程院外籍院士、前微软全球执行副总裁)、曹颖(美国国家科学院院士、加州大学伯克利分校教授)和马毅(加州大学伯克利分校教授)。智能的两个原理:简约性和自洽性在这项工作中,三位科学家提出了两个基本原理来解释人工智能的构成,即简约性和自洽性(也称为“自洽性”)”),并利用视觉图像以数据建模为例,压缩闭环转录框架是从简约和自洽的第一性原理推导出来的。表示以计算有效的方式。也就是说,智能系统可以使用任何描述世界的结构化模型,只要它们能够简单有效地模拟真实世界感官数据中的有用结构。系统应该能够准确有效地评估学习模型的质量,使用的指标是基本的,通用的,易于计算和优化。以deling为例,简约原则试图找到一个(非线性)变换f以实现以下目标:压缩:将高维感官数据x映射到低维表示z;上的每一类对象都映射到一个线性子空间;scarification:将不同的类别映射到具有独立或最大不相干基础的子空间。即将现实世界中可能位于高维空间的一系列低维子流形上的数据转化为独立的低维线性子空间序列。这种模型称为“线性判别表示”(lineardiscriminativerepresentation,LDR),其压缩过程如图2所示:图2:寻求线性和判别表示,将高维感官数据映射到一组独立的线性与子流形具有相同维数的子空间。在LDR模型系列中,有一个内在的简约度量。也就是说,给定一个LDR,我们可以计算所有特征跨越所有子空间的总“体积”以及每个类的特征跨越的“体积”之和。这两个体积之间的比率可以自然地衡量LDR模型的好坏(通常越大越好)。根据信息论,分布的体积可以通过其率失真来衡量。马一团队2022年的一篇作品《ReduNet:AWhite-boxDeepNetworkfromthePrincipleofthePrincipleofMaximizingRateReduction》表明,如果使用高斯率失真函数,选择一个通用的深度网络(如ResNet)来映射f(x,θ)通过最小化编码率来建模。图5:非线性映射f的构建块。左图:ReduNet的一层,作为投影梯度上升的一次迭代,恰好由扩张或压缩的线性算子、非线性softmax、跳跃连接和归一化组成。图中和右边:分别是ResNet和ResNeXt的一层。精明的读者可能已经认识到,这样的图表与流行的“经过验证”的深度网络非常相似,例如ResNet(图5中间),包括ResNeXt中的平行列(图5右)和专家混合(MoE)。从展开优化方案的角度来看,这为一类深度神经网络提供了有力的解释。甚至在现代深度网络兴起之前,寻求稀疏性的迭代优化方案(例如ISTA或FISTA)就被解释为可学习的深度网络。通过实验,他们证明压缩可以产生一种建设性的方法来导出深度神经网络,包括其架构和参数,作为一个完全可解释的白盒:它的层迭代促进简约和增量优化的原则目标。因此,对于由此得到的深度网络,ReduNets,从数据X作为输入开始,以完全前向展开的方式构建和初始化每一层的算子和参数。这与深度学习中流行的做法非常不同:从随机构建和初始化的网络开始,然后通过反向传播对其进行全局调整。人们普遍认为,由于需要对称突触和复杂形式的反馈,大脑不太可能利用反向传播作为其学习机制。在这里,前向展开优化仅依赖于可以硬连线的相邻层之间的操作,因此更容易实现和利用。一旦我们意识到深度网络本身的作用是执行(基于梯度的)迭代优化以压缩、线性化和稀疏化数据,就很容易理解过去十年人工神经网络的“演变”,特别是有助于解释为什么只有少数AI系统在人工选择过程中脱颖而出:从MLP到CNN到ResNet到Transformers。相比之下,网络结构的随机搜索,例如神经架构搜索,还没有产生可以有效执行一般任务的网络架构。他们推测成功的架构在模拟数据压缩的迭代优化方案时变得越来越高效和灵活。ReduNet和ResNet/ResNeXt之间的上述相似性可以作为例证。当然,还有很多其他的例子。自洽自洽是关于“如何学习”,即自主智能系统通过最小化观察和再现之间的内部差异来寻求最自洽的模型来观察外部世界。单纯的简约原则并不能确保学习的模型捕获感知外部世界的数据中的所有重要信息。例如,通过最小化交叉熵将每个类映射到一维“one-hot”向量可以被视为一种简约形式。它可能会学习一个很好的分类器,但学习到的特征会崩溃成单例,称为“神经崩溃”。这样学习到的特征不包含足够的信息来重现原始数据。即使我们考虑更一般的LDR模型类别,降速目标本身也不会自动确定环境特征空间的正确维数。如果特征空间维度太低,学习到的模型将欠拟合数据;如果太高,模型可能会过度拟合。在他们看来,感知的目标是学习所有可预测的感知内容。一个智能系统应该能够从压缩表示中重新生成观察到的数据分布,这样,无论它多么努力,它都无法自行区分这种分布。论文强调,自洽和简约这两个原则具有很强的互补性,应该始终结合使用。仅靠自我一致性并不能确保压缩或效率的提高。在数学和计算上很容易将过参数化模型拟合到任何训练数据或通过在具有相同维度的域之间建立一对一映射来确保一致性,而无需学习数据分布中的内在结构。只有通过压缩,才能迫使智能系统在高维感知数据中发现内在的低维结构,并将这些结构以最紧凑的方式转换和表示在特征空间中,以备将来使用。此外,只有通过压缩,我们才能轻松理解过度参数化的原因,例如如果其纯粹目的是在高维特征空间中进行压缩,那么像通常具有数百个通道的DNN那样的特征提升不??会导致过度参数化。拟合:提升有助于减少数据中的非线性,使其更容易压缩和线性化。随后的层用于执行压缩(和线性化),通常层数越多,压缩效果越好。在压缩到LDR等结构化表示的特殊情况下,论文将一类自动编码(详见原论文)称为“转录”。这里的困难在于如何使目标在计算上易于处理,从而在物理上可实现。速率降低ΔR给出了退化分布之间明确的主要距离度量。但它只适用于子空间或高斯混合,不适用于一般分布!并且我们只能期望内部结构化表示z的分布是子空间或高斯分布的混合,而不是原始数据x。这就引出了一个关于学习“自洽”表示的相当深刻的问题:自治系统真的需要测量数据空间的差异,以验证外部世界的内部模型是否正确吗?答案是否定的。关键是要意识到比较x和x^,agent只需要通过相同的映射f来比较它们各自的内部特征z=f(x)和z^=f(x^),使z紧凑和结构化改变。测量z空间中的分布差异实际上是明确定义且有效的:可以说,在自然智能中,学习内部测量差异是具有独立自主系统的大脑唯一可以做的事情。这有效地创建了一个“闭环”反馈系统,整个过程如图6所示。图6:非线性数据子流形到LDR的压缩闭环转录(通过内部比较和最小化z和z^之间的差异)。这导致编码器/传感器f和解码器/控制器g之间的自然追逐飞行游戏,导致解码x^(蓝色虚线)的分布追逐并匹配观测数据x(黑色实线)的分布)。人们可以将分别学习DNN分类器f或生成器g的流行做法解释为学习闭环系统的开放式部分(图6)。这种当前流行的做法与开环控制非常相似,长期以来控制界都知道开环控制存在问题且成本高昂:训练这样的部分需要监督所需的输出(例如类标签);这种开环系统的部署本质上缺乏稳定性、鲁棒性或适应性。例如,如果重新训练以处理具有新数据类别的新任务,在监督设置中训练的深度分类网络通常会经历灾难性的遗忘。相比之下,闭环系统本质上更加稳定和自适应。事实上,这已经由Hinton等人提出。1995年。判别部分和生成部分需要结合起来,分别作为完整学习过程的“唤醒”和“睡眠”阶段。然而,仅仅关闭循环是不够的。该论文认为,任何代理人都需要一种内部博弈机制,才能通过自我批评进行自我学习!这遵循了游戏作为一种普遍有效的学习方式的概念:反复应用当前模型或策略来对抗对抗性批评,从而根据通过闭环收到的反馈不断改进模型或策略!在这样的框架内,编码器f承担双重角色:除了通过最大化速率降低ΔR(Z)(如第2.1节中所做的那样)来学习数据x的表示z之外,它还应该充当反馈“传感器”,主动检测数据x和生成的x^之间的差异。解码器g也扮演着双重角色:它是控制器,关联f检测到的x和x^之间的差异;它也是解码器,试图最小化整体编码率以达到目标(在给定指定精度的情况下让步)。因此,最优的“简化”和“自洽”表示元组(z,f,g)可以解释为f(θ)和g(η)之间零和博弈的平衡点,而不是基于combinationrateReducedutility:上面的讨论是两个原则在有监督情况下的表现。但论文强调,他们提出的压缩闭环转录框架能够通过自我监督和自我批评进行自我学习!此外,由于降速已经找到了学习结构的显式(子空间类型)表示,使得在学习新任务/数据时更容易保留过去的知识,它可以用作先验(记忆)来保持自我一致性。最近的实证研究表明,这可以导致第一个具有固定记忆的独立神经系统,可以逐渐学习良好的LDR表示,而不会遭受灾难性遗忘。对于这样一个闭环系统,遗忘(如果有的话)是相当优雅的。此外,当旧类别的图像再次呈现给系统进行审查时,可以进一步巩固学习到的表征——这一特征与人类记忆非常相似。从某种意义上说,这种受约束的闭环公式本质上确保了视觉记忆的形成可以是贝叶斯和自适应的——假设这些特征对大脑来说是理想的。如图8所示,这种学习型自动编码器不仅表现出良好的样本一致性,而且学习到的特征还表现出清晰且有意义的局部低维(薄)结构。图8:左侧面板:在CIFAR-10数据集(50,000张图像,10个类别)的无监督设置中学习的自动编码x和相应解码x^之间的比较。右图:10个类别的无监督学习特征的t-SNE,以及几个邻域及其相关图像的可视化。注意从数百维的特征空间投影的可视化特征中的局部薄(接近一维)结构。更令人惊讶的是,即使在训练期间没有提供类信息时,子空间或依赖于特征的块对角线结构也开始出现在为类学习的特征中(图9)!因此,学习特征的结构类似于在灵长类动物大脑中观察到的类别选择区域。图9:通过闭环转录,属于10个类别(CIFAR-10)的50,000张图像的无监督学习特征之间的相关性。在没有任何监督的情况下出现了与类一致的块对角线结构。通用学习引擎:结合3D视觉和图形论文摘要、简单性和自洽性揭示了深度网络作为外部观察和内部表示之间的非线性映射模型的作用。此外,论文强调闭环压缩结构在自然界无处不在,适用于所有智能生物,可见于大脑(压缩感觉信息)、脊髓回路(压缩肌肉运动)、DNA(压缩功能信息)蛋白质)等。生物学的例子。因此,他们认为,压缩的闭环转录可能是所有智能行为背后的通用学习引擎。它使智能有机体和系统能够从看似复杂和无组织的输入中发现和提炼低维结构,并将它们转化为紧凑和有组织的内部结构以供记忆和利用。为了说明该框架的普遍性,本文研究了另外两项任务:3D感知和决策(LeCun认为这是自主智能系统的两个关键构建块)。本文整理,只介绍计算机视觉和计算机图形学在3D感知中的闭环。DavidMarr在其颇具影响力的著作《视觉》中提出的3D视觉经典范式提倡“分而治之”的方法,将3D感知任务划分为几个模块化过程:从低级2D处理(如边缘检测、轮廓草图),中级2.5D解析(如分组、分割、图形和地面),以及高级3D重建(如姿势、形状)和识别(如物体),而压缩闭环转录框架提倡的思想的“共建”。感知是压缩的闭环转录?更准确地说,世界上物体的形状、外观甚至动态的3D表示应该是我们大脑内部开发的最紧凑和结构化的表示,以相应地解释所有感知到的视觉观察。如果是这样,那么这两个原则表明紧凑和结构化的3D表示是要寻找的内部模型。这意味着我们可以而且应该在一个闭环计算框架内统一计算机视觉和计算机图形学,如下图所示:图10:计算机视觉和图形学之间的闭环关系,用于视觉输入计算机的紧凑和结构化3D模型视觉通常被解释为为所有2D视觉输入重建和识别内部3D模型的正向过程,而计算机图形表示其渲染和动画内部3D模型的逆过程。将这两个过程直接组合到一个闭环系统中可以带来巨大的计算和实际好处:所有丰富的几何结构、视觉外观和动力学(例如稀疏性和平滑性)都可以一起用于统一的3D模型,最紧凑的并与所有视觉输入一致。计算机视觉中的识别技术可以帮助计算机图形学在形状和外观空间中构建紧凑的模型,并提供创建逼真的3D内容的新方法。另一方面,计算机图形学中的3D建模和仿真技术可以预测、学习和验证计算机视觉算法分析的真实物体和场景的属性和行为。视觉和图形社区长期以来一直采用“综合分析”方法。外观和形状的统一表示?基于图像的渲染,通过从一组给定的图像中学习来生成新的视图,可以看作是早期尝试用简约和自洽原则弥合视觉和图形之间的差距。特别是,全光采样表明可以用所需的最少图像数量(简约主义)实现抗锯齿图像(自洽)。更广泛的智能智能的神经科学人们期望基本的智能原理会对大脑的设计产生重大影响。简约和自洽的原则为灵长类视觉系统的几个实验观察提供了新的思路。更重要的是,它们揭示了在未来的实验中要寻找什么。作者的团队已经证明,简单地寻求内部简约性和预测表示就足以实现“自我监督”,从而允许结构自动出现在通过压缩闭环转录学习的最终表示中。例如,图9显示无监督数据转录学习自动区分类的特征,为在大脑中观察到的类选择性表征提供解释。这些特征也为灵长类大脑中稀疏和子空间编码的广泛观察提供了合理的解释。此外,除了视觉数据建模,最近的神经科学研究表明,大脑中出现的其他结构化表征(例如“位置细胞”)也可能是以最紧凑的方式编码空间信息的结果。可以说,最大编码率降低(MCR2)原理在精神上类似于认知科学中的“自由能最小化原理”,它试图通过能量最小化为贝叶斯推理提供框架。但与自由能的一般概念不同,速率降低在计算上易于处理且可直接优化,因为它可以用封闭形式表示。此外,这两个原则的相互作用表明,正确模型(类)的自主学习应该通过该效用的闭环最大化游戏来完成,而不是单独最小化。因此,他们认为,压缩的闭环转录框架为如何实际实施贝叶斯推理提供了一个新视角。这个框架也被他们认为是为了阐明大脑使用的整体学习架构,可以通过展开优化方案来构建前馈片段,而不需要通过反向传播从随机网络中学习。此外,该框架还存在一个互补的生成部分,可以形成一个闭环反馈系统来指导学习。最后,该框架揭示了许多对“预测编码”的大脑机制感兴趣的神经科学家所寻求的难以捉摸的“预测错误”信号,这是一种与压缩闭环转录产生共鸣的计算方案:为了使计算更容易,传入和生成之间的区别应在表示的最后阶段衡量观察结果。迈向更高水平的智能YiMa等人的工作。认为压缩的闭环转录在计算上比Hinton等人提出的框架更易于处理和可扩展。(1995)。此外,非线性编码/解码映射(通常表现在深度网络中)的循环学习本质上在外部无组织的原始感官数据(如视觉、听觉等)与内部紧凑和结构化表示之间提供了重要的桥梁。“界面”。不过,他们也指出,这两个原理并不一定能解释智力的所有方面。高级语义、符号或逻辑推理的出现和发展背后的计算机制仍然难以捉摸。时至今日,关于这种高级符号智能是可以通过持续学习产生还是必须进行硬编码,仍存在争议。在三人看来,子空间等结构化内部表示——每个子空间对应一个离散(对象)类别——是出现高级语义或符号概念的必要中间步骤。此类抽象离散概念之间的其他统计、因果或逻辑关系可以进一步简化,以建模为紧凑和结构化(比如稀疏)图,每个节点代表一个子空间/类别。可以通过自动编码来学习图,以确保自洽性。他们推测,高级智能(具有可共享的符号知识)的出现和发展只有在个体代理学习的紧凑和结构化表示之上才有可能。因此,他们建议应该通过智能系统之间的有效信息交换或知识转移来探索高级智能(如果存在的话)出现的新原则。此外,更高层次的智能应该有两个与我们在本文中提出的两个原则相同的原则:学习到的表征。可计算性:任何新的智能原则都必须在计算上易于处理和扩展,可以通过计算机或自然物理学实现,并最终得到科学证据的证实。只有具有可解释性和可计算性,我们才能描述完成这些任务所需的最少数据和计算资源,而无需依赖当前昂贵且耗时的“试错”方法来推进人工智能,而不是简单地提倡“更大”更好”的蛮力方法。智慧不应该是最足智多谋的人的特权,有了正确的一套原则,任何人都应该能够设计和构建下一代大大小小的智能系统,其自主性、能力和效率最终可以模仿甚至超过人类动物和人类。论文链接:https://arxiv.org/pdf/2207.04630.pdf
