当前位置: 首页 > 科技观察

理论计算机科学家BoazBarak:深度学习不是“简单的统计”,两者的距离越来越远

时间:2023-03-22 11:59:31 科技观察

1990年代,斯坦福大学生物信息学知名教授RobTibshirani提出了一个词汇表那将是机器学习和统计学中不同概念的简单粗略的对应关系:这张表一方面为理解机器学习提供了一个基本的认识,但同时也简单的将深度学习或机器学习中的概念概括为:统计学中的词语含义也让大部分人误解了深度学习的本质:即深度学习是“简单的统计”。然而,在深入讨论中,这样的认知在一定程度上阻碍了研究者理解深度学习成功的本质原因。哈佛大学知名教授、理论计算机科学家BoazBarak在今年6月的一篇文章《深度学习与(经典)统计学之间的不安关系》中,对深度学习与统计学进行了比较和区分,指出了其基本原理深度学习的构成因素在很多方面都不同于统计学。BoazBarak做了一个重要的观察:从模型的使用角度来看,如果侧重于预测和观察,那么具有黑盒特性的深度学习模型可能是最好的选择;可解释性,那么“简单”模型可能表现更好。这与马伊琍、曹颖、沈向阳上个月提出的构成智能两大原则之一的“简单”理念不谋而合。同时,BoazBarak通过展示拟合统计模型和学习数学两种不同场景,讨论了其与深度学习的兼容性;他认为,虽然深度学习的数学和代码与拟合统计模型几乎相同,但在更深层次上,深度学习的很大一部分可以在“向学生传授技能”的场景中捕捉到。毫无疑问,统计学习在深度学习中扮演着重要的角色。但可以肯定的是,统计的角度并不能为理解深度学习提供一个完整的图景。要理解深度学习的不同方面,人们还是需要从不同的角度出发。以下是BoazBarak的讨论:1模型拟合中的预测和解释几千年来,科学家们一直在用模型拟合观察结果。例如,正如科学哲学书籍封面所提到的,埃及天文学家托勒密提出了一个巧妙的行星运动模型。托勒密的模型以地心为中心(即行星绕地球运行),但有一系列“旋钮”(具体来说是“本轮”),使其具有出色的预测准确性。相比之下,哥白尼最初的日心模型假设行星围绕太阳运行的圆形轨道。它比托勒密的模型更简单(更少的“可调旋钮”)并且总体上更正确,但在预测观察方面不太准确。(哥白尼后来添加了他自己的本轮,从而与托勒密的表现相匹配。)托勒密和哥白尼的模型是无与伦比的。当你需要一个“黑匣子”来进行预测时,托勒密的地心模型就更胜一筹了。而如果你想要一个可以“窥视内部”的简单模型,并作为解释恒星运动的理论起点,那么哥白尼的模型更好。事实上,开普勒最终将哥白尼的模型改进为椭圆轨道,并提出了他的行星运动三定律,这使牛顿能够使用适用于地球的相同引力定律来解释它们。为此,至关重要的是,日心模型不仅仅是提供预测的“黑匣子”,而是由具有少量“活动部件”的简单数学方程式给出。多年来,天文学一直是统计技术发展的灵感来源。高斯和勒让德(独立地)在1800年左右发明了最小二乘回归来预测小行星和其他天体的轨道;1847年发明的柯西梯度下降法也是受天文预测的启发。在物理学中,(至少有时)你可以“拥有一切”-找到实现最佳预测准确性和最佳数据解释的“正确”理论,这些理论被诸如奥卡姆剃刀之类的想法所捕获,假设简单,预测能力,和解释性洞察力都是相互一致的。然而,在许多其他领域,解释(或一般洞察力)和预测这两个目标之间存在着紧张关系。如果您只想预测观察结果,“黑匣子”可能是最佳选择。但是,如果您要提取因果模型、一般原则或重要特征,那么易于理解和解释的简单模型可能会更好。模型的正确选择取决于它的用途。例如,考虑包含许多个体(例如某种疾病)的基因表达和表型的数据集,如果目标是预测个体患病的几率,那么人们通常会希望使用最佳模型来完成任务,不管多复杂还是要看有多少基因。相比之下,如果您的目标是在湿实验室中识别一些基因以供进一步研究,那么复杂的黑匣子即使非常准确也作用有限。LeoBreiman在2001年的著名文章《统计建模:两种文化》中有力地阐述了这一点。“数据建模文化”侧重于解释数据的简单生成模型,而“算法建模文化”不了解数据是如何生成的,而是侧重于寻找可以预测数据的模型。布雷曼认为,统计数据太受第一文化的支配,这种关注“导致不相关的理论和有问题的科学结论”,并“阻止统计学家研究令人兴奋的新问题”。然而,布雷曼的论文充满了争议。虽然BradEfron同意其中的一些观点,“乍一看,LeoBreiman令人兴奋的论文看起来像是反对简约主义和科学洞察力的论证,支持一个有很多旋钮可以转动的黑匣子。再看一遍,仍然像那样”但在最近的一篇文章(“预测、估计和归因”)中,Efron慷慨地承认,“事实证明,Breiman比我更有先见之明:纯粹的预测算法在21世纪主导统计数据的方向与Leo相同2ClassicandModernPredictiveModels机器学习不管是不是“深度”,都属于Breiman所说的第二种文化,专注于预测,已经存在很长时间了。比如Duda和Hart1973年的教科书《Deconstructing Distributions: A Pointwise Framework of Learning》和Highleyman1962年的《The Design and Analysis of Pattern Recognition Experiments》论文摘录对于今天的深度学习从业者来说非常有辨识度:同样,Highleyman的手写字符数据集和用于拟合数据集的架构Chow(~58%准确率),也3为什么深度学习不同?1992年,StuartGeman、ElieBienenstock和ReneDoursat写了一篇题为“NeuralNetworksandtheBias/VarianDilemma”的论文,其中谈到了一些悲观的观点ws,例如,“当前的前馈神经网络,在很大程度上不足以解决机器感知和机器学习中的难题”;具体来说,他们认为通用神经网络无法成功解决困难的任务,而神经网络成功的唯一途径是通过手工设计的特征。用他们的话来说:“重要的特性必须是内置的或‘硬连线’(hard-wired)……不是通过统计方法学习的。”事后看来,他们的观点完全错了。而且,Transformer等现代神经网络架构在当时甚至比卷积网络更通用。但了解他们错误背后的原因很有趣。我认为,他们弄错的原因是深度学习确实不同于其他学习方法。先验现象是:深度学习似乎只是一种更具预测性的模型,就像最近邻或随机森林一样。它可能有更多的“旋钮”(knobs),但这似乎是数量上的差异而不是质量上的差异。用PWAndreson的话来说,“moreisdifferent”(更多不同)。在物理学中,一旦尺度发生几个数量级的变化,我们往往只需要一个完全不同的理论来解释,深度学习也是如此。事实上,深度学习的运行方式与经典模型(参数或非参数)大不相同,即使在高层次上方程(和Python代码)看起来是一样的。为了解释这一点,让我们通过两个截然不同的例子来看学习过程:拟合统计模型和教学生学习数学。场景A:拟合统计模型一般来说,将统计模型拟合到数据的步骤如下:1.我们观察一些数据x和y。将x视为nxp矩阵,将y视为n维向量;数据来自结构和噪声模型:每个坐标都以相应噪声的形式获得,为简单起见,使用加性噪声,但正确的地面真值标签。)2.通过运行某种优化算法,我们可以为数据拟合一个模型,使的经验风险最小化。也就是说,我们使用优化算法找到的最小化次数,其中是一个损失项(捕获与y的接近程度)和一个可选的归一化项(试图偏向更简单的模型)。3.我们希望我们的模型能够有一个好的整体损失,因为泛化误差/损失很小(这个预测是根据实验数据所在的整体数据得出的)。图片说明:BradleyEfron的牛顿第一定律漫画通过观察噪声再现这种非常通用的范式包括许多设置,包括最小二乘线性回归、最近邻、神经网络训练等等。在经典统计设置中,我们期望观察到以下内容:偏差/方差权衡:F作为一组优化模型。(当我们处于非凸设置和/或具有正则化项时,我们可以让F是可以通过算法以不可忽略的概率实现的此类模型的集合,同时考虑到算法选择的影响和正则化器。)与F的偏差是对正确标签的最佳近似,并且可以按元素实现。F的类越大,bias越小,bias甚至可以为零。但是,当F类较大时,需要更多的样本来缩小其隶属度,因此算法输出模型的方差较大。总体泛化误差是偏差项和方差贡献之和。因此,统计学习通常表现出偏差/方差权衡,并通过正确模型复杂性的“适度选择”将总体误差降至最低。事实上,Geman等人。做同样的事情,通过说“偏差-方差困境施加的基本限制适用于所有非参数推理模型,包括神经网络”来证明他们对神经网络的悲观情绪。更多并不总是最好的。在统计学习中,获得更多的特征或数据并不一定会提高性能。例如,从包含许多不相关特征的数据中学习更具挑战性。类似地,从数据来自两个分布之一(例如和)的混合模型中学习比独立学习单个模型更难。收益递减。在许多情况下,将预测噪声降低到某个参数所需的数据点数量与某个参数k成比例。在这种情况下,大约需要k个样本才能“起飞”,一旦这样做,您将面临收益递减的情况,也就是说,假设需要n个点才能达到(比如说)90%的准确率,然后想要增加准确率达到95%,大约还需要3n个点。一般来说,随着资源的增加(无论是在数据、模型复杂性还是计算方面),我们希望捕获更多更好的区别,而不是解锁新的定性能力。对损失、数据的强烈依赖。将模型拟合到高维数据时,一个小细节可能会导致结果大不相同。统计学家知道像L1或L2正则化器这样的选择很重要,更不用说对于完全不同的数据集,不同数量的高维优化器会产生巨大的差异。数据点没有天然的“难度”(至少在某些情况下)。传统上,数据点被认为是独立于某种分布进行采样的。虽然靠近决策边界的点可能更难分类,但考虑到测量集中现象的高维性,预计大多数点的距离会相似。因此,至少在经典数据分布中,预计点的难度级别不会有很大差异。然而,混合模型可以针对这种差异显示出不同程度的难度,因此与上面的其他问题不同,这种差异在统计设置中不会非常令人惊讶。场景B:学习数学与上述相反,让我们谈谈教学生一些特定的数学主题(例如计算导数),给他们一般性的指导和练习。这不是一个正式定义的设置,但可以考虑它的一些定性特征:图例:ExercisesforlearningspecificmathematicalskillsfromtheIXLwebsitelearnaskill,notanapproximatedistribution.在这种情况下,学生正在学习一项技能,而不是某种数量的估计量/预测量。虽然定义“技能”不是一项微不足道的任务,但它是一个性质不同的目标。特别是,即使函数映射练习不能用作解决某些相关任务X的“黑匣子”,我们相信学生在解决这些问题时形成的内部表征对X仍然有用。越多越好。一般来说,当学生练习更多的问题和不同类型的问题时,他们会取得更好的成绩。但实际上,“混合模型”——用一些代数题做一些微积分题——并不会影响学生在微积分方面的表现,反而有助于他们的学习。要“探索”或解锁功能,请转向自动表示。虽然在某些时候解决问题的回报也会递减,但学生似乎确实经历了几个阶段,在这些阶段中,做一些问题有助于概念“点击”并解锁新功能。此外,当学生重复特定类型的问题时,他们似乎将他们对这些问题的能力和表述转移到了一个较低的水平,从而使他们能够对这些问题发展出一些他们以前没有的自动化能力。性能部分独立于丢失和数据。教授数学概念的方法不止一种,即使学生使用不同的书籍、教育方法或评分系统进行学习,他们最终仍然会学到相同的材料和相似的内部表征。有些问题更难。在数学练习中,我们经常可以看到不同学生解决同一问题所采用的方法之间存在很强的相关性。问题的难度似乎是固定的,解谜的顺序也是固定的,从而可以优化学习过程。这实际上就是IXL等平台正在做的事情。4深度学习更像是统计估计还是学生学习技能?那么,以上两个比喻中的哪一个最能描述现代深度学习,尤其是它为何如此成功?统计模型拟合似乎更符合数学和代码。事实上,规范的Pytorch训练循环通过如上所述的经验风险最小化来训练深度网络:然而,在更深层次上,这两种设置之间的关系并不那么清楚。具体来说,可以通过修复一个特定的学习任务,采用“自监督学习+线性探针(linearprobe)”的方法来训练分类算法。算法训练如下:1.假设数据是一个序列,其中是某个数据点(比如特定的图像),是一个标签。2.首先找到一个深度神经网络来表示函数,该函数仅使用数据点进行训练,没有标签,通过最小化某种类型的自监督损失函数。此类损失函数的示例是重建或画中画(恢复另一个输入x的某些部分)或对比学习(找到一个明显更小的关系,当它是相同数据点的增量时,比两个的并置随机点要小得多)。3.然后,我们使用完整标记的数据来拟合线性分类器(其中C是类的数量),以使交叉熵损失最小化。最终分类器产生的映射。第3步仅适用于线性分类器,因此“魔法”发生在第2步(深度网络的自监督学习)。在自监督学习中,可以看到的一些属性包括:学习一种技能,而不是逼近一个函数。自我监督学习不是逼近一个函数,而是学习可用于各种下游任务的表征。假设这是自然语言处理中的主导范式,那么下游任务是通过线性探测、微调还是提示获得的是次要的。多多益善。在自我监督学习中,表示的质量随着数据量的增加而提高。此外,数据越多样化越好。图例:GooglePaLM模型的数据集解锁能力。深度学习模型的不连续改进一次又一次地被视为资源(数据、计算、模型大小)规模,这也在一些综合设置中得到了证明。图注:随着模型尺寸的增加,PaLM模型在一些基准测试中表现出一些离散的改进(上图中只有三个尺寸警告),并解锁了一些令人惊讶的功能,例如解释笑话。性能在很大程度上与丢失或数据无关。不止一种自监督损失,几种对比和重建损失用于图像。语言模型有时采用单边重建(预测下一个标记),有时使用掩码模型,其目标是预测来自左右标记的掩码输入。也可以使用略有不同的数据集,这可能会影响效率,但只要做出“合理”的选择,原始来源通常比使用的特定损失或数据集更能预测性能。有些情况比其他情况更难。这一点不仅限于自监督学习,数据点或存在一些固有的“难度级别”。事实上,有几个实际证据表明不同的学习算法具有不同的“技能水平”并且不同的点具有不同的“难度水平”(分类器f正确分类x的概率,因为f的技能表在x方向增加,并且随着x的难度在一个方向上减少)。“技能与难度”范式是Recht和Miller等人发现的“在线准确性”现象最清晰的解释,在我与Kaplun、Ghosh、Garg和Nakkiran的论文中,我还展示了不同的输入如何具有固有的“难度特征”,这些特征通常对不同的模型具有鲁棒性。图例:Miller等人的图表显示了在CIFAR-10上训练并在CINIC-10上测试的分类器的线现象准确性图例:解构来自Kaplun和Ghosh等人的数据集。在论文“解构分布:逐点学习框架”中针对越来越多的资源分类器的不同“难度概况”点。顶部图表描绘了最可能类别的不同softmax概率作为分类器全局准确性的函数,该类别以训练时间为索引;底部饼图显示了不同数据集被分解为不同类型的点。值得注意的是,对于不同的神经架构,这种分解是相似的。培训就是教学。大型模型的现代训练似乎更多的是教学生,而不是让模型适应数据,在学生不理解或看起来疲倦(训练偏离)时“休息”或尝试其他事情。Metalarge模型的训练日志很有启发性——除了硬件问题,还可以看到一些干预,比如训练时切换不同的优化算法,甚至考虑“热交换”激活函数(GELU到RELU)。如果将模型训练视为拟合数据而不是学习表示,则后者没有多大意义。图例:Meta的训练日志摘录下面讨论两种情况:案例1:监督学习到目前为止,我们只讨论了自监督学习,但深度学习的典型例子仍然是监督学习,毕竟“ImageNet时刻”深度学习来自ImageNet。那么,我们上面讨论的内容是否适用于监督学习?首先,受监督的大规模深度学习的出现在某种程度上是一个历史性的偶然事件,它是由大型、高质量标记数据集(即ImageNet)的可用性推动的。可以想象另一个历史:深度学习首先通过无监督学习在自然语言处理方面取得突破,然后转向视觉和监督学习。其次,有一些证据表明监督学习和自我监督学习在“幕后”表现相似,即使它们使用完全不同的损失函数。两者通常实现相同的性能。在《RevisitingModelStitchingtoCompareNeuralRepresentations》一文中还发现,他们学习了相似的内部表征。具体来说,对于每个模型,可以将自监督训练的深度d模型的前k层与监督模型的最后d-k层“缝合”起来,并使性能几乎保持原样。图例:表格来自Hinton的团队论文“BigSelf-SupervisedModelsareStrongSemi-SupervisedLearners”。请注意监督学习、微调(100%)自监督和自监督+线性检测在性能上的一般相似性。左图——如果自监督模型的准确度比监督模型低3%,则完全兼容的表示将导致p3%的拼接惩罚(当p层来自自监督模型时)。如果模型完全不兼容,随着更多模型被拼接在一起,精度会急剧下降。右图——拼接不同自监督模型的实际结果。自监督+简单模型的优势在于它们可以将特征学习或“深度学习魔法”(深度表示函数的结果)与统计模型拟合(由线性或其他“简单”分类器完成,此处分离出优越)结合起来。最后,虽然是推测性的,但“元学习”似乎通常等同于学习表征这一事实(详见论文“RapidLearningorFeatureReuse?TowardsUnderstandingtheEffectivenessofMAML”)可以看作是另一个证据支持本文的观点,无论模型的明显优化目标如何。Case2:Overparameterization读者可能已经注意到,我在实践中跳过了统计学习模型和深度学习模型之间差异的典型示例,即缺乏“偏差-方差权衡”和超参数化模型的出色泛化能力。我不深入这些例子的细节有两个原因:一是如果监督学习确实等于自监督+简单的“低级”学习,那么它的泛化能力就可以解释了(见论文“Forself-supervisedlearning,Rationalityimpliesgeneralization,provably”);其次,我认为过度参数化并不是深度学习成功的关键。深度网络之所以特殊,不是因为它们相对于样本量来说很大,而是因为它们绝对值大。事实上,无监督/自监督学习模型通常不会出现过度参数化。即使对于大规模语言模型,它们也只是拥有更大的数据集,但这并不会降低其性能的神秘性。图例:在论文“TheDeepBootstrapFramework:GoodOnlineLearnersareGoodOfflineGeneralizers”中,研究人员发现,如今的深度学习架构在“过度参数化”和“欠采样”状态下的表现相似(其中该模型在多代的有限数据上进行训练,直到过度拟合:即如上图所示的“真实世界”,以及“参数不足”和“在线”情况(模型仅针对以下情况进行训练)一代,每个样本只见过一次:即上图中的“理想世界”)5总结毫无疑问,统计学习在深度学习中扮演着重要的角色。但是,将深度学习简单地视为比经典模型更适合旋钮的模型会忽略其成功背后的许多因素。所谓“人类学生”的比喻更不恰当。深度学习类似于生物进化,尽管有许多重复应用相同的规则(即具有经验损失的梯度下降),产生高度复杂的结果。神经网络的不同组件似乎在不同时间学习不同的东西,包括表示学习、预测拟合、隐式正则化和纯噪声。我们仍在寻找正确的视角来提出有关深度学习的问题,更不用说回答它们了。路漫漫其修远兮,我们共勉。