当前位置: 首页 > 科技观察

学习=适应?深度学习和经典统计是一回事吗?

时间:2023-03-17 01:15:29 科技观察

在这篇文章中,理论计算机科学家、哈佛大学知名教授BoazBarak详细比较了深度学习与经典统计学的区别,并认为“如果你纯粹从统计学的角度理解深度学习,你会忽略它成功的关键因素”。深度学习(或一般的机器学习)通常被认为是简单的统计,即它基本上与统计学家研究的概念相同,但使用与统计不同的术语来描述。RobTibshirani曾经总结过这个有趣的“词汇表”:列表中的东西是否引起共鸣?事实上,从事机器学习工作的人都知道,Tibshiriani发布的这张表右侧的许多术语在机器学习中被广泛使用。如果单纯从统计学的角度理解深度学习,就会忽略其成功的关键因素。对深度学习更恰当的评价是,它使用统计术语来描述一个完全不同的概念。关于深度学习,正确的说法不是它使用不同的词来描述旧的统计术语,而是它使用这些术语来描述完全不同的过程。本文将解释为什么深度学习的基础实际上不同于统计学,甚至不同于经典机器学习。本文首先讨论在将模型拟合到数据时“解释”任务和“预测”任务之间的区别。然后讨论了学习过程的两种情况:1.使用经验风险最小化拟合统计模型;2.教授学生数学技能。然后,文章讨论了哪种场景更接近深度学习的本质。虽然深度学习的数学和代码与拟合统计模型几乎相同。但在更深层次上,深度学习更像是向学生传授数学技能的场景。很少有人敢宣称:我掌握了完整的深度学习理论!这种理论是否存在值得怀疑。相反,深度学习的不同方面最好从不同的角度理解,单靠统计角度无法提供完整的蓝图。本文将深度学习与统计进行比较,特别是“经典统计”,因为它研究时间最长,在教科书中历史悠久。许多统计学家正在研究深度学习和非经典理论方法,就像20世纪的物理学家需要扩展经典物理学的框架一样。事实上,模糊计算机科学家和统计学家之间的界限对双方都有好处。预测和模型拟合科学家传统上将模型计算与实际观察结果进行比较,以验证其模型的准确性。埃及天文学家托勒密提出了一个巧妙的行星运动模型。托勒密模型以地心为中心,但有一系列本轮(见下图),使其具有出色的预测准确性。相比之下,哥白尼最初的日心模型比托勒密的更简单,但在预测观测方面不够准确。(哥白尼后来添加了他自己的本轮以与托勒密的模型相媲美。)托勒密和哥白尼的模型都是无与伦比的。如果我们想从一个“黑匣子”中做出预测,那么托勒密的地心模型就更胜一筹了。但是如果你想要一个简单的模型以便你可以“看模型内部”(这是解释恒星运动理论的起点),那么哥白尼的模型就是你要走的路。后来,开普勒将哥白尼的模型改进为椭圆轨道,并提出了开普勒行星运动三定律,使牛顿能够用适用于地球的万有引力定律来解释行星运动的规律。因此,重要的是,日心模型不仅仅是提供预测的“黑匣子”,而是由几个简单的数学方程给出,但方程中的“移动部分”最少。多年来,天文学一直是统计技术发展的灵感来源。高斯和勒让德在1800年左右独立发明了最小二乘回归来预测小行星和其他天体的轨道。1847年,柯西发明了梯度下降法,也是受天文预测的启发。在物理学中,学者们有时拥有所有细节来找到“正确”的理论,以最大限度地提高预测准确性并最好地解释数据。这些都在像奥卡姆剃刀这样的想法范围内,它可以被认为是假设简单性、预测能力和解释能力都相互协调。然而,在许多其他领域,解释和预测这两个目标之间的关系并不那么和谐。如果您只想预测观察结果,那么通过“黑匣子”可能是最好的。另一方面,如果要获得解释性信息,如因果模型、一般原理或重要特征,那么能够理解和解释的模型越简单越好。模型的正确选择取决于它的用途。例如,考虑一个包含许多个体(例如某些疾病)的基因表达和表型的数据集,如果目标是预测一个人生病的几率,无论它有多复杂或依赖多少基因,都可以使用适合任务的最佳预测模型。相反,如果目的是确定一些基因以供进一步研究,那么复杂的非常精确的“黑匣子”作用有限。统计学家LeoBreiman在他2001年关于统计建模的两种文化的著名文章中指出了这一点。第一种是“数据建模文化”,它侧重于解释数据的简单生成模型。第二种是“算法建模文化”,它不了解数据是如何生成的,而是专注于寻找可以预测数据的模型,无论数据有多复杂。论文标题:StatisticalModeling:TheTwoCultures论文链接:https://projecteuclid.org/euclid.ss/1009213726Breiman认为统计数据过于被第一文化所支配,这种关注产生了两个问题:导致不相关的理论和可疑的科学结论阻止了统计学家研究激动人心的新问题Breiman的论文一发表就引起了一些争议。统计学家BradEfron回应说,虽然他同意某些观点,但他也强调Breiman的论点似乎反对节俭和科学洞察力,支持创造复杂“黑匣子”的努力。但在最近的一篇文章中,Efron驳斥了早先的观点,承认Breima更具先见之明,因为“21世纪统计的重点一直放在预测算法上,主要与Breiman所建议的路线一致”。经典和现代预测模型机器学习,无论是否是深度学习,都沿着Breiman的第二种观点发展,后者侧重于预测。这种文化源远流长。比如Duda和Hart1973年的教科书和Highleyman1962年的论文都写了下图的内容,今天的深度学习研究者很容易理解:Duda和Hart的教科书《Pattern classification and scene analysis》和Highleyman1962年的论文摘录《The Design and Analysis of Pattern Recognition Experiments》。同样,下面的Highleyman手写字符数据集和用于拟合它的架构Chow(1962)(~58%准确率)将引起许多人的共鸣。为什么深度学习不同?1992年,Geman、Bienenstock和Doursat写了一篇关于神经网络的悲观文章,认为“当前的前馈神经网络在很大程度上不足以解决机器感知和机器学习中的难题”。具体来说,他们认为通用神经网络不会成功完成困难的任务,而它们成功的唯一途径是通过人工设计的特征。用他们的话说:“重要的属性必须是内置的或“硬连接的”……在任何统计意义上都不是学习的。”现在看来,Geman等人。完全错了,但更有趣的是理解他们为什么错了。深度学习确实不同于其他学习方法。虽然深度学习似乎只是预测,就像最近邻或随机森林一样,但它可能有更复杂的参数。这似乎是量的差异而不是质的差异。但在物理学中,一旦尺度发生几个数量级的变化,通常就需要完全不同的理论,深度学习也是如此。深度学习的基本过程与经典模型(参数化或非参数化)有很大不同,尽管它们的数学方程式(和Python代码)在较高层次上是相同的。为了说明这一点,请考虑两种不同的场景:拟合统计模型和向学生教授数学。场景A:拟合一个统计模型通过数据拟合一个统计模型的典型步骤如下:1.这里有一些数据(矩阵;是一个维度向量,也就是一个类别标签。把数据想象成来自一个structuredandcontainingnoisemodelisthemodeltobefitted)2.使用上述数据拟合一个模型,并使用优化算法来最小化经验风险。也就是说,通过优化算法找到这样一个最小值,代表损失(表示预测值与真实值的接近程度),是一个可选的正则化项。3、模型的整体损失越小越好,即泛化误差的值相对最小。Effron从含噪声观测中恢复牛顿第一定律的图这个非常笼统的例子实际上涵盖了很多东西,比如最小二乘线性回归、最近邻、神经网络训练等等。在经典的统计场景中,我们通常会遇到以下情况:modelset.是元素所能达到的最接近真实值的近似值。集合越大,bias越小,可能为0(if)。但是越大,需要缩小的样本越多membership,所以算法输出模型的方差较大的整体泛化误差是bias和variance之和。因此,统计学习通常是一个Bias-Variancetrade-off,正确的模型复杂度是最小化整体误差.事实上,Geman等人持悲观态度,他们认为:Bias-Variancedilemma强加的基本限制适用于所有非参数推理模型,包括神经网络。“Moreisbetter”并不总是成立:在统计学习中,更多的特征或数据并不一定会提高性能。例如,从包含许多不相关特征的数据中学习是很困难的。类似地,从混合模型中学习,其中数据来自两个分布之一(例如和),比独立学习每个分布更困难困难。收益递减:在许多情况下,减少预测噪声所需的数据点数量tothelevel与参数sum有关,即数据点的个数近似相等。在这种情况下,大约需要k个样本开始,但是一旦这样做,就会面临收益递减的情况,如果它需要点数才能达到90%的准确度,大约需要一个额外的点数才能达到95%的准确度。一般来说,随着资源的增加(无论是数据、模型复杂度还是计算),人们希望获得越来越精细的区分,而不是解锁特定的新能力。严重依赖损失,数据:将模型拟合到高维数据时,任何小细节都会产生很大的不同。L1或L2正则化器之类的选择很重要,更不用说使用完全不同的数据集了。不同数量的高维优化器彼此之间也有很大差异。数据相对“朴素”:通常假设数据是独立于某种分布进行采样的。虽然靠近决策边界的点难以分类,但考虑到高维测量集中的现象,大多数点可以认为距离较近。因此,在经典的数据分布中,数据点之间的距离差异并不大。然而,混合模型可以显示这种差异,因此,与上述其他问题不同,这种差异在统计中很常见。场景B:学习数学在这个场景中,假设您想通过一些插图和练习来教学生数学(例如计算导数)。这种情况虽然没有正式定义,但具有一些定性特征:学习技能,而不是近似统计分布:在这种情况下,学生正在学习技能,而不是估计/预测数量。具体来说,即使将练习映射到解决方案的功能不能用作解决某些未知任务的“黑匣子”,但学生在解决这些问题时形成的心智模型对于未知任务仍然有用。越多越好:一般来说,做题越多,题型覆盖面越广的同学表现越好。同时做一些微积分和代数题不会导致学生的微积分成绩下降,反而可能有助于学生微积分成绩的提高。从增强能力到自动表示:虽然在某些情况下解决问题的回报会递减,但学生的学习会经历几个阶段。在某个阶段,解决一些问题有助于理解概念并解锁新能力。另外,当学生重复某一类问题时,看到类似问题就会形成自动解题过程,从之前的能力提升到自动解题。表示独立于数据和损失:教授数学概念的方法不止一种。使用不同书籍、教育方法或评分系统学习的学生最终可能会以相似的数学能力学习相同的内容。有些问题更难:在数学练习中,我们经常看到不同学生解决同一问题的方式之间存在很强的相关性。问题似乎确实存在固有的难度级别,并且难度的自然进展对学习最有利。深度学习更像是统计估计还是学生学习技能?上面两个比喻中哪个更适合描述现代深度学习?具体来说,它成功的原因是什么?统计模型拟合可以用数学和代码很好地表达。事实上,规范的Pytorch训练循环通过经验风险最小化来训练深度网络:在更深层次上,这两种情况之间的关系并不明确。更具体地说,这里我们以一个具体的学习任务为例。考虑使用“自我监督学习+线性检测”方法训练的分类算法。具体算法训练如下:1.假设数据是一个序列,其中是一个数据点(比如一张图片),是一个标签。2.首先得到表示函数的深度神经网络。通过最小化某种类型的自监督损失函数,该函数仅使用数据点而不使用标签进行训练。此类损失函数的例子有重建(用其他输入恢复输入)或对比学习(核心思想是比较特征空间中的正负样本以学习样本的特征表示)。3.使用完整标记数据拟合线性分类器(是类数)以最小化交叉熵损失。我们最终的分类器是:第3步仅适用于线性分类器,因此“魔法”发生在第2步(深度网络的自监督学习)。自我监督学习中的一些重要属性:学习技能而不是逼近函数:自我监督学习不是逼近函数,而是学习可用于各种下游任务的表示(这是自然语言处理中的主导范式)。通过线性探测、微调或激励访问下游任务是次要的。越多越好:在自监督学习中,表示质量会随着数据量的增加而提高,并且不会因混合来自多个来源的数据而变得更糟。事实上,数据越多样化越好。GooglePaLM模型的数据集解锁了新功能:深度学习模型随着资源(数据、计算、模型大小)的投入而不断改进。在一些组合环境中也证明了这一点。随着模型大小的增加,PaLM在基准测试上显示出离散的改进并解锁了令人惊讶的功能,例如解释为什么笑话很有趣。性能几乎与损失或数据无关:有多个自监督损失,图像研究实际上使用多个对比和重建损失,语言模型使用单边重建(预测下一个标记)或使用掩码模型,从左右标记掩码进行预测输入。也可以使用稍微不同的数据集。这些可能会影响效率,但只要做出“合理”的选择,通常原始资源会比使用的特定损失或数据集更能提高预测性能。有些情况比其他情况更困难:这一点并不特定于自我监督学习。数据点似乎有一些固有的“难度级别”。事实上,不同的学习算法有不同的“技能水平”,不同的数据集有不同的“难度水平”(分类器正确分类一个点的概率随技能单调递增,随难度单调递减)。“技能与难度”范式是对Recht等人发现的“在线准确度”现象最清晰的解释。和米勒等人。Kaplen、Ghosh、Garg和Nakkiran的论文还展示了数据集中的不同输入如何具有固有的“难度配置文件”,这种配置文件通常对不同的模型系列具有鲁棒性。在C**IFAR-10上训练并在CINIC-10上测试的分类器的直线现象的准确性。来源:https://millerjohnp-linearfits-app-app-ryiwcq.streamlitapp.com/上图描绘了最可能类别的不同softmax概率,作为按时间索引训练的分类器的全局精度的函数。底部饼图显示了不同数据集分解为不同类型的点(请注意,这种分解对于不同的神经架构是相似的)。Trainingisteaching:现代大模型训练似乎更像是在教学生,而不是让模型去拟合数据,当学生不理解或厌倦时,他们“休息”或尝试不同的方法(训练差异)。Meta的大模型训练日志很有启发性——除了硬件问题,我们还可以看到干预,比如训练时切换不同的优化算法,甚至考虑“热插拔”激活函数(GELU到RELU)。如果将模型训练视为拟合数据而不是学习表示,则后者没有多大意义。元训练日志摘录4.1但是监督学习呢?前面讨论了自监督学习,但深度学习的经典例子仍然是监督学习。毕竟,深度学习的“ImageNet时刻”来自于ImageNet。那么上面讨论的内容是否仍然适用于此设置?首先,由于大型、高质量标记数据集(即ImageNet)的可用性,监督大规模深度学习的出现有些偶然。如果你有天马行空的想象力,你可以想象一个平行的历史,深度学习首先通过无监督学习在自然语言处理方面取得突破,然后转向视觉和监督学习。其次,有证据表明,尽管使用完全不同的损失函数,但监督学习和自我监督学习在“内部”表现相似。两者通常实现相同的性能。具体来说,对于每个模型,可以将通过自我监督训练的深度为d的模型的前k层与监督模型的最后d-k层组合起来,而性能损失很小。SimCLRv2论文中的表格。注意监督学习、微调(100%)自我监督和自我监督+线性检测之间在性能上的一般相似性(来源:https://arxiv.org/abs/2006.10029)拼接自我监督模型和Bansal等。人类监督模型(https://arxiv.org/abs/2106.07682)。左图:如果自监督模型(比如说)比监督模型准确度低3%,则当层的p部分来自自监督模型时,完全兼容的表示将导致p3%的级联惩罚。如果模型完全不兼容,那么我们预计随着更多模型的加入,准确性会急剧下降。右图:结合不同自监督模型的实际结果。自监督+简单模型的优势在于它们可以将特征学习或“深度学习魔法”(由深度表示函数完成)与统计模型拟合(由线性或其他“简单”分类器在此表示之上完成)分离。最后,虽然这更像是一种猜测,但实际上“元学习”似乎常常是学习表示的同义词(参见:https://arxiv.org/abs/1909.09157,https://arxiv.org/abs/2206.03271),这可以看作是另一个证据,表明无论模型优化的目标如何,这在很大程度上都在进行。4.2过度参数化怎么办?本文跳过了在实践中被认为是统计学习模型与深度学习差异的典型例子:缺乏“Bias-Variancetrade-off”和过参数化模型良好的泛化能力。为什么要跳过?原因有二:第一,如果监督学习确实等于自监督+简单学习,那么这或许可以解释它的泛化能力。其次,过度参数化并不是深度学习成功的关键。深度网络之所以特殊,不是因为它们与样本量相比很大,而是因为它们的绝对值很大。事实上,通常在无监督/自监督学习中,模型并没有过度参数化。即使对于非常大的语言模型,它们的数据集也更大。Nakkiran-Neyshabur-Sadghi的“深度引导”论文表明,现代架构在“过度参数化”或“欠采样”状态下的行为相似(该模型在许多时期的有限数据上进行训练,直到它过度拟合:“真实世界”),并且在“参数不足”或“在线”状态(模型训练一个时期,每个样本只看一次:上图中的“理想世界”)。资料来源:https://arxiv.org/abs/2010.08127总结统计学习在深度学习中无疑发挥着作用。然而,尽管使用了相似的术语和代码,但将深度学习视为简单地拟合具有比经典模型更多参数的模型会忽略许多对其成功至关重要的因素。教学生数学的比喻也不完美。与生物进化一样,虽然深度学习包含许多可重复使用的规则(例如具有经验损失的梯度下降),但它可以产生高度复杂的结果。似乎在不同的时间,网络的不同组件学习不同的东西,包括表示学习、预测拟合、隐式正则化和纯噪声。研究人员仍在寻找合适的镜头来提出有关深度学习的问题,更不用说回答这些问题了。