当前位置: 首页 > 科技观察

Facebook、MIT等联合发表451页手稿:用“第一性原理”解释DNN

时间:2023-03-14 12:42:07 科技观察

来自Facebook、普林斯顿大学和MIT的AI研究人员近日联合发表了名为《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks(深度学习理论原理:理解神经网络的一种有效理论方法)》的研究手稿,解释了DNN的理论深度学习实际上是如何工作的。蒸汽机推动了工业革命并改变了制造业。然而,直到热力学定律和统计力学原理得到发展,科学家们才能够在理论层面上充分解释蒸汽机的工作原理。当然,理论知识的缺乏并不能阻止人们改进蒸汽机,但是有理论指导作为基础,技术的发展会更快。当科学家们最终掌握统计力学时,其意义远不止是制造更好、更高效的引擎。统计力学导致人们认识到物质是由原子构成的,预示着量子力学的发展,如果作为一个整体来看,甚至导致了为计算机提供动力的晶体管的发展。今天的人工智能正处于类似的时刻。DNN(深度神经网络)是现代人工智能研究的重要组成部分,但其实现方式或多或少被视为“黑匣子”。尽管AI从业者在理解DNN方面取得了实质性进展,但人们普遍认为DNN过于复杂,无法从第一性原理来理解。模型主要通过反复试验进行微调——虽然反复试验可以智能地完成,通常基于多年的经验,但在没有任何统一的理论语言来描述DNN及其功能的情况下这样做。最近,Facebook人工智能研究中心(FAIR)的科学家、麻省理工学院理论物理中心的研究员ShoYaida、Salesforce的首席研究员DanRoberts和普林斯顿大学的BorisHanin合作写了一本书,讲述如何从《第一性原则》中获得理解DNN的书籍《The Principles of Deep Learning Theory: An Effective Theory Approach to Understanding Neural Networks》。该书将于2022年初由剑桥大学出版社出版,手稿现已公开。书籍地址:https://arxiv.org/pdf/2106.10165.pdf《FirstPrinciples》理解DNN首先我们简单了解一下什么是“FirstPrinciples”?“第一原则”是指回到事物最基本的状态,将其拆分成各种要素进行解构分析,从而找到实现目标的最优路径。亚里士多德首先提出第一性原理思维,他将其定义为“认识事物的第一基础”。许多伟大的思想家,包括发明家,都使用过第一性原理思维方法,但没有人比企业家埃隆·马斯克更有效地从第一性原理进行深入思考。这个词的出圈也得益于马斯克的提振。他曾在接受采访时提到,他特别推崇第一性原理思维方法。书的作者也是从“第一性原理”来理解DNN的。全书451页,开篇引用了量子力学奠基人、诺贝尔物理学奖获得者狄拉克在《量子力学原理》的序言中的一句话:“这需要完全背离历史发展路线,但这一突破是一个优势,因为它允许人们尽可能直接地接触新想法。”在基础层面上,本书提供了一个从“第一原则”理解DNN的理论框架。对于AI从业者,这种理解可以显着减少训练DNN所需的试错次数。例如,理论框架可以揭示任何给定模型的最佳超参数,而无需当今所需的时间和计算密集型实验。斯坦福大学物理学教授EvaSilverstein说:“这本书基于熟悉的理论物理学扩展,提出了一种有吸引力的机器学习方法。”“这些方法可以在理解和改进人工智能方面取得多大进展,这将是令人兴奋的。”Facebook副总裁兼首席AI科学家YannLeCun也在推特上推荐了这本书,称“在科技发展史上,与工程相关的往往排在第一位:望远镜、蒸汽机、数字通信。解释其能力和局限性的理论倾向于晚些时候出现:折射定律、热力学和信息论。”“随着深度学习的出现,人工智能驱动的工程奇迹已经进入我们的生活——但我们对深度学习的力量和局限性的理论理解仍然是片面的。这是最早致力于深度学习理论的书籍之一,并阐述了以连贯的方式最近的理论方法和结果。”这只是重塑人工智能科学的更大项目的第一步,这两个项目均源自“第一性原理”,并侧重于描述现实模型的工作原理。如果成功,这种深度学习的一般理论可以使人工智能模型更加迄今为止,试图理解DNN的理论家通常依赖网络的理想化,即所谓的“无限宽度限制”,其中DNN的每一层都有无限个神经元。元。这类似于理想气体定律和真实气体情况。“无限宽度约束”为理论分析提供了一个起点,但它往往与实际情况不太相似-世界深度学习模型,尤其是香草深度神经网络,其中的抽象将越来越偏离准确的描述。虽然偶尔有用,但“无限宽度缺点”traint”过于简单,忽略了真实DNN的关键属性,这些属性可能是使DNN如此强大的强大工具。如果从物理学家的角度来处理这个问题,核心是通过在“有限宽度”上建立有效的DNN理论来改进这个无限宽度的限制。传统上,物理学家的目标一直是创建最简单和最理想的模型,其中还包含描述现实世界所需的最低复杂性。在这里,这需要删除无限宽度限制并系统地合并所有必要的修正以解决有限宽度的影响。用物理学的语言来说,这意味着对单层和跨层神经元之间的微小相互作用进行建模。这些听起来像是很小的变化,但现有的玩具模型与书中描述的模型有着质的不同。想象两个台球彼此相向。如果你计算像无限宽度限制这样的非交互式模型会发生什么,你会发现球相互穿过并继续沿同一方向移动。但事实显然并非如此。球中的电子不能占据同一个空间,所以它们会弹跳并相互碰撞。这些交互在现实生活中很重要,在物理学中很重要,对于DNN也同样如此。考虑到神经元之间的类似交互,本书的理论发现DNN的真正力量——它们从数据中学习世界表征的能力——与它们的纵横比(深度与宽度的比率)成正比。对于无限宽度的模型,这个比率为零,因此这些玩具模型无法捕获深度,并且随着DNN深度的增加,它们的描述变得越来越不准确。相比之下,对于有限宽度的层,有效的理论实际上会影响深度——这对于表示学习和DNN的D(深度)真正重要的其他应用至关重要。“在物理学中,有效场论是一种用于理解粒子复杂相互作用的严谨而系统的方法,”麻省理工学院物理学副教授、NSFAI人工智能和基础相互作用研究所所长JesseThaler说。有趣的是,一种类似的、严格的、系统的方法适用于理解深度网络的动态。受这些发展的启发,我期待着物理学界和人工智能界之间进行更有成效的对话。”尽管本书中描述的框架可以扩展到现代人工智能界使用的真实世界的DNN,并为此提供了蓝图,但本书主要针对教学目的的最简单的深度学习模型(深度多层感知器)。应用到这个最简单的结构,可以系统地求解有效的理论方程。这意味着我们可以获得第一性原理的理解DNN在整个训练轨迹中表现良好。特别是,我们可以明确地写下由经过充分训练的DNN计算的函数,以对新的测试示例进行预测。有了这个新的有效理论,研究人员希望理论家能够推进对神经网络更深入、更全面的理解。虽然还有很多东西需要计算,但这项工作可能会让该领域更接近于理解这些模型的哪些特定属性可以让它们智能地执行。研究人员还希望这本书能够帮助AI社区减少有时会限制当前研究进展的试错周期。研究人员还希望帮助AI从业者快速设计出更好的模型——更高效、性能更好、训练速度更快,或所有这些。特别是,设计DNN的研究人员无需任何训练即可选择最优的超参数,并选择最优的算法和模型结构以获得最佳结果。多年来,许多人认为这些问题永远无法回答或解释。这本书表明人工智能不是一门无法解释的艺术,实用的人工智能可以通过基本的科学原理来理解。研究人员希望这仅仅是个开始,并将继续这项研究,将理论框架扩展到其他模型架构并取得新的成果。在更广泛的层面上,研究人员希望这本书能够证明理论可以提供对真实模型的理解。尽管近年来的实证结果将人工智能推向了新的高度,但研究人员坚信,基于理论的实践可以帮助加速人工智能研究,并有可能发现难以想象的新领域,例如统计力学,以及迎来信息时代一个多世纪以前。作者简介ShoYaida是Facebook人工智能研究所(FAIR)的科学家,他的研究重点是应用理论物理方法来理解神经网络。他获得了博士学位。在斯坦福大学,他专注于黑洞,后来作为麻省理工学院和杜克大学的博士后研究员转向玻璃物理学。个人主页:https://ai.facebook.com/people/sho-yaida/DanRoberts是麻省理工学院理论物理中心研究员,Salesforce首席研究员,美国国家科学基金会研究员人工智能与基础交互研究所(IAIFI)。研究方向侧重于如何将理论物理学的工具和观点应用于人工智能。个人主页:https://danintheory.com/此外,还包括普林斯顿的研究合作者BorisHanin,主要研究深度学习、概率等。个人主页:https://hanin.princeton.edu/