本文转载自雷锋网。神经网络,对于这个耳熟能详的名词,我们知道它深受生物学,尤其是脑神经科学的影响。虽然神经网络的灵感最初来自于生物学,但随着人们研究的深入,生物学这门母学科中可利用的资源日益枯竭。但是与生物学分离的物理学仍然处于一片蓝海之中。在这片科研处女地的许多经验和研究方法,有望帮助神经网络的研究变得更好,找到更多的真理。因此,近年来,很多工作开始思考如何在机器学习和物理学之间建立更牢固的联系,设计更强大的计算方法。机器学习和物理学从一开始就密切相关。早在1982年,约翰·霍普菲尔德(JohnHopfield)就进行了首次尝试,他在神经网络和物理学之间建立了第一个可互操作的桥梁。霍普菲尔德发现,在物理学中,在由相互作用的粒子组成的粒子群物理系统中,通常会存在一些类似于粒子间磁力的现象。霍普菲尔德随后将这种交互现象用于神经网络模型设计中的借鉴,特别是那些网络中具有自发计算特性的神经元结构。因此,Hopfield发明了“Hopfield网络”,这就是循环神经网络(RNN)的前身。今天,RNN的广泛应用无需赘述。广泛应用于时序分析、自然语言处理等领域。只要数据具有时间依赖性和时序动态特性,RNN就是一个非常好的候选者。从另一个角度来看,理论物理学有望帮助人们从根本上重新认识机器学习领域。早在1984年,L.G.Valiant就发表了一篇经典论文《A theory of the learnable》,他在其中定下了基调。论文地址:https://dl.acm.org/doi/10.1145/1968.1972这篇论文介绍了一个严谨的学习统计理论,可以看作是所有学习的基础。它突破了深度学习和机器学习中基于数学的学习或学习算法的范畴,从更高更宏观的角度讨论模型、人类或各种事件的“可学习性”。综上,作者将学习行为定义为“不展示编程而获取知识的现象”,文章给出了从计算角度研究学习现象的具体方法,包括选择正确的信息收集方式、学习方式和搜索方式选择合理描述计算方法、数学概念类型的计算步骤。1.深度学习应该从物理学中学到什么?但是当时间来到2010年代,经过长时间的蛰伏,深度学习突然冒了出来。它以迅雷不及掩耳之势在多个领域称霸排行榜,刷新了多项记录,并猛烈抨击其他传统算法。深度学习以其彪悍强大的泛化能力和非理性的非线性学习能力赢得了世人的惊叹和认可。但随之而来的是疑惑和困惑。这个黑匣子背后隐藏着什么未解之谜?在《Nature Physics》期刊最近发表的一篇评论论文中,研究人员LenkaZdeborová呼吁研究人员尝试重新使用“受物理学启发的方法”来解决现实生活中复杂而无知的问题。建模问题。在这篇名为《Understanding deep learning is also a job for physicists》的文章中,作者首先赞扬了深度学习的广泛应用及其在众多领域的卓越表现。文章地址:https://www.nature.com/articles/s41567-020-0929-2但同时指出,这种“无脑”的训练方式在某种意义上并不“优雅”,浪费了很多没有计算资源和泛化能力,训练一个庞大复杂的模型可能需要付出很大的努力,但结果只是解决了一个y=kx+b的问题。也就是说,在很多情况下,深度学习的研究并没有分析到问题的本质。他们没有深入分析数据,没有仔细观察数据之间的关联和变化,所以他们没有背后的规律和真正的核心模型。去了解和探索。很有可能,我们练就了一把无双屠龙刀,目的就是要刮装修公司的胡子。虽然效果不错,但物理学家还是觉得腻子铲好用……当然,作者也有呼吁物理学家借助深度学习这个工具,加速理论研究和模型研究的初衷。Lenka具体指出:物理学家善于总结,总能看出数据背后的本质。物理学家有丰富的经验。他们可以轻松处理大量具有异质性、多模态和不同量级的实验数据,并像福尔摩斯一样从中抽丝剥茧寻找问题背后的规律。因此,物理学家总能找到问题背后的本质,并对其中的重要部分进行合理建模。至于数据中那些无关紧要的噪声和细节,物理学家也可以准确地剔除并忽略它们。可怕的是,物理学家甚至总能通过分析和调查来检验这些猜想和模型。一个典型的例子就是伊辛模型,这是物理学中非常成功的磁模型。Ising没有使用任何关于磁相互作用或材料特性的量子力学先验细节,但它可以准确地模拟自然界中的几种类型的实验现象。事实上,计算科学家后来尝试针对同一问题在数据上构建机器学习方法。他们曾经设计过一个Hopfield网络,给它喂超大规模的数据后,训练出来的模型居然和伊辛一样,两者的结果完全一样。可以说这是一个机器学习版的伊辛网络。这也从侧面说明了伊辛模式的成功。因此,如果我们想要对深度学习的理论有更深入的了解,想要揭开深度学习黑匣子背后的神秘面纱,受物理学启发的归纳思维或许是一个很好的突破口。我们可以稍微展开一点,为什么说物理学有望成为深度学习理论的突破口呢?我们知道,深度学习的可解释性研究或似真性理论研究一直是一个热门领域。由于深度学习黑匣子的不可解释性,它受到医疗等领域的严格限制。如果一款产品想要通过CFDA和CE认证,那么就需要把算法理论讲清楚,毕竟人命关天。因此,如果能够从物理学的角度对深度学习的可解释性进行系统的阐述和研究,哪怕是一点点的进步,都会被产业界和学术界牢牢抓住,当作一根救命稻草。非常珍惜。那么深度学习可以计算什么?我们如何训练他们?信息是如何通过它们传播的?为什么它们可以泛化?我们如何教会他们想象……等等,将是研究的重点。目前,一些工作如《Statistical Mechanics of Deep Learning》从统计力学物理分析的角度对这些问题的根源进行了概念性解释。论文地址:https://www.annualreviews.org/doi/10.1146/annurev-conmatphys-031119-050745这些解释方法将深度学习与各种物理和数学主题联系起来,包括随机景观、自旋眼镜、干涉、动态相位跃迁、混沌、黎曼几何、随机矩阵理论、自由概率和非平衡统计力学。事实上,统计力学和机器学习领域自古以来就有很强的耦合和丰富的相互作用历史,而统计力学和深度学习交叉领域的最新进展表明,这些相互作用有望进一步倍增并最终提供我们对深度学习的理论研究和可解释性提供了令人兴奋的突破的可能性!2.你如何结合物理?从实际应用的角度来看,深度学习具有“强化奇迹”的属性。只要有足够的数据和足够复杂的神经元结构,许多现实生活和物理学中的“百年之谜”就可以轻松解开。示例包括流体力学、高能物理学或天气预报。例如,在Christian等人发表的作品《Deep recurrent optical flow learning for particle image velocimetry data》中。在Nature上,他们提出了一种端到端的深度学习模型,用于学习物理位移场(displacementfields)。它侧重于粒子图像测速(PIV)的物理特性和动力学。论文地址:https://www.nature.com/articles/s42256-021-00369-0PIV是实验流体动力学中的一项核心关键技术,在汽车、航空航天和生物医学工程等领域具有重要的应用意义。目前的PIV数据处理方法都是手工设计的,其泛化能力和估计因子受到开发者的限制。还有很多参数需要手动设置,其适用范围和大规模应用受到很大挑战。.相比之下,作者提出的基于深度学习的PIV方法是基于最近的光流学习架构(称为递归全场变换),具有更广泛的应用范围和通用特性。大多数参数设置、计算泛化和结构调整也是自动化的,并且可以提供极高的空间分辨率。学术界的一个活跃方向是使用机器学习模型来估计偏微分方程形式的数学公式的解。这些数学公式解的规律是湍流等复杂动力学现象的理论基础。在《Nature Reviews Physics》最近的一篇评论文章中,GeorgeKarniadakis及其同事对其进行了相当详细的讨论。他们认为物理学可以结合深度学习的方法来解决复杂的动力学问题,并给出了一些结合的思路,还阐述了一些具体的例子,包括地震预测和分子动力学。另一个有前途的研究方向是利用深度学习来解决优化问题,尤其是组合优化问题。在这类问题中,算法必须在非常大的有限可能配置空间中找到最优解。该配置空间的大小随着问题的输入大小呈指数增长。因此,基于穷举搜索的求解策略是不可行的,从而导致维数灾难。具体来说,为了解决组合优化问题,YoshuaBengio的许多工作开始从整体学习解决方案的研究逐渐过渡到深度学习解决方案领域。论文地址:https://arxiv.org/pdf/1811.06128v2.pdf这些组合优化求解问题通常难度很大,其数学难度很大。然而,目前主流的算法都是手工设计的启发式算法。它们具有很高的可解释性和灵活性,但它们的设计成本相对较高,并且它们的决策结果在一定程度上在计算上或数学上是错误定义的。问题。因此,很多人转投机器学习的阵营。相对而言,机器学习方法的优点是决策原则和优化方法的可追溯性更好。当然,也有一些工作提倡进一步加强机器学习与组合优化的融合。简而言之,他们主要将一般优化问题视为数据点,并询问在给定任务中用于学习的问题的相对分布。事实上,为了避免维数灾难而使用机器学习来解决问题的例子还有很多。比较典型的有几个:魔方问题、旅行商问题、寻找蛋白质三维结构的问题。魔方其实就是我们常说的魔方,MagicCube,因为它得名于1974年Rubik教授发明它。在2019年Nature发表的一篇文章中,作者提出用深度学习方法DeepCubeA来解魔方问题。DeepCubeA可以在没有任何特定领域知识的情况下,从目标状态逆向学习如何解决越来越难的魔方问题。论文地址:https://www.nature.com/articles/s42256-019-0070-z在蛋白质序列预测和蛋白质三维结构等难度较大的工作中,Brain等人。回顾了学术界目前使用的深度研究方法。文章地址:https://www.nature.com/articles/s41580-019-0163-x这些方法都是为了解决蛋白质领域的一个难题——设计折叠成特定三维结构的氨基酸序列.在过去十年中,预测和设计蛋白质结构的方法取得了显着进步。计算能力的提高和蛋白质序列和结构数据库的快速增长同时推动了新的数据密集型和计算要求高的结构预测方法的发展。因此,可以计算出许多算法来设计“蛋白质折叠”和“蛋白质-蛋白质界面”,并且还应用于设计新的高阶蛋白质组装,以及设计具有新颖或增强特性的荧光蛋白零,并带有具有治疗潜力的信号蛋白。其中比较有代表性的是MohammedHibat-Allah等人提出的结合经典和量子物理与深度学习的设计。这种方法可以用来寻找无序伊辛系统的基态(GroundState)。论文地址:https://www.nature.com/articles/s42256-021-00401-3在统计物理学中,可以使用称为模拟退火的计算方法来解决优化问题。这是受冶金退火过程启发的启发式算法过程。在冶金工业的退火过程中,将固体加热到足够高的温度,然后让其缓慢冷却。加热时,固体内部粒子随温度升高而变得无序,内能增加。当缓慢冷却时,粒子逐渐趋于有序,在各个温度下均达到平衡状态,最后在室温下达到基态,内能最小。简单来说,材料被快速加热,然后缓慢冷却。在冷却过程中,材料在显微镜下重新排列成具有所需特性的最佳配置。受这种现象的启发,科学家们总结出了传统的模拟退火算法。简而言之,它是一种基于蒙特卡洛迭代求解策略的随机优化算法,其出发点是基于物理学中固体物质退火过程与一般组合优化问题的相似性。模拟退火算法从较高的初始温度开始,随着温度参数的不断降低,结合概率跳跃特性,在解空间中随机搜索目标函数的全局最优解,即局部最优解解可以概率性地跳出,最终趋于全局最优。模拟退火算法是一种通用的优化算法。理论上,该算法具有概率的全局优化性能。已广泛应用于工程领域,如超大规模集成电路、生产调度、控制工程、机器学习、神经网络、信号处理等领域。.模拟退火算法通过逐渐减少“热波动”来探索能量方面的全局损失最小值(请参见图中具有明显全局最小值的粗略能量视图示例)。显示蛋白质折叠分析的简化、非常粗略的能量可视化。资料来源:库尔曼和布拉德利。纳特。摩尔牧师细胞生物学。20,681-697(2019)。SpringerNatureLtd模拟退火算法的经典版本和量子版本都可用于优化问题。但是算法中通过“冷却”(减少热波动)来探索优化的部分通常是一个缓慢的过程。Hibat-Allah等人。将模拟退火与所谓的变异方法相结合,通过递归神经网络(RNN)对系统状态的联合分布进行参数化。这种方法被称为“变异神经退火”方法。这种新方法大大加快了模拟退火算法的执行过程。需要补充的是,上面提到的经典模拟退火算法是Kirkpatrick在1974年提出的传统模拟退火算法。论文地址:https://www.science.org/doi/10.1126/science.220.4598.671和量子版本是Santoro等人的后续研究。在2002年。通过比较经典和量子蒙特卡罗退火算法上的二维随机伊辛模型(自旋玻璃原型/原型自旋玻璃),证实了量子退火优于经典退火的优越性。论文地址:https://www.science.org/doi/10.1126/science.1068774他们还提出了基于Landau-Zener隧穿级联事件的量子退火理论,证明了复杂系统的最低能量构型高于经典的热对应物更有效。3.物理+机器学习=未来可期。物理学和机器学习之间有许多富有成效的相互作用。围绕着将机器学习与量子信息方法相结合的承诺,人们一定会感到非常兴奋和鼓舞。一个值得关注的方向是使用量子计算机来加速机器学习——一种专注于可靠的量子硬件的方法。具体来说,他们提出并讨论了量子计算机在机器学习任务上相对于经典上述优势的性能。相关论文:https://www.nature.com/articles/nature23474促进其实是相互的,机器学习的概念也在推动着量子计算的进步。例如,胡安等人。提出了一种基于神经网络生成模型的密度矩阵重建方法来描述可扩展多体量子技术中状态准备的基准。论文地址:https://www.nature.com/articles/s42256-019-0028-1感兴趣的读者可以在GiuseppeCarleo等人的综述文章中找到进一步讨论。论文地址:https://www.nature.com/articles/s42256-019-0028-1或参加即将举行的NeurIPSWorkshoponMachineLearningandPhysicalSciences。
