神经符号回归：从数据中提取科学

时间：2023-03-20 18:39:34 科技观察

李睿评论|孙淑娟文字宇宙嘈杂混乱，复杂到难以预测。人类的智慧和直觉有助于对周围世界的活动有一些基本的了解，足以从个人和小群体的有限视角对宏观时空尺度上的事件有一些基本的了解。史前和古代自然哲学家大多局限于常识合理化和猜测测试。这些方法有很大的局限性，特别是对于太大或太复杂的事物，从而导致迷信或神奇思维的盛行。这并不是要贬低猜测和检查（这是现代科学方法的基础），而是要看到人类调查和理解能力的变化是由将物理现象提炼成数学表达式的愿望和工具引发的。这在以牛顿等科学家为首的启蒙运动之后尤其明显，尽管在古代也有分析还原论的痕迹。从观察到数学方程（以及这些方程做出的预测）的能力是科学探索和进步不可或缺的一部分。深度学习从根本上讲也是关于学习与输入输出观察相关的转换，就像人类科学家试图以数学表达式的形式学习输入和输出之间的函数关系一样。当然，不同之处在于深度神经网络学习的输入输出关系（万能逼近定理的结果）由一个由不可解释的数值参数组成的“黑匣子”组成，主要是权重、偏差和它们连接的节点.通用逼近定理指出，满足非常宽松标准的神经网络应该能够非常接近地逼近任何表现良好的函数。在实践中，神经网络是一种脆弱且有漏洞的抽象，它表示由简单但精确的基础方程式产生的输入-输出关系。除非特别注意训练模型（或模型集合）来预测不确定性，否则神经网络在进行训练分布之外的预测时往往表现非常差。深度学习预测在做出可证伪的预测方面也表现不佳——开箱即用的假设构成了科学方法的基础。因此，虽然深度学习是一种久经考验的工具，擅长拟合数据，但它在人类最重要的追求之一——通过科学方法探索我们周围的宇宙——方面的实用性有限。尽管深度学习在人类科学事业中存在种种不足，但深度学习在科学学科中的强大拟合能力和众多成功案例也不容忽视。现代科学产生海量数据，其输出结果无法被个人（甚至团队）观察到，也无法直观地从嘈杂的数据转化为清晰的数学方程式。为此，可以求助于符号回归，这是一种将数据简化为方程式的自动或半自动方法。当前的黄金标准：进化方法在进入将现代深度学习应用于符号回归的一些令人兴奋的近期研究之前，必须首先了解将数据集转化为方程的进化方法的当前状态。最常提到的符号回归包是基于遗传算法的Eureqa。Eureqa最初是作为康奈尔大学HodLipson小组的一个研究项目开发的，并作为Nutonian的专有软件提供，后来被DataRobotCorporation收购。Eureqa已被Eureqa合著者兼DatarobotMichaelSchmidt的CTO集成到Datarobot平台中。Eureqa和类似的符号回归工具使用遗传算法同时优化方程组以提高准确性和简单性。TuringBot是一种基于模拟退火的替代符号回归包。模拟退火是一种类似于冶金退火的优化算法，用于改变金属的物理特性。在模拟退火中，在选择优化问题的候选解决方案时降低“温度”，其中较高的温度对应于接受较差的解决方案，并用于促进早期探索，能够搜索全局最优值，并提供能量以避免局部最优。TuringBot是另一个基于模拟退火的符号回归包。模拟退火是一种类似于冶金退火的优化算法，用于改变金属的物理性质。在模拟退火中，在选择优化问题的候选解决方案时降低“温度”，其中较高的温度对应于接受较差的解决方案，并用于促进早期探索，能够搜索全局最优值，并提供能量以避免局部最优。TuringBot是一个免费版本，但在数据集大小和复杂性方面有很大的限制，并且代码不允许修改。虽然商业符号回归软件（尤其是Eureqa）在开发符号回归新工具时提供了重要的比较基准，但闭源程序的用途有限。另一个名为PySR的开源替代方案在Apache2.0许可下发布，由普林斯顿大学博士生MilesCranmer领导，其优化目标是准确性和简约性（简单性），以及Eureqa和TuringBot使用的组合方法。除了提供一个免费且可自由修改的软件库来执行符号回归之外，从软件的角度来看，PySR也很有趣：它是用Python编写的，但使用Julia编程语言作为快速后端。虽然遗传算法通常被认为是符号回归的当前最先进的技术，但在过去几年中，新的符号回归策略出现了令人兴奋的爆炸式增长。其中许多新开发利用了现代深度学习模型，或者作为多步过程中的函数逼近组件，或者以基于最初为自然语言处理开发的大型Transformer模型的端到端方式，以及介于两者之间。之间的任何内容。除了基于深度学习的新符号回归工具外，概率和统计方法，尤其是贝叶斯统计方法也重新兴起。结合现代计算能力，这一新一代符号回归软件不仅本身是一项有趣的研究，而且为涉及大型数据集和综合实验的科学学科提供了真正的实用性和贡献。以深度神经网络作为函数逼近器的符号回归得益于Cybenko和Hornik在1980年代末/90年代初描述和研究的通用逼近定理，可以预期具有至少一个具有非线性激活的隐藏层的神经网络可以逼近任何表示良好的数学函数。在实践中，在更复杂的问题上使用更深的神经网络往往会有更好的性能。然而，原则上，需要一个隐藏层来逼近各种函数。受物理学启发的AIFeynman算法使用通用逼近定理作为更复杂难题的一部分。AIFeynman（及其继任者AIFeynman2.0）由物理学家Silviu-MarianUdrescu和MaxTegmark（以及一些同事）开发。AIFeynman利用许多物理方程中的函数属性，例如平滑度、对称性和组合性等。神经网络充当函数逼近器，学习数据集中表示的输入-输出变换对，并通过在相同的函数变换下生成合成数据来促进对这些属性的研究。AIFeynman用来解决问题的函数性质在物理方程中很常见，但不能任意应用于所有可能的数学函数空间。然而，它们仍然是在与现实世界相对应的各种函数中寻找的合理假设。与前面介绍的遗传算法和模拟退火方法一样，AIFeynman从头开始??拟合每个新数据集。在不涉及泛化或预训练的情况下，深度神经网络仅形成更大的物理信息系统的协调部分。AIFeynman符号回归在破译Feynman物理讲座中的100个方程（或谜题）方面做得很好，但缺乏泛化意味着每个新数据集（对应一个新方程）都需要大量的计算预算。一组新的符号回归深度学习策略利用了非常成功的Transformer模型系列，最初由Vaswani等人作为自然语言模型引入。这些新方法并不完美，但使用预训练可以在推理时节省大量计算时间。第一代基于自然语言模型的符号回归，而基于注意力的超大型Transformer模型在计算机视觉、音频、强化学习、推荐系统等许多领域都有不同的任务（除了基于文本的自然语言处理的原始作用）随着上的巨大成功，Transformer模型最终也将应用于符号回归也就不足为奇了。虽然数字输入-输出对到符号序列的领域需要一些仔细的工程，但数学表达式基于序列的性质很自然地适用于Transformer方法。至关重要的是，使用Transformer生成数学表达式使他们能够利用对数百万个自动生成的方程式的结构和数值意义进行预训练。这也为通过放大来改进模型奠定了基础。缩放是深度学习的主要优势之一，其中更大的模型和更多的数据继续提高模型性能，远远超过过度拟合的经典统计学习限制。缩放是Biggio等人提到的主要优势。在他们题为“可扩展的神经符号回归”的论文中，标题为NSRTS。NSRTSTransformer模型使用专用编码器将每个输入-输出对数据集转换为潜在空间。编码后的潜在空间具有独立于编码器输入大小的固定大小。NSRTS解码器构建一个标记序列来表示以编码的潜在空间和目前生成的符号为条件的方程。至关重要的是，解码器仅输出数字常量的占位符，但在其他方面使用与预训练方程数据集相同的词汇表。NSRTS使用PyTorch和PyTorchLightning，并拥有宽松的开源MIT许可证。在生成无常数方程（称为方程骨架）后，NSRTS使用梯度下降来优化常数。这种方法在序列生成之上分层了一个通用优化算法，由Valipour等人同时开发的所谓“SymbolicGPT”共享。Valipour等人。不要像NSRTS方法那样使用基于注意力的编码器。相反，基于斯坦福点云模型PointNet的模型用于生成固定维度的特征集，Transformer解码器使用该特征集来生成方程。与NSRT一样，SymbolicGPT使用BFGS来查找Transformer解码器生成的方程骨架的数值常数。基于自然语言模型的第二代符号回归尽管最近的一些论文描述了使用自然语言处理（NLP）Transformer的符号回归的泛化和可扩展性，但上述模型并不是真正的端到端，因为它们没有估计数值常数。这可能是一个严重的缺陷：想象一个模型可以生成具有1000个不同频率的正弦基的方程。使用BFGS优化每一项的系数可能适用于大多数输入数据集，但实际上它只是执行傅立叶分析的一种缓慢而迂回的方式。就在2022年春天，Vastl等人在ArXiv上发布了第二代基于Transformer的符号回归模型。在SymFormer上，以及Kamienny及其同事的另一个端到端Transformer。这些模型与之前基于Transformer的符号回归模型的一个重要区别在于，它们预测数值常数以及符号数学序列。SymFormer利用双头Transformer解码器执行端到端符号回归。一个脑袋产生数学符号，第二个脑袋学习估计方程中出现的数值常数的数值回归任务。Kamienny和Vastl的端到端模型在细节上有所不同，例如数值估计的精度，但两组的解决方案仍然依赖于后续的优化步骤进行细化。即便如此，根据作者的说法，它们的推理时间比以前的方法更快，产生的结果更准确，产生更好的方程骨架，并为优化步骤提供良好的起点和估计常数。符号回归时代符号回归在很大程度上是一种优雅且计算密集型的机器学习方法，在过去十年中，它受到的关注远低于一般的深度学习。这部分是由于遗传或概率方法的“fireandlose”方法，对于每个新数据集，它们都必须从头开始，这一特征与深度学习应用到符号回归（例如AIFeynman）的中介相同。使用Transformer作为符号回归中的一个组成部分，使最近的模型能够利用大规模预训练，减少推理时的能量、时间和计算硬件要求。这种趋势已经通过估计数值常数和预测数学符号的新模型进一步扩展，从而实现更快的推理和更高的准确性。生成符号表达式的任务反过来可以用来生成可检验的假设，这是一项非常人性化的任务，也是科学的核心。在过去的二十年里，符号回归的自动化方法不断取得有趣的技术进步，但真正的考验是它们是否对从事真正科学研究的研究人员有用。符号回归开始在技术演示之外产生越来越多可发表的科学成果。贝叶斯符号回归方法产生了一种用于预测细胞分裂的新数学模型。另一个研究小组使用稀疏回归模型为海洋湍流生成似是而非的方程，为改进多尺度气候模型铺平了道路。一个将图形神经网络和符号回归与Eureqa的遗传算法相结合的项目，该算法概括了描述多体引力的表达式，并从传统模拟器中导出了一个描述暗物质分布的新方程。符号回归算法的未来发展符号回归正在成为科学家工具箱中的一个强大工具。基于Transformer的方法的泛化和可扩展性仍然是热门话题，尚未渗透到一般的科学实践中。随着越来越多的研究人员采用和改进该模型，它有望进一步推进科学发现。其中许多项目都采用开源许可，因此预计它们将在几年内产生影响，它们的应用范围可能比Eureqa和TuringBot等专有软件更广泛。符号回归是对深度学习模型输出的自然补充，深度学习模型通常是神秘且难以解释的，而更易于理解的数学语言输出可以帮助生成新的可测试假设并推动直觉飞跃。这些特性和最新一代符号回归算法的即时功能有望为伟大发现的时刻提供更多机会。

上一篇：麻省理工学院为高性能计算开发新的编程语言

下一篇：微信8.0新变化不完全总结：16条你最满意哪条？

神经符号回归：从数据中提取科学相关文章