当前位置: 首页 > 科技观察

方程是二叉树森林?直接从数据中发现未知的控制方程和物理机制

时间:2023-03-19 16:57:13 科技观察

研究人员希望利用机器学习的方法,直接从高维非线性数据控制方程中自动挖掘出最有价值、最重要的内在规律),实现知识的自动发现。近日,来自东方理工、华盛顿大学、瑞利智慧和北京大学的研究团队提出了一种基于符号数学的遗传算法SGA-PDE,构建了一个开放的候选集,可以直接从数据中挖掘任意形式的控制。方程。实验表明,SGA-PDE不仅可以从数据中挖掘Burgers方程(有交互作用项)、Korteweg–deVries方程(KdV,有高阶导数项)和Chafee-Infante方程(有指数项和导数项),而且,成功挖掘了粘性重力流问题中的复合函数控制方程和分数阶结构方程,后两者是以往方法难以求出的。SGA-PDE不依赖于方程形式的先验知识,填补了复杂结构控制方程挖掘问题的空白。该模型不需要预先指定候选方程组,有利于自动知识发现算法在未知科学问题中的实际应用。这项名为《Symbolic genetic algorithm for discovering open-form partial differential equations (SGA-PDE)》的研究于6月1日发表在《物理评论研究》杂志上。目前常见的知识发现思路是采用稀疏回归,即预先给定一个封闭的候选集,然后从中选取方程项,组合控制方程,如SINDy、PDE-FIND。但是,这类方法需要用户预先确定方程的近似形式,然后预先将所有对应的微分算子作为候选集中的函数项给出,无法找到做的函数项不存在于数据的候选集中。最近的一些研究尝试使用遗传算法来扩展候选集,但基因重组和变异有很大的局限性,仍然无法生成具有复杂结构(如分数结构和复合函数)的功能项。开放形式的控制方程是直接从数据中挖掘出来的。关键是以易于计算的方式生成和表示任何形式的控制方程,并通过测量生成的方程与观测数据的一致性程度来评估方程形式的准确性,然后迭代优化挖掘出的方程方程式。因此,自动知识发现的核心问题是表示和优化。表1自动控制方程挖掘方法比较表表示的挑战是:1.如何用有限的基本单元来表示无限复杂的结构控制方程(即开放候选集);2.如何构造易于计算的控制方程表示法。为了能够自由地表示任何结构的方程,研究人员将SGA-PDE的基本表示单元弱化为操作数和算子,通过符号数学,利用二叉树构建了一个开放候选集。优化问题的挑战在于:1.方程形式与方程评价指标之间的梯度难以计算;2.开放候选集的可行域是无限的,优化过程中难以有效平衡探索与利用。为了能够高效地优化开放候选集问题,研究人员使用了专门针对树结构设计的遗传算法,以方程的形式实现优化。图1:自动知识发现问题和SGA-PDE的示意图。研究人员首先通过细化算法中方程的基本表示单元来表达开式偏微分方程,将方程的表示尺度从独立函数项层次转变为更基本的层次。运算符和操作数级别。SGA-PDE将控制方程中的算子分为双算子(如+、-)和单算子(如sin、cos),然后将所有潜变量定义为操作数(如x、t、u)。研究人员使用二叉树结构来组合运算符和操作数来编码不同的方程式。二叉树中的所有终端节点(度数为0的叶子节点)对应操作数,所有非终端节点对应操作数,其中双操作符对应度数为2的节点,单操作数对应度数为1的节点。如图2所示,任何一个函数项都可以通过一个可计算字符串作为连接点转化为一棵二叉树,同时满足一定数学规则的二叉树也可以转化为一个函数项。此外,具有多个函数项的控制方程相当于由多个二叉树组成的森林。SGA-PDE以符号方式表示任何开式偏微分控制方程。此外,论文还提出了一种随机生成具有数学意义的二叉树的方法,可以保证生成的二叉树不违反数学原理。图2:二叉树与函数项的表示与转换方法因为图2所示的表示方法可以将函数空间中的样本与二叉树空间中的样本一一对应。这意味着基于符号数学的表示是高效且无冗余的,可以用作遗传算法中的编码过程。研究人员提出了树状结构的遗传算法(图3),从实验数据中自动挖掘出符合观测数据的控制方程。这种树结构的遗传算法可以实现不同层次的优化。重组环节在森林(方程)层面进行优化,寻找二叉树(功能项)的最优组合。这个环节类似于目前常见的稀疏回归方法,都是在封闭候选集中进行优化。突变链接在二叉树(功能项)级别进行了优化。通过随机生成不同的节点属性,在给定的二叉树结构下找到节点属性的最优组合,本质上是对当前结构的利用(exploitation)。替换链接也在二叉树(功能项)层面进行了优化,但是会生成一个新的二叉树结构,是对树结构的探索,实现了对完全开放候选集的优化。通过多级优化,SGA-PDE可以兼顾二叉树拓扑结构的利用和探索,有利于高效地寻找最优方程形式。图3:树结构的遗传算法实验数据如图4所示,其中第二列显示物理场观测值,这是SGA-PDE的唯一输入信息。第3列和第4列中的基础一阶导数可以通过对物理观察结果进行差分来获得。第1列是正确的方程形式。在实验中,SGA-PDE使用相同的预设操作数和算子,不需要针对具体问题进行调整,以验证算法的普适性。最后,SGA-PDE成功地从数据中挖掘出Burgers方程、KdV方程、Chafee-Infante方程、复合函数推导的粘性重力流控制方程、分数阶结构方程。上述方程具有指数项、高阶导数项、相互作用项、复合函数和嵌套结构等多种复杂形式。表2比较了上述5种计算实例中各种现有算法的计算结果。可以看出,SGA-PDE填补了挖掘复杂结构控制方程的空白。图4:实验数据图2不同控制方程挖掘问题中的自动知识发现算法实验结果为了更全面地理解SGA-PDE的优化过程,图5显示了挖掘KdV方程时的演化路径。可以看出,第一代产生的最优方程与实际方程相差甚远。在随后的演化过程中,随着二叉树拓扑结构和节点含义的变化,以及功能项之间的交叉重组,最终在第31代找到了正确的解,此时AIC指标已经达到文中给出的收敛标准。有趣的是,如果继续优化,你会发现第69代基于复合函数推导的KdV方程的表达式更加简洁。图6显示了SGA-PDE寻找具有分数结构的控制方程的优化过程。图5:SGA-PDE对KdV方程的优化过程图6:SGA-PDE对分式结构方程的优化过程形式不确定,难以写出准确的控制方程,极大地制约了领域知识在机器学习中的应用.SGA-PDE通过符号数学的方法对方程进行转换,解决了偏微分方程以任意形式表示的问题。此外,SGA-PDE采用为二叉树设计的遗传算法,通过树拓扑结构和节点属性的迭代优化,从开放域中自动挖掘出满足观测数据的控制方程。在优化方面,SGA-PDE不依赖方程形式的先验信息,也不需要给出候选集,实现了复杂结构方程的自动优化。同时SGA-PDE也是一种无梯度算法,避免了方程结构与损失值之间的梯度难以计算的问题。未来的研究将集中在:1.尝试结合强化学习或组合优化算法;2.通过嵌入物理机制减少解空间;3.评估和改进SGA-PDE对稀疏和噪声数据的适用性;4.整合知识嵌入方法与知识发现方法相融合。论文链接(免费提供):https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.4.023174代码和示例数据链接:https://github.com/YuntianChen/SGA-PDE