当前位置: 首页 > 科技观察

微分方程VS机器学习,举例说明两者异同

时间:2023-03-18 16:24:43 科技观察

微分方程和机器学习是AI领域的两种建模方法。各有什么优点?微分方程(DE)和机器学习(ML)等数据驱动的方法足以驱动人工智能领域的发展。两者有何异同?本文做了一个对比。示例微分方程模型Navier-Stokes方程(气象学)该模型用于天气预报。这是一个混沌模型,当输入有点不准确时,预测可能会大相径庭。这就是为什么天气预报经常是错误的,而天气模拟是使用超级计算机完成的。爱因斯坦场方程(物理学)爱因斯坦场方程描述了万有引力定律,是爱因斯坦广义相对论的数学基础。Black-Scholes(金融)Black-Scholes模型为股票市场中的金融衍生品定价。SIR模型(流行病学)SIR是描述传染病传播的基本分区模型。为什么以上4个方程是微分方程?因为它们都包含一些未知函数的导数(即变化率)。这些未知函数,如SIR模型中的S(t)、I(t)和R(t),称为微分方程的解。让我们看看另一个模型。Murray-Gottman(心理学)该模型用于预测浪漫关系的持续时间。根据心理学家约翰戈特曼的开创性研究,持续乐观是婚姻成功的重要预测指标。请注意,Murray-Gottman“爱情模型”实际上是一个差分方程(微分方程的姊妹模型)。差分方程输出离散的数字序列(例如,每5年一次的人口普查结果),而微分方程模拟连续值(即连续发生的事件)。以上5个模型(微分和差分方程)是机械模型,我们可以自己选择系统的逻辑、规则、结构或机制。当然,并不是每次尝试都会成功,试错在数学建模中非常重要。Navier-Stokes方程假定大气是流动的流体,而上述方程是从流体动力学推导出来的。广义相对论假设时空在特定几何形状中被扭曲。爱因斯坦提出了一些关于时空扭曲的重要想法,数学家艾米诺特和大卫希尔伯特将这些想法纳入了爱因斯坦的场方程。SIR模型假设病毒通过感染者和未感染者之间的直接接触传播,并且感染者以固定速率自动恢复。使用机械模型时,观察和直觉指导模型的设计,而数据用于随后检验假设。所有这一切都与首先从数据开始的经验或数据驱动模型形成鲜明对比。其中包括机器学习模型,其中算法通过提供足够的高质量样本来学习系统的底层逻辑或规则。当人类难以分析或定义系统的机制时,这种方法是明智的。数学模型的分类机械模型对驱动系统的基本机制做出假设,常用于物理学。事实上,数学建模直到17世纪才开始发展,当时人们正试图解开行星运动的规律。经验或数据驱动的建模,尤其是机器学习,允许数据学习系统的结构,这个过程称为“拟合”。机器学习对于人类不确定如何将信号与噪声分开的复杂系统非常有效,只需训练一个聪明的算法来为您完成繁重的工作。机器学习任务可大致分为:监督学习(即回归和分类)无监督学习(即聚类和降维)强化学习机器学习和人工智能系统如今无处不在。从亚马逊、苹果、谷歌的语音助手,到Instagram、Netflix、Spotify的推荐引擎,再到Facebook、索尼的人脸识别技术,甚至特斯拉的自动驾驶技术,这些都是嵌入式下做出来的很多代码。数学和统计模型驱动。我们可以进一步将机械模型和经验模型分为确定性模型(预测是固定的)和随机模型(预测包含随机性)。确定性模型忽略随机变化,并且在给定相同初始条件的情况下始终会预测相同的结果。随机模型考虑了随机变化,例如系统中单个主体的异质性,例如人、动物和细胞之间的细微差异。随机性通常会在模型中引入一些现实主义,但这是有代价的。在数学建模中,我们需要考虑模型的复杂性:简单的模型易于分析,但可能缺乏预测能力;复杂的模型具有真实性,但尝试理解模型背后的原理也很重要。因此,我们需要在简单性和可分析性之间做出权衡,正如统计学家GeorgeBox所说:所有模型都是错误的,但其中一些是有用的。在机器学习和统计学中,模型复杂性被称为“偏差-方差权衡”。高偏差模型太简单,导致欠拟合,高方差模型存储噪声而不是信号(即系统的实际结构),导致过拟合。微分方程与机器学习示例Logistic微分方程这个方程涵盖农业、生物学、经济学、生态学、流行病学等。绘制dP/dt与t的关系图:逻辑模型的一个示例是Hubbert石油峰值模型。1956年,石油地质学家MarionHubbert创建了德克萨斯州石油生产的预测数学模型。令P表示得克萨斯州的石油产量。如果rP在右边,石油产量将成倍增加。但哈伯特知道,石油的总量只有K=200千兆桶。随着时间的推移,提取石油变得更加困难,因此生产率dP/dt降低。项目(1-P/K)描述了资源有限的观察结果。请注意,我们在考虑实际数据之前推断了石油开采的机制。代表生产率的参数r=0.079是根据50年的数据推断出来的。代表油总量的参数K=200为系统稳态。机器学习模型难以学习微分方程中嵌入的逻辑捕获的潜在机制。本质上,任何算法都需要仅根据1956年之前存在的数据来预测可能出现的最大值(绿色):为了完整性,本文作者训练了一些多项式回归、随机森林、梯度提升树。请注意,只有多项式回归可以推断出原始数据之外的结果。RandomForestPolynomialRegressionPolynomialRegression很好地捕捉到了信号,但是这个二次函数(图中为抛物线)不太可能在1970年达到石油峰值后回落。红色曲线只会越来越高,表明石油采收率正在接近无穷。Hubbert的机械模型解决了这一建模挑战。当人类难以捕捉和定义系统的规则和机制时,机器学习方法就会大放异彩。换句话说,从噪声中提取信号的方法超出了人类的努力范围,更好的方法是让机器通过使用高质量的例子来学习规则和信号,也就是用数据来训练机器。数据越好,结果越好。神经网络是学术和应用机器学习的先驱,能够捕捉惊人的复杂性。求解逻辑微分方程并绘制P(t)和P'(t)上面介绍了逻辑微分方程,并立即绘制了它的解P(t)及其导数dP/dt。部分步骤省略,详细操作方法如下。方法1:数值模拟首先将微分方程编程到Python或Matlab中,然后使用数值求解器获得P(t),然后绘制dP/dt作为t的函数。这里使用Python。方法2:获得解析解可以使用变量分离法对系统进行解析求解。注意:大多数微分方程无法解析求解。对此,数学家们一直在寻找寻找解析解的方法。以新西兰科学家罗伊克尔为例。他发现了爱因斯坦场方程的一组精确解,从而导致了黑洞的发现。但幸运的是,一些逻辑微分方程有精确解。首先将所有包含P的项移到方程的左侧,将包含t的项移到方程的右侧:将两者结合给出通解,即满足微分方程的无穷多个函数的集合。微分方程总是有无穷多个解,由一系列曲线以图形方式给出。重新排列P得到:微分得到:这两个公式分别对应上述的logistic曲线和类高斯曲线。小结在机械建模中,研究人员在假设驱动系统的基本机理之前,会仔细观察和研究现象,然后用数据来验证模型,验证假设是否正确。如果假设正确,则皆大欢喜;如果错了也没关系,建模本身就是试错,你可以选择修改假设或者从头开始。在数据驱动建模中,我们让数据构建系统的蓝图。人类要做的就是为机器提供高质量的、有代表性的、充足的数据。这就是机器学习。当人类难以观察到现象的本质时,机器学习算法可以从噪声中提取信号。神经网络和强化学习是当今的热门研究领域,能够创建极其复杂的模型。而AI革命还在继续。