当前位置: 首页 > 科技观察

机器学习如何做出科学发现?牛津大学一篇268页的博士论文详细介绍了机器学习科学

时间:2023-03-20 16:57:36 科技观察

机器学习(ML)已经引起了我们实践科学的方式的根本转变,许多人现在将从数据中学习作为他们研究的重点。随着我们要研究的科学问题的复杂性增加,以及当今科学实验生成的数据量增加,ML正在帮助自动化、加速和增强传统工作流程。处于这场革命前沿的是一个被称为科学机器学习(SciML)的领域。SciML的一个中心目标是将现有的科学理解与ML更紧密地结合起来,产生强大的ML算法,这些算法由我们的先验知识提供信息。论文地址:https://ora.ox.ac.uk/objects/uuid:b790477c-771f-4926-99c6-d2f9d248cb23目前有大量的方法将科学原理融入ML,人们期待SciML解决一些科学中最大的挑战越来越高。然而,该领域正在蓬勃发展,但仍存在许多问题。一个主要问题是SciML方法是否可以扩展到更复杂的现实世界问题。许多SciML研究都处于概念验证阶段,在这个阶段对技术进行简化、简单的问题测试。然而,了解它们对更复杂问题的可扩展性对于它们的广泛应用至关重要。这个问题是本文的中心问题。首先,设计了许多不同的物理知识机器学习方法,并针对月球科学和地球物理学中三个复杂的、真实世界的、特定领域的案例研究评估了它们的性能和可扩展性。其次,评估和改进了用于求解具有大域和高频解的微分方程的物理信息神经网络(一种流行的通用SciML方法)的可扩展性。讨论了这些研究的共同观察结果,并确定了重要的优势和潜在的局限性,强调了设计可扩展的SciML技术的重要性。简介机器学习(ML)在科学领域引起了一场革命。传统上,科学研究围绕理论和实验展开:人们开发出一种手工制作的、定义明确的理论,然后使用实验数据不断完善它,并对其进行分析以做出新的预测。但是今天,许多人把从数据中学习作为他们研究的重点。在这里,世界的模型是通过ML算法从数据中学习的,不需要现有的理论。这种转变的发生有多种原因。首先,ML领域在过去十年经历了指数级增长,而这种激增背后的主要驱动力通常归因于深度学习的突破[Goodfellow等人,2016年]。几个重要的发现,例如使用更深层次的网络设计和更好的训练算法,以及更强大的计算架构的可用性,已经导致深度学习技术在广泛问题上的性能迅速提高[Dally等人,2021]。现代ML算法现在能够学习和解决极其复杂的任务,从自动驾驶汽车[Schwartingetal.,2018]到击败世界级围棋选手[Silveretal.,2018]。随着这些进步,今天的科学实验产生了越来越多的数据并研究了越来越复杂的现象[Bakeretal.,2019,Heyetal.,2020]。分析和理论化所有这些数据对于人类和我们的传统工作流程来说正迅速变得不可能,不久之后,科学实验可能会受到他们从已有数据中提取见解的能力的限制,而不是他们可以收集什么数据[Baker等人,2019]。鉴于ML可以提供强大的工具,许多研究人员正在转向ML来帮助自动化、加速和增强传统工作流程。新的ML算法和数据可用性的结合在过去十年中带来了一些重大的科学进步。例如,ML已被用于比以往任何时候都更准确地预测蛋白质结构[Jumperetal.,2021],从神经活动合成语音[anummanchipallietal.,2019],以及改进量子多体系统的模拟[Carleo和Troyer,2017]。事实上,现代ML算法现在几乎已经应用于科学的各个方面,这个时代的决定性研究问题之一已经成为:“解决问题X,并将ML应用于它”,随之而来的是有趣且常常令人兴奋的结果.然而,尽管取得了这些进步,但ML的各种缺点,尤其是深度学习算法,已经在ML领域得到了体现。例如,尽管深度神经网络具有学习高度复杂现象的能力,但它们通常被视为“黑匣子”,缺乏对它们如何表示和推理世界的理解。这种不可解释性是一个关键问题,特别是对于需要证明网络预测合理性的安全关键型应用程序[Gilpinetal.,2019,Castelvecchi,2016]。此外,关于如何设计适合特定任务的深度学习算法的理论指导很少。尽管元学习和神经架构搜索领域开始提供更多自动化方法[Elskenetal.,2019,Hospedalesetal.,2021],但深度神经网络架构的选择在很大程度上取决于经验。最后,虽然深度神经网络的表现力很强,但它们受到训练数据的限制,在训练分布之外往往表现不佳。学习在新任务上表现良好的可泛化模型是更通用的人工智能(AI)系统的一个关键特征,也是ML领域的一个关键突出挑战[Bengio等人,2021年]。在科学问题中使用ML时,研究人员开始遇到这些限制[Ourmazd,2020,Forde和Paganini,2019]。鉴于深度神经网络的泛化能力较差,一个关键问题是它们是否真的“学习”了科学原理。一个好的科学理论有望在实验数据之外做出新颖而准确的预测,但深度神经网络很难在训练数据之外做出准确的预测。即使网络可以做出可靠的预测,鉴于其不可解释的性质,从中提取任何有意义的科学见解也可能具有挑战性。另一个主要问题是,许多当前的机器学习工作流程完全用学习模型取代了传统的科学模型。虽然这可能很有用,但这些纯数据驱动的方法“丢弃”了我们大量先前的科学知识。重要的一点是,对于许多问题,可以建立一个现有的理论,而不是从头开始。在传统上基于明确定义的理论和实验之间的紧密相互作用的领域中,一些人认为上述限制使当前的ML方法不可接受。这些担忧促使形成了一个快速发展的新领域,称为科学机器学习(SciML)[Baker等人,2019年;Karniadakis等人,2021年;Willard等人,2020年;Cuomo等人,2022年;Arridge等人等人,2019年,Karpatne等人,2017a]。SciML的目标是融合现有的科学知识和ML,以根据我们的先验知识生成更细微的ML算法,如图1.1所示。该领域的主要论点是,通过这样做,我们最终将拥有更强大的科学研究方法。传统方法和ML方法都有其优点和缺点,两者的结合可能比任何一种都更有效。例如,在进行数据同化时(例如在气候模型中),可以使用传统的物理模型来提供先验知识,而ML则可以用于解释数据依赖性和其他未知物理。图1.1:科学机器学习(SciML)概述。SciML旨在将ML与科学知识紧密结合,以便为科学研究生成更强大、稳健和可解释的ML方法。该领域的期望正在迅速增长,目前正在提出和研究大量方法和许多创新策略,以将科学知识融入ML。这些方法的范围从预期的科学任务(例如模拟、反演和发现控制方程)到结合科学原理的不同方法(例如通过深度神经网络的架构、它们的损失函数和混合模型的使用),科学原则被强加的程度(例如通过硬约束或软约束)。我们将在第2章中详细回顾这些方法。在SciML的一个子领域,称为物理信息机器学习(PIML)[Karniadakis等人,2021年],许多方法使用物理学的思想来通知他们的ML算法。到目前为止,SciML已经取得了一些初步的成功。它帮助我们进行强大的模拟[Raissial.,2019],发现复杂物理系统的控制方程[KutzandBrunton,2022],准确地反转反演问题中的基本参数[Arridgeetal.,2019],并无缝集成具有学习组件的传统工作流[Rackauckasetal.,2020,Thuereyetal.,2021]在广泛的领域。尽管早期承诺,SciML领域仍处于起步阶段,并且出现了许多重要问题,例如;我们应该如何实施科学原则?我们应该如何平衡数据驱动模型缺乏可解释性与现有理论的清晰性?是否存在可以跨科学学科应用的总体SciML技术?SciML能否为机器学习领域提供新的视角和思路?SciML技术对复杂的现实世界问题的扩展程度如何?本文围绕最后一个问题展开,具体讨论如下。在本文中,我们主要采用两种方法来研究上述子问题。首先,对于前3个子问题,使用复杂的、真实世界的、特定领域的案例研究来检查几种不同PIML方法的性能和可扩展性。对于每个子问题,我们提供一个案例研究,提出一种PIML技术(或各种PIML技术)来解决它,并评估该技术如何扩展到此设置。其次,对于最后一个子问题,我们专注于单一的通用PIML技术并评估和改进其可扩展性。前三个子问题在本文的不同章节(分别为第3章和第5章)中进行了研究,案例研究来自月球科学和地球物理学领域。最后一个子问题将在第6章进行研究。最后,我们在第7章“SciML方法谱系”中讨论和总结了每一章对我们主要研究问题的影响。该图显示了本章中介绍的不同类型的SciML方法在科学知识上的“强度”。请注意,科学约束的强度是一个相当模糊的概念;在此图中,我们将其定义为SciML方法与传统工作流的接近程度。中间方法类似地将ML与传统工作流的某些方面相结合,例如以循环方法将传统迭代求解器与ML模型交织在一起。此外,我们的分配有些主观,所以这个数字只是总体趋势的一个指标。