化学反应的发现不仅受到获得实验数据的速度的影响,还受到化学家理解该数据的难易程度的影响。揭示新型催化反应的机理基础是一个特别复杂的问题,通常需要计算和物理有机化学方面的专业知识。然而,研究催化反应很重要,因为它们代表了最有效的化学过程。最近,英国曼彻斯特大学(UoM)化学系的Burés和Larrosa报告了一种机器学习模型,该模型表明可以训练深度神经网络模型来分析常见的动力学数据并自动阐明相应的机械类别,而无需任何额外的用户输入。该模型以出色的准确性识别各种类型的机制。研究结果表明,人工智能引导的机械分类是一种强大的新工具,可以简化和自动化机械解释。这项工作有望进一步推动全自动有机反应发现和开发的发展。该研究题为“Organicreactionmechanismclassificationusingmachinelearning”,该研究于2023年1月25日发表于《Nature》。论文链接:https://www.nature.com/articles/s41586-022-05639-4传统的化学反应机制阐明确定了底物转化为产物所涉及的基本步骤的确切顺序,对于合理改进合成方法、设计新催化剂和安全地扩大工业过程至关重要。为了阐明反应机理,需要收集多条动力学曲线,人类专家必须对数据进行动力学分析。尽管反应监测技术在过去几十年里有了显着改进,以至于动力学数据收集可以完全自动化,但用于机理阐明的基础理论框架并没有以同样的速度发展。当前的动力学分析流程包括三个主要步骤:从实验数据中提取动力学特性,预测所有可能机制的动力学特性,以及将实验提取的特性与预测特性进行比较。一个多世纪以来,化学家一直在从反应速率中提取机械信息。一种至今仍在使用的方法是评估反应的初始速率,重点关注最初百分之几的起始材料的消耗。这种方法很受欢迎,因为在大多数情况下,反应物浓度随时间的变化在反应开始时呈线性变化,因此易于分析。虽然很有见地,但这种技术忽略了大部分时间过程中发生的反应速率和浓度的变化。在过去的几十年里,已经开发出更先进的方法来评估整个反应过程中反应组分的浓度。数学技术进一步促进了这些方法,这些技术从反应动力学图中揭示了参与反应步骤的组分数量(也称为反应组分的顺序)。这些技术肯定会继续提供对化学反应性的深入见解,但它们仅限于分析反应组分的顺序,而不是提供更全面的机械假设来描述催化系统的动力学行为。图1:动力学分析的相关性和最新技术。(来源:论文)人工智能改变动力学分析机器学习正在彻底改变化学家解决问题的方式,从设计分子和路线到合成它们,再到理解反应机制。Burés和Larrosa现在通过机器学习模型将这场革命带入了动力学分析,该模型根据模拟的动力学特征对反应进行分类。在这里,研究人员证明,在模拟动力学数据上训练的深度学习模型可以正确地阐明时间浓度分布的各种机制。机器学习模型通过消除对速率定律推导和动力学特性提取和预测的需要来简化动力学分析,极大地促进了所有合成实验室对反应机制的阐明。由于对所有可用动力学数据进行了整体分析,该方法提高了查询反应曲线的能力,消除了动力学分析过程中潜在的人为错误,并扩大了可分析的动力学范围,包括不稳定状态(包括激活和失活过程)和可逆反应。这种方法将补充目前可用的动力学分析方法,并将在最具挑战性的情况下特别有用。具体研究研究人员定义了20类反应机制,并为每一类制定了速率定律。每种机制都通过一组动力学常数(k1,…kn)和化学物质浓度的常微分方程(ODE)函数进行数学描述。然后他们求解了这些方程,生成了数百万个描述反应物衰变和产物形成的模拟。这些模拟动力学数据用于训练学习算法以识别每个机械类别的特征签名。生成的分类模型使用动力学曲线作为输入,包括初始和时间浓度数据,并输出反应的机理类别。图2:机械范围和数据组成。(来源:论文)深度学习模型的训练通常需要大量数据,当必须通过实验收集这些数据时,这可能会带来相当大的挑战。Burés和Larrosa的训练算法方法避免了生成大量实验动力学数据的瓶颈。在这种情况下,研究人员能够在不使用稳态近似的情况下对一组ODE进行数值求解,以生成500万个动态样本来训练和验证模型。该模型包含576,000个可训练参数,并结合使用两种类型的神经网络:(1)长短期记忆神经网络,一种旨在处理时间数据序列(即时间集中数据)的循环神经网络;连接神经网络以处理非时间数据(即催化剂的初始浓度和从每次动力学运行的长短期记忆中检索的特征)。该模型输出每种机制的概率总和为1。研究人员使用模拟动力学曲线的测试集评估了训练模型,并证明它正确地将这些曲线分配给机制类别,准确率为92.6%。图3:机器学习模型在测试集上的性能,每条动力学曲线有六个时间点。(来源:论文)即使使用故意“嘈杂”的数据,该模型也表现良好,这意味着它可用于对实验数据进行分类。图4:误差和数据点数量对机器学习模型性能的影响。(来源:论文)最后,研究人员使用之前报道的几条实验动力学曲线对他们的模型进行了基准测试。预测的机制与早期动力学研究的结论非常一致。在某些情况下,该模型还识别了原始工作中未检测到的机械细节。对于具有挑战性的反应,该模型提出了三个非常相似的机械类别。然而,作者正确地说这个结果不是错误而是他们模型的一个特征,因为这表明需要进一步的具体实验来探索该机制。图5:具有实验动力学数据的案例研究。(来源:论文)总而言之,Burés和Larrosa开发了一种方法,不仅可以自动执行从动力学研究中得出机械假设的漫长过程,还可以对具有挑战性的反应机制进行动力学分析。与数据分析中的任何技术进步一样,由此产生的机械分类应被视为需要进一步实验支持的假设。误解动力学数据的风险始终存在,但该算法基于少量实验以高精度识别正确反应路径的能力可以说服更多研究人员尝试动力学分析。因此,这种方法可以推广并促进将动力学分析纳入反应开发过程,尤其是当化学家越来越熟悉机器学习算法时。
