当前位置: 首页 > 科技观察

AI通用于整个元素周期表,即时预测材料的结构和特性

时间:2023-03-16 18:18:51 科技观察

材料的特性是由它的原子排列决定的。然而,现有的获得此类布置的方法对于许多元件而言要么过于昂贵要么无效。现在,加州大学圣地亚哥分校纳米工程系的研究人员开发了一种人工智能算法,可以几乎瞬间预测任何现有材料或新材料的结构和动态特性。该算法名为M3GNet,用于开发matterverse.ai数据库,其中包含超过3100万种尚未合成的材料,其特性由机器学习算法预测。Matterverse.ai促进了具有卓越性能的新技术材料的发现。该研究题为“Auniversalgraphdeeplearninginteratomicpotentialfortheperiodictable”,该研究发表于2022年11月28日的《Nature Computational Science》。论文链接:https://www.nature.com/articles/s43588-022-00349-3对于大规模材料研究,有必要根据原子之间的多体相互作用来描述势能面(PES)高效、线性标度的原子间势(IAP)。然而,如今大多数IAP都是为范围较窄的化学品量身定制的:通常是一种元素或多达四种或五种元素。最近,PES的机器学习已成为一种特别有前途的IAP开发方法。然而,还没有研究证明在元素周期表和所有类型的晶体中普遍适用的IAP。在过去的十年中,高效可靠的电子结构代码和高通量自动化框架的出现导致了计算材料数据的大型联合数据库的发展。在结构松弛过程中积累了大量的PES数据,即中间结构及其相应的能量、力和应力,但很少有人关注这些数据。“与蛋白质类似,我们需要了解材料的结构以预测其特性,”该研究的第一作者ShyuePingOng说。“我们需要的是用于材料的AlphaFold。”AlphaFold是谷歌DeepMind开发的一种预测蛋白质结构的人工智能算法。为了构建材料等价物,Ong和他的团队将图形神经网络与多体交互相结合,构建了一个深度学习架构,该架构可以在元素周期表的所有元素上进行泛化和高精度处理。工作。数学图是晶体和分子的自然表示,节点和边分别代表原子和它们之间的键。传统的材料图神经网络模型已被证明对一般材料特性预测非常有效,但由于缺乏物理约束,不适合用作IAP。研究人员开发了一种材料图架构,该架构明确包含多体交互。模型开发受到传统IAP的启发,在这项工作中,我们将重点关注三体交互(M3GNet)的集成。图1:多体图势和主要计算块的示意图。(来源:论文)IAP数据集的基准测试作为初始基准,研究人员选择了Ong及其同事先前为面心立方(fcc)镍、面心立方(fcc)铜、体积中心立方(bcc)生成的元素能量和力的多样化DFT数据集)锂、bcc钼、金刚石硅和金刚石锗。表1:M3GNet模型与现有模型EAM、MEAM、NNP和MTP在单元素数据集上的误差比较。(来源:论文)如表1所示,M3GNetIAP的性能大大优于经典多体势;它们的性能也可与基于本地环境的ML-IAP相媲美。需要注意的是,尽管ML-IAP可以实现比M3GNetIAP略小的能量和力误差,但它在处理多元素化学方面的灵活性会差很多,因为在ML-IAP中包含多种元素通常会导致Combinethenumber爆炸回归系数和相应的数据要求。相比之下,M3GNet架构将每个原子(节点)的元素信息表示为可学习的嵌入向量。这样的框架很容易扩展到多组分化学。与其他GNN一样,M3GNet框架能够在不增加键构建的截止半径的情况下捕获长距离相互作用。同时,与之前的GNN模型不同,M3GNet架构仍然随着键数的变化保持能量、力和应力的连续变化,这是IAP的关键要求。周期表的通用IAP为了开发整个周期表的IAP,该团队使用了世界上最大的DFT晶体结构弛豫开放数据库之一(材料项目)。图2:MPF.2021.2.8数据集的分布。(来源:论文)原则上,IAP可以只训练能量,也可以训练能量和力量的组合。在实践中,仅在能量上训练的M3GNetIAP(M3GNet-E)无法以合理的精度预测力或应力,平均绝对误差(MAE)甚至大于数据的平均绝对偏差。能量+力(M3GNet-EF)和能量+力+压力(M3GNet-EFS)训练的M3GNet模型获得了相对相似的能量和力MAE,但M3GNet-EFS的压力MAE约为M3GNet-EF模型的一半.对于涉及晶格变化的应用,例如结构松弛或NpT分子动力学模拟,准确的应力预测是必要的。研究结果表明,在模型训练中包含所有三个属性(能量、力和压力)对于获得实用的IAP至关重要。最终的M3GNet-EFSIAP(以下简称M3GNet模型)实现了平均每个原子0.035eV,能量、力和压力测试MAE平均值分别为0.072eV??1和0.41GPa。图3:与DFT计算相比,测试数据集上的模型预测。在测试数据上,模型预测和DFTgroundtruth匹配良好,正如DFT和模型预测之间线性拟合的高线性度和R2值所揭示的那样。模型误差的累积分布表明,50%的数据的能量、力和应力误差分别小于每个原子0.01eV、0.033eV?-1和0.042GPa。M3GNet计算的德拜温度不太准确,这可以归因于M3GNet对剪切模量的预测相对较差;然而,体积模量预测是合理的。然后应用M3GNetIAP来模拟材料发现工作流,其中最终的DFT结构是先验未知的。M3GNet松弛是对来自3,140种材料的测试数据集的初始结构进行的。M3GNet松弛结构的能量计算产生每个原子0.035eV的MAE,80%的材料的误差小于每个原子0.028eV。使用M3GNet松弛结构的误差分布接近已知的DFT最终结构,表明M3GNet潜力可以准确地帮助获得正确的结构。总的来说,M3GNet的松弛收敛很快。图4:使用M3GNet的松弛晶体结构。(来源:论文)新材料发现M3GNet准确快速地弛豫任意晶体结构并预测它们的能量,使其成为大规模材料发现的理想选择。研究人员生成了31,664,858个候选结构作为起点,使用M3GNetIAP对结构进行弛豫并计算到MaterialsProject凸包(Ehull-m)的符号能量距离;1,849,096种材料的Ehull-m每个原子小于0.01eV。作为对M3GNet在材料发现方面性能的进一步评估,研究人员计算了发现率,即均匀采样1000个DFT稳定材料(Ehull?dft≤0)结构的比例。发现率保持接近1.0,达到每个原子约0.5eV的Ehull-m阈值,并且在每个原子0.001eV的最严格阈值下保持相当高的0.31。图5:DFT稳定比作为1000个结构的统一样本的Ehull-m阈值的函数。(来源:论文)对于这个材料集,研究人员还比较了有无M3GNet预弛豫的DFT弛豫时间成本。结果表明,在没有M3GNet预松弛的情况下,DFT松弛时间成本约为M3GNet预松弛的3倍。图6:使用M3GNet预松弛的DFT加速。(来源:Paper)在今天matterverse.ai的3100万种材料中,估计有超过100万种材料具有潜在的稳定性。Ong和他的团队不仅打算大大扩展材料的数量,还打算大大扩展ML预测的属性数量,包括使用他们之前开发的多保真方法的小数据量的高价值属性。除了结构松弛,M3GNetIAP还广泛应用于材料动力学模拟和性能预测。“例如,我们通常对锂离子在锂离子电池中通过电极或电解质扩散的速率感兴趣。扩散越快,电池充电或放电的速度就越快,”Ong说。“我们已经证明M3GNetIAP可用于高精度预测材料的锂电导率。我们坚信M3GNet架构是一种变革性工具,可以极大地扩展我们探索新材料化学和结构的能力。”为了推广M3GNet的使用,该团队已将该框架作为开源Python代码发布在Github上。有计划将M3GNetIAP作为工具集成到商业材料模拟包中。