化学元素几乎构成了物理世界中的一切。截至2016年,人类已知的元素数量为118种,所有这些元素都可以在悬挂在每个化学实验室和教室的元素周期表上找到。元素周期表中的每个元素都带有1个或2个字母的缩写,例如“O”代表氧,“Al”代表铝。元素周期表上还标明了它们的原子序数,表示元素的原子核中有多少质子。质子的数量非常重要,因为它还决定了有多少电子围绕原子核运行,这基本上决定了元素的本质并赋予其化学性质。简单地说,原子序数就是一种元素的身份证。在《Nature Chemistry》上最近发表的一篇论文中,EPFL基础科学学院的化学工程师深入研究了另一组关键数字,在挖掘元素周期表后必须为每个元素报告这些数字:元素的氧化态,也称为是氧化数。简而言之,氧化态描述了一个原子必须获得或失去多少电子才能与另一个原子形成化学键。领导这项研究的BerendSmit教授说:“在化学中,氧化态总是以化合物的化学名称报告。氧化态在化学基础中起着如此重要的作用,以至于有些人认为它们应该用is元素周期表的第三个维度。一个很好的例子是铬:在氧化态III中它是身体所必需的;在氧化态IV中它是剧毒的”。弄清楚元素的氧化态很简单,但是当涉及到由多种元素组成的化合物时,事情就变得更加复杂了。“对于复杂材料,几乎不可能从第一原理预测氧化态。事实上,大多数量子程序都需要金属的氧化态作为输入,”Smit教授说。目前预测氧化态的最先进技术仍然基于20世纪初发展起来的所谓“键价理论”,该理论根据构成元素的原子之间的距离来估计化合物的氧化态.但这并不总是有效,尤其是在具有晶体结构的材料中。“众所周知,不仅距离很重要,金属复合材料的几何形状也很重要。但考虑到这一点的尝试并不十分成功,”Smit说。在这项研究中,研究人员能够训练一种机器学习算法,以按氧化态对一组众所周知的材料——金属有机框架——进行分类。该团队使用了剑桥结构数据库,这是一个晶体结构库,它以材料的名称给出了氧化态。“数据库非常混乱,有很多错误,实验、专家猜测和键价理论的不同变体被用来分配氧化态,”Smit说。“我们假设化学反应是自我纠正的,所以虽然个人账户上有很多错误,但整个社区都会改正。”EPFLSmit小组的博士生KevinJablonka说:“我们基本上建立了一个机器学习模型,可以捕捉化学界的集体知识。我们的机器学习只不过是电子游戏‘谁想成为百万人’“丰富”?如果化学家不知道氧化态,生命线之一就是询问化学观众他们认为氧化态应该是什么。通过上传晶体结构和我们的机器学习模型,观众谁是化学家会告诉他们最有可能的氧化态是什么”。
