当前位置: 首页 > 科技观察

连续逆转!DeepMind被俄罗斯团队质疑:我们如何证明神经网络理解物理世界?

时间:2023-03-18 22:25:29 科技观察

最近,科学界又掀起了一场争论。故事的主角是DeepMind伦敦研究中心在2021年12月发表的一篇Science论文。研究人员发现,神经网络可以用来训练和构建比以前更准确的模型。电子密度和相互作用图可以有效解决传统泛函理论中的系统错误。论文链接:https://www.science.org/doi/epdf/10.1126/science.abj6511提出的DM21模型准确地模拟了氢链、带电DNA碱基对和二元过渡态等复杂系统。对于量子化学领域来说,可以说开辟了一条通向精确普适函数的可行技术路线。DeepMind的研究人员还公开了DM21模型的代码,方便同行复现。仓库链接:https://github.com/deepmind/deepmind-research按照逻辑,论文和代码都是公开的,或者发表在顶级期刊上,实验结果和研究结论基本靠谱。但八个月后,来自俄罗斯和韩国的八名研究人员也在《科学》杂志上发表了一篇科学评论。他们认为原来DeepMind的研究存在一个问题,就是训练集和测试集之间可能存在重叠,导致实验得出结论。不正确。论文链接:https://www.science.org/doi/epdf/10.1126/science.abq3385如果怀疑属实,那么DeepMind号称是化学工业重大技术突破的论文可能都是归因于数据。泄露了。不过,DeepMind的反应非常迅速。评论发表当天,他们立即回信表示不赞成并强烈谴责:他们的观点要么不正确,要么不符合论文的主要结论和DM21的整体质量。评价无关紧要。论文链接:https://www.science.org/doi/epdf/10.1126/science.abq4282著名物理学家费曼曾说过,科学家必须尽快证明自己是错误的,只有这样才能取得进步。虽然这次讨论的结果还没有定论,俄罗斯团队也没有发表进一步的反驳文章,但该事件可能会对人工智能领域的研究产生更深远的影响:即如何证明你训练的神经网络模型能真正理解有任务,而不仅仅是记忆模式?研究问题化学是21世纪的中心科学(当然),例如设计具有特定特性的新材料,例如生产清洁电力或开发高温超导体,都需要在计算机上模拟电子。电子是控制原子如何结合形成分子的亚原子粒子。它们还负责固体中的电流。了解电子在分子内的位置可以大大有助于解释它们的结构、性质和反应性。1926年,薛定谔提出薛定谔方程,可以正确描述波函数的量子行为。但是使用这个方程来预测分子中的电子是无效的,因为所有电子都相互排斥,你需要跟踪每个电子位置的概率,即使对于少量电子也是一项复杂的任务。一个重大突破出现在1960年代,当时PierreHohenberg和WalterKohn意识到没有必要单独跟踪每个电子。相反,知道每个位置处任何电子的概率(即电子密度)就足以准确计算所有相互作用。在证明了上述理论后,科恩获得了诺贝尔化学奖,并由此创立了密度泛函理论(DFT)。尽管DFT证明了映射的存在,但50多年来电子密度与相互作用能之间的精确映射尚未建立。该属性,即所谓的密度泛函,仍然未知,必须近似求解。DFT本质上是一种求解薛定谔方程的方法,其精度取决于其交换相关部分。尽管DFT涉及到一定程度的近似,但它是在微观层面研究物质如何以及为何以某种方式表现的唯一实用方法,因此已成为所有科学领域中应用最广泛的技术之一。多年来,研究人员提出了400多种精度不同的近似值,但所有这些近似值都存在系统误差,因为它们未能捕捉到精确泛函的一些关键数学特性。说到学习近似函数,神经网络不就是这么干的吗?在这篇论文中,DeepMind在分子数据和具有分数电荷和自旋的虚构系统上训练了一个神经网络DM21(DeepMind21),并成功学习了一个没有系统误差的泛函,可以避免离域误差(delocalizationerror)和自旋对称性破缺(自旋对称破缺),可以更好地描述一大类化学反应。原则上,任何涉及电荷移动的化学物理过程都容易出现离域错误,任何涉及键断裂的过程都容易出现自旋对称性破缺。虽然电荷运动和键断裂是许多重要技术应用的核心,但这些问题也会导致在描述氢等最简单分子的官能团时出现大量定性错误。该模型是使用多层感知器(MLP)构建的,其输入是占据的Kohn-Sham(KS)轨道的局部和非局部特征。目标函数由两个组成:一个是用于学习交换相关能量本身的回归损失,另一个是梯度正则化项,以确保训练后函数导数可以用于自洽场(SCF)计算.对于回归损失,研究人员使用了代表2235种反应的反应物和产物的固定密度数据集,并训练网络使用最小二乘目标从这些密度高精度地映射到反应能量,其中1161种接受了原子化训练、电离、电子亲和力和分子间结合能代表小的主族H-Kr分子,1074个反应代表H-Ar原子的关键FC和FS密度。经过训练的模型DM21能够在大型主要家族基准的所有反应上自洽地运行,从而产生更准确的分子密度。真正的SOTA还是数据泄露?DeepMind训练DM21时,使用的数据是分数电荷系统,比如一个氢原子有半个电子。为了证明DM21的优越性,研究人员在一组拉伸二聚体上对其进行了测试,称为断键基准(BBB)集。例如,两个氢原子相距较远,共有一个电子。实验结果发现,DM21泛函在BBB测试集上表现出优异的性能,超过了迄今为止测试的所有经典DFT泛函和DM21m(与DM21训练相同,但在训练集中没有分数电荷)。随后DeepMind在论文中声称:DM21已经理解了分数充电系统背后的物理原理。但仔细观察就会发现,在BBB组中,所有二聚体都变得与训练组中的系统非常相似。事实上,由于电弱相互作用的局部性,原子相互作用仅在短距离内很强,超过该距离两个原子的行为基本上就好像它们没有相互作用一样。俄罗斯科学院Zelinsky有机化学研究所研究组组长MichaelMedvedev解释说,在某些方面,神经网络就像人类一样,他们更愿意出于错误的原因得到正确的答案。所以训练一个神经网络并不难,但很难证明它除了记住正确答案之外还学会了物理定律。因此,BBB测试集不是一个合适的测试集:它没有测试DM21对分数电子系统的理解,也没有对DM21处理此类系统的其他四个证据进行透彻分析得出结论性结论:只有它在SIE4x4Good集合的精度可能是可靠的。俄罗斯研究人员一致认为,在训练集中使用分数收费系统并不是DeepMind工作中唯一的创新之处。他们通过训练集将物理约束引入神经网络的想法,以及通过训练正确的化学势赋予物理意义的方法,未来可能会广泛应用于神经网络DFT泛函的构建。DeepMind回应评论论文称DM21预测训练集外分数电荷(FC)和分数自旋(FS)条件的能力并未在论文中得到证明,这是基于训练集和破键基准BBB有大约50%的差异Overlap,以及其他泛化实例有效性和准确性的结论。DeepMind不同意这种分析,认为提出的观点要么不正确,要么与论文的主要结论和DM21整体质量评估无关,因为BBB并不是论文中展示的FC和FS行为的唯一例子.训练集和测试集的重叠是机器学习中值得关注的研究问题:记忆是指通过从训练集中复制示例,模型可以在测试集上表现得更好。Gerasimov认为DM21在BBB上的行为(包含具有有限距离的二聚体)可以通过复制FC和FS系统的输出(即原子在无限分离的极限处与二聚体匹配)得到很好的解释。为了证明DM21在训练集之外的泛化,DeepMind研究人员还考虑了H2+(阳离子二聚体)和H2(中性二聚体)的原型BBB示例,可以得出确切的交换相关函数是非局部的;随着距离的增加,返回一个恒定的记忆值会导致BBB预测出现重大错误。