当前位置: 首页 > 科技观察

几乎是0!Meta提供150亿参数的大型蛋白质模型,碾压AlphaFold2

时间:2023-03-15 16:24:14 科技观察

迄今为止最大的蛋白质语言模型问世!一年前,DeepMind开源了AlphaFold2,甚至发表在了Nature和Science上,最大限度地造福了生物学和AI学术界。一年后,Meta以比ESMFold快一个数量级的速度出现。不仅速度快,而且模型还有150亿个参数。LeCun发推表示,这是Meta-FAIR蛋白质团队的一项伟大新成果。合著者林泽明透露,拥有30亿参数的大型模型在256个GPU上训练了3周,而ESMfold在128个GPU上花费了10天。至于150亿参数的版本,就不清楚了。他还说代码后面肯定会开源,敬请期待!又大又快!今天,我们的主角是ESMFold,它是一种直接从单个蛋白质序列进行高精度、端到端、原子级结构预测的模型。论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v115billion参数的好处不用多说——通过训练,如今的大型模型可以预测蛋白质的三维结构。在准确性方面,ESMFold与AlphaFold2和RoseTTAFold类似。然而,ESMFold推测比AlphaFold2快一个数量级!让我们谈谈数量级。三者的速度对比可能难以理解,看下图就知道了。有什么不同?虽然AlphaFold2和RoseTTAFold在原子分辨率结构预测问题上取得了突破性的成功,但它们也依赖于使用多序列比对(MSA)和相似的蛋白质结构模板来获得最佳性能。相比之下,通过利用语言模型的内部表示,ESMFold只需一个序列作为输入就可以生成相应的结构预测,从而大大加快了结构预测速度。研究人员发现,ESMFold对低复杂度序列的预测与最先进的模型相当。而且,结构预测的准确性与语言模型的复杂度密切相关,即当语言模型能够更好地理解序列时,它就能更好地理解结构。目前,有数十亿条结构和功能未知的蛋白质序列,其中许多来自宏基因组测序。使用ESMFold,研究人员可以在短短6小时内折叠100万个宏基因组序列的随机样本。其中很大一部分具有高可信度,并且不同于任何已知结构(未记录在数据库中)。研究人员认为,ESMFold可以帮助理解超出当前理解范围的蛋白质结构。此外,由于ESMFold的预测速度比现有模型快一个数量级,研究人员可以使用ESMFold来帮助弥合快速增长的蛋白质序列数据库与发展缓慢的蛋白质结构和功能数据库之间的差距。150亿参数的蛋白质语言模型接下来说说Meta新推出的ESMFold。ESM-2是一种基于Transformer的语言模型,使用注意力机制来学习输入序列中氨基酸对之间的相互作用模式。与上一代模型ESM-1b相比,Meta改进了模型结构、训练参数,增加了计算资源和数据。同时,相对位置嵌入的加入使得模型可以泛化到任意长度的序列。从结果来看,1.5亿参数的ESM-2模型比6.5亿参数的ESM-1b模型表现更好。此外,ESM-2在结构预测基准上也优于其他蛋白质语言模型。这种性能的提高与大型语言建模领域的既定模式是一致的。随着ESM-2大小的增加,可以观察到语言建模准确性的大幅提高。端到端的单序列结构预测SMFold和AlphaFold2之间的一个关键区别是ESMFold使用语言模型表示,无需显式同源序列(以MSA的形式)作为输入。ESMFold通过用处理序列的Transformer模块替换处理MSA的计算量大的网络模块来简化AlphaFold2中的Evoformer。这种简化意味着ESMFold比基于MSA的模型快得多。折叠骨架的输出依次由结构模块处理,该模块负责输出最终的原子级结构和预测的置信度。研究人员在CAMEO(2022年4月至6月)和CASP14(2020年5月)测试集上将ESMFold与AlphaFold2和RoseTTAFold进行了比较。当只给定一个序列作为输入时,ESMFold的表现比Alphafold2好得多。在使用完整管道时,AlphaFold2在CAMEO和CASP14上分别达到了88.3和84.7。ESMFold在CAMEO上的准确度与RoseTTAfold相当,平均TM得分为82.0。结论研究人员发现,针对在进化多样的蛋白质序列的大型数据库上训练的无监督学习语言模型能够对蛋白质结构进行原子分辨率预测。将语言模型的参数扩展到15B,可以系统地研究尺度对蛋白质结构学习的影响。我们看到蛋白质结构预测的非线性曲线是模型大小的函数,并观察到语言模型对序列的理解程度与结构预测之间的密切联系。ESM-2家族的模型是有史以来最大的蛋白质语言模型,其参数仅比最近开发的最大文本模型少一个数量级。而且,ESM-2比之前的型号有非常大的改进。即使在1.5亿参数下,ESM-2捕获的结构图也比6.5亿参数下的ESM-1生成语言模型更准确。据研究人员称,ESMFold性能的最大驱动力是语言模型。由于语言模型的欺骗性和结构预测的准确性之间存在很强的联系,他们发现当ESM-2能够很好地理解蛋白质序列时,它可以获得与当前最先进模型相媲美的预测。ESMFold获得准确的原子分辨率结构预测,其推理时间比AlphaFold2快一个数量级。在实践中,速度优势更大。因为ESMFold不需要搜索和进化相关的序列来构建MSA。虽然有更快的方法可以减少搜索时间,但搜索时间仍然会很长。大大缩短推理时间的好处是不言而喻的——速度的提高将使得映射大型宏基因组序列数据库的结构空间成为可能。除了基于结构的工具来识别远距离同源性和保守性,使用ESMFold进行快速准确的结构预测也可以在大量新序列的结构和功能分析中发挥重要作用。在有限的时间内访问数百万个预测结构有助于发现对天然蛋白质的广度和多样性的新见解,并能够发现全新的蛋白质结构和蛋白质功能。作者介绍,本文的合著者是来自MetaAI的林泽明。根据他的个人主页,泽明正在攻读博士学位。就读于纽约大学,在MetaAI担任研究工程师(访问),主要负责后端基础设施。他就读于弗吉尼亚大学,在那里他和YanjunQi一起研究机器学习应用,特别是在蛋白质结构预测方面。感兴趣的领域是深度学习、结构预测和信息学生物学。