当前位置: 首页 > 科技观察

Meta打造首个“蛋白质宇宙”全景图!150亿参数的语言模型,预测了6亿+蛋白质结构

时间:2023-03-14 22:01:19 科技观察

Meta在蛋白质结构的探索上又??向前迈进了一步!这一次他们瞄准了一个更大的兴趣领域:宏基因组学。蛋白质宇宙的“暗物质”根据美国国立卫生研究院人类基因组研究所的说法,宏基因组学(Metagenomics,又译宏基因组学)是研究从大量样本中的所有生物体(通常是微生物)中分离和分析的完整核苷酸的结构和功能这些序列通常用于研究特定的微生物群落,例如来自栖息在人体皮肤、土壤或水样中的微生物的蛋白质。在过去的几十年里,宏基因组学一直是一个非常活跃的领域,因为我们对生活在我们环境之中、之上和之中的所有微生物有了更多的了解。因为宏基因组学的研究对象包罗万象,远超构成动植物生命的蛋白质,可以说是地球上已知最少的蛋白质。为此,MetaAI使用了最新的大规模语言模型,创建了一个包含超过6亿个宏基因组结构的数据库,并提供了一个API,可以让科学家轻松检索与工作相关的特定蛋白质结构。论文地址:https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2Meta表示,解码宏基因组结构将有助于解开人类进化长期存在的谜团,帮助人类更有效地治愈疾病、净化环境。蛋白质结构预测,快60倍!宏基因组学是研究如何从环境中共存的所有这些生物中获取DNA,它有点像一盒拼图,但它不仅仅是一盒拼图,它实际上是所有10个较小的拼图堆叠在一起,放在一起盒子。当宏基因组同时取这10种生物的基因组时,实际上是在尝试同时解决10个谜题,理解同一个基因组盒子中所有谜题的不同部分。正是这种未知的结构和生物学作用,通过宏基因组学发现的新蛋白质甚至可以称为蛋白质宇宙的“暗物质”。近年来,基因测序的进步使得对数十亿个宏基因组蛋白质序列进行编目成为可能。然而,尽管已知存在这些蛋白质序列,但进一步了解它们的生物学特性一直是一个巨大的挑战。为了获得这数以亿计的蛋白质序列结构,预测速度的突破至关重要。这个过程,即使使用当前最先进的工具和大型研究机构的计算资源,也可能需要数年时间。结果,Meta训练了一个大型语言模型来学习进化模式,并直接从蛋白质序列端到端地生成准确的结构预测,在保持准确性的同时,预测速度比当前最先进的技术快60倍方法。事实上,借助这种新的结构预测能力,Meta在由大约2000个GPU组成的集群上,仅用两周时间就预测出了图中6亿多个宏基因组蛋白质的序列。Meta发布的宏基因组图谱称为ESMAtlas,几乎涵盖了整个宏基因组序列公共数据库MGnify90的预测。据Meta介绍,ESMAtlas是迄今为止最大的高分辨率预测结构数据库,比现有蛋白质结构数据库大三倍,是第一个全面大规模覆盖宏基因组蛋白质的数据库。这些蛋白质结构提供了对自然界的广度和多样性前所未有的洞察力,并有可能加速在医学、绿色化学、环境应用和可再生能源等领域具有实际应用的蛋白质的发现。用于预测蛋白质结构的新语言模型拥有150亿个参数,是迄今为止最大的“蛋白质语言模型”。这个模型其实是Meta在今年7月份发布的ESMFold蛋白质预测模型的延续。ESMFold发布时,可与AlphaFold2和RoseTTAFold等主流蛋白质模型相媲美。但ESMFold的预测速度比AlphaFold2快一个数量级!让我们谈谈数量级。三者的速度对比可能难以理解,看下图就知道了。此次ESMAtlas数据库的发布,让拥有150亿参数的大型语言模型得到了更广泛的应用。由此,科学家们可以在数亿蛋白质的规模上搜索和分析以前未表征的结构,并发现可用于医学和其他应用的新蛋白质。语言模型真的很“通用”。就像文本一样,蛋白质也可以写成字符序列。其中,构成蛋白质的每一个“性状”都对应着20种标准化学元素中的一种——氨基酸。每种氨基酸都有不同的特性。但是试图理解这种“生物语言”是一个很大的挑战。虽然,正如我刚才所说,蛋白质序列和一段文本都可以写成字符,但它们之间存在深刻和根本的区别。一方面,这些“字符”的不同组合数量是天文数字。例如,对于一个200个氨基酸的蛋白质,有20^200种可能的序列,比目前可探索的宇宙中的原子数还要多。另一方面,每个氨基酸序列根据物理定律折叠成三维形状。此外,并不是所有的序列都折叠成连贯的结构,其中许多折叠成无序的形式,但正是这种难以捉摸的形状决定了蛋白质的功能。例如,如果一个氨基酸出现在一个位置,则该氨基酸通常会与另一个位置的氨基酸配对。然后,在随后的折叠结构中,它们很可能相互作用。另一方面,人工智能可以通过观察蛋白质序列来学习和读取这些模式,然后推断出蛋白质的实际结构。2019年,Meta提供了语言模型学习蛋白质特性(例如它们的结构和功能)的证据。论文地址:https://www.pnas.org/doi/10.1073/pnas.2016239118通过mask的自监督学习形式训练的模型可以正确填入一段文字中的空格,比如“Doyouwanttoto__,这是________”。通过这种方法,Meta在数百万天然蛋白质序列的基础上训练了一个语言模型,从而实现了蛋白质序列空缺的填补,比如“GL_KKE_AHY_G”。实验表明,可以训练此类模型来发现有关蛋白质结构和功能的信息。2020年,Meta发布了当时最先进的蛋白质语言模型ESH1b,该模型已被用于各种应用,包括帮助科学家预测新型冠状病毒的进化和发现遗传病的原因。论文地址:https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1现在,Meta扩大了这种方法的规模,创建了下一代蛋白质语言模型ESM-2,这是一个150亿参数大模型。随着模型从8到1500万个参数扩展,来自内部表示的信息能够以原子分辨率进行3D结构预测。了解“蛋白质语言”,让生活更透明。从数十亿年前开始,生物进化就形成了一种蛋白质语言,它可以通过简单的组件组成复杂而动态的分子机器。学习阅读蛋白质的语言是我们理解自然世界的重要一步。人工智能可以为我们提供理解自然世界的新工具,就像显微镜一样,让我们??可以在近乎无限小的尺度上观察世界,开启对生命的新认识。人工智能可以帮助我们了解自然界的巨大多样性,并以新的方式看待生物学。目前,大多数人工智能研究都是关于让计算机以人类的方式理解世界。蛋白质的语言是人类无法理解的,即使是最强大的计算工具也是如此。因此,Meta工作的意义在于揭示了AI在跨领域的巨大优势,即:在机器翻译、自然语言理解、语音识别和图像生成方面取得进展的大型语言模型,还可以学习生物学。深刻的信息。本Meta宣传这项工作,共享数据和结果,并基于他人的见解。希望这一大规模结构图谱和蛋白质快速折叠模型的发布能够推动科学进一步进步,让我们更好地了解周围的世界。参考:https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog