当前位置: 首页 > 科技观察

Meta允许150亿参数语言模型从头开始学习设计“新”蛋白质!LeCun:效果惊人

时间:2023-03-14 21:07:31 科技观察

AI在生物医药领域再次取得新进展。没错,这次也是关于蛋白质的。不同的是,以前是AI发现蛋白质结构,这次是开始自己设计生成蛋白质结构。如果说以前是“检察官”,现在说进化成“创造者”也不是没有可能。参与这项研究的是包括FAIR在内的Meta的AI研究机构的蛋白质研究团队。作为在Facebook工作多年的首席AI科学家,YannLeCun也第一时间转发了自己团队的成果,并给予了高度评价。BioRxiv上的这两篇论文是Meta在蛋白质设计/生成方面的“惊人”成果。该系统使用模拟退火算法来找到以符合所需形状或满足对称性等约束条件的方式折叠的氨基酸序列。ESM2,amodelforatomichierarchicalstructureprediction你猜对了,这个研究和这两篇论文的基础就是Meta不久前提出的用于蛋白质预测和发现的大型语言模型:ESM2。这是一个拥有150亿个参数的大型模型。随着模型从8到1500万个参数扩展,来自内部表示的信息能够以原子分辨率进行3D结构预测。利用大规模语言模型学习进化模式可以直接从蛋白质序列生成准确的端到端结构预测,比当前最先进的方法快60倍,同时保持准确性。事实上,借助这种新的结构预测能力,Meta在由大约2000个GPU组成的集群上,仅用两周时间就预测出了图中6亿多个宏基因组蛋白质的序列。两篇论文的通讯作者,来自MetaAI的AlexRives表示,ESM2语言模型所表现出的通用性不仅超出了天然蛋白质的范围,而且能够以编程方式生成复杂和模块化的蛋白质结构。一种用于蛋白质设计的“专用编程语言”要想做好,必须先利其器。为了让蛋白质的设计和生产更加高效,研究人员还在前人成果(主要是ESM2)的基础上,开发了一种用于蛋白质设计的高级编程语言。论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1AlexRives,该研究的主要负责人之一,论文“Ahigh-levelprogramminglanguageforgenerativeproteindesign”,发布在社交媒体上据媒体报道,这一成就使得通过编程生成具有复杂和模块化结构的大型蛋白质和复合物成为可能。该论文的作者之一、斯坦福大学研究员BrianHie也在Twitter上阐述了这篇文章的主要研究思路和结果。总的来说,本文描述了生成式机器学习如何实现由用于蛋白质设计的高级编程语言控制的复杂蛋白质的模块化设计。他说,这篇论文的主要思想不是使用顺序或结构化构建块,而是将模块化置于更高的抽象层次,让黑盒优化生成特定的设计。优化的每一步都预测原子级结构。与以前的蛋白质设计方法相比,这种新颖的方法允许设计人员指定任意的、不可微的约束,范围从指定原子级坐标到蛋白质的抽象设计方案,例如对称设计。对于可编程性,约束是模块化的很重要。例如,下图是将相同的约束分层应用于两层对称规划的情况。这些约束也很容易重新组合。例如,原子坐标的约束可以与对称性的约束相结合。或者可以组合不同形式的两级对称性来编程非对称复合结构。根据BrianHie的说法,这一成就是迈向更可控、更规则和更具表现力的蛋白质设计的一步。他还感谢MetaAI和其他合作者的共同努力。使蛋白质设计“像建造建筑物”在论文中,研究人员认为蛋白质设计将受益于一组基本抽象所提供的规律性、简单性和可编程性,就像那些用于建筑物、机器、电路的抽象一样作为计算机软件工程。但与这些人工产物不同的是,蛋白质不能分解成容易重新组装的部分,因为序列的局部结构与其整体环境纠缠在一起。经典的从头算蛋白质设计试图确定一组基本的结构构建块,然后将其组装成更高阶的结构。同样,传统的蛋白质工程通常将天然蛋白质序列的片段或结构域重组为杂合嵌合体。然而,现有方法还不能实现真正可编程性所需的高组合复杂性。本文表明,现代生成模型在组合复杂性的新水平上实现了模块化和可编程性的经典目标。将模块化和可编程性置于更高的抽象层次,生成模型弥合了人类直觉与特定序列和结构的生成之间的差距。在这种情况下,蛋白质设计者只需要重新组合高级指令,而获得满足这些指令的蛋白质的任务就落在了生成模型上。研究人员提出了一种用于生成蛋白质设计的编程语言,允许设计人员指定直观、模块化和分层的程序。高级程序可以通过生成模型转化为低级序列和结构。这套方法利用了可以学习结构信息和蛋白质设计原则的蛋白质语言模型的进步。本研究中的实现是基于一个基于能量的生成模型,如上图所示。首先,蛋白质设计者指定一个高级程序,该程序由一组分层组织的约束组成(图A)。然后将该程序编译成一个能量函数,该函数评估与约束的兼容性,约束可以是任意的和不可区分的(图B)。通过将原子级结构预测(由语言模型启用)合并到能量函数中来应用结构约束。这种方法能够生成范围广泛的复杂设计(图C)。从头开始生成蛋白质序列MetaAI团队的作者TomSercu在论文《Languagemodelsgeneralizebeyondnaturalproteins》中表示,这项工作主要完成了两个任务。论文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1第一项是针对给定的主链结构设计序列。使用语言模型,可以获得所有目标的成功设计,成功率为19/20,而没有语言模型参与的序列设计,成功率仅为1/20。第二个任务是无约束生成。研究团队提出了一种从语言模型定义的能量景观中抽样(序列、结构)对的新方法。通过不同的拓扑结构进行采样再次提高了实验的成功率(高达71/129或55%)。为了证明预测的蛋白质结构超越了天然蛋白质的限制,研究团队在涵盖所有已知天然蛋白质的序列数据库中搜索语言模型生成的蛋白质序列。结果表明,两者不存在匹配关系,自然序列和语言模型生成的预测结??构不同。Sercu说蛋白质结构可以单独使用ESM2蛋白质语言模型来设计。研究团队通过实验测试了228种蛋白质,成功率为67%!Sercu认为,仅在序列上训练的蛋白质语言模型可以学习连接序列和结构的深层模式,并且可以用于从头设计蛋白质,超越自然探索的设计空间。探索蛋白质生成的深层语法在论文中,Meta研究人员表示,虽然语言模型只是在序列上进行训练,但该模型仍然可以设计蛋白质的深层语法结构,突破天然蛋白质的局限性。如果图A中的正方形代表所有蛋白质序列形成的空间,那么天然蛋白质序列就是灰色部分,覆盖了其中的一小部分。为了超越自然序列,语言模型需要访问底层设计模式。研究团队要做的有两件事:第一,从头开始(denovo)设计蛋白质的主链;第二,基于主链从头开始生成蛋白质序列。研究团队使用掩码语言模型对ESM2进行了数百万种已经进化的不同天然蛋白质的训练。语言模型训练完成后,可以在模型的内部注意力状态中识别出蛋白质三级结构的信息。研究人员随后通过线性投影将蛋白质序列中一对位置的注意力转化为残基之间的距离分布。研究人员表示,语言模型预测蛋白质结构的能力指向构成天然蛋白质序列基础的更深层结构序列,以及模型可以学习深层语法的可能性。结果表明,在进化过程中,大量蛋白质序列包含生物结构和功能,揭示了蛋白质设计配置。通过学习蛋白质序列的机器模型,可以完全重现这种结构。语言模型在六个实验中成功预测蛋白质结构的跨蛋白质深层语法的存在解释了两组看似矛盾的发现:对天然蛋白质的理解取决于训练数据;预测和探索蛋白质家族以外的事物。如果蛋白质语言模型的缩放定律继续成立,可以预期人工智能语言模型的生成能力将不断提高。该团队表示,由于蛋白质结构的潜在语法,机器模型将学习更稀有的蛋白质结构,从而扩展模型的预测能力和探索空间。一年前,DeepMind开源了AlphaFold2,甚至发表在了Nature和Science上,最大限度地造福了生物学和AI学术界。一年后,人工智能预测模型如雨后春笋般涌现,频频填补蛋白质结构领域的空白。如果说人类赋予了人工智能生命,那么人工智能是人类完成生命之谜的最后一块拼图吗?