人工智能的应用大大加速了蛋白质工程的研究。最近,加州伯克利的一家初出茅庐的初创公司再次取得了惊人的进展。科学家利用类似于ChatGPT的蛋白质工程深度学习语言模型Progen,首次实现了蛋白质合成的AI预测。这些蛋白质不仅与已知蛋白质完全不同,相似度最低仅为31.4%,而且与天然蛋白质一样有效。目前,该工作已正式发表在Nature子刊上。论文地址:https://www.nature.com/articles/s41587-022-01618-2这个实验也表明,自然语言处理虽然是为读写语言文本而发展起来的,但它也可以学习一些生物学方面的基础知识。获得诺贝尔奖的技术作为回应,研究人员表示,这项新技术可能比定向进化(获得诺贝尔奖的蛋白质设计技术)更强大。“它将通过加速新蛋白质的开发,为具有50年历史的蛋白质工程领域注入活力,这些蛋白质几乎可用于从治疗到降解塑料的所有领域。”这家名为Profluent的公司由前SalesforceAI研究负责人创立,已获得900万美元的启动资金,用于建立综合湿实验室并招募机器学习科学家和生物学家。过去,在自然界中挖掘蛋白质,或者将蛋白质调整到所需的功能,都是非常费力的。Profulent的目标是让这个过程毫不费力。他们做到了。Profluent创始人兼CEOAliMadaniMadani在接受采访时表示,Profluent设计了多个蛋白质家族。这些蛋白质的功能类似于样本蛋白质,因此是高度活跃的酶。这项任务非常困难,并且以零样本的方式完成,这意味着没有执行多轮优化,甚至没有提供湿实验室的任何数据。由此产生的设计蛋白质是高度活跃的蛋白质,通常需要数百年才能进化。ProGen基于语言模型是一种深度神经网络。条件语言模型不仅可以生成语义和语法正确、新颖多样的自然语言文本,还可以使用输入控制标签来指导风格、主题等。同样,研究人员开发了今天的主角ProGen,这是一个12亿参数的条件蛋白质语言模型.具体来说,基于Transformer架构的ProGen通过self-attention机制模拟残基的相互作用,可以根据输入的控制标签生成跨蛋白家族的不同人工蛋白序列。用条件语言模型生成人工蛋白质为了创建模型,研究人员输入了2.8亿种不同蛋白质的氨基酸序列,并让它在几周内“消化”。然后,他们使用来自五个溶菌酶家族的额外56,000个序列和有关这些蛋白质的信息对模型进行了微调。Progen的算法类似于ChatGPT背后的模型GPT3.5,它学习蛋白质中氨基酸排序的规则及其与蛋白质结构和功能的关系。很快,该模型生成了一百万个序列。研究人员根据它们与天然蛋白质序列的相似程度,以及氨基酸“句法”和“语义”的自然程度,选择了100个进行测试。其中,66种产生了类似于天然蛋白质的化学反应,可以破坏蛋清和唾液中的细菌。也就是说,这些新的人工智能生成的蛋白质也可以杀死细菌。由此产生的人工蛋白质是多样的,并且在实验系统中表达良好。更进一步,研究人员选择了五种最敏感的蛋白质并将它们添加到大肠杆菌样本中。其中,有两种人工酶可以分解细菌的细胞壁。通过与蛋清溶菌酶(HEWL)比较,可以发现它们的活性与HEWL相当。然后研究人员用X射线对其进行成像。虽然人工酶的氨基酸序列与现有蛋白质相差高达30%,两者只有18%相同,但其形状与天然蛋白质几乎相同,功能也相当。条件语言建模对其他蛋白质系统的适用性除此之外,对于高度进化的天然蛋白质,可能只需要一个小的突变就可以使其停止工作。但在另一轮筛选中,研究人员发现,尽管只有31.4%的AI生成的酶与已知蛋白质的序列相同,但它们显示出可比的活性和相似的结构。正如您在蛋白质设计新时代所见,ProGen的工作方式与ChatGPT类似。ChatGPT可以通过学习海量数据来参加MBA和bar考试并撰写大学论文。ProGen通过学习氨基酸如何组合形成2.8亿种现有蛋白质的语法,学会了如何生成新蛋白质。在采访中,Madani表示,“就像ChatGPT学习英语这样的人类语言一样,我们正在学习生物和蛋白质的语言。”“人工设计的蛋白质比受进化过程启发的蛋白质表现得更好,”该论文的合著者、加州大学旧金山分校药学院生物工程和治疗科学教授JamesFraser说。“语言模型正在学习进化的各个方面,但它与正常进化不同。我们现在有能力调整这些特性的产生以获得特定效果。例如,使酶具有难以置信的热稳定性,或者酸性环境,或者不t与其他蛋白质相互作用。”早在2020年,SalesforceResearch就开发了ProGen。它基于自然语言编程,最初用于生成英文文本。从之前的工作中,研究人员了解到,AI系统可以自学语法和词义,以及其他基本知识保持写作井井有条的规则。“当你在大量数据上训练基于序列的模型时,它们在学习结构和规则方面非常强大,”SalesforceResearch人工智能研究总监NikhilNaik博士说,论文的资深作者。如何结合起来。”“现在,我们已经证明了ProGen具有产生新蛋白质的能力,我们已经公开发布,大家可以在我们的基础上进行研究。”溶菌酶作为一种蛋白质,虽然很小,但最多只有300个左右的氨基酸。但是有20种可能的氨基酸,就有20^300种可能的组合。这比人类古往今来的产物乘以地球上沙粒的数量,乘以宇宙中的原子数量。考虑到近乎无限的可能性,Progen设计出有效的酶是多么容易。“开箱即用地从头开始生成功能性蛋白质的能力表明,ProfluentBio创始人、SalesforceResearch前研究科学家AliMadani博士说:“我们正在进入蛋白质设计的新时代。所有蛋白质工程师都可以使用它。我们期待看到它应用于治疗。”与此同时,研究人员不断改进ProGen,试图突破更多的限制和挑战。其中之一就是它非常依赖数据。“我们探索了通过添加基于结构的信息来改进序列设计的方法,”Naik说,“我们也在研究如何在特定蛋白质家族或域的数据不多时改进模型生成。值得注意的是,还有其他初创公司也在尝试类似的技术,例如Cradle,以及来自生物技术孵化器FlagshipPioneering的GenerateBiomedicines,但这些研究均未经过同行评审。
