当前位置: 首页 > 科技观察

无限可能NVIDIA生成式AI模型加速蛋白质合成

时间:2023-03-21 12:52:21 科技观察

在过去两年中,机器学习彻底改变了蛋白质结构预测。而现在,人工智能已经在蛋白质设计领域引发了一场新的革命。自人工智能问世以来,许多科学家加入了将其用于蛋白质研究的轨道。生物学家发现,使用机器学习,他们可以在几秒钟内创建蛋白质分子。在过去,这个时间可能是几个月。近日,初创公司Evozyne利用英伟达提供的预训练人工智能模型,创造了两种在医疗保健和清洁能源领域具有巨大潜力的蛋白质。其中一种蛋白质用于治疗先天性疾病,另一种用于消耗二氧化碳以减少全球变暖。这使科学家能够使用NVIDIABioNeMo创建能够生成高质量蛋白质的大规模语言模型,以加速药物发现并帮助创造更可持续的环境。Evozyne的联合创始人、论文的合著者安德鲁弗格森说:“令人欣慰的是,这个AI模型在第一轮中产生的合成蛋白质就像天然存在的蛋白质一样,表明该模型学习了大自然的设计规则。”Evozyne使用了NVIDIA的ProtT5。ProtT5是一个Transformer模型,它是NVIDIABioNeMo的一部分,BioNeMo是一个用于创建医学AI模型的软件框架和服务。分子工程师Ferguson的研究涵盖化学和机器学习,他说:“BioNeMo非常强大,我们可以训练一个模型,然后使用该模型以非常低的成本运行作业,在几秒钟内生成数据。数百万个序列。该模型预测如何组装满足Evozyne需求的新蛋白质。”该模型是EvozyneProT-VAE流程的核心。Evozyne的ProT-VAE管道将NVIDIABioNeMo中强大的Transformer模型与变分自动编码器(VAE)相结合。”几年前,没有人注意到可以使用大型语言模型结合变分自动编码器来设计蛋白质,”他说。相比之下,Evozyne的方法可以改变蛋白质中一半或更多的氨基酸。这相当于数百个Evozyne数据科学家JoshuaMoller说:“他们通过将工作扩展到多个GPU来加速训练。这将训练大型AI模型的时间从几个月缩短到一周。“因此我们能够训练原本无法训练的模型,例如具有数十亿个可训练参数的模型,”弗格森说。革命性的AI模型蛋白质工程的传统方法,称为定向进化,使用一种缓慢的、无计划的方法,通常一次只改变几个氨基酸的序列。而机器学习有助于研究大量可能的氨基酸组合,然后高效地识别出最有用的序列。BioNeMo是基于NVIDIANeMoMegatron的AI药物发现云服务和框架,用于在超级计算规模上训练和部署大规模生物分子TransformerAI模型。服务包括预训练的LLM、对蛋白质、DNA、RNA和化学的通用文件格式的本机支持,以及可用于SMILES(用于分子结构)和FASTA(用于氨基酸和核苷酸序列)的数据加载器。借助BioNeMo,科学家们可以轻松开始使用UniRef50和ZINC数据库的预训练模型、自动下载器和预处理器。使用无监督结构化学习器,各种模型、嵌入和输出组合在一起以组合多模态数据。无监督预训练还消除了对标记数据的需求,以快速生成预测蛋白质结构、功能、细胞位置、水溶性、膜结合、保守和可变区域等的学习嵌入。其中,MegaMolBART是使用14亿个分子(SMILES字符串)训练的生成化学模型,可用于多种化学信息学应用。此外,BioNeMo还提供基于Transformer的蛋白质语言模型,例如ProtT5和ESM1-85M。BioNeMo还提供OpenFold,这是一种用于预测新型蛋白质序列3D结构的深度学习模型。NVIDIA的Transformer模型读取数百万种蛋白质中的氨基酸序列。使用神经网络用来理解文本的技术,该模型了解了自然界如何构建蛋白质氨基酸序列。展望未来,使用人工智能加速蛋白质工程的前景广阔。人工设计的蛋白质比自然界中存在的蛋白质更稳定,即使在缺乏能量或高温等极端条件下也能发挥某些功能。此外,还可以利用人工智能设计氨基酸序列与主链相匹配,以提高酶、抗体等特定蛋白质的稳定性。人工智能技术在设计不同大小、不同构象的蛋白质方面发挥了非常重要的作用。未来,它还可以帮助设计更多更有用的蛋白质,包括可用于减少污染和改善环境的新型生物材料。