当前位置: 首页 > 科技观察

几何机器学习:如何在基础科学领域成为现实?

时间:2023-03-17 01:49:25 科技观察

本文转载自公众号2020年《核心阅读》(ID:AI_Discovery),在几何和图机器学习论文中表现突出的无疑是生物化学、药物设计和结构生物学。这可能是我们第一次终于发现这些机器学习方法对基础科学的影响。在这篇文章中,我将重点介绍过去一年中对我影响最大的三篇论文(作者是其中一篇的合著者)。2020年2月号的《细胞》和《自然方法学》杂志的封面刊登了几何机器学习方法。第一篇论文:J.M.Stokes等人,Adeeplearningapproachtoantibioticdiscovery(2020)Cell180(4):688–702。关于什么?基于图神经网络开发抗菌药物的深度学习运算过程。如何?训练有素的图形神经网络用于预测大肠杆菌对超过2,000种具有已知抗菌活性的分子(包括批准的抗生素、动植物提取物)的数据集的生长抑制。这种预测仅基于分子图谱,不依赖任何其他辅助信息,例如药物的作用机制。训练模型被送到药物再利用中心。经过调查研究,该模型包含约6000个药物分子,并选择前100个分子作为试验对象。令人惊奇的是,一种实验性降糖药物halicin(Hilimycin)具有强大的抗菌作用,可以消灭实验小鼠体内的多种耐药菌。显然,图神经网络具有很好的普适性,因为halicin分子不同于传统的抗生素。但在论文中,尚不清楚这种预测能力是否可以归因于预测抗菌作用(细胞膜去极化)的简单模式。此外,研究人员对ZINC15数据库中超过1亿个分子结构进行了实验筛选,ZINC15数据库是为虚拟筛选而准备的市售化合物数据库,也是药物设计者常用的化合物数据库。在所选化合物中,经物理试验鉴定出8种化合物具有抗菌活性,其中2种化合物对多种病原体具有较强的活性。开发药物的挑战之一是搜索空间很大,但只有少数分子能够在实验室进行测试。应用于分子图的图神经网络可用于预测所选药物虚拟筛选的分子特性。为什么这有关系?药物开发的一个主要挑战是巨大的搜索空间,估计至少包含1060个分子。在实验室中只能测试一小部分分子,选择更有可能的分子至关重要。通过计算完成的选择过程称为“虚拟筛选”。过去,机器学习方法经常用于分子的虚拟筛选,更广泛地说,用于协助药物开发的不同阶段。这是第一次在没有任何人类预先假设的情况下从头开始鉴定出一种新抗生素。过程。与大多数计算机模拟的、基于机器学习的药物开发论文不同,它们的结果完全由计算机预测,Stokes等人。广泛验证其体内活性。虽然原则上这种方法只能用于寻找治疗癌症等疾病的方法,但对抗生素的重视非常及时:抗生素的滥用导致耐药微生物的形成,已成为威胁健康的噩梦全人类,并可能发生高度传染性疾病。现有药物无法治疗细菌感染。这种现象肯定会出现,只是时间问题。更多相关内容:《量子杂志》热门文章和吉姆·柯林斯2020年TED演讲视频(柯林斯实验室是今年TED“FearlessProjects”之一,我们的CETI项目也是“FearlessProject”)。第二篇论文:Jumper等人,使用深度学习进行高精度蛋白质结构预测(2020)a.k.a.AlphaFold2.0(全文尚未公布)它是关于什么的?从氨基酸序列预测蛋白质的3D结构是生物信息学领域的一个众所周知的问题。它是如何工作的?AlphaFold2.0是一个“基于注意力的神经网络”(类似于transformer结构),它在蛋白质数据库中的170,000个蛋白质结构和未知结构的蛋白质序列上进行端到端的训练。但是DeepMind没有公布算法的细节,我们只能假设它是如何工作的。在论文中,蛋白质被建模为空间连接图,神经网络“解释该图的结构,同时推理正在构建的隐藏图。”这听起来很像GraphNeuralNetworkswithLatentGraphLearning,只是可能有更多的额外细节和细微差别,因为这种方法也使用进化序列信息,我将其归类为“几何机器学习”。据报道,训练在计算上很复杂(相当于数年的GPU时间),而结构的预测是“几天的事”。魔术蛇玩具生动地展示了蛋白质的折叠。在蛋白质折叠过程中,氨基酸的一维序列被折叠成复杂的三维形状。为什么赋予蛋白质功能很重要?蛋白质可以说是最重要的生物分子,通常被称为“生命分子”“我们还没有看到任何生命形式不是以蛋白质为基础的。蛋白质编码在DNA中,执行各种功能身体,包括对抗病原体(抗生素)、形成皮肤结构(胶原蛋白)、向细胞输送氧气(血红蛋白)、催化化学反应(酶)和信号(许多激素是蛋白质)。从化学上讲,蛋白质是生物聚合物,或链氨基酸,以静电方式折叠成复杂的3D结构。正是这种结构赋予蛋白质功能,正是这种结构对于理解蛋白质的工作原理和作用至关重要。蛋白质通常是药物治疗的目标(药物是小分子旨在与目标结合),因此制药行业非常重视这方面的研究。现代技术可以排列蛋白质(即形成氨基酸串),并且t成本低,技术可靠。然而,获得3D结构主要依赖于传统的结晶技术,尽管结晶技术不稳定、耗时且成本高。目前,大约有2亿种已知序列的蛋白质,至少有20万种已知结构的蛋白质。长期以来认为氨基酸序列包含足够的信息来预测蛋白质结构的观点已不再正确。蛋白质结构预测关键技术分析竞赛(CASP)是一个类似于ImageNet的竞赛。自1994年开始举办,参赛者需要预测未知蛋白质的3D结构。本次大赛已成为生物信息学实验室和制药企业的经典测试平台。2018年,DeepMind的新技术AlphaFold在CASP竞赛中脱颖而出并赢得了比赛,震惊了研究界。2020版的AlphaFold2.0效果更好,均方根误差仅为1.6埃。按照结构生物学的标准,可以说是非常准确,远超其他竞争对手。这就是蛋白质科学中的“ImageNet时刻”。尽管在关键问题上取得了惊人的进展,但媒体的炒作和松散的言论都歪曲了AlphaFold的功能。特别是在药物设计应用中,结合位点通常需要亚埃精度,但这项技术尚未达到这种能力。更多相关内容:大家都在翘首期盼解释算法的论文发表。LexFridman在这个YouTube视频中有很好的概述,MohammedAlQuraishi在博客中介绍了AlphaFold在2018年的影响。第三篇论文:P.Gainza等人,Decipheringinteractionfingerprintsfromproteinmolecularsurfacesusinggeometricdeeplearning(2020)NatureMethods17(2):184–192。关于什么?一种称为MaSIF的几何深度学习方法从蛋白质的3D结构预测蛋白质之间的相互作用。它是如何工作的?MaSIF将蛋白质建模为离散化为网格的分子界面,研究人员认为这在处理相互作用时是有利的,因为它可以提取内部折叠结构。该架构基于MoNet的发明,MoNet是我的博士生FedericoMonchi发明的一种网状卷积神经网络,基于预先计算的测地线中的化学和几何特征。该网络使用来自蛋白质数据库的数千个共晶蛋白质3D结构进行训练,以解决界面预测、配体分类和对接等各种问题,展现出现代性能。MaSIF与其他方法最大的区别在于它不依赖于蛋白质的进化历史。这在新型蛋白质设计中至关重要,它试图“从头开始”创造以前从未做过的全新蛋白质。作为本文的合著者,我想强调预算分子界面和局部补丁的重要性,并且手工特征的依赖性是MaSIF的主要缺点之一。在这一年里,我们彻底改造了结构,直接操纵原子点云作为输入,动态计算分子界面(表示为点云),学习几何和化学特征,并端到端可区分,运行快几个数量级(后者是通过使用由我的博士后JeanFeydy发明的快速几何计算库KeOps实现的)。虽然《自然方法》论文侧重于计算方法,但随后EPFL合作者获得了MaSIF设计的几种新型蛋白质结合物的晶体结构,这些结构与计算的结构非常吻合。使用MaSIF预测蛋白质结合位点。如图所示(右)设计的蛋白质经过修饰以提高与天然存在的“野生型”(中间)目标的结合。即使结合位点的结构是扁平的,MaSIF也能准确检测到它的位置。为什么这有关系?蛋白质与其他生物分子之间的相互作用是蛋白质在大多数生物活动中发挥功能的基础。更好地了解蛋白质的工作原理对于基础生物学和药物发现都很重要,因为许多疾病都与蛋白质-蛋白质相互作用(PPI)有关,而蛋白质-蛋白质相互作用是理想的药物靶点。然而,这种相互作用通常涉及“不可药性”的平面界面,因为它们与小药物分子靶向的传统口袋状结构有很大不同。成功识别靶标结合物的MaSIF是合理蛋白质设计的理想工具,开启了生物制药研究中的各种应用,例如免疫抑制检查点癌症治疗,其靶向PD-1/PD-L1蛋白复合物是靶标。