当前位置: 首页 > 科技观察

DeepMind再创里程碑,发布了350,000个蛋白质预测结构,这五位国内专家怎么看?

时间:2023-03-12 20:37:22 科技观察

本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。蛋白质对生命至关重要,几乎所有疾病,包括癌症和痴呆症,都与蛋白质的结构和功能密切相关。数以亿计的蛋白质结构包含丰富的生物信息,可用于生物过程推理和药物开发或药物干预。然而,经过几十年的努力,科学家们只预测了人类蛋白质序列中17%的氨基酸残基。7月23日,《Nature》杂志发表的一篇题??为《Highlyaccurateproteinstructurepredictionforthehumanproteome》的研究论文引爆各大社交网络。这篇论文来自人工智能明星公司DeepMind。当天,其创始人戴米斯·哈萨比斯在推特上激动地表示,“这是我梦寐以求的一天。DeepMind成立的初衷就是要用人工智能推动科学发展,造福人类。我们的研发团队非常自豪。”“据悉,这项研究已经覆盖了98.5%的人类蛋白质组预测范围,其中58%的氨基酸结构位置已被置信预测(confidentprediction),36%的氨基酸位置。结构预测具有很高的可信度。DeepMind在其官方博客中表示,作为蛋白质结构预测的有力工具,AlphaFold将广泛应用于生命科学和药物研发。“我们相信这是迄今为止人工智能为推动科学发展做出的最重要贡献,也是人工智能造福人类最有价值的例子。”这篇博客的标题是《把AlphaFold的力量交到全世界的手中》,可见DeepMind对AlphaFold改变生命科学研究的信心。为了支持生物和医学研究,DeepMind与欧洲生物信息学研究所(EMBL-EBI)合作创建了第一个可供学术界免费使用的AlphaFoldDB。这是迄今为止最完整、最准确的人类蛋白质组高质量数据集,是人类通过生物实验确定的蛋白质结构数量的两倍。数据集地址:https://alphafold.ebi.ac.uk/该数据库涵盖了人类蛋白质组和其他21种关键生物的蛋白质全结构预测结果,包括大肠杆菌、果蝇、斑马鱼等,以及蛋白质种类已达35万种。DeepMind表示,在接下来的几个月里,他们计划将数据库的范围扩大到1.3亿个蛋白质结构,目标是为所有具有已知序列的蛋白质提供预测结构。研究发表后,2009年诺贝尔生理学和医学奖得主PaulNurse、马克斯普朗克生物物理化学研究所所长、结构生物学教授兼德国大学酶创新中心(CEI)主任PatrickCramer朴茨茅斯约翰·麦吉汉、谷歌创始人兼首席执行官桑达尔·皮查伊等众多科学家对此表示高度评价。JohnMcGeehan说:“我们花了数月甚至数年才能完成的事情,AlphaFold现在可能只需要一个周末。”SundarPichai发推文说:“AlphaFold数据库展示了人工智能深刻加速科学进步的潜力。DeepMind的机器学习系统不仅在一夜之间极大地扩展了我们积累的蛋白质结构和人类蛋白质组知识,而且它对生命构成要素的洞察力未来科学发现的非凡前景。”AlphaFold对结构的预测并非没有局限性,比如目前还无法预测的复合物的3D结构;在动态过程中,通常只能预测蛋白质的构象;对于不产生特定结构的氨基酸序列,无法做出可靠的结构预测。不过,在五位业内专家看来,当DeepMind开始重视开源和开放,并发布AlphaFold2的源代码和更多细节时,科学界将在此基础上加速开发出更好的解决方案,即人工智能预测蛋白质,生物计算领域又一次飞跃的契机。(以下排名不分先后)徐东,密苏里大学教授,AAAS,AIMBEFellow从应用的角度来看,这项研究带来的行业影响是巨大的。DeepMind在论文中提到的高置信度蛋白质结构预测基本可以达到准实验精度,大大拓展了其应用范围。在以往的研究中,受限于预测的准确性和可靠性,小分子药物设计的研究受到很大阻碍,但现在可以对蛋白质结构进行高置信度的分子对接预测。当然,AlphaFold2目前也有一定的局限性。例如,许多蛋白质和区间无法达到高置信度。第一手的观察还是有差距的。主要原因是蛋白质结构高度可变。在某些情况下,几个氨基酸可能会完全改变其结构和功能。但是,人工智能系统是以统一为基础的,很难发现这样的变化和差异。也就是说,预测的结构和实验室的结构还不能完全等同。不过,相信随着算法的完善和AI数据的边际效应,AlphaFold2还有很大的提升空间。值得一提的是,国内在蛋白质结构AI预测方面的研究近年来也取得了较大进展。例如,中科院卜东波教授主持的FALCON预报系统大大提高了预报精度。虽然还没有达到AlphaFold2的预测水平,但总体趋势在快速发展。这是人工智能技术日趋成熟的必然结果。.人工智能预测本质上是基于大数据而非物理过程的统计。蛋白质折叠结构中的一些物理性质,如不同pH值和温度引起的结构变化等,是人工智能无法预测和分析的,这意味着它不能完全取代传统的基于物理的模拟和预测方法。而人工智能擅长挖掘深度信息,从海量数据中发现规律。该模型非常适合蛋白质结构预测等生物学研究需求。相信未来会给生物界和科学界带来更多的突破性成果。张扬,密歇根大学教授,I-TASSER算法发明人有幸参与DeepMind两篇研究论文的审稿。总体而言,所有审稿人都对第一篇关于算法的AlphaFold2文章给予了高度评价,但对这篇关于人类基因组应用的论文持保留意见,包括以下几个方面:第一,论文缺乏新意。自从蛋白质结构预测问题被提出以来,特别是人类基因组计划之后,如何利用计算机算法来预测整个基因组的蛋白质结构就成为了科学家们的目标。在过去的二十年里,关于基因组蛋白质结构预测的论文已经发表了很多,而这远不是第一篇。其次,从方法论的角度来看,蛋白质预测的关键在于算法的发展,应用层面是一件很直接的事情,只要有足够的计算机资源就可以实现。第三,本文强调了如何使用预测结构来分析蛋白质功能,特别是展示了三个蛋白质示例。尽管这些努力很有价值,但都没有得到双盲实验的验证,而这在预测蛋白质功能中是非常必要的。这项工作之所以受到关注,是因为AlpahFold2算法(即第一篇论文)达到了迄今为??止计算机可以预测的最高精度。从CASP14的结果来看,AlphaFold22/3的目标蛋白已经达到实验精度,1/3的目标蛋白在预测困难的非同源序列上达到了这个精度,而人类基因库还没有却解决了问题。大多数打开的蛋白质是非同源蛋白质。另一方面,由于历史原因,CASP14的评价是基于一个小的单域蛋白的结构。对于大型多结构域蛋白质或多链蛋白质复合物的结构预测,AlphaFold2的模拟精度仍然未知。芝加哥丰田计算技术学院教授、斯隆奖获得者DeepMind的徐金波对外开放源代码和数据库,将对学术界和产业界的研发产生重大影响,尤其是在生物制药等行业。目前国内的研究成果可能略有落后,但随着人工智能算法的完善和更多优质数据库的开源,相信未来2-3年,相关研究会有质的飞跃,或将达到与DeepMind相同的水平。肩并肩的水平。作为最高等生物,人类蛋白质组的预测相对困难。虽然AlphaFold预测人类蛋白质的覆盖率已经达到98.5%,但在氨基酸水平的结构预测方面仍有提升空间。高精度蛋白质预测不能完全依赖人工智能技术,它应该作为生物实验方法的最佳补充技术,两者是相辅相成的关系。几十年来,人类蛋白质结构仍未被实验方法破解,仍然需要基于大数据和计算能力的人工智能提供更多的思路和可能性。核实。知名专家、人工智能和蛋白质结构预测资深从业者在方法创新方面,AlphaFold提出了一套全新的模型架构和训练策略;在应用价值方面,AlphaFold蛋白质结构数据库将为更好地了解蛋白质在体内的功能和作用提供见解和参考。对业界而言,AlphaFold为蛋白质单链结构、蛋白质复合物、蛋白质小分子等结构预测任务指出了思路,可能对基于结构的药物设计等领域有更大的推动作用。目前AlphaFold对模型输入端的同源序列信息仍有一定依赖,预测可能不够准确;同时,它更多地依赖于异型接触而不是链内接触或三维结构的同源接触。与结构接触的蛋白质也可能存在精度问题,这也是作者在论文中提到的未来改进方向之一。在AlphaFold(以及DavidBaker小组的RoseTTAFold)发布之前,国内已经有一些将端到端学习引入蛋白质结构预测的初步尝试(包括我们的tFold)。在预测精度上,基本可以达到CASP14的排名。第二个Baker组处于相似水平,但与AlphaFold仍有一定差距。AlphaFold论文和代码公开后,相信国内在这方面的研究会在短期内迎来比较大的增量。在蛋白质结构预测领域,AlphaFold的出现在一定程度上减轻了基于实验数据确定蛋白质结构的工作量。率蛋白质结构,为下游任务提供指导。这些技术可以单独基于序列数据,并且在某种程度上是对基于实验数据的蛋白质结构数据库的有效补充。另一方面,现有方法的可解释性以及与物理先验知识的结合仍然不足。如何在微观层面为结构预测结果提供有说服力的置信度和理论支持还有待进一步探索。郭天南,西湖大学教授,蛋白质组大数据实验室负责人。这一成果意味着人工智能已经进入生命科学的微观分子领域,并向生命科学研究者开放。其意义类似于AlphaGo进入人们生活(围棋领域)。的广泛使用可能对结构生物学产生重大影响。正如DeepMind在论文中所说,虽然Alphafold2发现了许多新的蛋白质结构,但这些结构是否完全正确,仍然需要通过传统的生物实验来验证。在生命活动中,蛋白质的结构和功能是高度复杂和动态的,在不同的功能状态下结构也可能发生变化。例如,某个氨基酸的翻译后修饰可能会彻底改变蛋白质的结构和功能。目前,AlphaFold2是否具有氨基酸水平和翻译后修饰的准确性还有待进一步研究和验证。蛋白质是生命活动的重要元素。蛋白质结构分析是理解蛋白质的基石。人工智能用于蛋白质结构预测是一个很好的趋势,标志着人工智能精英进入生命科学微观世界的蓬勃发展。结果有可能在药物开发中发挥重要作用。当然,革命性新技术的出现,必然会受到该领域的严格审查。AlphaFold2的广泛应用可能会遇到一些阻力,但这些阻力也是科技不断发展的动力。相信人工智能在生命科学和医疗领域的应用会越来越广泛和深入。蛋白质的人工智能预测已经开始竞速通过实验确定蛋白质结构是一项耗时费力的工作,AlphaFold已经证明人工智能可以在短短几分钟内准确预测到原子级别的蛋白质结构。诺贝尔奖得主ChristianAnfinsen于1972年提出,可以根据蛋白质的一维氨基酸序列计算和预测蛋白质的三维结构。然而,3D结构在形成之前会折叠数亿次。数据显示,一个典型的蛋白质大约有10∧300种可能的构型,如果用蛮力计算出所有可能的构型,可能需要比宇宙还要长的时间。去年,DeepMind推出的新版人工智能预测系统AlphaFold2克服了这一持续了50多年的重大挑战,并获得了权威的蛋白质结构预测与评估机构(CASP)的认可——AlphaFold2通过氨基酸序列预测蛋白质折叠结构,在CASP14评估中取得的整体中位数为92.4GDT。这意味着AlphaFold2的结构预测精度几乎可以与使用低温电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术求解3D结构的精度相媲美。与其他同类AI相比,AlphaFold2的预测准确率在当时遥遥领先。然而,一周前,来自西雅图华盛顿大学医学院蛋白质设计研究所的研究团队发表了论文《Accuratepredictionofproteinstructuresandinteractionsusingathree-trackneuralnetwork》,提出蛋白质预测系统它开发的RoseTTAFold已经达到了与AlphaFold2几乎相同的水平,并且在预测蛋白质的3D结构方面更快,需要更少的计算机处理能力。这项最新研究一经发布就刊登在《 Science 》杂志上。有趣的是,同一天,DeepMind还在《Nature》上发表了两篇论文,公开了AlphaFold人工智能系统的源代码,并详细描述了其设计框架和训练方法。目前,RoseTTAFold的预测准确率在CASP14评估体系中排名第二,仅次于AlphaFold刚刚发布的最新结果。此外,RoseTTAFold还选择开源,让服务器免费提供给科学界。可以预见,随着RoseTTAFold和AlphaFold2源代码的发布,研究人员将在两者的基础上继续推进,有望对人工智能系统做出进一步的改进,比如攻克目前无法确定构象的蛋白质等。目前,以及设计新的蛋白质,相信短期内会有更多的科研机构迎来爆发式的进步。