当前位置: 首页 > 科技观察

重的!AI解决生物学50年难题破解蛋白质分子折叠问题

时间:2023-03-20 22:08:10 科技观察

作为生物学中最大的谜团之一,蛋白质折叠问题被AI破解。CASP14组织者、年近七十的加州大学戴维斯分校科学家AndriyKryshtafovych在会上感叹,Iwasn'tsurethatIwouldlivelongenoughtoseethis(Ihavelivedenoughtoseethis)[1]。11月30日,一则重磅消息引起了科技界所有人的关注:谷歌人工智能科技公司DeepMind提出的深度学习算法“Alphafold”破解了存在了五十年的蛋白质分子折叠难题。最新一代算法Alphafold2现在可以预测蛋白质的3D折叠形状,这是一个复杂的过程,对于人们理解生命形成的机制至关重要。DeepMind重大科研突破消息一出,《Nature》、《Science》等科学杂志争相报道,新成果随即受到了桑达尔·皮查伊、埃隆·马斯克等人的祝贺。科学家表示,Alphafold的突破将帮助研究人员了解引发某些疾病的机制,并为药物设计、提高作物产量和开发降解塑料的“超级酶”铺平道路。“对于研究领域来说,这是一个激动人心的时刻,”DeepMind创始人兼首席执行官DemisHassabis说。“这些算法在今天已经足够成熟和强大,可以应用于真正具有挑战性的科学问题。”蛋白质对生命至关重要。它们是由氨基酸链组成的大型复杂分子,其作用取决于其独特的3D结构。弄清楚蛋白质折叠成哪种形状称为“蛋白质折叠问题”。在过去的50年里,蛋白质折叠一直是生物学中的一项重大挑战。DeepMind的AlphaFold使人类在这个问题上取得了重要突破。在今年的国际蛋白质结构预测大赛CASP中,DeepMind开发的最新版AlphaFold击败了其他选手,在准确率上堪比人类实验结果,被认为是蛋白质折叠问题的解决方案。这一突破展示了人工智能对科学发现,尤其是基础科学研究的影响。在两年一度的CASP竞赛中,各组竞相成为第一个预测蛋白质3D结构的人。今年,AlphaFold击败了所有其他小组,并在准确性上与实验结果相匹配。对于不熟悉生物学领域的人来说,CASP的名字可能有些陌生——CASP的全称是TheCriticalAssessmentofproteinStructurePrediction,旨在评估蛋白质结构的预测,被称为蛋白质结构预测奥林匹克竞赛。CASP从1994年开始每两年举办一次,正在进行的是11月30日开始的CASP14。DeepMind的这次突破有什么影响?用哥伦比亚大学计算生物学家MohammedAlQuraishi在Nature的文章中的话来说,“可以说这将对蛋白质结构预测领域产生巨大的影响。我怀疑很多人会离开这个领域,因为核心问题已经解决,这是我一生中最重要的科学成果之一。”蛋白质折叠问题蛋白质的形状与其功能密切相关,预测蛋白质结构对于理解其功能和工作原理至关重要。困扰人类的许多重大问题(例如寻找分解工业废物的酶)从根本上讲都与蛋白质及其作用有关。多年来,蛋白质结构一直是研究热点,研究人员利用核磁共振、X射线、冷冻电镜等一系列实验技术检测和确定蛋白质结构。但这些方法往往依赖于大量的反复试验和昂贵的设备,需要花费数年时间研究每种结构。1972年,美国科学家克里斯蒂安·安芬森因“对核糖核酸酶的研究,特别是其氨基酸序列与其生物活性构象之间的联系”获得诺贝尔化学奖。在颁奖典礼上,他提出了一个著名的假设:理论上,蛋白质的氨基酸序列应该完全决定其结构。这一假设引发了50年的探索,即仅根据蛋白质的一维氨基酸序列来计算蛋白质的三维结构。但这种思路的挑战在于,在形成三维结构之前,蛋白质的理论折叠方法是天文数字。1969年,赛勒斯·莱文塔尔(CyrusLevinthal)表明,通过蛮力计算来枚举蛋白质的可能构象所花费的时间比宇宙的年龄还要长。Levinthal估计蛋白质大约有10^300种可能的构象。但在自然界中,蛋白质会自发折叠,有些会在几毫秒内折叠,这被称为莱文塔尔悖论。蛋白质折叠视频请戳:https://v.qq.com/x/page/q3208094b83.htmlCASP14大赛最新成绩:AlphaFoldGDT中位数高达92.4CASP大赛启动1994年由两位教授JohnMoult和KrzysztofFidelis创建,以促进新的SOTA蛋白质结构预测研究,每两年进行一次盲评。CASP传统上选择了最近才通过实验确定的蛋白质结构作为团队测试其蛋白质结构预测方法的目标(有些结构甚至在评估时仍处于待定状态)。这些蛋白质结构不会提前公布,参赛者还必须对其结构进行盲测,最后将预测结果与实验数据进行比较。正是基于这种严格的评估原则,CASP被称为预测技术评估的“黄金标准”。CASP衡量预测准确度的主要指标是GDT(GlobalDistanceTest),取值范围为0-100,可以理解为预测的氨基酸残基在正确位置阈值距离内的百分比。JohnMoult教授表示,GDT得分在90分左右,可以认为与人体实验方法具有竞争力。在刚刚公布的第14期CASP评估结果中,DeepMind最新的AlphaFold系统在所有预测目标中的GDT中位数为92.4,这意味着它的平均误差约为1.6埃(Angstrom),相当于一个原子的宽度(或0.1纳米)。即使在最困难的自由形式建模类别中,AlphaFold也实现了87.0的GDT中值。通过BEST-OF-5GDT衡量的先前CASP竞赛的免费建模类别中的中值预测准确性的提高。来自CASP竞赛的免费建模类别的目标蛋白质的两个示例。AlphaFold能够高度准确地预测蛋白质结构。这些激动人心的结果开创了一个生物学家使用计算结构预测作为科学研究主要工具的时代。DeepMind提出的方法对某些重要的蛋白质类别特别有用,例如膜蛋白。膜蛋白很难结晶,因此很难通过实验确定它们的结构。这项计算工作代表了50年历史的蛋白质折叠生物学问题的惊人进步,比该领域的研究人员成功预测蛋白质折叠结构早了数十年。我们很高兴它可以从许多方面从根本上改变生物学研究。——VenkiRamakrishnan教授(诺贝尔奖得主、英国皇家学会主席)DeepMind就是这样解决了蛋白质折叠问题的。2018年,DeepMind团队使用初始版本的AlphaFold参加了CASP13比赛,并取得了最高准确率。随后,DeepMind在Nature上发表了CASP13方法和相关代码。现在,DeepMind团队开发了一种新的深度学习架构,并用它参加了CASP14竞赛,取得了前所未有的准确度。这些方法从生物学、物理学、机器学习以及过去半个世纪以来许多科学家在蛋白质折叠领域的工作中汲取灵感。我们可以把蛋白质折叠想象成一个“空间图”,节点代表残基,边将残基紧密相连。该空间图对于理解蛋白质内部的物理相互作用及其进化历史至关重要。对于CASP14竞赛中使用的最新版本的AlphaFold,DeepMind团队创建了一个基于注意力的神经网络系统,并以端到端的方式对其进行训练,以理解图结构并根据其构建的隐式图进行推理。该方法使用进化相关序列、多序列比对(MSA)和氨基酸残基对的表示来改进图谱。通过重复这个过程,系统能够可靠地预测蛋白质的潜在物理结构,并在几天内确定一个高度准确的结构。此外,AlphaFold可以使用内部置信度度量来确定每个预测的蛋白质结构的哪一部分是可靠的。DeepMind团队使用来自蛋白质结构数据库(PDB)和一个包含未知结构蛋白质序列的大型数据库(总共包括大约170,000个蛋白质结构)的公开数据对系统进行训练。该系统使用大约128个TPUv3内核(相当于100-200个GPU)运行了数周,与当今机器学习中的大型SOTA模型相比,使用的计算能力相对较小。此外,DeepMind团队透露,他们正准备在适当的时候将与新的AlphaFold系统相关的论文提交给同行评审的期刊。AlphaFold的主要神经网络模型架构概述。该模型对进化相关的蛋白质序列和氨基酸残基对进行操作,在两者的表示之间迭代传递信息以生成蛋白质结构。对现实世界的潜在影响“让人工智能的突破帮助人们进一步理解基础科学问题”。经过4年的研究,AlphaFold现在正在逐步实现DeepMind刚开始时的愿景。重要影响。马克斯普朗克进化生物学研究所所长兼CASP评估员AndreiLupas教授说:“AlphaFold的精确模型使我们能够解决近十年来一直困惑的蛋白质结构,重新开始研究信号如何跨细胞膜传递。“DeepMind表示愿意与其他研究人员合作,在未来几年进一步了解AlphaFold的潜力。除了处理同行评审的论文外,DeepMind还在探索如何以可扩展的方式最好地让系统更广泛地访问。同时,DeepMind的研究人员也在研究蛋白质结构预测如何帮助人们了解一些特殊疾病。例如,通过帮助识别功能失常的蛋白质并推断它们如何相互作用来了解某些疾病的原理。这些信息可以允许更精确的药物开发,补充现有的实验方法并更快地导致更有希望的治疗。AlphaFold非常出色,在快速准确地预测结构蛋白方面具有惊人的性能。这一飞跃展示了计算方法在生物学转化研究和加速药物发现过程中的前景。同时,大量证据也表明,蛋白质结构预测在未来大流行应对中是有用的。今年早些时候,DeepMind使用AlphaFold预测了几种未知的SARS-CoV-2蛋白的结构,包括ORF3a。在CASP14中,AlphaFold预测了另一种冠状病毒蛋白ORF8的结构。实验人员现在已经确认了ORF3a和ORF8的结构。尽管具有挑战性并且相关序列很少,但与实验确定的结构相比,AlphaFold在两个预测上都实现了高精度。除了加速对已知疾病的理解,AlphaFold还具有许多令人兴奋的技术潜力:探索目前尚无模型的数亿种蛋白质,以及广阔的未知生物领域。由于DNA指定了构成蛋白质结构的氨基酸序列,基因组学革命使得大规模读取自然界中的蛋白质序列成为可能——通用蛋白质数据库(UniProt)中有1.8亿个蛋白质序列。相比之下,考虑到从序列到结构所需的实验工作,蛋白质数据库(PDB)中只有大约170,000个蛋白质结构。未确定的蛋白质中可能存在一些新的和未确定的功能——就像望远镜帮助人类更深入地观察未知宇宙一样,像AlphaFold这样的技术可以帮助找到未确定的蛋白质结构。开辟新的可能性AlphaFold是DeepMind迄今为止取得的最重要的进展之一,但随着后续科学研究的发展,还有很多问题需要解决。并非所有DeepMind预测的结构都是完美的。还有很多东西需要学习,包括多蛋白如何形成复合物,如何与DNA、RNA或小分子相互作用,以及如何确定所有氨基酸侧链的精确位置。此外,在与他人合作的过程中,还需要学习如何将这些科学发现最好地应用到新药开发和环境管理方法中。对于所有从事科学计算和机器学习方法研究的人来说,像AlphaFold这样的系统展示了人工智能作为基础探索辅助手段的巨大潜力。就像美国生化学家安芬森在50年前提出了远远超出当时科学能力的挑战一样,这个世界还有很多未知的方面。DeepMind的这一进步强化了这样一种信念,即人工智能将成为人类扩展科学知识边界最有用的工具之一,并且多年的努力工作将带来更大的发现。AlphaFold科研突破相关视频请点击:https://v.qq.com/x/page/d3208wl42dz.html