本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。超级加享受!今天一波Nature和Science一起发文,让学术圈的吃盐们高兴不已。一方面,“AI界年度十大突破”的AlphaFold2终于开源并登上了Nature。另一方面,Science有另一份报告:华盛顿大学甚至想出了比AlphaFold2更快更轻的算法。只需要一个NvidiaRTX2080GPU就可以在10分钟内计算出蛋白质结构!要知道,当初AlphaFold2诞生的时候,着实让学术界沸腾了。不仅谷歌CEO皮查伊、马斯克、李飞飞等大V纷纷称赞,就连马普研究所进化生物学研究所所长安德烈卢帕斯也直言:它将改变一切。结构生物学家PetrLeiman感叹,我用价值1000万美元的电子显微镜解决了好几年,Alphafold2一下子算出来了。甚至有生物网友表示绝望,觉得这个专业“前景黯淡”:今天,这一波Nature和Science大神的争斗,又一次点燃了话题。让学术界为之疯狂的Alphafold2先来说说被顶级期刊报道过的Alphafold2。作为一个AI模型,为何会引起各界的热议?因为它一问世,就解决了生物学中最棘手的问题之一。这个问题是ChristianAnfinsen于1972年提出的,其验证困扰了科学家50年:给定一个氨基酸序列,可以从理论上预测蛋白质的3D结构。蛋白质是由氨基酸序列组成的,但真正决定蛋白质功能的是它的三维结构,即氨基酸序列的折叠方式。为了验证这一理论,科学家们尝试了各种方法,但在CASP14(蛋白质结构预测竞赛)中,准确率只达到了40分左右(满分100分)。直到去年12月,Alphafold2的出现,直接将这个精度提升到了92.4/100,蛋白质真实结构与一个原子的宽度相差只有一个原子,真正解决了蛋白质折叠的问题。Alphafold2被选为当年科学界十大突破之一,被称为结构生物学的“革命性”突破和蛋白质研究领域的里程碑。它的出现可以更好地预测蛋白质与分子结合的概率,从而大大加快新药开发的效率。如今,Alphafold2的开源,进一步在AI和生物学界掀起了不小的波澜。谷歌CEO皮查伊很高兴:还有一位生物学博士说:未来已来!RoshanRao,博士来自UCBerkeleyAILab的,看完后表示,这段代码看起来不仅简单易用,而且文档也非常丰富。现在,是时候了解Alphafold2的魔力是如何随着这个开源算法发生变化的了。AlphaFold2详细信息公开研究人员强调,这是一种与AlphaFold完全不同的新模型。2018年AlphaFold使用的神经网络是类ResNet的残差卷积网络,而AlphaFold2则借鉴了AI研究中最近兴起的Transformer架构。Transformer出现在NLP领域,利用注意力机制来处理一系列文本序列。氨基酸序列是一种类似于文本的数据结构。AlphaFold2使用多序列比对将蛋白质结构和生物信息整合到深度学习算法中。AlphaFold2将初始氨基酸序列与同源序列进行比对,直接预测蛋白质所有重原子的三维坐标。从模型图中可以看出,输入初始氨基酸序列后,会在数据库中比对蛋白质的基因信息和结构信息。多序列比对的目标是使尽可能多的序列在参与比对的序列中具有相同的碱基,从而推断出它们在结构和功能上的相似性。比较后的两组信息会组成一个48-block的Evoformerblock,进而得到比较相似的比对序列。序列比对进一步结合8个block的结构模型,直接构建蛋白质的3D结构。最后两步的过程也经过了3个循环,这样可以让预测更加准确。△如何利用三维坐标确定结构,有更快更低成本的算法?AlphaFold2在刚公布的时候并没有透露太多的技术细节。在华盛顿大学,同样致力于蛋白质领域的大卫·贝克曾一度迷茫:如果有人解决了你正在研究的问题,但没有透露他们是如何解决的,你应该如何继续研究?但他马上重整旗鼓,带领团队尝试能否重现AlphaFold2的成功?几个月后,Baker团队的结果不仅在精度上与AlphaFold2不相上下,而且在计算速度和计算能力要求上也有所超越。在AlphaFold2开源论文登上Nature的同一天,Baker团队的RoseTTAFold也登上了Science。RoseTTAFold只需要一块RTX2080显卡,10分钟左右就能计算出400个氨基酸残基以内的蛋白质结构。这个速度是什么意思?即研究蛋白质的科学家不再需要排队申请超算资源。小型团队和个人研究人员只需要一台普通的个人电脑即可轻松开展研究。RoseTTAFold的秘密在于采用了3-trackattention机制,分别关注蛋白质的一级结构、二级结构和三级结构。然后,通过在三者之间加入多重连接,整个神经网络就可以同时学习三个维度层面的信息。考虑到显卡在市场上不容易买到,贝克团队还贴心地搭建了一个公共服务器,任何人都可以在上面提交蛋白质序列和预测结构。服务器建立以来,已经处理了来自世界各地的研究人员提交的数千个蛋白质序列。这还没有结束,团队发现,如果同时输入多个氨基酸序列,RoseTTAFold还可以预测蛋白质复合物的结构模型。对于由多种蛋白质组成的复合物,RoseTTAFold的实验结果是在一块显存为24GB的NVIDIATitanRTX上计算了大约30分钟。现在整个网络都是用单个氨基酸序列训练的,下一步团队计划用多个序列重新训练,在蛋白质复杂结构的预测上可能还有改进的空间。正如贝克所说:我们的结果可以帮助整个科学界并加速生物学研究。Alphafold2开源地址:https://github.com/deepmind/alphafoldRoseTTAFold开源地址:https://github.com/RosettaCommons/RoseTTAFold相关论文:Alphafold2:https://www.nature.com/articles/s41586-021-03819-2RoseTTAFold:https://science.sciencemag.org/content/early/2021/07/14/science.abj8754
