当前位置: 首页 > 科技观察

谷歌AI一次性注释了10%的已知蛋白质序列,超过了人类十年的研究成果

时间:2023-03-20 20:36:36 科技观察

蛋白质是人体所有细胞和组织的重要组成部分。身体的所有重要组成部分都需要蛋白质。已知存在数十亿种蛋白质,但其中约三分之一的功能未知。我们迫切需要探索这些未知领域,因为它们关系到抗菌素耐药性甚至气候变化等重要问题。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可以用来减少大气中的二氧化碳。最近,谷歌和欧洲生物信息学研究所开发了一种名为ProtCNN的技术,它可以使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙最后不可见的区域。谷歌表示,这种新方法可以让我们更准确地预测蛋白质功能、突变的功能影响,并进行蛋白质设计,进而可以应用于药物发现、酶设计,甚至了解生命起源。论文:使用深度学习注释蛋白质宇宙论文链接:https://www.nature.com/articles/s41587-021-01179-wGoogle提出的方法可靠地预测了更多蛋白质的作用,而且速度快,价格低廉且易于尝试,其研究使主流数据库Pfam中的注释蛋白质序列增加了近10%,一举超过了过去十年的增长率,并预测了360人类蛋白质功能。Pfam数据库是蛋白质家族的集合,每个家族都以多序列比对和隐马尔可夫模型的形式表示。这些结果表明,深度学习模型将成为未来蛋白质注释工具的核心组成部分。对于大多数人来说,我们更熟悉的是DeepMind之前在AlphaFold上的工作,AlphaFold是一种预测蛋白质结构的算法。虽然AlphaFold向我们展示了这些神秘生物机器的形状,但新的研究重点是这些机器的功能和用途。生物医学是一个极其活跃的科学领域,每天有超过十万个蛋白质序列被添加到全球序列数据库中。但是,除非附有功能说明,否则这些条目对从业者的用处非常有限。虽然努力从文献中提取注释,每年评估超过60,000篇论文,但这项任务的耗时性意味着只有0.03%的公开可用蛋白质序列是手动注释的。直接从氨基酸序列推断蛋白质功能是科学界长期存在的研究方向。从1980年代开始,提出了BLAST等方法,该方法依赖于成对序列比较,假设查询蛋白质与已经注释的高度相似序列具有相同的功能。后来,引入了基于特征的方法,PROSITE数据库对在具有特定功能的蛋白质中发现的短氨基酸“基序”进行分类。基于签名的方法的一个关键改进是配置文件隐马尔可夫模型(pHMM)的开发。这些模型将相关蛋白质序列的比对折叠成一个模型,该模型提供新序列和描述它们与比对集匹配程度的似然得分。在这里至关重要的是,配置文件HMM允许更长的签名和更多的模糊匹配,并且目前用于更新流行的数据库,例如Interpro和Pfam。后来的改进使这些技术更具响应性和计算效率,并且它们作为网络工具的高可用性使从业者能够轻松地将它们集成到他们的工作流程中。这些计算建模方法在学术界产生了很大的影响。然而,迄今为止,三分之一的细菌蛋白质尚未对其功能进行注释。这样做的原因是目前的方法对每个比较序列或模型进行完全独立的比较,因此可能无法充分利用不同功能类共享的特性。扩展注释蛋白质序列集需要长程同源性检测,即对与训练数据相似度低的序列进行准确分类。新研究的基准测试集包含21,293个序列。ProtENN对所有类别都实现了显着更高的分类准确度,包括那些具有远距离测试序列的类别,这是扩大蛋白质域覆盖范围的关键要求。为了解决从几个例子进行推断的挑战,作者使用深度模型学习的序列表示来提高性能。Pfam种子模型的性能。ProtCNN的架构。中间面板显示输入(红色)、嵌入(黄色)和预测(绿色)网络以及残差网络ResNet架构(左),而右侧面板显示由简单的最近邻方法利用的ProtCNN和ProtREP。在这种表示中,每个序列对应一个点,来自同一家族的序列通常比来自其他家族的序列更接近。ProtCNN学习每个序列长度为1100的实值向量表示,而不管其错位长度如何。为了达到高精度,每个家庭的表示必须紧密地打包在一起,以便不同的家庭彼此很好地分开。为了测试这种学习表示是否可用于准确分类最小序列族,作者构建了一种称为ProtREP的新方法。对于ProtREP,我们计算每个家庭在其训练序列中的平均学习表示,从而产生标记的家庭表示。然后通过在学习的表示空间中找到它最近的标签来对每个保留的测试序列进行分类。对于相同的计算成本,ProtREP在聚类分割方面的准确性超过了ProtCNN。ProtENN和TPHMM的结合提高了远程同源任务的性能。TPHMM和ProtENN模型的简单组合将错误率降低了38.6%,将ProtENN数据的准确性从89.0%提高到93.3%。为了探索深度模型对蛋白质序列数据的理解,作者在Pfam-full中80%的未比对序列上训练了ProtCNN,并计算了学习到的氨基酸表示的相似度矩阵。结果表明,ProtCNN学习了蛋白质序列的有意义表示,可以泛化到序列空间的未知部分,可用于预测和理解蛋白质序列的特性。另一个挑战是检测蛋白质结构域及其在蛋白质序列中的位置。这个任务类似于图像分割,这是深度学习模型擅长的。尽管ProtCNN是使用域进行训练的,但该研究证明了ProtCNN使用简单的滑动窗口方法将完整序列分割成域的能力。尽管没有使用序列比对,ProtCNN仍显示出出色的准确性。