蛋白质对生命至关重要,几乎在每一个生物过程中都发挥着作用。一方面,它们在神经元之间传递信号、识别微观入侵者并激活免疫反应等。另一方面,蛋白质作为治疗介质作为疾病治疗的一部分已被广泛研究。因此,通过生成新的、物理上可折叠的蛋白质结构,为利用细胞通路治疗疾病的新方法打开了大门。在这篇论文中,来自斯坦福大学、微软研究院等机构的研究人员,受体内蛋白质折叠过程的启发,引入了一种折叠扩散(foldingdiffusion,FoldingDiff)模型,该模型通过反映蛋白质的自然折叠过程来设计蛋白质骨架结构。论文地址:https://arxiv.org/pdf/2209.15611.pdf代码地址:https://github.com/microsoft/foldingdiff具体来说,他们将蛋白质主链结构描述为一系列连续的角,用Capturingtherelative由于组成氨基酸残基的方向,这种表示的固有位移和旋转不变性极大地减轻了对复杂等变网络的需求。本研究训练了一个基于transformer主干的去噪扩散概率模型,并证明我们的模型可以无条件地生成高度逼真的蛋白质结构,其复杂性和结构模式类似于天然蛋白质。有网友表示:不知道这个模型会不会给AlphaFold带来一些竞争。方法和结果我们可以将蛋白质理解为长度可变的氨基酸残基链。有20种典型的氨基酸,共享相同的三原子N-C_α-C主链,但C_α原子上连接着不同的侧链(通常表示为R,见图1)。这些残基组装形成折叠成3D结构的聚合物链,其形状在很大程度上决定了蛋白质的功能。这些折叠结构可以用四个层次来描述:一级结构,简单地捕获氨基酸的线性序列;二级结构,描述氨基酸的局部排列;三级结构,描述了所有残基的完整空间排列;和四级结构,描述多个不同的氨基酸链如何聚集在一起形成更大的复合物。这项研究提出了一个简化的蛋白质骨架框架,它遵循蛋白质折叠的生物学过程,同时消除了对复杂等变网络的需求。他们没有将长度为N个氨基酸的蛋白质主链视为三维坐标,而是将其视为六个连续内角的序列。也就是说,给定当前残基的位置,六个内角的向量描述了下一个残基中所有主链原子的相对位置。这些内角可以使用三角函数轻松计算,在转换回3D笛卡尔坐标之前将原子迭代添加到蛋白质骨架中。下图显示了一个实验的结果。天然结构的Ramachandran图(面板a)包含三个区域,对应于LHα螺旋、RHα螺旋和β折叠。所有三个区域都在此处生成的结构中完全再现(图3b)。换句话说,FoldingDiff能够在蛋白质骨架中生成二级结构元素。此外,实验表明FoldingDiff模型正确地了解到RHα螺旋比LHα螺旋更常见。然而,以前使用等变网络的工作无法区分这两种类型的螺旋。下图是测试主链(4a)和生成主链(4b)中二级结构的二维直方图。结果表明,生成的结构反映了蛋白质的真实结构,具有多个α螺旋和多个β折叠,以及两者的混合。下图显示,生成的780个结构中有111个(14.2%)可设计为scTM分数≥0.5(图5a),高于Trippe等人报告的11.8%的值。我们还看到生成的主链与训练示例更相似,并且往往具有更好的可设计性(5b)。要了解更多信息,请阅读原始论文。
