我们离准确预测DNA结构还远吗?目前,利用人工智能预测化合物的分子结构是研究热点,DeepMind的蛋白质结构预测工具AlphaFold2就是明证。但需要注意的是,准确预测分子结构的背后需要庞大的数据集。斯坦福大学的一项研究打破了这一限制,提出了一种机器学习方法,该方法可以使用很少的数据实现准确的RNA结构预测。确定生物分子的3D形状是现代生物学和医学发现中最困难的问题之一。公司和研究机构花费数百万美元来确定分子结构,但往往无济于事。斯坦福大学的一个研究团队使用机器学习来解决这个问题。在斯坦福大学计算机科学系副教授RonDror的指导下获得博士学位。学生StephanEismann和RaphaelTownshend巧妙地使用机器学习技术开发了一种通过计算预测生物分子确切结构的方法。即使仅从少数已知结构中学习,他们的方法也能成功,使其适用于结构最难通过实验确定的分子类型。8月27日,该团队与斯坦福大学生物化学系副教授RhijuDas合作的研究论文发表,并登上了《Science》的封面。论文地址:http://science.sciencemag.org/content/373/6558/1047此前,该团队的一篇研究论文已于去年12月发表在生物医学期刊《Proteins》上。论文地址:https://onlinelibrary.wiley.com/doi/10.1002/prot.26033在《Proteins》的论文中,研究团队表示:本研究建立的神经网络架构来源于含有数以万计的原子执行端到端学习,涉及基于点的原子表示、旋转和平移的等方差、局部卷积和分层子采样操作。“结构生物学是对分子形状的研究,其中结构决定功能,”两篇论文的第一作者Townshend说。该团队设计了一种算法,不仅可以预测确切的分子结构,还可以解释不同分子的工作原理。适用于基础生物学研究、药物开发等。具体而言,团队成员Eismann以蛋白质为例:“蛋白质是执行各种功能的分子机器。为了执行其功能,蛋白质通常会与其他蛋白质结合。如果已知一对蛋白质与某种疾病有关,并且您知道它们如何在三个维度上相互作用,则医学可以尝试非常具体地针对这种与药物的相互作用。该研究的方法已成功用于蛋白质复合物和RNA分子。正如研究团队成员Dror所说:“机器学习的大部分最新进展都需要大量数据进行训练。这项研究的方法在训练数据很少的情况下取得成功这一事实意味着该方法可以解决很多问题。”稀缺领域未解决的问题”,因此这种方法可能具有巨大的潜力。使用少量数据准确预测RNA的结构RNA分子的3D结构对于RNA分子的功能至关重要,并且在药物发现中具有重要意义。然而,很少有RNA结构是已知的,并且计算预测RNA结构极具挑战性。斯坦福大学的研究使用了一种机器学习(ML)方法,仅使用18种已知的RNA结构进行训练,以识别准确的结构模型,而无需定义这些结构模型的属性。评分函数通过这种机器学习方法获得的——AtomicRotationallyEquivariantScorer(ARES)明显优于之前的方法。下图显示了训练集中18个RNA的结构。具体来说,为了训练ARES,研究人员使用了1994年之间发表的18个RNA分子和2006,并使用RosettaFARFAR2采样生成了每个RNA的1000个结构模型,而不使用任何已知结构。接下来,他们优化了ARES神经网络的参数,使其输出与每个模型对应结构的均方根误差(RMSD)尽可能匹配。下图1是ARES网络,其中A表示:ARES仅在给定原子坐标和元素类型的情况下就可以预测结构模型的准确性;B表示使用ARES进行的RNA结构预测;C表示已有的18个smallRNAsTrainingset的结构;D表示包含新的、更大的RNA结构的基准集。下面的图2表明ARES在识别准确结构模型方面明显优于以前的评分函数。A表示得分最高的结构模型的RMSD;B表示10个得分最高的结构模型中最低的RMSD;C表示无限接近的最佳得分结构模型的排名;D表示自2007年以来得分最高的结构模型的RMSD。ARES在社区范围内的盲目RNA结构预测挑战“RNA拼图”中取得了SOTA结果。如下图3所示,A代表ARES与其他方法的Blind预测精度结果对比;B代表ARES预测的晶体结构;C表示通过其他方法实现的最佳晶体结构预测。此外,ARES学会识别事先未指定的RNA结构的关键特征。下面的图4A显示了ARES学习螺旋宽度以实现最佳碱基配对;图4B显示学习识别关键RNA特征。凭借其优势,斯坦福的方法可以有效地从少量数据中学习,克服了标准深度神经网络的一个主要限制。并且该方法仅使用原子坐标作为输入,不包含特定的RNA信息,因此适用于解决结构生物学、化学、材料科学等领域的各种问题。作者简介合著者RaphaelTownshend是CEOAtomicAI的创始人,这是一家用于分子和药物设计的AI初创公司。目前,他是斯坦福人工智能实验室的博士候选人,他的研究兴趣包括机器学习、结构生物学、高性能计算和计算机视觉。通讯作者之一罗恩·德罗(RonDror)是斯坦福大学计算机科学系的副教授,领导着斯坦福人工智能实验室的一个研究小组,该小组专注于利用计算机技术解决生物学和药物发现中的基本问题。作为高性能计算、机器学习、图像分析、结构生物学和药物设计方面的专家,他还教授计算生物学和机器学习,并为技术和制药公司提供咨询服务。
