与蛋白质领域不同,RNA领域的研究往往缺乏足够的标记数据。例如,3D数据只有1000多个RNA。这极大地限制了用于RNA结构-功能预测任务的机器学习方法的发展。为了弥补标记数据的不足,本文提出了一个基石模型,可以为RNA-RNA基础模型(RNA-FM)的各种研究提供丰富的结构-功能知识。作为世界上第一个基于以无监督方式训练的2300万个未标记RNA序列的RNA基石模型,RNA-FM挖掘了RNA序列中包含的进化和结构模式。值得注意的是,RNA-FM只需要匹配一个简单的下游模型,或者只提供embedding,就可以在很多下游任务中取得远优于SOTA的性能,比如二级结构预测提升20%,distanceGraph预测可以提高了30%。大规模实验证明该模型具有很强的泛化能力,甚至可以用于COVID-19以及mRNA的调控片段。论文预印本:https://arxiv.org/abs/2204.00300代码和模型:https://github.com/ml4bio/RNA-FMServer:https://proj.cse.cuhk.edu.hk/rnafmIntroductionIn近年来,基于深度学习的生物计算方法在蛋白质领域取得了突破。最著名的里程碑是AlphaFold2,这是一个由GoogleDeepMind团队开发的端到端蛋白质3D结构预测框架。然而,蛋白质只是众多生物分子中的一种。基因(DNA/RNA)作为蛋白质生产的来源,比后者包含更多的基础信息,具有更重要的研究价值。一般来说,蛋白质是用于编码(coding)的RNA,即mRNA翻译的产物,一个固定的mRNA可以翻译成一个固定的蛋白质序列。事实上,这部分用于编码的RNA只占所有RNA序列的2%,剩下的98%是非编码RNA(non-codingRNA,ncRNA)。ncRNA虽然不直接“翻译”成蛋白质,但它们折叠成具有特定功能的三级结构,在mRNA的翻译过程或其他生物学功能中发挥调节作用。因此,分析ncRNA的结构和功能是比蛋白质分析更基础、更复杂的研究。然而,与计算方法相对成熟的蛋白质领域相比,基于RNA的结构和功能预测仍处于起步阶段,原本适用于蛋白质领域的计算方法很难直接迁移到RNA领域.这些计算方法的主要局限在于RNA数据的标记通常难以获得,需要大量的实验资源和时间才能完成少量数据的标记,而大多数计算方法需要大量的用于监督的标记数据量以实现高性能。虽然标注数据不多,但RNA领域其实已经积累了大量未标注的序列数据。本文的方法就是利用这些未标记的数据为各种下游任务提供额外的有效信息。基于这种考虑,香港华人、麻省理工学院、复旦大学和上海人工智能实验室团队提出了一个基石模型RNA基础模型(RNA-FM),以无监督的方式在2300万个未标记的纯RNA序列上进行训练。尽管数据在训练过程中不提供注释信息,但RNA-FM仍然以无监督的方式挖掘这些RNA序列中包含的进化和结构模式。如果RNA-FM能够有效地应用于下游RNA结构和功能预测任务,这些计算方法将受益于RNA-FM总结的知识,进而实现性能提升。RNA-FM的上游预训练和下游迁移及应用框架如下图所示。研究概况为了确认预训练的RNA-FM是否从大量未标记数据中学到了“知识”,以及学到了什么样的“知识”,文章对embedding进行了一系列分析。首先是直接通过UMAP对各种特征进行简单的聚类比较,发现来自预训练的RNA-FM的embedding比其他embeddings形成了更明显的RNA种类聚类。这意味着RNA-FM嵌入确实包含用于区分RNA种类的结构或功能信息。接下来,文章还使用Trajectoryinference通过RNA-FMembedding来预测来自不同物种的lncRNAs的进化。从下图中的streamplot可以看出,预测的物种进化伪时间与真实的物种进化信息大致一致,说明RNA-FMembedding也包含了一些进化信息。值得注意的是,无论是RNA物种的群落信息,还是lncRNA的进化信息,RNA-FM在训练时都无法直接获取到这些标签。RNA-FM仅以完全自我监督的方式从纯序列中发现与结构、功能和进化相关的模式。更多实验结果文章除了直接分析RNA-FM的embedding外,还尝试将RNA-FM引入到各种下游RNA结构预测任务中,包括二级结构、接触预测、距离预测、三级结构预测,并取得了重大改进。特别是在二级结构预测方面,文章以RNA-FM为骨干,仅使用简单的ResNet网络作为下游模型,在两个公开数据集上超越了其他12种最先进的方法。在F1score上,它比最好的UFold高出3-5个百分点。在与UFold的直接比较中,RNA-FM在大多数RNA类别中都超过了UFold。如果将RNA-FM和E2Efold结合使用,可以进一步提高5%的性能。为了验证模型的实际应用价值,文章使用RNA-FM对COVID-19数据进行全面分析,包括使用RNA-FM准确预测COVID-19参考基因组(29870nt)中的关键调控元件),并使用RNA-FMembedding粗略预测了COVID-19主要变种的进化趋势。一般来说,分子的结构决定了它的功能。既然RNA-FM可以出色的完成RNA结构预测的任务,那么RNA-FM是否也可以用来提高功能预测的结果呢?因此,文章进一步尝试将RNA-FM引入到下游的RNA功能预测任务中,例如使用RNA-FM嵌入来预测RNA-蛋白质相互作用。实验证明,RNA-FMembedding的引入提高了模型的性能,在某些情况下甚至可以实现匹配真实二级结构信息作为输入的预测结果。为了探索基于ncRNA训练的RNA-FM是否可以推广到其他RNA,文章最后尝试使用RNA-FM来预测基于mRNA上5'UTR的蛋白表达功能。mRNA虽然不属于ncRNA,但其上的5'UTR是一个非翻译但调控的区域,符合ncRNA的特点,在训练数据中没有出现。从下图中可以看出,包含RNA-FM嵌入的模型总是优于不包含的模型。虽然性能提升相对有限,但也部分说明了RNA-FM对非ncRNA数据也有一定的泛化能力。结论总的来说,本文使用未标记的RNA序列数据预训练了语言模型RNA-FM,并通过直接或间接的方法对结构或功能等一系列不同的任务进行了综合验证,证明RNA-FM确实可以有效地提高计算方法在下游任务中的性能。RNA-FM的出现在一定程度上缓解了RNA标记数据的紧张,为其他研究人员提供了一个方便的接口来访问大量未标记的数据。各项研究提供了有力的支持和帮助。关于作者本文有两位共同第一作者。陈嘉阳是香港中文大学的研究助理。胡志航,香港中文大学博士研究生。本文有两位通讯作者。复旦大学智能复杂系统实验室、上海人工智能实验室青年研究员孙思奇,主页https://intersun.github.io。李宇,香港中文大学助理教授,麻省理工学院詹姆斯柯林斯实验室客座助理教授,麻省理工学院和哈佛大学博德研究所研究科学家,哈佛大学威斯研究所访问学者,福布斯30Under30Asialist-Classof2022、医疗保健&科学。主页:https://liyu95.com。
