当前位置: 首页 > 科技观察

谭继民,夏波等,提出了基因组构象预测模型和高通量计算遗传筛选方法

时间:2023-03-21 02:02:56 科技观察

图0不同类型细胞基因组构象的差异决定了基因表达的特异性,进而决定了不同细胞类型的功能差异。长期以来,从原位杂交到Hi-C、micro-C技术等高通量检测,基因组构象检测的实验方法通常费时费力、成本高,技术局限性强。这些方法极大地限制了这些实验技术在基因组构象研究领域的广泛应用,尤其是在稀有细胞类型的研究和需要大规模验证基因组构象调控因果关系方面。这些方法的局限性也长期限制了3D基因组构象调控领域的新发现。图12023年1月9日,美国纽约大学医学院(NYUGrossmanSchoolofMedicine)亚里士多德Tsirigos实验室与麻省理工学院和哈佛大学布罗德研究所夏博实验室合作,在Nature上发表文章《Cell type-specific prediction of 3D chromatin organization enables high-throughput in silico genetic screening》生物技术。论文地址:https://www.nature.com/articles/s41587-022-01612-8在本研究中,第一作者谭济民和纽约大学医学院博士生夏波博士首先提出一种新型的多模态机器学习模型C.Origami来预测特定细胞类型的染色质构象,并基于遗传筛选的原理,提出了一种新的高通量计算遗传筛选(insilicogeneticscreening,ISGS)方法来预测特定细胞类型的染色质构象。识别特定细胞类型的功能基因组成分,以帮助发现新的染色质构象调控机制。图2研究人员首先构建了一个新的应用于基因组数据的多模态深度学习框架Origami,使其能够有效整合DNA序列信息和细胞特异性功能基因组信息,进而预测新的基因组信息。通过反复调试和模型训练,研究人员发现整合DNA序列、CTCF结合态(CTCFChIP-seq)和ATAC-seq信号作为输入信息可以准确预测染色质构象,并利用二维Hi-C矩阵作为预测输出目标(图1-2)。输入信息为2megabpDNA、CTCFChIP-seq和ATAC-seq。研究人员使用Onehot-encoding编码离散的DNA序列,而CTCFChIP-seq和ATAC-seq编码非离散特征。C.Origami模型分为三部分,处理压缩DNA和基因组信息的编码器,Transformer中间层,输出Hi-C解码器。编码器由一系列1DResNet和跨步卷积组成,用于编码和压缩200万个碱基对的输入信息。在encoder端将200万长度的信息压缩成256长度作为Transformer的输入信息。Transformer的self-attention机制可以处理不同基因组区域之间的相互依赖关系,提高模型的整体性能。Transformer中的注意力矩阵也可以增强模型的可解释性。研究人员将注意力权重转化为“注意力分数”,用于衡量模型在预测时对不同领域的重视程度。最后,研究人员将Transformer模块的1D输出通过“外连接”转换为2D接触/邻接矩阵,作为Hi-C解码器的输入信息。解码器是Dilated2DResNet。研究人员调整了不同层的扩张因子,使最后一层每个像素位置的感受野都能覆盖所有的输入信息。这种预测染色质构象的模型称为C.Origami。研究人员称C.Origami是基因组学中第一个多模态深度学习模型。由于其多模态性质,C.Origami可以准确预测(从头预测)从未暴露过的细胞类型的染色质构象。例如,在IMR-90细胞(肺成纤维细胞)上训练的模型准确地预测了GM12878细胞(B淋巴细胞)中的特定染色质构象(图3)。图3.结构变异——例如染色体易位——在肿瘤中非常常见,并且经常改变染色质相互作用模式,这反过来可能影响癌基因或抑癌基因的表达。研究这些结构变异对染色质构象和基因表达的影响对于理解肿瘤发生和发展的机制具有重要作用。此类研究通常需要借助4C-seq或Hi-C等实验来分析结构变异位点的染色质构象,但往往受资源和时间的限制,难以大规模开展。在这项研究中,C.Origami可以模拟输入变量之间的DNA序列变异,然后预测突变的癌症基因组中新的染色质相互作用。先前的研究确定了T细胞急性淋巴细胞白血病(T-ALL)细胞模型CUTLL1中的chr7-chr9染色体易位(图4)。通过计算模拟染色体易位变异,C.Origami准确预测了突变位点的新TAD结构,并检测到从chr9延伸到chr7的“染色质条纹”结构(图4)。图4鉴于C.Origami的准确预测效果,受反向遗传筛选原理的启发,研究人员提出了一种新的高通量计算遗传筛选(insilicogeneticscreening,ISGS)方法来系统识别细胞类型——特定的性功能基因组元件,并有助于发现新的染色体调控分子(图5)。基于C.Origami模型,研究人员开发了一个计算遗传筛选ISGS框架,用于系统识别染色质构象所需的顺式调控元件。全基因组1kb分辨率的ISGS使作者能够分离对染色质构象有重要影响的顺式调控元件(约占基因组的1%)。这些染色质构象调控序列对CTCF结合和ATAC-seq信号表现出不同程度的依赖性(图5)。图5.ISGS框架可实现细胞或疾病特异性染色质构象的高通量筛选。研究人员在CUTLL1、Jurkat和正常T细胞中进行了ISGS,发现CHD4基因附近的顺式调节元件(CHD4-insu)在T-ALL细胞中特异性丢失。筛选结果表明,T-ALL细胞中CHD4-insu的绝缘缺失可能使CHD4基因建立新的染色质相互作用,进而上调CHD4表达并促进白血病细胞增殖。ISGS还可用于系统地发现调节染色质构象的新型反式作用因子。通过对重要的细胞类型特异性调控序列和转录因子结合位点的富集分析,我们确定了有助于细胞类型特异性基因组构象的调控因子。有趣的是,之前的研究发现MAZ可能与CTCF一起调节染色质构象。使用ISGS和转录因子富集分析,作者发现MAZ在开放染色质区域中大量富集,而在CTCF结合的非开放染色质区域中仅表现出弱结合。该结果表明MAZ可以独立于CTCF调节基因组构象。研究人员看到了在染色质结构预测中结合DNA序列和染色质信息的多模式机器学习模型的巨大潜力。该模型的底层多模式架构Origami可以扩展到其他基因组学数据应用,例如表观遗传修饰、基因表达和突变功能筛选。研究人员预测,未来的基因组学研究将更多地转向使用深度学习模型作为主要计算遗传筛选的工具,辅之以通过生物实验验证的新一代高通量研究方法。本研究纽约大学医学院博士生谭济民为第一作者,Dr.AristotelisTsirigos和Dr.XiaBo为共同通讯作者。本研究始于2020年10月疫情封锁期间夏波和谭继敏的头脑风暴,经过两年半的完善和打磨,于2023年1月正式发表在NatureBiotechnology上。该项目的代码和训练数据已经在GitHub和Zenodo上开源,并提供GoogleColab进行功能演示。项目地址:https://github.com/tanjimin/C.Origami通讯作者夏波博士实验室(麻省理工学院和哈佛博德研究所)主页:www.boxialab.org夏波博士致力于分析调控核心基因组机制的三维构象及其对人类疾病、发展和进化的生物学意义。夏波实验室欢迎志同道合的博士后加入团队。TsirigosLab(纽约大学格罗斯曼医学院)主页:http://www.tsirigos.comTsirigosLab的主要研究方向包括染色质、表观遗传学和机器学习在精准医学中的应用。