本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。AI又搞定了。这一次,芬兰赫尔辛基大学的最新研究利用机器学习破解了人类基因调控背后的“语法”。在此之前,科学家们只知道DNA可以决定基因何时何地表达,现在终于深刻理解了背后的逻辑。该成果将为癌症和遗传病的研究带来新的启发,目前已发表在Nature子刊(NatureGenetics)上。在破译基因调控背后的“语法”之前,先了解一些背景知识。基因调控是控制细胞中基因活性的重要过程。监管不当会导致疾病,例如癌症。人类基因组的DNA包含编码蛋白质的基因,这些蛋白质赋予肌肉细胞力量、脑细胞处理信息的能力等等。DNA还包含调节基因的元素,决定基因何时何地表达,例如确保肌肉基因只在肌肉中表达,大脑基因在大脑中表达。人们对决定基因调控的编码逻辑知之甚少是有原因的:尽管人类基因组包含近30亿个碱基对,但基因组序列太短,无法用来了解其背后的逻辑。现在,芬兰科学院癌症遗传学高级研究中心的科学家们采用了一种创新方法——不使用自然基因组序列,而是将随机合成的DNA序列引入人体细胞。在这些细胞读取新DNA后,它们会突出显示作为活性调控元件的序列。这些序列是研究的对象。这组作者说,它们的组合空间是整个人类基因组的100倍。有了足够大的数据集,就可以使用机器学习进行数据分析。有哪些发现?我们知道,基因表达受与DNA结合的转录因子(蛋白质的总称)调控。该机器学习模型表明,单个转录因子以“加法”方式参与基因调控,语法较弱。在两个主要的调节元件——增强子(增强转录)和启动子(定义转录的起始)中,增强子通过一种不在转录因子之间产生相互作用的机制增加启动子的表达。然后,研究人员比较了三种不同的人类细胞:结肠癌细胞、肝癌细胞和来自视网膜的正常细胞。他们发现只有少数转录因子在细胞中保持高度活跃,但无论细胞类型如何,它们的活性在任何地方都是相似的。这一结果表明,人类细胞中的基因调控元件可根据其染色质环境分为两类:位于DNA密集堆积的封闭染色质区域,或位于DNA未被组蛋白中间紧紧包围的更开放的染色质环境中。染色质和染色体是同一物质的两种形式。染色质处于延伸状态。有利于DNA信息的表达。传统观点认为,活性调节元件仅位于开放的染色质区域,转录因子很容易进入DNA。因此,在封闭染色质区域内发现功能性活性调节元件是该研究的核心新观察结果之一。此外,研究人员还确定了染色质依赖性调控元件。这些元素在基因组中的正常位点是活跃的,但如果将它们从原来的位置移开并移动到另一个基因附近,它们的活性就会大大降低。论文地址:https://www.nature.com/articles/s41588-021-01009-4
