当前位置: 首页 > 科技观察

MIT在Nature封面设计深度学习框架,预测非编码区DNA突变

时间:2023-03-16 21:52:12 科技观察

虽然每个人体细胞都含有大量基因,但所谓“编码”的DNA序列只占1%整个人类基因组。剩下的99%由“非编码”DNA组成,它不携带构建蛋白质的指令。这种非编码DNA(也称为调节DNA)的一个重要功能是帮助打开和关闭基因,从而控制蛋白质的生成量。随着时间的推移,随着细胞复制其DNA以生长和分裂,突变通常发生在这些非编码区域——有时会调整它们的功能并改变它们控制基因表达的方式。大多数这些突变都是微不足道的,但它们有时会增加某些疾病的风险,包括癌症。为了更好地了解此类突变的影响,研究人员一直在研究数学图谱,使他们能够查看生物体的基因组,预测哪些基因将被表达,并确定该表达将如何影响生物体的可观察特征。在生物学中,这些地图被称为“适应性景观”,大约一个世纪前被概念化,以了解基因构成如何影响普通生物体的适应性,尤其是繁殖成功率。早期的适应性景观非常简单,通常只关注有限数量的突变。现在可以使用更丰富的数据集,但研究人员仍然需要额外的工具来表征和可视化这些复杂的数据。这种能力不仅有助于更好地了解单个基因如何随时间进化,还有助于预测未来可能发生的序列和表达变化。最近,麻省理工学院布罗德研究所和哈佛大学等机构的研究人员开发了一个新框架来研究调控DNA的适应性景观。该研究使用经过数亿次实验测量训练的神经网络模型来预测酵母DNA中非编码序列的变化及其对基因表达的影响,该研究登上了《自然》杂志最新一期的封面。论文地址:https://www.nature.com/articles/s41586-022-04506-6该研究还设计了一种独特的方式来表示二维的适应度景观,使其对酵母以外的生物体能够理解现有实验的结果和预测非编码序列的未来进化甚至可能导致设计用于基因治疗和工业应用的定制基因表达模式。“科学家们现在可以使用这个模型来解决一些进化问题,或者做一些事情,比如制作以所需方式控制基因表达的序列,”麻省理工学院生物学教授、该研究的主要作者之一AvivRegev说。AvivRegev在这项研究之前,许多研究人员只是根据自然界中存在的已知突变来训练他们的模型。然而,Regev的团队想要更进一步。他们建立了他们的无偏模型,该模型能够根据任何可能的DNA序列预测生物体的适应性和基因表达,即使是以前从未见过的序列。研究人员将能够使用这些模型来设计细胞、开发新药,并找到治疗癌症和自身免疫性疾病等疾病的新方法。为实现这一目标,麻省理工学院研究生EeshitDhavalVaishnav、哥伦比亚大学助理教授CarldeBoer(论文合著者)等人创建了一个预测基因表达的神经网络模型。他们在通过将数百万个完全随机的非编码DNA序列插入酵母中而生成的数据集上训练模型,并观察每个随机序列如何影响基因表达。他们专注于非编码DNA序列的一个特定子集——启动子,它们是蛋白质的结合位点,可以打开或关闭附近的基因。“这项工作展示了当我们设计新实验以生成正确数据来训练模型时可能发生的事情,”Regev说。“更广泛地说,我相信这些方法对许多问题都有用。”重要的是,例如了解赋予疾病风险的人类基因组调控区域的遗传变异,并预测突变组合的影响,或设计新分子。”Regev、Vaishnav、deBoer和他们的合作者继续测试他们模型的预测能力。“创建一个准确的模型当然是一项成就,但对我来说这只是一个起点,”Vaishnav解释道。首先,为了确定他们的模型是否可用于合成生物学应用,例如生产抗生素、酶和食物,研究人员用它来设计启动子,为任何感兴趣的基因产生所需的表达水平。然后他们查看了其他科学论文以确定基本的进化问题,看看他们的模型是否可以帮助回答这些问题。该团队甚至从现有研究中获取了真实世界的人口数据集,其中包含来自世界各地的酵母菌株的遗传信息。使用这些方法,他们能够绘制出塑造当今酵母基因组的过去千年的选择压力。但是为了创建一个可以探测所有基因组的强大工具,研究人员需要找到一种方法来预测在没有如此全面的种群数据集的情况下非编码序列的进化。为实现这一目标,Vaishnav和他的同事设计了一种计算方法,使他们能够将框架的预测绘制到二维图上。这有助于他们以一种非常简单的方式证明任何非编码DNA序列如何影响基因表达和适应性,而无需在实验室进行任何耗时的实验。Vaishnav解释说:“以前,健身领域有一个未解决的问题,即无法以有意义地捕捉序列进化特性的方式将它们可视化。我真的很想找到一种方法来填补这个空白,并为打造完善健身环境的长远愿景。”爱丁堡大学医学研究委员会人类遗传学部遗传学教授马丁泰勒表示,这项研究表明,人工智能不仅可以预测调节DNA变化的影响,还可以揭示数百万年来支配进化的潜在原理。尽管该模型仅在少数生长条件下对一小部分酵母调节DNA进行了训练,但他印象深刻的是该模型可以对哺乳动物基因调控的进化做出如此有用的预测。甚至在该研究发表之前,Vaishnav就收到了研究人员的询问,他们希望为基因治疗中的非编码基因设计模型。DNA序列。这项工作最近有了一些具体的应用,包括为酿酒、烘焙和生物技术中的酵母定制设计调节DNA。MartinTaylor还评论说:“这项工作有可能在未来帮助识别人类调节DNA中的疾病突变,这些突变目前在临床上很难发现,而且在很大程度上被忽视了。这项工作表明,在更丰富的基因中,在更复杂和多样化的数据集上训练的监管人工智能模型有着光明的未来。”