当前位置: 首页 > 科技观察

Nature:哈佛&牛津最新AI模型预测36000,000致命基因突变

时间:2023-03-15 19:37:06 科技观察

本文经AI新媒体量子位授权转载(公众号ID:QbitAI),转载请联系出处.直接从基因层面预测疾病一直是现代医学研究的主要方向之一。然而,全人类的基因变异数量远远超过现有的检测技术,甚至不同个体的蛋白质区域编码也会表现出巨大的差异。因此,98%以上的基因变异对人体的影响仍然未知,不可预测。但最近,哈佛医学院和牛津大学的科学家们联合开发了一个人工智能模型,成功预测了3219个疾病基因中超过360万个变异体的致病性,并识别出超过25万个未知变异体。身体被分类。该研究现已发表在《自然》杂志上。《从进化预测致病性》事实上,现在已经有了预测基因变异影响的临床模型。然而,这些模型通常是在标记的临床数据集上进行监督学习。一旦进入真实场景,标签偏差、标签稀疏和噪声都会导致其准确率下降,无法作为基因变异分类的可靠依据。这次研究团队提出了一个模型,叫做EVE(EvolutionarymodelofVariantEffect)。这是一个仅在进化序列上训练的无监督生成模型。该模型预测突变基因的致病性主要分两步:第一步,使用变异自编码器VAE学习蛋白质的氨基酸序列分布。在学习了跨多个域的复杂高维分布后,该模型捕获了进化过程中的自然序列约束,包括各个位置之间的复杂依赖关系。然后对得到的近似后验分布进行采样,以评估每个单一氨基酸变体相对于野生型的相对可能性。这种被称为“进化指数”的相对可能性与临床特征进行了比较,发现区分致病性和良性特征的值在蛋白质中是一致的,表明无监督方法可以有效地推断致病性。性别。在第二步中,双分量全局-局部高斯混合模型适用于所有单个氨基酸变体的进化指数分布。该步骤的输出是定义在区间[0,1]中的连续致病性值,其中0表示良性,1表示致病性。然后将EVE模型应用于ClinVar数据库中的3219个人类基因,结果图中的平均曲线面积(AUC)为0.91,说明EVE模型可以预测大部分具有临床意义的基因变异:优于已知模型,与实验预测一致研究团队还将EVE模型与已知模型进行了对比,可以看出其在对预先确定的已知标记临床数据的预测上效果优于同类模型ComputationalModels:Howwouldsuch人工智能计算模型与预测致病性的经典方法深度突变扫描实验的比较?经过比较实验后,可以看出,临床预测的夏娃模型的总体性能基本上与经典方法相同:当一组具有较大规模但具有较小高质量注释的数据时来自ClinVar数据库,EVE模型的Evenbetterperformance:Harvard&OxfordCollaboration这篇论文有三位共同作者,包括JonathanFrazer和MafaldaDias,他们都来自哈佛大学的系统生物学,他们也是MarksGroup实验室的成员。PascalNotin是牛津大学计算机科学博士生。他的主要研究领域包括贝叶斯深度学习、生成模型、因果推理和计算生物学的交叉领域。论文链接:https://www.nature.com/articles/s41586-021-04043-8