当前位置: 首页 > 科技观察

AI为人类开药:准确预测9000名癌症患者适合用药!成果发表在Nature子刊,来自中国团队

时间:2023-03-12 04:43:14 科技观察

只需要一个AI,就可以无所不能地预测9808名癌症患者对药物的临床反应。并且结果与临床观察一致。这是纽约城市大学谢磊团队带来的最新成果CODE-AE(context-awaredeconfoundingautoencoder)。它提出了一种新的上下文自动编码器模型,可以预测患者对药物的特定反应。这将对新药研发和临床试验产生重大影响。要知道,在传统模式下,一个新药从研发、试验到全面上市,需要近10年的时间,消耗的资金空前庞大,动辄10亿美元。周期之所以能这么长,是因为新药在人体内的反应是不可预测的,往往需要反复试验。而如果AI能够利用数据进行预测,将大大缩短新药上市时间,降低成本。目前,该研究已发表在《自然》的子刊《Nature Machine Intelligence》上。不再高度依赖临床数据简单来说,CODE-AE利用新药体外细胞验证的数据来预测药物在人体内的反应。这避免了AI模型训练对患者临床数据的依赖。过去,人工智能未能有效预测临床反应的最大原因在于,海量、连续的临床反应数据太难收集。从机制的角度来看,研究人员将药物生物标志物分为源域和目标域。源域代表与测试样本不同的域,但是有丰富的监督信息,这里可以理解为体外细胞验证的数据。目标域是测试样本所在的域,没有标签或只有几个标签,即患者数据。将不同领域的数据特征映射到同一个特征空间,使这个空间的距离尽可能近。因此,可以将在特征空间中在源域上训练的目标函数迁移到目标域,以提高在目标域上的准确率。在本研究的背景下,源域和目标域都是药物生物标志物的数据特征,即药物靶点的数据特征。具体看模型框架,主要分为三个部分:预训练、微调、推理。预训练主要使用自监督学习构建特征编码模块,将体外细胞数据和患者数据的未标记基因表达谱映射到嵌入空间中。这样可以排除一些混杂因素,使两个数据的潜在分布保持一致,从而消除系统偏差。在微调阶段,在预训练的基础上增加监督模型,使用标记的体外细胞数据进行训练。最后,在推理阶段,首先对预训练得到的患者嵌入进行消歧,然后使用调整后的模型预测患者对药物的反应。在这种模式下,CODE-AE有两个特点。首先,它可以提取非相干样本中的共同生物信号和隐私表征,从而消除不同数据模式造成的干扰。其次,在将药物反应信号与混杂因素分开后,也可以实现局部对齐。综上所述,CODE-AE可以理解为在标记数据和未标记数据的非相干数据模式嵌入空间中选择独特特征的过程。为了证明模型的有效性,研究人员预测了9808名癌症患者的药物应用情况。如果模型对患者病情预测的现场结果与他使用的药物靶点相关,则证明预测是正确的。研究人员随后将患者分成100个簇,将59种药物分成30个簇。这种分析方法允许将具有相似药物反应特征的患者归为一组。在这里,我们以肺鳞状细胞癌患者(LSCC)和非小细胞肺癌患者(NSCLC)的聚类为例。在59种药物中,对LSCC最敏感的药物是吉非替尼、AICAR和吉西他滨。其中,吉非替尼和AICAR的靶点是表皮生长因子受体(EGFR),吉西他滨常用于治疗无EGFR突变的非小细胞肺癌。根据该论文,与这些药物的作用方式一致,CODE-AE发现使用吉非替尼和AICAR的患者具有相似的药物反应特征。也就是说,CODE-AE为患者治疗找到了正确的靶点,即可以预测适用的药物。通讯作者为中国科学技术大学校友。以上研究团队来自纽约城市大学。通讯作者谢雷,毕业于中国科学技术大学高分子物理专业。毕业于罗格斯大学,计算机科学硕士;博士来自罗格斯大学,但拥有化学学位。据了解,研究团队下一步将开发CODE-AE对新药临床反应浓度和代谢的预测功能。研究人员表示,AI模型还可能适用于预测药物对人类的副作用。值得一提的是,Nature子刊《Nature Machine Intelligence》专注于人工智能与生命科学的交叉应用研究,每年平均收录论文数在60篇左右。论文地址:https://www.nature.com/articles/s42256-022-00541-0参考链接:https://phys.org/news/2022-10-ai-accurately-human-response-drug.html