AI又做出了贡献。这一次,一种新的AI机器学习算法“Ikarus”可以破译癌细胞与正常细胞之间的遗传特征差异。该研究由MDC生物信息学家AltunaAkalin团队完成,发表在Nature子刊《GenomeBiology》上。论文地址:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-022-02683-1#Sec8另外,负责这项研究的机构MDC(MaxDelbrückcenter)是四大研究机构之一德国的研究机构。亥姆霍兹协会的16个研究中心之一。既然有这么大的背景,为什么这个研究这么重要呢?要从浩如烟海的数据集中筛选出一个“共同特征”,人类肯定不如AI。要区分癌细胞和正常细胞,需要筛选出它们之间的共同特征。MDC研究团队开发的Ikarus在肿瘤细胞中发现了一种共同模式(Pattern),它由一系列基因组特征组成,普遍存在于各种类型的癌症中。此外,该算法还检测了从未与癌症相关的基因类型。因此,研究团队提出了一个简单的问题:是否有可能制作一个分类器,在多种癌症类型中正确区分肿瘤细胞和正常细胞?伊卡洛斯就这样诞生了。它包括两个步骤:1.通过整合多个专业注释的单细胞数据集,以基因集的形式发现全面的肿瘤细胞特征;2.训练一个强大的逻辑回归分类器来严格区分肿瘤和正常细胞,然后使用定制的细胞-细胞网络进行基于网络的细胞标签传播。团队负责人AltunaAkalin说:“为了开发一种稳健、灵敏和可重复的计算机肿瘤细胞分选仪,我们在使用不同测序技术获得的各种癌症类型的多个单细胞数据集上测试了Ikarus,以确定其对不同实验环境的适用性。惊人的成功率当专家们已经清楚地区分健康细胞和癌细胞时,获得合适的训练数据是一个重大挑战,该论文的第一作者JanDohmen说。单细胞测序数据集通常很复杂。这意味着它们包含的信息关于单个细胞的分子特征不是很精确,因为在每个细胞中检测到不同数量的基因,或者因为样本并不总是以相同的方式处理。“我们筛选了无数的出版物并联系了相当多的研究小组以获得足够的信息数据集,”Dohmen和该研究的共同负责人VedranFranke博士说。该团队最终选择了来自肺癌和结直肠癌细胞的数据来训练算法,然后再将其应用于其他类型肿瘤的数据集。在训练阶段,Ikarus必须找到一个“特征基因列表”,然后用它来对细胞进行分类。我们尝试并改进了各种方法,Ikarus最终使用了两个列表:一个用于癌症基因,一个用于其他细胞的基因,Frank解释说。经过训练后,该算法能够将健康细胞与其他类型癌症中的肿瘤细胞区分开来,例如来自肝癌或神经母细胞瘤患者的组织样本。然而,在其他样本中,结果令人鼓舞,成功率高达99%。“我们没想到会有一个共同的特征可以如此精确地定义不同类型癌症中的肿瘤细胞,”Akalin说。“但我们仍然不能说这种方法是否适用于所有类型的癌症,”Dohmen补充道。不仅仅是癌细胞分化为了将Ikarus变成一种可靠的癌症诊断工具,研究人员现在希望在其他类型的肿瘤上对其进行测试。在最初的测试中,Ikarus已经表明该方法还可以将其他类型(和某些亚型)的细胞与肿瘤细胞区分开来,并且不仅限于肿瘤细胞检测。它可以用于检测任何细胞状态,例如细胞类型,唯一的要求是细胞状态至少出现在两个独立的实验中。“我们想让这种方法更全面,进一步开发它,以便它可以区分活检中所有可能的细胞类型,”Akalin说。在空间测序数据集上应用自动肿瘤分类通过直接注释组织学样本来促进自动化数字病理学。在医院里,病理学家通常只在显微镜下检查肿瘤组织样本,以识别各种细胞类型。这是一项费时费力的工作。有了Ikarus,这一步骤有一天会变成一个完全自动化的过程。此外,Akalin指出,这些数据可用于得出有关肿瘤周围环境的结论。这可以帮助医生选择最佳疗法。癌组织和微环境的构成通常表明治疗或药物是否有效。此外,人工智能也可能有助于新药的开发。“Ikarus使我们能够识别可能导致癌症的基因,然后我们可以用新的治疗药物靶向这些分子结构,”Akalin说。
