拓扑数据分析(TDA)有望打破人工智能黑盒的神奇算法黑盒提供可解释性。近日,中国科学技术大学潘建伟团队在光量子处理器上成功运行了TDA方法。TDA的量子版本可以实现经典TDA算法的指数级加速。机器学习和人工智能都是“黑匣子”技术——这是对使用机器学习、人工智能进行数据研究的批评之一。虽然它们会自动提供有用的答案,但它们无法提供人类可解释的输出。结果,我们常常无法理解他们在做什么以及他们是如何做的。Ayasdi针对此问题的解决方案利用了公司的核心技术拓扑数据分析(TDA)。该方法能够提供带有详细解释的稳健输出。然而,在这篇文章中,我们将把我们的工作扩展到当前TDA的“比较”方法之外。当前的方法使用从数据集的数据点(行)构建的拓扑网络。在这项新工作中,Ayasdi通过将特征(列)也合并到网络中展示了改进的、可解释的结果。让我们首先解释解释方法是如何工作的。假设我们有一个数据集,并在其中确定了一些子组。这些子组可能是数据的一个组成部分(例如,某种疾病有多种不同形式,例如炎症性肠病,或者数据包含幸存者/非幸存者信息),或者,这些子组是通过分割创建的或行集合的某个拓扑模型的热点分析。如果选择其中两个子组,Ayasdi技术允许研究人员根据他们的Kolmogorov-Smirnov分数(KS分数)生成一个特征列表。每个特征都有两个分布-每个子组一个。KS分数衡量两个子组之间的差异。与此构造相关联的是标准统计意义上的p值。解释是排名靠前的变量是最能区分两个子组的变量,而其余特征则按其区分能力排序。因此,解释机制的输出是一个有序的特征表。通常,可以通过查看列表来获得对导致不同子组之间差异的原因的有用解释。然而,这个列表通常很难解释。就像带有一长串响应的Google搜索一样,人们可能会发现列表顶部的分布不成比例,较低的响应未被注意到。如何进一步提高这些“对照表”的透明度和可理解性?重要的是要记住,Ayasdi构建的拓扑模型假设有一个数据矩阵,以及数据集行的相异性或距离函数。通常,距离函数是欧氏距离,但也可以选择其他距离函数,例如相关距离、各种角距离等。得到数据矩阵M后,可以将其转置为新的矩阵M^T。其中初始矩阵的列是转置矩阵的行,反之亦然,如下图所示。完成此操作后,就可以为M^T矩阵的行集合(即原始矩阵M的列)建立拓扑模型。在合奏中,可以选择不同的距离函数。我们不会对此进行深入讨论,但总而言之,任何数据矩阵行的通用选项也适用于这个新矩阵。现在,假设我们在上述数据集中有一个数据矩阵M和一个子群G。这个子群可能是从先验信息中推导出来的,也可能是由M矩阵中的行的拓扑模型分割出来的。对于矩阵M中的每一列c_i(即转置矩阵M^T的每一行),我们现在可以计算子组G中每一行的均值,即c_i的均值。我们将其表示为fi,G。当这个数字包含i时,我们得到一个关于M^T的行集合的函数。因此,同样,M矩阵中的行子集将对M^T中的行集产生函数。Ayasdi拓扑模型的特点之一是能够通过节点对应的行,通过数据矩阵的行函数,对拓扑模型的节点进行着色。这是理解数据属性的一种非常有用的方法。特别是,我们现在可以通过在M^T矩阵的行集中对子群G着色来查看子群G的特征。请看下面的例子。荷兰癌症研究所(NKI)构建了一个数据集,其中包括对取自272名乳腺癌患者的样本进行的微阵列分析。在这种情况下,微阵列分析提供了为研究筛选的一组基因中每个基因的mRNA表达水平。从这些基因中,我们选择了1500个表达最多的基因。我们得到一个272x1500的矩阵,其中1500列对应数据集中方差最大的1500个基因,272行对应样本群体。对于此数据集,已在[1]和[2]中对数据矩阵中的行集进行了拓扑分析。我们的拓扑模型如下所示。上图显示拓扑模型由一个长的“树干”部分组成,然后分成两个“树枝”。在数据集中,有一个名为eventdeath的二进制变量。如果患者在研究期间幸存下来,则eventdeath=0;eventdeath=1如果患者死亡。有趣的是,患者存活率对应于图表的结构。一种方法是通过变量eventdeath的平均值进行着色。结果如下所示。我们可以看到上面的“树枝”是深蓝色的。这表明eventdeath变量的值很低,实际上它的值为零-这意味着每个患者都存活了下来。然而,较低的“树枝”存活率要低得多,尖端节点几乎完全由无法存活的患者组成。我们想了解这种现象,看看数据中的哪些特征与“树枝”的产生有关,从而了解变量eventdeath的截然不同的行为。为此,我们可以从拓扑模型的各种不同子组中进行选择。上图中,A组为高存活组,B组为低存活组,C组可以表征为与其他两组差异最大的组(由组间距离决定)。如上所述,基于这三组,我们可以在1500个特征上创建3个函数。如果我们对一组特征的拓扑结构进行建模,我们可以通过每个函数的平均值对其进行着色。下面的三张图片显示了结果。当比较A组和B组的颜色时,我们发现差异非常显着。当A组着色时,一个区域是鲜红色的,当B组着色时,相应的区域是亮蓝色的。结果如下图所示。左边的模型是A组阴影,右边的模型是B组阴影。第一组和第二组的颜色明显不同。I组在A组中主要是红色,在B组中主要是蓝色(小的固相区域除外)。II组正好相反,A组蓝色,B组红色。这些组可能与高雌激素受体表达有关,I组正相关,II组负相关。众所周知,雌激素受体表达是乳腺癌存活的“强信号”。如果我们比较所有三个组(下图):我们还可以看到C组似乎是B组的“较弱”形式,右上角的蓝色区域较小,下方区域的红色较弱.在左侧的“岛屿”上,C组也显示出比A组和B组更强烈的红色。了解A、B三组右上角的强红色块中涉及哪些基因将非常有趣,和C.此外,调查哪些基因参与了左侧"岛"的表达会很有趣。了解这些基因组需要使用各种基于网络的工具进行生物通路分析。总之,我们已经展示了如何在数据集中的特征空间上使用拓扑建模,而不是利用行集直接从数据集中寻找见解。使用标准图形技术无法直观地理解具有4个以上特征的数据集,但具有数百或数千个特征的数据集很容易通过这种方式理解。该方法直接识别出在基因组和更普遍的生物学数据分析中经常出现的行为一致特征组。参考文献[1]M.Nicolau、A.Levine和G.Carlsson,基于拓扑的数据分析确定了具有独特突变特征和出色生存率的乳腺癌亚组,Proc。国家队。学院。科学,卷。108,没有。17,7265-7270,(2011).[2]P.Lum、G.Singh、A.Lehman、T.Ishkhanov、M.Vejdemo-Johansson、M.Alagappan和G.Carlsson,从软件系统接口数据位置标签中提取见解,科学报告3,文章编号1236,(2013)。
