1对于解释人们的利害关系或生死攸关的决定(例如在高速公路上突然停车)至关重要,而不仅仅是产生预测分数。可解释人工智能(XAI)的研究最近集中在反事实示例的概念上。思路很简单:先用预期的输出做一些反事实的例子,然后把它们输入到原来的网络中;然后,阅读隐藏层单元来解释为什么网络会产生一些其他输出。更正式地说:“返回分数p是因为变量V具有与其关联的值(v1,v2,...)。如果V具有值(v'1,v'2,...),并且所有其他变量保持不变,返回分数p'。”这是一个更具体的例子:“你被拒绝贷款是因为你的年收入是30,000英镑。如果你的收入是45,000英镑,你将获得贷款。但是,Browne和Swift[1]的一篇论文(以下简称toasB&W)最近表明,通过对输入执行小的和不可观察的扰动,反事实示例只是稍微更有意义的对抗示例,导致网络以高置信度对它们进行错误分类。此外,反事实示例“解释”了一些特征应该在为了得到正确的预测,但“没有打开黑匣子”;即没有解释算法是如何工作的。文章继续认为,反事实示例没有提供可解释性的解决方案,“有没有语义就没有解释”。事实上,该论文提出了一个更强烈的建议:1)我们要么找到一种方法来提取应该存在于网络隐藏层中的语义,要么2)承认我们失败了。虽然WalidS.Saba本人对(1)持悲观态度,换句话说,他遗憾地承认我们的失败,这是他的理由。2Fodor和Pylyshyn的“幽灵”虽然普通大众完全同意B&W的“没有语义就没有解释”,但希望通过解释深度神经网络中隐藏层表示的语义来为深度学习系统产生令人满意的解释不这是可能的,作者认为,正是出于三十多年前Fodor和Pylyshyn[2]中概述的原因。图注:JerryA.Fodor(左)和ZenonPylyshynWalidS.Saba继续论证:在解释问题出在哪里之前,我们需要注意,纯粹的外延模型(如神经网络)不能用于系统性(systematicity)和组合性无法建模,因为它们不承认具有可重新推导的语法和相应语义的符号结构。因此,神经网络中的表示并不是真正对应于任何可解释的“符号”——而是分布的、相关的和连续的值,它们本身并不暗示任何概念上可解释的东西。简单来说,神经网络中的子符号表示本身并不指代人类在概念上可以理解的任何东西(隐藏单元本身不能表示具有任何形而上学意义的对象)。相反,它是一组隐藏单元,通??常一起代表一些显着特征(例如,猫的胡须)。但这正是神经网络无法实现可解释性的原因,即因为几个隐藏特征的组合是不可判定的——一旦组合完成(通过一些线性组合函数),单个单元就会丢失(我们将展示)。3可解释性是“逆向推理”,DNN不能逆向推理作者讨论了为什么Fodor和Pylyshyn得出结论,NN不能模拟系统的(因此可解释的)推理[2]。在符号系统中,有明确定义的组合语义函数,可以根据其成分的含义计算复合词的含义。但这种组合是可逆的——也就是说,一个人总是可以访问产生该输出的(输入)组件,并且正是因为在符号系统中,一个人可以访问一个包含如何组装组件映射的“句法结构”。而这在NN中并非如此。一旦向量(张量)在NN中组合,它们的分解是不确定的(向量(包括标量)可以分解的方式是无限的!)为了说明为什么这是问题的核心,让我们考虑B&W的提议,在为可解释性提取语义的DNN建议。B&W的建议是遵循输入图像标记为“架构”的原则,因为通常激活hubcap的隐藏神经元41435的激活值为0.32。如果隐藏神经元41435的激活值为0.87,则输入图像将被标记为“汽车”。要了解为什么这不会导致可解释性,只需注意要求神经元41435激活0.87是不够的。为简单起见,假设神经元41435只有两个输入x1和x2。我们现在所拥有的如下图1所示:图例:具有两个输入的单个神经元的输出为0.87现在假设我们的激活函数f是流行的ReLU函数,它产生的输出为z=0.87。这意味着对于下表所示的x1、x2、w1和w2的值,得到了0.87的输出。表注:各种输入法都能产生0.87的值查看上表,不难看出x1,x2,w1,w2有无数种线性组合,都会产生0.87的输出。这里的要点是NN中的组合性是不可逆的,因此无法从任何神经元或任何神经元集合中捕获有意义的语义。为了与B&W的口头禅“没有语义就没有解释”保持一致,我们声明永远无法从NN获得任何解释。简而言之,没有组合性就没有语义,没有语义就没有解释,DNN无法对组合性进行建模。这可以形式化如下:1.没有语义就没有解释[1]2.没有可逆组合性就没有语义[2]3.DNNs中的组合性是不可逆的[2]=>DNNscannotbeinterpreted(withoutXAI)Finish.顺便说一下,DNN中的组合性是不可逆的这一事实所产生的后果超出了无法产生可解释的预测的范围,特别是在需要更高层次推理的领域,例如自然语言理解(NLU)。特别是,这样的系统确实无法解释一个孩子如何仅从像(
