当前位置: 首页 > 科技观察

难以捉摸?机器学习模型的可解释性初探

时间:2023-03-19 14:32:08 科技观察

介绍:在机器学习中,可解释性的概念既重要又难以捉摸。我们可以相信这个模型吗?它会在部署期间工作吗?这个模型还能告诉我们关于这个世界的什么?模型不仅要好,还应该是可解释的,然而可解释性似乎没有具体的描述和定义。本文整理自ZacharyC.Lipton的一篇文章https://queue.acm.org/detail.cfm?id=3241340,希望对模型的可解释性有所了解。受监督的机器学习模型通常具有非凡的预测能力,并且许多学术文献提供了多种多样的、有时甚至是略微矛盾的可解释性描述,以及用于呈现可解释模型的众多技术。可解释性没有明确定义,但人们声称他们的模型在没有进一步证据的情况下是可解释的。问题是不清楚这些模型可解释性技术的共同点是什么。本文试图定义可解释性。通过了解之前文章中对可解释性的描述,发现这些描述是五花八门的,有时甚至是部分矛盾的。然后,探索模型的性质和技术思想以阐明可解释性,进而阐明对人类透明度和事后解释的竞争概念。在整个过程中,讨论了不同的可解释性概念的可行性和可取性。由此可见,“线性模型可解释,深度神经网络模型不可解释”的断言是有问题的。关于解释实际上,如果我们申请贷款,银行工作人员可能会有所作为。如果我们去医院,医生会尝试对我们的病人进行分类并提出治疗建议。对于这种相应的决定,我们可能会要求银行工作人员或医生进行解释。在社会环境中,做出决定的原因通常很重要。例如,在司法系统中,故意杀人罪与过失杀人罪不同。然而,今天的预测模型在很大程度上无法进行推理。在过去的20年里,机器学习的快速发展导致了自动化决策过程的部署。在实践中,大多数基于最大似然的决策过程都是这样的:训练最大似然算法以获取一些输入并预测相应的输出。例如,给定一组描述金融交易的属性,机器学习算法可以预测长期投资回报。给定来自CT扫描的图像,算法可以给出图像中可能存在癌性肿瘤的概率。机器学习算法接受大量的输入输出对,并输出一个模型,该模型预测以前看不见的输入的相应输出。形式上,这种问题称为监督学习。然后,为了完全自动化决策,我们将模型的输出输入到一些决策规则中。例如,垃圾邮件过滤器以编程方式丢弃被预测为垃圾邮件且置信度高于特定阈值的电子邮件。因此,基于机器学习的系统不知道为什么给定的输入应该接收特定的标签,只知道特定的输入与该标签相关联。例如,对于篮球是唯一橙色对象的给定数据集,图像分类器可能会学习将所有橙色对象分类为篮球。该模型即使在图像不佳的情况下也能实现高精度,尽管它没有捕捉到真正重要的差异。随着机器学习渗透到医学、刑事司法系统和金融市场等关键领域,无法理解这些模型似乎是一个问题。有些人建议将模型可解释性作为一种补救措施,但在文献中,很少有作者明确阐明可解释性意味着什么,或者所提出的模型究竟有多大用处。尽管缺乏定义,但越来越多的文献提出了据称可以解释的算法。至此,可以得出两个结论:(1)可解释性的定义大体上是一致的,但还没有人刻意写下来;(2)可解释性定义不明确,《意见》可能不科学。可悲的是,现实是后者。关于模型可解释性的文献提出的目标和方法多种多样,这表明可解释性不是一个单一的概念。本文关注监督学习,而非强化等其他机器学习范式,主要阐述监督学习在现实世界中的应用现状,以及所谓的“线性模型是可解释的,而深度神经网络是不可解释的”。“这个陈述的兴趣。有人认为可解释的模型是可取的,因为它们可能有助于揭示观察数据的因果结构。有时可解释性的目标可能只是从模型中获取更多有用的信息。许多人提出了可解释性作为产生信任的一种方式。这导致了一个同样令人烦恼的认识论问题:什么是信任?这是否意味着一个值得信赖的模型会表现良好?或者可解释性仅仅意味着对模型的低级机械理解?信任是主观定义的?虽然可解释性的目标各不相同,但它们通常指的是标准的机器学习公式,例如,由训练数据完全表示的一组数据的最大准确性与它们旨??在解决的复杂现实世界任务无关。不能完全匹配。考虑纵向数据的医学研究,真正的目标可能是发现潜在的因果关系,可以指导干预措施,例如吸烟和癌症的情况。然而,大多数监督学习模型的优化目标只是为了减少错误。这种不匹配的另一个例子是可用的训练数据不能完全代表可能的部署环境,真实环境通常具有不断变化的动态。想象一下,为一家在线商店训练一个产品推荐系统,该系统会定期推出新产品,并且客户偏好会随着时间的推移而变化。在更极端的情况下,基于机器学习的系统的动作可能会改变环境,使未来的预测变得毫无用处。一些论文将可解释性等同于可理解性或可理解性(即掌握模型工作原理的能力)。在这些论文中,可理解的模型有时被称为透明模型,而不可理解的模型被称为黑盒。但什么是透明度?看看算法本身:它收敛了吗?它会产生唯一的解决方案吗?或者看看它的参数:你知道每一个代表什么吗?或者,考虑模型的复杂性:它是否简单到可以同时被所有人检查?事后解释可能会在不阐明模型工作机制的情况下解释预测,例如,人们的口头解释或用于分析深度神经网络的显着图。因此,尽管人脑具有黑盒性质,但人类决策可能承认事后可解释性,揭示了两种流行的可解释性概念之间的矛盾。为什么需要可解释性?当监督学习的正式目标(测试集的预测性能)与生产中的实际结果不匹配时,就会出现对可解释性的需求。通常,评估指标只需要预测结果和真实数据。当利益相关者额外要求可解释性时,可以推断出无法以这种方式捕获的目标的存在。最常用的监督学习评估指标只需要预测加上基本事实即可得出分数。因此,有时仅预测和计算的指标不足以表征模型。通常,现实世界的目标很难用简单的数学函数进行编码。否则,它们可能只是合并到目标函数中,问题就被认为已经解决了。例如,用于雇用决策的算法应同时优化生产力、道德和合法性。但是如何编写衡量道德或法律的函数呢?当想要对训练和生产环境之间的动态变化具有鲁棒性时,也会出现这个问题。信任有人认为可解释性是信任的先决条件。到底什么是信任?只是相信一个模型会表现良好?如果是这样,一个足够准确的模型应该被证明是值得信赖的,而可解释性则毫无意义。信任也可以主观地定义。例如,一个人可能会对一个易于理解的模型感到更自在,即使这种理解没有明显的目的。或者,当训练和生产目标不一致时,信任可能表示相信模型将在实际目标和场景方面表现良好。例如,考虑越来越多地使用机器学习模型来预测犯罪率,以便分配警务人员。这个模型可以做出准确的预测,但它不能考虑训练数据中的种族偏见,也不能考虑模型本身的影响,即过度监管某些社区。从另一种意义上说,如果最终用户愿意放弃对它的控制,则可以说他们信任机器学习模型。从这个角度来看,人们可能不仅关心模型正确的频率,而且关心它在哪些示例中是正确的。如果一个模型倾向于只在人类也会犯错的输入上出错,因此当人类准确时通常是准确的,那么人们可能会信任该模型,因为放弃控制不会产生预期成本。但是,如果模型倾向于在人类准确分类的输入上出错,那么保持人类对算法的监督可能总是有益的。因果关系尽管监督学习模型仅针对建立联系进行了优化,但它们仍经常用于推断自然世界的属性。例如,可以使用一个简单的回归模型来揭示吸烟与肺癌之间的密切关联。通过监督学习算法学习的关联不能保证反映因果关系。对于这两个相关变量,总有一些其他因素没有被观察到。然而,人们可能希望通过解释监督学习模型,可以生成可检验的假设。例如,一些人强调回归树和贝叶斯神经网络,认为这些模型是可解释的,因此能够更好地提供有关生理信号和情绪状态之间因果关系的线索。从观察数据推断因果关系的任务已得到广泛研究。然而,因果推理方法往往依赖于强假设,尤其是在大型复杂数据集上,并没有被从业者广泛使用。Transferability通常,训练和测试数据是通过从同一分布中随机拆分样本示例来选择的。然后根据模型在训练和测试数据上的性能差距来判断模型的泛化误差。然而,人类能够表现出更丰富的泛化能力,将学到的技能转移到不熟悉的环境中。机器学习算法也被应用于这些情况,例如当环境不稳定时。模型也可以部署在可能改变环境的环境中,从而使其未来预测无效。更糟糕的是,在某些情况下,例如为了安全而进行的机器学习,环境可能会变得非常恶劣,例如CNN的敏感性。CNN错误分类了在不知不觉中受到干扰的图像。当然,这在传统意义上是不合适的。该模型在训练数据上取得了良好的效果,并且在用于对测试数据进行分类时表现良好。关键区别在于图像的改变方式虽然对人类观察者来说很微妙,但在模型训练期间从未遇到过。然而,这些是人类不会犯的错误。今天,监督学习模型经常受到这种对抗性挑战的挑战。另一个例子是用于生成信用评级的模型——得分越高意味着个人偿还贷款的可能性越高。一些使用Logit模型模型来训练信用模型,并以可解释性作为选择模型的动机。特征包括账户的平均年龄、债务比率、逾期付款的数量和信誉良好的账户数量。申请信贷的人可以随意操纵其中的一些因素。例如,一个人可以通过简单地要求增加他们的信贷期限来改变他们的债务比率,同时保持支出模式不变。事实上,银行普遍承认信用评级是可以被操纵的,甚至提出了提高信用评级的建议。这些提高评级的策略可以从根本上改变一个人偿还债务的能力。个人信息状态和评级系统之间的博弈可能会使其预测能力失效。信息量有时,决策理论用于监督模型的输出,以促进现实世界中的行动。然而,在另一种常见的使用范例中,监督模型用于向人类决策者提供信息。虽然机器学习的目标可能是减少错误,但现实世界的目的是提供有用的信息。模型传达信息的最明显方式是通过其输出,但也可以通过某些程序将附加信息传递给人类决策者。即使没有阐明其内部工作原理,模型也可能被证明是有用的。例如,诊断模型可以通过指出相似案例来支持诊断决策,从而为人类决策者提供直觉。在某些情况下,当真实任务更接近监督学习时,会训练一个无监督学习模型。真正的目标可能是探索数据的底层结构,目标的标注只是起到弱监督的作用。公平决策政治家、记者和研究人员现在对必须使用解释来评估算法生成的决策是否合乎道德表示担忧。如何确定预测中没有基于种族的歧视?传统的评估指标,例如准确性或AUC(曲线下面积),很少能保证基于ML的决策行为是可以接受的。因此,对公平性的要求往往导致对可解释模型的要求。可解释性的透明概念为了赋予可解释性,我们需要探索模型中涉及的技术和模型的属性。它们大致可以分为两类。第一个与透明度有关(例如,模型如何工作?),第二个是事后解释(例如,模型还能告诉我什么?)。非正式地,透明度与不透明或“黑盒”相反,这意味着对模型的工作原理有一定的了解。透明度在整个模型级别(可模拟性)、单个组件级别(例如,参数级别、可分解性)和训练算法级别(算法透明度)进行考虑。可模拟性从严格意义上讲,如果一个模型可以同时考虑整个模型,那么这个模型就可以称为透明的。这个定义表明一个可解释的模型是一个简单的模型。例如,为了完全理解模型,人们应该能够将输入数据与模型参数一起考虑,执行在合理的时间步长内生成预测所需的每项计算。这符合稀疏线性模型这一俗语,即可解释模型是一种“可以通过视觉或文本组件轻松呈现给用户”的模型。要应用单个预测,模型大小和计算之间的权衡因模型而异。例如,在某些模型(如决策树)中,与执行推理所需的时间(从根到叶的传递长度)相比,模型的大小(节点总数)可能变得相当大。这表明可模拟性可能包含两种子类型:一种基于模型的大小,另一种基于执行推理所需的计算。由“合理”表示的数量在确定可模拟性的概念时是主观的。然而,很明显,由于人类认知有限,这种歧义可以跨越几个数量级。在这种情况下,线性模型、基于规则的系统和决策树都不是天生不可解释的。高维模型、笨重的规则列表和深度决策树都可以被认为不如相对紧凑的神经网络透明。可分解性关于透明度的第二个概念可能是,模型的每个部分是什么?输入、参数、计算需要有直观的解释。例如,决策树中的每个节点可能对应一个简单的文本描述。类似地,线性模型的参数可以描述为表示每个特征和标签之间关联的强度。请注意,这种可解释性的概念要求输入本身可以单独解释,从而使某些具有高度工程化或匿名特征的模型无效。虽然这种观点很流行,但不应盲目接受。加权线性模型可能看起来很直观,但在特征选择和预处理方面可能很脆弱。例如,与流感风险和疫苗接种之间的联系对应的系数可能是正数或负数,具体取决于特征集是否包括老年、婴儿或免疫缺陷指标。算法透明度透明度的最后一个概念涉及机器学习算法本身。在线性模型的情况下,误差表面的形状是可以理解的。即使对于以前未见过的数据集,我们也可以证明训练将收敛到一个独特的解决方案。这可能会让人相信该模型将在需要对以前看不见的数据进行重新训练的在线设置中运行。另一方面,现代深度学习方法缺乏这种算法透明度。虽然神经网络的启发式优化器显然很强大,但我们不知道它们是如何工作的,目前也不能保证它们在新问题上会先验地工作。事后可解释性是一种从学习模型中提取信息的独特方式。虽然事后解释通常无法准确阐明模型的工作原理,但它们可能会为机器学习从业者和最终用户提供有用的信息。一些常见的事后解释方法包括自然语言解释、学习表示或模型的可视化以及实例解释(例如,该肿瘤被归类为恶性肿瘤,因为它看起来与模型中的其他恶性肿瘤相似)。在某种程度上,我们可能认为人类是可解释的,这是一种适用的可解释性。据我们所知,人类做出决定的过程和他们被解释的过程可能完全不同。这种可解释性概念的一个优点是,可以在不牺牲预测能力的情况下事后解释不透明的模型。字面解释人类经常口头上证明他们的决定是正确的。同样,可以训练一个模型来生成预测,并训练一个单独的模型(例如递归神经网络语言模型)来生成解释。这样的系统通常是一个模型(强化学习)选择行动来优化累积收益的系统;另一个将模型的状态表示映射到策略的口头解释。这些解释经过训练以最大限度地提高从人类那里获得先前观察到的真实解释的可能性,并且可能不会忠实地描述代理人的决定。这种方法与最近对神经图像字幕的研究有些相关。在此神经图像字幕研究中,由判别性CNN(在图像分类上训练)学习的表示被第二个模型吸收以生成字幕。这些字幕可以看作是分类解释。在推荐系统的研究中,文本用于解释模型决策的潜在因素。该方法涉及同时训练用于评级预测的潜在因子模型和用于产品评论的主题模型。在训练期间,交替减少评分预测的平方差和增加评论文本的可能性。这些模型是相互关联的,因为它们使用归一化的潜在因子作为主题分布。也就是说,对潜在因素进行正则化,以便它们也能很好地解释评论文本中的主题分布。然后,通过检查与潜在因素的匹配组件相对应的主题中的顶级词来考虑用户项目兼容性。请注意,通过显示热门词来解释主题模型的做法本身就是一种特殊的解释技术,引起了进一步的关注。此外,这里只讨论解释(包括自然语言)的形式因素,而没有讨论正确性的确切含义。到目前为止,许多文献都回避了正确性问题,有时通过对问题的主观看法,询问人们他们喜欢什么。另一种可视化事后解释的常用方法是可视化,希望定性地确定模型学到了什么。一种流行的方法是使用t-SNE(t分布随机邻域嵌入)可视化高维分布表示,这是一种二维可视化技术,可以使相邻数据点看起来靠得很近。在计算机视觉中,使用梯度下降改变图像分类网络的输入可以增强从隐藏层中选择的特定节点的激活,从而解释图像分类网络学到了什么。检查扰动的输入可以提供有关模型学到了什么的线索。已经探索了类似的方法来研究在神经网络的不同层保留了哪些信息。例如,通过判别性CNN传递图像以生成表示。然后可以通过执行梯度下降随机初始化像素,以高保真度恢复原始图像,即使是从合理的高级表示(例如6层AlexNet)。与前面的文字解释一样,可视化的讨论主要集中在形状因素和兴趣点上,但我们仍然缺乏严格的正确性标准。局部解释虽然可能很难简洁地描述神经网络学习的完整地图,但一些文献着重于解释神经网络局部依赖的因素。深度神经网络的一种流行方法是计算显着图。通常,他们采用与给定输入向量对应的正确分类的输出梯度。对于图像,此渐变可以充当遮罩,突出显示输入区域,如果更改这些区域,将对输出影响最大。重要的是要注意,这些对模型问题的解释可能会产生误导。显着图只是部分解释。一旦移动一个像素,就可以获得非常不同的显着图像。这与对输入和输出之间的全局关系建模的线性模型形成对比。通过学习一个单独的稀疏线性模型来解释第一个模型的决策,该模型解释特定点周围局部区域中任何模型的决策。奇怪的是,虽然这种方法对显着图很感兴趣,因为它为不可微模型提供了解释,但当要解释的模型实际上是可微的时,它更常用。在这种情况下,除了梯度的噪声估计之外,还不清楚可以提供什么信息。它是否比普通梯度提供更多信息可能在很大程度上取决于超像素的选择方式。此外,没有严格定义的目标,谁能说哪些超参数是正确的?典型的可解释性。解释模型确定的一种特殊机制可能是报告哪些其他示例与模型最相似,训练深度神经网络或潜在变量模型,它不仅可以预测判别任务,还可以学习表征。然后,对于任何示例,除了生成预测之外,隐藏层的激活还可以用于根据它们在模型学习的空间中的接近度来识别k最近邻。这种说明性的解释对于人类如何使用类比来证明行为是有先例的。例如,医生经常引用案例研究来支持计划的治疗方案。在神经网络文献中,这种方法已用于检查word2vec模型训练后的学习表示。在训练模型进行skip-gram预测时,为了测试模型学习到的关系,模型根据在潜在空间中计算的距离枚举词的最近邻。主要结果可解释性的概念显得既重要又难以捉摸。以上分析了解释动机和学者的一些尝试。现在让我们考虑一下该分析的含义并提供几个关键点。严格来说,线性模型并不比深度神经网络更具可解释性。尽管这种说法早已流行,但其价值取决于使用的是哪种可解释性概念。关于算法透明性,这种说法似乎没有争议,但对于高维或大量的工程特征,线性模型分别失去可模拟性或可分解性。在线性模型和深度模型之间进行选择时,我们必须经常在算法透明性和可分解性之间做出权衡。这是因为深度神经网络倾向于对原始或轻微处理的特征进行操作。因此,如果不出意外,这些功能在直觉上是有意义的,并且事实背后的推理是合理的。然而,为了获得可比的性能,线性模型通常必须在大量手工设计的特征上运行。在这种情况下,线性模型只能以可分解性为代价来近似递归神经网络(RNN)的性能。对于某些类型的事后解释,深度神经网络显示出明显的优势。鉴于可解释性的要求,线性模型似乎在研究自然界方面有更好的记录,但似乎没有理论上的理由说明为什么必须如此。可以想象,事后诸葛亮的解释可能在类似情况下证明是有用的。关于可解释性的陈述必须是合格的。可解释性不是一个单一的概念。为了有意义,任何关于可解释性的断言都应该从一个特定的定义开始。如果模型满足某种形式的透明度,则可以直接显示。对于事后可解释性,应该确定一个明确的目标,并证明所提供的解释形式可以实现这一目标。在某些情况下,透明度可能与AGI的目标不一致。一些反对黑盒算法的论点似乎排除了任何能够在复杂任务上匹配或超过人类能力的模型。一个具体的例子是,通过提高透明度与医生建立信任的短期目标可能与改善护理的长期目标相冲突。在放弃预测能力时要小心,因为对透明度的需求是合理的,而不是简单地让位于反对新方法的机制。事后解释可能会产生误导,谨防盲目接受特定的可解释性概念,尤其是在优化以满足主观需求时。在这种情况下,优化算法可能会提出合理的解释。一些记者和社会学家已经证明,基于领导力或独创性等美德的决定往往掩盖了基于种族或性别的歧视。关于模型可解释性的未来首先,对于某些问题,可以通过开发更丰富的损失函数和性能指标来减轻现实生活和机器学习目标之间的差异。这个方向的典型例子包括稀疏性诱导的正则化和成本敏感的研究。其次,这种分析可以扩展到其他机器学习范式,例如强化学习。强化学习可以直接对模型与环境的交互进行建模,从而实现部分(但不是全部)可解释性研究的目标。然而,这种能力可能是以允许模型在现实世界中进行实验为代价的,并产生真正的后果。值得注意的是,强化学习能够学习一个人自己的行为与现实世界影响之间的因果关系。然而,与监督学习一样,强化学习依赖于明确定义的度量目标。对于像公平这样的问题,我们尽最大努力用语言表达可解释性的精确定义,机器学习的范式转变不太可能消除可解释性面临的问题。