深度神经网络的参数网络极其庞大复杂,可以让机器实现以往难以想象的各种功能。然而,这种复杂性也成为其广泛应用的祸根:神经网络的内部工作机制一直是个谜,就连创造者自己也搞不清楚它是如何做出决策的。自2010年代初深度学习全面流行以来,这个难题就一直困扰着AI行业。随着深度学习在各个领域和应用的扩展,人们越来越有兴趣根据神经网络的结果和学习到的参数组合来解释神经网络技术的原理。然而,这些解释方法往往是不可靠的,甚至充满误导性。更糟糕的是,所有这些对于在训练期间修复深度学习模型中的偏差几乎没有任何实际意义。近日,《自然:机器智能》期刊发表了一篇同行评议论文,其中杜克大学的科学家提出了一种“概念白化”技术,希望在不牺牲性能的情况下引导神经网络学习特定概念。.概念白化为深度学习模型引入了可解释性,而不是模型在数百万训练参数中自主搜索答案。这项技术应用于卷积神经网络,已经取得令人鼓舞的成果,有望对未来人工智能的发展和研究产生重大影响。深度学习模型的特征和潜在空间面对高质量的训练示例,具有正确架构的深度学习模型应该能够区分不同类型的输入材料。例如,在计算机视觉任务的上下文中,经过训练的神经网络能够将图像的像素值转换为相应的类别。(由于概念白化主要应用于图像识别,我们在此重点关注机器学习任务的这个特定子集。当然,本文涉及的大部分内容同样适用于整个深度学习领域。)在训练期间,每个实例深度学习模型的每一层都将训练图像的特征编码成一组值,这些值存储在参数中。这个过程就是AI模型的潜在空间。通常,多层卷积神经网络中的较低层负责学习基本特征,例如角度和边界。神经网络的较高层学习检测更复杂的特征,例如人脸、物体、完整场景等。图注:神经网络中的每一层都对输入图像中的特定特征进行编码。理想情况下,神经网络的潜在空间应该表示与要检测的图像类别相关的概念。但我们不确定,因为深度学习模型倾向于学习最具辨别力的特征——即使是那些与结论没有因果关系的特征。例如,以下数据集包含每张右下角恰好有徽标的小猫图像。人类很快就会发现这个标志与小猫无关。但深度学习模型很可能会选择取巧的路线,即判断右下角的标志是包含小猫的图像。同样,如果训练集中包含绵羊的所有图像都有草地背景,神经网络很可能学会检测草,而不是绵羊。图例:在训练期间,机器学习算法搜索最容易将像素与标签相关联的访问模式。因此,除了深度学习模型在训练和测试数据集上的实际表现之外,更重要的是了解模型学会了检测哪些概念和特征。正是从这个角度,经典解释技术试图解决这个问题。神经网络的事后解释大多数深度学习解释技术都具有事后性质,这意味着只能通过检查输出结果和参数值来评估经过训练的神经网络。例如,一种用于准确确定神经网络在图像中查看哪些对象的流行技术是尝试遮挡输入图像的不同部分,并查看这些变化如何影响深度学习模型的输出。这种技术有助于创建热图,突出显示与神经网络最相关的图像特征。图例:显着图示例其他事后技术包括打开和关闭不同的人工神经元,以检查这些调整如何影响AI模型的输出。这些方法还有助于找到相关特征和潜在空间之间的映射关系。尽管这些方法效果很好,但它们本质上仍然是在以“黑匣子”的形式看待深度学习模型,无法真正描绘出神经网络的确切情况。白皮书作者写道,“‘解释’方法通常与性能的汇总统计(例如局部近似、节点激活的总体趋势等)有关,而不是模型计算的实际解释。”显着图的问题,例如,是他们经常无法发现神经网络学习错误信息的问题。当神经网络的特征分散在潜在空间中时,解释单个神经元的作用变得极其困难。图注:显着图解释不能准确代表黑盒AI模型如何做出最终判断。概念白化论文的第一作者杜克大学计算机科学专业的学生在接受采访时表示,“深度神经网络(NN)在图像识别方面非常强大。但由于其过于复杂,我们无法理解其学习过程神经网络的隐藏层。这种缺乏可解释性使得神经网络在实践中不可信且难以使用。过去,大多数事后解释只是试图分析模型学到了什么,例如每个神经元具体是什么概念但是这些方法仍然严重依赖于这样的假设,即这些概念已经被网络学习(不一定),并且只在一个神经元上学习(再次不一定)。杜克大学计算机科学教授、概念白化论文的合著者CynthiaRudin此前曾警告过相信黑盒解释技术的危险,称此类方法有可能对神经网络做出错误解释。此前发表在《自然:机器智能》期刊的另一篇论文中,Rudin鼓励使用和开发自然可解释的AI模型。作为博士生导师,Rudin领导着杜克大学的预测分析实验室(该实验室专注于可解释的机器学习主题)。概念白化的目标是开发一个神经网络,其潜在空间将与训练期间学到的概念相匹配。这种方法使深度学习模型真正具有可解释性,同时也大大降低了在特征和神经网络输出之间建立关系映射的难度。Rudin在接受采访时说,“我们的工作直接改变了神经网络处理潜在空间的方式,让关系轴真正对应已知概念。将概念融入神经网络深度学习模型通常在单个标记数据集上进行训练。概念白化引入了包含概念示例的第二个数据集。这些概念与AI模型的核心任务相关。例如,如果您的深度学习模型检测到“卧室”,则相关概念包括床、冰箱、灯、窗户、门、陈指出,“可以手动选择代表性样本,因为它们有望建立我们对可解释的性别定义的理解。机器学习从业者可以通过多种方式收集这些样本,为他们的应用程序构建概念上特定的数据集。例如,我们可以要求医生选择具有代表性的射线照片来定义各种医学概念。“通过概念白化,深度学习模型经历两个并行的训练周期。神经网络调整其整体参数以表示主要任务中的类别,而概念白化技术调整每一层中的特定神经元以与概念类别对齐alignment包含在数据集中。结果是一个纠缠的潜在空间,其中概念将整齐地分布在每一层中,神经元的激活将对应于它们各自的概念。陈说,“这种纠缠让我们对网络如何逐层学习概念。为了评估该技术的有效性,研究人员通过深度学习模型(在不同层插入了概念美白模块)运行了一系列验证图像。接下来,他们根据每一层激活的概念神经元对图像进行分类。在较低的层中,概念白化模块能够捕获颜色和纹理等低级特征。例如,网络能够通过较低层意识到蓝色背景下的白色物体很可能与概念“飞机”密切相关,而暖色图像更可能包含概念“床”。在更高层中,网络学习如何对代表概念的对象进行分类。图注:概念白化在较低层学习低级信息(如颜色、纹理),在较高层学习高级信息(如物体、人)。概念上的争论和对齐的一大好处就是保证了神经网络不会犯太低级的错误。当图像通过网络运行时,较高层中的概念神经元会纠正可能在较低层中出现的钷。例如,在下图中,由于大量蓝色和白色像素的密集存在,神经网络的较低层错误地将图像与概念“飞机”相关联。但是当图像传输到更高层时,概念神经元开始帮助模型将结果引导到正确的方向(右图显示了视觉校正的过程)。说明:概念白化有助于纠正图像从神经网络的较低层传输到较高层时的误解和错误。以前对模型可解释性的尝试通常强调创建分类器,这些分类器可用于通过神经网络潜在空间中的值来推理概念。但根据Chen的解释,在没有纠缠潜在空间的情况下,通过这种方法学习到的概念并不纯粹,并且很可能与概念神经元的预测分数相关联。“过去,虽然人们试图以有监督的方式解开神经网络的谜团,但并没有真正解开谜团本身。另一方面,概念白化通过白化变换分解各个关系轴的相关性,从而真正理解模型。概念图的想法。”将概念白化引入深度学习应用概念白化是一类可以插入卷积神经网络的模块,而不是批归一化模块。批归一化于2015年推出,是一种流行的技术,用于调整用于神经网络训练的数据分布以加快训练速度并避免过拟合等问题。最流行的卷积神经网络在每一层都使用了批量归一化。除了批量归一化功能外,概念白化还允许数据沿表示相关概念的多个轴对齐。概念白化架构的最大特点是可以方便地集成到现有的多种深度学习模型中。通过研究,科学家们使用概念白化代替batchnormalization模块,从而修改了多种预训练的流行深度学习模型,实现了只需一轮训练即可达到预期效果。(关于e轮表示通过完整的训练集训练深度学习模型的整个周期。当一个深度学习模型从头开始训练时,往往需要经过多轮。)Rudin指出,“概念白化有望广泛应用于医学影像等高度重视可解释性的领域。在他们的实验中,研究人员将概念美白应用于皮肤病变诊断的深度学习模型。“在概念美白的潜在空间上测量的概念重要性分数可以提供重要的见解,了解哪些概念在皮肤病变的诊断中更有意义。“为了未来的持续发展,我们认为脱离预定义的概念可能是合适的而是从数据集中发现这些概念——尤其是尚未发现的重要概念,”陈说。基于此,我们能够以纠缠的方式在神经网络的潜在空间中明确表示这些概念,进一步提高模型的可解释性,当前研究的另一个重要方向是将概念按层次结构组织起来,从而建立概念集群,以取代相互孤立的个体概念。而且规模越来越大,越来越复杂,行业开始有明显的opi差异nion关于如何实现神经网络透明性。一种观点强调观察AI模型的行为,而不是徒劳地观察黑匣子内部。这种方法也是人们研究动物乃至人脑的基础,设计实验和记录激活模式的想法。该理论的支持者认为,任何强加于神经网络的可解释设计约束都将不可避免地导致模型质量下降。如果说大脑可以通过几十亿次迭代从无到有进化出智能,那么神经网络应该也可以通过这种纯粹的进化方式达到同样的效果。概念白化的出现反驳了这一理论,证明我们可以在不损失任何性能的情况下改进神经网络。施加了自上而下的设计约束。有趣的是,实验表明,深度学习模型在引入概念白化模块后确实可以提供可解释性,并且在核心推理任务上的准确性没有任何显着下降。Rudin总结道:“概念白化以及我们和许多其他研究实验室的结果已经全面证明,在不影响其性能的情况下构建可解释的模型确实是可能的。我们希望这项工作能够改变人们对黑盒模型机制的盲目推崇,吸引更多参与者基于各自领域构建可解释的机器学习模型。“
