2020年2月,随着COVID-19在全球迅速蔓延,抗原检测变得难以获得,部分医生转向人工智能(AI)尝试诊断病例。一些研究人员采用深度神经网络通过查看X光片和胸部计算机断层扫描(CT)扫描来快速区分患有COVID-19肺炎的人和未患肺炎的人。西雅图华盛顿大学计算机工程师AlexDeGrave说:“在COVID-19大流行的早期,人们竞相开发工具,尤其是人工智能工具来提供帮助,但研究人员没有值得注意的是,许多AI模型已经决定走一段距离。捷径”。AI通过分析标记为COVID-19阳性和阴性的X射线图像来训练模型,然后利用他们发现的图像之间的差异进行推断,但当时面临一个问题,“可用的训练数据不很多,”德格雷夫说。几家医院已经公开了COVID-19患者(被标记为COVID-19呈阳性)的X光片,美国国立卫生研究院在大流行之前收集的肺部图像库为未感染者提供了X光片数据与COVID-19(标记为COVID-19阴性),这些数据在用作训练时具有不可忽略的错误影响,例如,许多X射线会使用字母R来标记人身体的右侧,因此方便放射科医师正确定位影像与人体的关系,但不同医院使用的字母R的外观不同。同时,大多数COVID-19负面图片来自单一来源,这使得用这些数据训练的模型不仅可以根据照片上显示的生物特征进行推断,还可以根据照片的风格和位置进行推断。图片上的字母R(如图1所示)。图1.用于训练的X射线图像。DeGrave和JosephJanizek都是计算机科学家Su-InLee位于西雅图的生物和医学科学可解释人工智能实验室的成员,他们于2021年5月在《Nature Machine Intelligence》发表了一篇论文,报告了上述问题。机器学习模型的决策过程常被学术界称为黑匣子,因为研究人员通常只知道模型的输入和输出,却很难看出模型内部到底发生了什么。DeGrave和Janizek使用旨在测试AI系统的技术打开了这些黑匣子,并解释了它们这样做的原因——即构建可解释的AI模型。构建可解释的人工智能(eXplainableAI,XAI)有很多优势。在医疗环境中,了解模型系统为何做出特定诊断可以帮助说服病理学家它是合法的,因为在某些情况下,合法要求解释。例如,当借贷系统决定用户是否有资格获得贷款时,美国和欧盟都需要证据证明没有因法律不禁止的原因(例如种族或性别)而拒绝信贷。深入了解AI系统的内部工作原理还可以帮助计算机科学家改进和改进他们创建的模型,甚至可能产生关于如何解决某些问题的新想法。然而,XAI的好处只有在XAI给出的解释本身是可以理解和可验证的,并且构建模型的人认为值得付出努力的情况下才能实现。NeuronDeGrave和Janizek研究的深度神经网络因其利用曝光来了解照片中的内容、口头表达的含义等的不可思议的能力而广受欢迎。这些神经网络以与人脑类似的方式工作,因为某些活跃的神经细胞以某些模式激发以响应外部刺激。例如,神经网络中的人工神经元会根据它们收到的输入,在看到猫时触发与看到树时不同的模式,即神经元会在两者之间寻找模式。不同之处。在这种情况下,神经元是数学函数,输入数据以数字形式进入系统。例如,描述照片中像素的颜色,然后神经元对该数据进行计算。在人体中,神经元只有在接受到的刺激超过某个电阈值时才会放电。类似地,人工神经网络中的每个数学神经元都用阈值加权。如果计算结果超过这个阈值,则传递给另一层神经元进行进一步计算。最终,系统学习输出数据和输入数据之间关系的统计模式。例如,标记为有猫的图像将与标记为没有猫的图像系统地不同,这些明显的差异可以帮助AI模型确定其他图像中存在猫的可能性。神经网络的设计不同于其他机器学习技术。神经网络模型作用于输入的计算层(即隐藏层)越多,就越难解释模型在做什么。马萨诸塞州波士顿大学的计算机科学家KateSaenko说,“像小型决策树这样的简单模型并不是真正的黑匣子。小型决策树‘本质上是一组规则’,人类可以很容易地理解模型在做什么,“所以它本质上是可以解释的。然而,深度神经网络通常过于复杂,涉及数百万次计算,或者更可能是数十亿次计算,学术界无法解释其内部工作原理。”通常,解释深度神经网络神秘工作原理的工作涉及弄清楚输入数据的哪些特征会影响输出。帮助DeGrave和Janizek确定胸部X光片上的方向标记(字母R)影响诊断的一个工具是显着图,这是一种颜色编码的图表,显示计算机在进行推理时最关注的是什么。图片的哪一部分。如图2所示。Saenko和她的同事们开发了一种称为D-RISE(DetectorRandomInputSamplingforExplainedAI)的技术来生成这样的地图。研究人员拍摄了一张装满鲜花的花瓶的照片(图2),并系统地屏蔽了图像的不同部分,然后将其呈现给负责识别特定物体(例如花瓶)的AI模型。然后他们注意到每组像素的模糊如何影响结果的准确性,根据每个部分对识别过程的重要性对整张照片进行颜色编码。正如预期的那样,在一张装满鲜花的花瓶照片中,花瓶本身被明亮的红色和黄色照亮,这表明当AI识别花瓶时,花瓶本身的存在很重要。但这并不是图片中唯一突出显示的区域。“显着性一直延伸到一束鲜花,”Saenko说。“它们没有被标记为花瓶的一部分,但模型了解到,如果你看到花,这个物体更有可能是花瓶。”D-RISE强调会导致AI模型改变其结果的因素。Saenko说:“这有助于了解他们可能犯了什么错误,或者他们是否出于错误的原因做某事,”他在该领域的工作是美国国防高级研究中心运行的现已完成的XAI项目的一部分资金。改变输入数据以识别重要特征是探索许多AI模型的基本方法。但在更复杂的神经网络中,这项任务变得更具挑战性,科学家们不仅要弄清楚其中有哪些特征以及它在模型推理中发挥了多大作用,还要弄清楚一个特征的重要性如何随着其他特征的变化而变化.“因果关系仍然存在,因为我们仍在试图找出哪些特征对模型的预测具有最大的因果影响,”Datta说,“但衡量它的机制发生了一点变化。”,如Saenko的显着图,达塔系统地屏蔽掉图像中的单个像素,然后为图像中该部分的像素分配一个数学值,代表由于遮挡该部分而导致的变化幅度。查看哪些像素最重要可以告诉Datta隐藏层中的哪些神经元对结果贡献最大,从而帮助他更好地解释模型的工作原理。可解释性优势DeGrave和Janizek使用另一种称为生成对抗网络(GAN)的复杂神经网络来测量显着图。典型的GAN由一对网络组成,一个负责生成数据(例如街道图像),另一个则试图确定该输出是真实的还是假的。这两个网络以这种方式反复交互,直到第一个网络可靠地创建能够欺骗另一个网络的图像。在他们的案例中,研究人员要求GAN将COVID-19阳性X射线突变转换为COVID-19阴性图像,并且通过查看GAN修改了X射线图像的哪些方面,研究人员可以确定哪些方面部分图像对AI模型至关重要。这增加了模型的可解释性。尽管GAN很简单,但研究人员并未很好地理解这种网络变化的微妙动态。“GAN生成图像的方式是神秘的。给定一个随机输入数字,GAN最终输出一张看起来真实的图片,”计算机科学家AntonioTorralba说。Torralba和他的团队剖析了GAN以查看GAN中的每个神经元在做什么,并且像Datta一样,他们发现GAN中的一些神经元特别专注于某些概念。“我们发现了负责绘制树木的神经元组、负责绘制建筑物的神经元组以及负责绘制门窗的神经元组,”Torralba说。图2显着图示例(该图表明AI在识别花瓶时也注意到了花瓶中的花朵)Torralba表示,能够识别出哪些神经元正在识别或产生哪些物体开启了可能性改进神经网络,而无需向他们展示数千张新照片。如果一个模型已经被训练来识别汽车,但它训练的所有图像都是铺设道路上的汽车,那么当显示一张汽车在雪地上的图片时,该模型可能无法识别汽车。但是了解模型内部联系的计算机科学家能够调整模型,将雪层识别为等同于铺砌的表面,从而提高模型识别此类图像的准确性。同样,可能想要自动创建一个不可能的场景的CGV艺术家可以手动重新设计模型来实现。可解释性的另一个价值是,了解机器执行任务的方式可以让使用模型的人了解模型如何以不同方式做事,并修改模型以做得更好。计算生物学家Laura-JayneGardiner训练了一个人工智能来预测哪些基因在调节生物钟方面发挥作用,生物钟是控制一系列生物过程的内部分子计时器。Gardiner和她在IBM欧洲研究院和英国诺里奇生命科学研究小组厄勒姆研究所的同事们还让计算机突出显示了它用来确定基因是否可能在昼夜节律中起作用的特征。“我们只关注调节基因的启动子,”加德纳说,“但人工智能在基因序列中发现了研究人员可能会错过的线索”,加德纳解释说;该团队可以在实验室的研究中使用AI来进一步提高他们对生物学的理解。卡内基梅隆大学的计算机科学家PradeepRavikumar说,解释AI是一个开始,但还应该有一种方法来量化它们的准确性,他正在研究自动化这种评估的方法。被认为对人类有意义的解释实际上可能与模型实际所做的事情关系不大。“如何客观地评估解释性人工智能的问题仍处于早期阶段,”Ravikumar说。“我们需要得到更好的解释,我们需要更好的方法来评估解释。”对上述重要功能的微小改动。如果解释正确,输入中的这些小变化应该会导致输出中的大变化。同样,对不相关特征的大改动,比如从一张猫的照片中去掉公交车,应该不会影响模型的判断结果。如果你更进一步,评估人工智能,你不仅可以预测哪些特征是重要的,还可以预测如果你对这些特征进行微小的改变,模型的推断判断会发生怎样的变化。“如果解释实际上是在解释模型,那么它可以更好地了解模型在这些小变化下的行为,”Ravikumar说。解释AI的内部工作原理有时看起来像是一件苦差事,以至于许多计算机科学家可能想跳过它并从表面上看AI的结果。但至少某种程度的可解释性是相对简单的,例如与更复杂、更耗时的GAN训练和使用相比,现在可以快速、廉价地生成显着图。“你肯定必须非常熟悉深度学习的东西,以及一台带有一些图形处理单元的好机器才能让它工作,”Janizek说。他的团队尝试的第三种方法——使用照片编辑软件手动修改数百张图像以确定某个特征是否重要——甚至更加费力。机器学习社区的许多研究人员也倾向于在模型可解释性和准确性之间进行权衡。他们认为,使神经网络输出更准确的大量计算也使它们超出了人类的理解范围。但有人质疑这种权衡是否真实,Janizek说。“最终可能会出现这样的情况,即更具可解释性的模型是更有用和更准确的模型。无论可解释性挑战有多大或多小,一个好的解释并不总是足以说服用户依赖一个系统,而且知道为什么AI助手(例如亚马逊的Alexa)以某种方式回答问题可能不会,拉维库玛说。就像法律禁止滥用促进用户之间信任的私人谈话录音一样,也许医生需要临床证据来证明计算机的诊断随着时间的推移被证明是正确的。政策制定者可能会要求对此类系统的使用采取一些保护措施。然而,在解释领域,人工智能研究人员已经取得了长足的进步。Torralba说,虽然可能仍有一些细节需要解决,以涵盖正在使用的各种机器学习模型,但这个问题很可能会公开出现。一两年内解决。他说,“人们总是谈论这个黑匣子,我们并不认为神经网络是黑匣子。如果它们真的工作得很好,那么如果你仔细观察,它们所做的事情就有意义了。”
