前言过去几年,以神经网络为主导的人工智能技术深刻改变了人类生活,极大地推动了社会发展的进程[1]。作为人工智能领域最活跃的研究方向之一,图神经网络(GraphNeuralNetworks,简称GNNs)以其优异的性能在个性化推荐等日常生活中得到广泛应用,同时也被应用于人工智能等前沿科学领域。新冠药物研发。随着图神经网络技术的蓬勃发展,人们发现以任务性能为单一设计目标的图神经网络系统仍然存在易受恶意攻击等问题。因此,人们越来越渴望构建一个可信的图神经网络。近年来,构建可信的人工智能系统已成为世界各国的普遍共识[2][3]。如何全面建立可信的图神经网络成为亟待解决的重大问题。本文是Monash团队(ShiruiPan,XingliangYuan,BangWu,HeZhang)联合HanghangTong(UIUC)和JianPei(SFU,即将加入Duke)对可信图神经网络的最新综述(双专栏,第36页,299篇文章)。本综述从研究背景和特点出发,提出了可信图神经网络的开放框架,重点关注“可信GNN”的六个维度(鲁棒性、可解释性、隐私、公平性、问责制、环境福祉)及其技术方法.同时,本综述探讨了不同可信维度之间的交互关系,提出了可信图神经网络未来的研究方向,为可信图神经网络的建立绘制了详细而全面的技术路线图。摘要名称:TrustworthyGraphNeuralNetworks:Aspects,MethodsandTrends全文链接:https://arxiv.org/pdf/2205.07424.pdfGithub:https://github.com/Radical3-HeZhang/Awesome-Trustworthy-GNNs1简介图作为一种具有很强表示能力的数据类型,通过描述实体的特征和描述实体之间的关系,被广泛应用于生物学、化学、物理学、语言学和社会科学等诸多领域的数据描述。近年来,图神经网络技术的蓬勃发展,彻底改变了各种图计算任务的性能,促进了其在现实生活中的广泛应用。在日常生活中,图神经网络可以在信息流媒体、在线购物、社交软件等消费类应用中,通过考虑用户与用户/服务内容的交互,为用户提供个性化的搜索和推荐服务。在科学前沿,研究人员可以通过图数据表示复杂系统,利用图神经网络发现天体运动背后隐藏的规律。通过将其应用于假新闻检测和新冠药物研发,图神经网络极大地改善了我们的社会福祉。尽管研究人员从多个角度(如自监督学习、提高模型深度等)设计了进一步提高图神经网络性能的方法,但在一些关键领域,任务性能并不是设计图神经网络的唯一目标。例如,基于图神经网络的异常检测系统需要对恶意攻击具有鲁棒性,基于图神经网络的信用评分系统不应因年龄、性别、药物等因素拒绝用户的贷款申请。基于图形神经网络的发现应用程序应该向开发人员提供其结果的完整解释。基于以上需求,人们越来越渴望基于图神经网络的系统具有可信度。在此背景下,本综述旨在总结“TrustworthyGNNs”的近期进展,为相关研究者和实践者提供技术路线图,为未来TrustworthyGNNs的研发奠定基础。为产业化发展提供方向。这篇综述的主要贡献如下:1)可信图神经网络在一个包含许多可信维度的开放框架中被描述,以及图神经网络和其他常见人工智能技术(如CNN)在可信中的典型例子提出研究。差异;2)对图神经网络不同可信维度的现有方法进行了全面全面的总结;3)提出不同可信维度之间的关系对于构建可信图神经网络系统至关重要,并从方法和效果两个层面总结了现有的研究工作;4)将可信图神经网络的概念作为一个整体,提出了未来可能的研究方向。2图神经网络与可信度为了便于读者理解,本文首先介绍以下核心概念。图数据:图通常由节点集合和边集合组成。图中的节点数为,节点间的边数为。给定一个图,相应的拓扑可以用邻接矩阵表示,邻接矩阵表示节点和节点之间的连接。也就是说,如果节点和相互连接,则,否则。如果图中的节点具有属性,则可以使用特征矩阵来描述这些属性信息。因此,该图也可以表示为。图神经网络(GraphNeuralNetworks,GNNs):图神经网络是一系列神经网络的总称,可用于对图数据进行计算任务(如节点分类、链接预测、图分类)。图神经网络中一个典型的操作步骤是消息传递。在消息传播过程中,图神经网络通过聚合所有邻居节点的信息来更新当前节点的表示。在结合其他操作(如非线性激励)的基础上,经过多次表示更新迭代后,图神经网络可以计算出相应的数据表示。可信度:信任用来描述一个值得被信任的系统,它描述了信任发起者(trustor)和信任接收者(trustee)之间的信任关系。在可信图神经网络的上下文中,信任接受者(受托者)是图神经网络系统,信任发起者(信任者)可以是用户、开发者、监管者甚至整个社会。TrustworthyGNNs(TrustworthyGNNs)被定义为兼顾可信赖性和卓越性能的图神经网络。这些可信维度包括但不限于鲁棒性、可解释性、隐私、公平、责任和幸福感。原始定义如下:“在本次调查中,我们将可信赖的GNN定义为具有可信赖性核心方面的胜任GNN,包括鲁棒性、可解释性、隐私、公平性、问责制、幸福感和上下文中其他面向信任的特征ofGNNs.”3ReviewFramework综述主要介绍了研究背景、可信图神经网络的定义、不同可信维度的定义、测量和研究差异、与现有综述的关系及其在第一章的主要贡献。第2章介绍了图神经网络的基本概念和计算任务。在第3章到第8章中,它涵盖了稳健性、可解释性、隐私、公平性、问责制和环境福祉。介绍了六个方面,总结了典型的技术方法,并讨论了未来的研究方向。在第9章中,本综述从方法和结果两个层面总结了上述六个可信度维度之间的复杂关系。最后,第十章综述将可信图神经网络作为一个整体,为全面构建可信图神经网络系统提出了未来研究和产业化的五个方向。4鲁棒性(Robustness)鲁棒性是指图神经网络在面对干扰时保持稳定预测结果的能力。图神经网络的预测结果会受到各种扰动(尤其是对图神经网络的各种攻击)的影响。这给图神经网络在涉及人身和财产安全的场景中的应用带来了严峻的挑战,例如银行和金融系统中的欺诈检测、自动驾驶系统中的交通预测和规划等。因此,鲁棒性研究是可信图神经网络不可或缺的关键环节。本综述总结了当前图神经网络鲁棒性的研究,并介绍了对抗性攻击和防御的分类以及一些典型的方法。其中,对抗性攻击的分类来源于对攻击威胁模型(threatmodel)的分析,如下图所示;防御的分类更多是基于技术的具体执行阶段(目标阶段)。在介绍不同类别的方法时,作者讨论了它们的特征与其他常见人工技术(如CNN)中使用的特征有何不同。例如,针对特定类型的扰动操作和攻击目标进行不同的分类和名称更改。此外,作者还对这些攻击和防御方法的适用性进行了讨论和总结。例如,作者从应用阶段、模块化和部署兼容性三个角度对不同类型的防御方法进行了比较和分析。最后,本综述根据现状提出了两个未来的研究方向,即开发标准化的鲁棒性评估和提高现有防御方法的可扩展性。5可解释性(Explainability)可解释性是指使图神经网络的预测结果为人类所理解的能力。如果人类无法理解其预测,人们将不会信任图神经网络。信任的缺失将进一步限制其在涉及公平(如信用风险预测)、信息安全(如芯片设计)、生命安全(如自动驾驶)等场景中的应用。因此,一个可信的图神经网络系统需要对其预测结果进行解释。在介绍了解释形式和解释方法类别等基本概念之后,这篇综述将涉及图神经网络可解释性的工作分为两类:可解释的GNN和事后解释器。可解释的GNN主要包括贡献估计、可解释模块的引入、嵌入原型学习和基本原理生成方法。事后解释器主要包括基于梯度/特征的方法、基于扰动的方法、替代方法和分解方法。)、生成方法等。在介绍了典型方法的原理之后,本综述对这些方法进行了综合比较,如下表所示:此外,本综述从自我解释和事后解释(可解释性和可解释性)入手,提供所需的背景知识用于解释(当前工作总结为四个方面:白/灰/黑盒知识)、获得解释的推理原理和其他限制。最后,该综述提出建立严格的模型不可知方法和针对实际应用的评估基准是未来图神经网络可解释性研究的两个方向。.6隐私(Privacy)隐私也是构建可信图神经网络时不可忽视的可信维度。在构建和维护可信图神经网络系统的过程中,模型本身或图数据等敏感和隐私信息存在泄露风险。因此,本文首先对当前隐私数据泄露相关研究进行总结,然后介绍各种隐私保护方法。针对隐私泄露问题,本文从当前隐私攻击的威胁模型入手,首先介绍潜在威胁的目标和能力,然后介绍模型抽取(modelextractionattack)、membershipinference(成员推理攻击)、model反转(模型反转)攻击)这三种常见的隐私攻击以及其他场景下隐私泄露的隐患。随后,综述介绍了四种隐私保护技术,即联邦学习、差分隐私、抗敏感训练和图神经网络环境下的安全计算。此外,在对上述技术进行分类介绍后,作者还讨论了它们的具体应用场景,以及隐私保护结束带来的隐私保护、模型准确性和实现效率之间的权衡。在本章最后,基于目前的研究现状,作者认为目前对梯度信息泄露隐患和隐私攻击防御(defenseagainstprivacyattacks)的研究还不够充分,有待进一步研究。将来需要。跟随探索。7公平通过保护弱势群体或个人的核心利益,公平的制度才能赢得人们的信任。一个公平的图神经网络系统意味着它的预测结果排除了对某些群体或个人的偏见。目前图神经网络主要以数据驱动的方式完成图计算任务。然而,图神经网络中的消息传播机制可能会进一步放大数据中已经存在的偏差。之后,由于个人喜好或行为偏差等因素,人们在与图神经网络服务交互的过程中,会进一步加深对图数据的偏见。在介绍了公平性定义(群体公平性、个体公平性、反事实公平性)和使用阶段(预处理、处理中、后处理)的基本概念之后,这篇综述应用了当前关于图神经网络公平性的研究。这些方法分为公平表示学习方法和公平预测增强方法。在介绍了这些方法的基本原理之后,对这些方法进行了综合比较,如下表所示。最后,本综述提出探索公平的定义和评价(fairnessdefinitionandevaluation)、对任务绩效的影响(influenceontaskperformance)、解释不公平的来源(revealingunfairness)是未来研究的需要。图神经网络的公平性。重点研究方向。8问责随着越来越广泛的应用场景和复杂的系统结构的出现,个人、企业和政府机构对可信图神经网络中的有效问责提出了更高的要求。近年来,中国、美国和欧洲的企业和政府机构就如何构建人工智能问责框架提出了各自的规划和指导意见。基于以上内容,本综述总结了图神经网络问责框架的三个要求:(1)应设计合理的评估和认证机制(评估和认证过程),并伴随整个图神经网络系统的开发和管理.(2)应保证开发和运行过程的可审计性;(3)应建立足够的协调和反馈机制,以促进人为干预(调整)、补救等措施,并惩罚不当行为。随后,该综述介绍了目前可用于在可信图神经网络系统中构建责任框架的两大类工作:基准测试和安全评估。本综述根据图神经网络的不同发展阶段——架构设计、模型训练和模型验证——介绍了基准分析的研究。对于安全评估,笔者主要介绍了验证系统完整性(integrityverification)的相关研究,并根据验证对象的不同分别介绍了数据完整性(dataintegrity)和过程完整性(procedureintegrity)的验证。最后,这篇综述提出了可信图神经网络问责制的三个研究方向。第一,为更多不同性质的违规行为提供违规检测;二是全流程的程序完整性检测和所有组件的数据完整性检测;三是继续提高体系的可审计性和完整性建立更加协调的反馈机制。9Environmentalwell-being值得信赖的图神经网络应该符合它们所部署环境的社会价值观。当前,全球变暖是人类社会亟待解决的重大环境问题。实现碳中和的宏伟目标需要社会各界的共同努力。为了降低图神经网络系统对环境的影响,在引入每焦耳节点数等相关指标后,本文总结了各种提高图神经网络效率的方法。(1)可扩展的图神经网络和高效的数据通信:随着图数据的爆炸式增长,大规模数据集对图神经网络的高效运行提出了挑战。为应对这一挑战,目前的技术主要包括采样方法、可扩展架构、工业应用、高效数据通信等。(2)模型压缩技术:随着技术的发展,研究人员提出了更深、更复杂的图神经网络模型来改进他们的表现。然而,这些模型的规模限制了它们在计算资源有限的边缘计算设备上的部署。因此,模型压缩技术是应对这一挑战的有效途径。相关技术包括知识蒸馏、模型剪枝、降低参数规模、模型量化等。(3)开发框架和加速器:图数据的不规则性、模型中稀疏和密集计算的交替、模型和应用的多样性使得图神经网络系统需要使用专门设计的框架和加速器来提高其效率。.为了解决这个问题,目前的方法主要有软件框架(SWframeworks)、硬件加速器(HWaccelerators)、效率瓶颈分析(analyzingtheefficiencybottlenecks)、软硬件协同设计(SW-HWco-design),ETC。最后,这篇综述提出探索高效的图神经网络(explorationofefficientGNNs)和研究GNN的加速器是未来促进图神经网络环境福祉的两个研究方向。10不同可信度之间的关系目前提升图神经网络可信度的研究主要集中在上述六个维度之一。关系,并从以下两个角度对此进行总结:1)可信GNN的一个方面的方法如何适用于解决其他方面的目标)。2)为什么推进可信GNN的一个方面可以促进或抑制其他方面。11未来研究方向本综述针对潜在的研究热点,将可信图神经网络作为一个整体来考虑,并分析了当前方法的局限性。为了填补当前的研究空白,促进可信图神经网络的产业化,本综述提出了以下五个研究方向:A.拥抱可信赖的设计理念(转向可信赖的GNNs)构建可信图神经网络需要研究人员充分与图神经网络从业者一起接受可信赖的概念。在设计图神经网络时,不仅要考虑其任务性能,还需要将可信度的概念引入到图神经网络的设计哲学中。已有的一些工作在设计中兼顾了可解释性和公平性,极大地提高了图神经网络的可信度。此外,解决在向可信图神经网络迁移过程中面临的一系列开放性问题也很重要,例如不同可信度维度(例如鲁棒性和环境福利)的权衡和取舍。自动驾驶)在特定应用中。一个具有挑战性的研究方向。B.探索可信赖的GNN的其他方面可信赖的GNN实际上涵盖的不仅仅是本综述中介绍的六个维度。例如,泛化也被认为是可信系统的一个重要维度。目前的一些研究探索了图神经网络外推(extrapolation)与其使用的激活函数之间的关系。这些工作丰富了可信度的内涵,促进了可信图神经网络的构建。此外,审查指出,妥善处理与可信系统相关的设计原则(如国家新一代人工智能治理专业委员会发布的《新一代人工智能治理原则——发展负责任的人工智能》)也是可信图神经网络未来发展的重要研究内容.C.StudyingDiversifiedRelations本综述仅涉及可信图神经网络不同维度之间复杂关系的一部分。探索其他相互关系,例如可解释性和公平性,对于充分理解和构建可信赖的图神经网络系统至关重要。此外,这些关系不仅复杂,而且存在于多个层面。例如,反事实公平在概念上类似于鲁棒性。因此,从概念、方法、效果等不同层面探讨可信图神经网络不同维度之间的关系,也是一个很有前景的研究方向。D.设计与模型无关的方法目前,许多提高图神经网络可信度的方法都需要使用专门设计的图神经网络架构。如果您无法访问或修改目标网络架构(例如使用云服务),这些方法将不起作用。这大大降低了这些可信度增强方法在现实场景中的实用性。相比之下,与模型无关的方法可以以即插即用的方式灵活地应用于图神经网络系统。此外,这些方法还可以以功能模块的形式组合使用。因此,设计与模型无关的方法将大大增强其实用性并促进可信图神经网络的构建。E.为可信赖的GNNs建立技术生态系统作为一个蓬勃发展的领域,可信图神经网络的发展离不开技术生态系统的支持。这里的技术生态包括但不限于工具、数据集、指标和管道。由于图数据的固有特性,目前的一些工具包(tools)如IBM的AI360可能无法直接用于图神经网络的评估。例如,节点之间边的存在打破了节点上的独立同分布(IID)假设,这导致在研究图神经网络的公平性时需要考虑节点之间的相互依赖性。此外,由于应用场景的多样性,构建可信的图神经网络还需要数据集、指标、评价标准、适用于不同任务和场景的软件平台等配套技术设施。因此,建立相应的技术生态是可信图神经网络研究和产业化的关键一步。
