论文地址:https://arxiv.org/abs/2205.15508代码地址:https://github.com/squareRoot3/Rethinking-Anomaly-DetectionAnomalyDetectionforStructuredGraphData:BackgroundandChallenges异常检测是其中之一数据挖掘的经典任务。分析异常数据有助于企业或用户了解其背后的形成机制,从而做出相应的决策,避免损失。随着网络的发展,针对结构化数据的异常检测,即图异常检测越来越受到重视。图异常检测可以具体定义为:在图上寻找与其余大部分对象具有不同分布规则的少数对象(节点、边、子图等)。本文主要研究图上异常节点的检测任务。与传统的异常检测方法相比,图异常检测可以利用不同实体之间的关联信息,更好地服务于网络安全、欺诈检测、巨魔检测、金融风控、故障监控等实际场景。下图直观地比较了传统异常检测和面向图的异常检测任务的区别。图1:传统异常检测和面向图形的异常检测任务的比较。近年来,图神经网络已成为分析和处理结构化数据的有力工具。图神经网络通过学习包含节点自身特征和邻居信息的嵌入式表示,可以更好地完成分类、重建和回归等下游任务。但通用图神经网络(如卷积网络等)主要针对正常数据设计,在异常检测任务中容易出现“过度平滑”问题,即异常节点和正常节点的表达难以区分,影响异常检测的准确性。例如,在金融欺诈检测的实际应用中,异常账户通常会与多个正常账户进行正常交易,以伪装自己,降低可疑性,进而进行非法交易。这种“关系欺诈”进一步增加了图异常检测的难度。为了解决上述困难,研究人员专门提出了一种用于异常检测任务的图神经网络模型,包括(1)利用注意力机制从多个视图聚合邻域信息;(2)采用重采样的方法聚合不同类别的邻域信息;(3)设计额外的损失函数来辅助图神经网络的训练等。这些方法主要是从空间域的角度设??计图神经网络来处理异常,而没有人从谱域的角度考虑问题。事实证明,选择不同的光谱滤波器会影响图神经网络的表达能力,从而导致性能差异。另一种方式:从谱域的角度进行图异常检测为了填补现有研究的空白,本文希望回答这样一个问题:如何为图神经网络定制一个谱滤波器来进行异常检测?本文首次尝试从谱域的角度分析图上的异常数据,观察到异常数据会导致谱能量“右移”,即能量较少集中在低频多集中在高频。为了可视化这种右移现象,研究人员首先随机生成了一个有500个节点的Barabási–Albert图(BA图),并假设图上正常节点和异常节点的属性服从两种不同的高斯分布,其中Outlier节点具有较大的方差。图的上半部分显示了包含不同程度异常的数据在BA图上的分布,下半部分显示了相应的光谱能量分布。其中,直方图表示对应频谱区间的能量占比,折线图表示从零到该点的频域能量累计占比。图2:光谱能量“向右移动”现象的可视化。从上图可以看出,当异常数据占比为0%时,大部分能量集中在低频部分(λ<0.5)。通过增加异常节点相对于正常节点的方差σ或比值α,数据的异常程度逐渐增加,频谱低频部分的能量逐渐降低,高频部分相应增加。本文基于高斯分布假设,从理论上严格证明了数据异常度的增加与谱能量的“右移”之间存在单调关系。在实际场景中,异常数据通常服从更复杂的分布。在四个大规模图异常检测数据集上,研究人员也证实了“右移”现象的存在。下图以亚马逊异常用户检测数据集为例。当删除数据中的一些异常节点时,频谱上的低频能量显着增加,而高频能量则相应降低。如果去除相同数量的随机节点,光谱的能量分布几乎没有变化。这进一步验证了异常值数据是光谱能量“右移”的关键。图3:Amazon异常用户检测数据集删除不同节点对谱能量分布的影响:TheOriginal、Drop-Random、Drop-Anomaly是图异常检测的新工具:上一节BetaWavelet上的分析GraphNeuralNetworks表明需要注意图异常检测中的“右移”效应。比如上面的Amazon数据集中,特征值λ=1附近的光谱信息与异常数据高度相关。为了更好地捕捉异常信息,图神经网络需要具备带通滤波器的性质,只保留λ=1附近的信号,同时滤除其余信号。不幸的是,现有的大多数图神经网络都是低通滤波器或自适应滤波器,不能保证带通特性。虽然自适应滤波器具有拟合任意函数的能力,但在异常检测中也可能退化为低通滤波器。这是因为在整个数据集中,异常数据对应的高频信息所占比例很小,而大部分频谱能量仍然集中在低频。为了更好地处理异常数据引起的“右移”,研究人员提出了一种新的图异常检测方法——BetaWaveletGraphNeuralNetwork(BWGNN)。他们借鉴Hammond图小波理论,设计了一种新的基于Beta函数的小波核作为图神经网络的谱滤波器。与常用的热核(HeatKernel)函数相比,作为小波核的Beta函数不仅满足带通滤波器的要求,而且具有更好的频域局部性和空间域局部性。下图比较了thermokernelwavelet和Betakernelwavelet的区别。图4:热核小波和Beta核小波在谱域(左)和空间域(右)的比较,Beta函数具有更好的带通和局部特性。本文验证了BWGNN在四个大型图异常检测数据集上的性能。其中,Yelp数据集面向评论网站异常评论检测,Amazon数据集面向电商平台异常用户检测,T-Finance数据集面向异常评论检测交易网络用户,T-Social数据集面向社交网络异常用户检测,包括多达500万个节点和7000万个边。从下表可以看出,与传统分类模型、通用图神经网络和专用图异常检测模型相比,BWGNN在40%训练数据和1%训练数据(半监督)两种场景下均取得了更好的效果).影响。在运行效率上,BWGNN接近大多数通用图神经网络的耗时,比其他图异常检测模型更高效。综上所述,在这篇论文中,研究人员发现图上异常节点的出现会导致谱能量“右移”,这为结构化数据的异常检测提供了新的视角。基于这一发现,本文提出了一种新的图形异常检测工具——BetaWaveletGraphNeuralNetwork(BWGNN)。它使用专门设计的带通滤波器来捕获“右移”产生的高频异常信息,并在多个数据集上取得最优结果。在实际实现中,图异常检测通常是一项复杂的系统工程,而选择合适的图神经网络是影响系统性能的关键因素。研究人员提出的BWGNN设计简单、复杂度低、易于替换,是图神经网络的新选择。
