的系统在运行过程中会产生大量的时序数据。通过这些时序数据发现系统可能存在的异常,对于保障系统安全、设备平稳运行、避免经济损失具有重要意义,例如大型服务器、地面和空中、水电设备的监控。因此,清华大学软件学院团队专注于无监督时序异常检测问题,被ICLR2022收录为Spotlight。作者:徐杰辉*、吴海旭*、王建民、龙明生论文链接:https://openreview.net/forum?id=LzQQ89U1qm_在实际应用中,时间序列数据的异常检测难度极大,需要着手从显性上发现正常数据中的异常点或异常时间模式涉及到两个核心问题:(1)如何通过网络获取更多的信息表征,使异常表征不至于被“淹没”在正常数据中;(2)如何基于学习到的异常筛选表征来定义更具辨别力的标准。1.Motivation从时间序列的本质属性出发,我们发现每个时间点都可以用它与整个序列的关联来表示,即它在时间维度上的关联权重分布。与点级特征相比,这种关联隐含了序列模式信息,如周期、趋势等,因此信息量更大。同时,与正常点相比,离群点很难与正常模式主导的整个序列建立强关联关系,它们往往更关注相邻区域(由于连续性)。因此,这种与整体序列相关的差异,先验邻域,为异常检测提供了一个自然的、强烈的判别标准。基于以上观察,我们提出了AnomalyTransformer模型来实现基于AssociationDiscrepancy的时序异常检测。它包含了Anomaly-Attention机制分别对两种形式的关联进行建模,同时使用Minimax关联学习策略进一步增加正常点和异常点之间的差异。值得一提的是,AnomalyTransformer在不同领域的五个数据集上取得了SOTA性能。2.方法2.1AnomalyTransformer2.1.1总体架构与标准Transformer模型相比,AnomalyTransformer在每一层都设计了一个新的Anomaly-Attention单元,从多层次的深度特征中学习潜在的时序关联。整体架构如上图所示。Anomaly-Attention(左)同时建模了数据的先验关联(Prior-Association,更关注相邻区域的先验)和序列关联(Series-Association,从数据中挖掘出来的依赖)。除了序列重建任务,我们的模型还使用了极小极大策略(Minimax)来进一步拉大异常点和正常点之间的差距,从而更容易检测到异常点。2.1.2Anomaly-Attention为了计算相关差异,我们提出了一种新的注意力机制Anomaly-Attention,用于先验相关和序列相关的统一建模。(1)先验相关性用来表示由于时间序列的连续性,每个时刻更关注其相邻区域的先验。我们采用具有可学习尺度参数的高斯核函数来表示它。高斯核函数的中心位于相应时间点的索引处。由于高斯分布本身的单峰分布特性,这样的设计可以帮助学习到的权重自然地集中在相应时间点的邻域内。同时,自适应尺度参数可以帮助先验关联动态适应不同的时间模式。(2)序列关联用于表示直接从序列数据中挖掘的依赖关系。其计算方式类似于标准Transformer的注意力矩阵的计算方式。注意力矩阵中每一行的权重分布对应于一个时间点的序列关联。同时,为了更好地完成序列重构任务,模型会自动挖掘合理的时序依赖关系。通过以上设计,模型可以分别捕获先验关联和序列关联。与以前的模型相比,这种基于关联的表示包含更丰富的信息。2.1.3AssociationDiscrepancy(关联差异)我们将associationdiscrepancy定义为两者之间的差异,作为后续异常检测的准则,由每个level的先验关联和序列关联之间的对称KL距离计算得出:2.2MinimaxAssociationLearning除了在无监督任务中广泛使用的重建误差外,我们还引入了额外的关联差异损失来增加正常点和离群点之间的差距(如下所示)。由于priorassociation的单峰性,新增的associationdifferenceloss会驱动sequenceassociation更加关注非相邻区域,这会使得异常点的重建更加困难,正常点和异常点的区分点会更难。简单的。但实验发现,如果直接最小化相关差异,先验分布中可学习的尺度参数会急剧减少,导致模型退化。因此,我们使用极小极大策略来更好地控制关联学习过程。(1)在最小化阶段,固定序列相关性,近似先验相关性,使先验相关性适应不同的时序模式。(2)在最大化阶段,固定先验相关性,优化序列相关性,使相关性之间的差异最大化。这个过程可以让序列关联更加关注非相邻点和全局点,使得异常点的重建更加困难。.最后,我们将标准化的相关差异与重构误差相结合,定义了一个新的异常检测准则:3.实验我们对5个标准数据集进行了模型验证,涵盖服务检测、地空探索等应用。AnomalyTransformer在所有五个基准测试中都达到了SOTA性能。更多基准模型和数据说明,请参见论文。3.1消融实验我们设计了消融实验来验证所提出的先验关联、训练策略和新异常标准的有效性。3.2准则分析对于五种时序异常,我们可视化了它们在不同异常准则下的区别。可以发现,基于相关性差异的异常判断曲线具有更准确的区分。3.3PriorAssociationAnalysis对于上述不同的异常类别,我们还提供了在先验关联中学习到的参数的可视化。如图所示,异常点往往小于序列中的其他点,这意味着它与非相邻部分的连接较弱,这也证实了异常点很难与序列建立强连接整个序列先验。4.总结本文针对无监督时间序列异常检测问题,提出了一种基于相关差分的异常检测模型Anomalytransformer,并通过极小极大相关学习策略极大地提高了模型的异常检测能力。Anomalytransformer在服务器监控、地空探测、水流观测等应用中展现了出色的异常检测效果,具有很强的应用价值。
