侧边栏壁纸
博主头像
人工智能知识分享博主等级

行动起来,活在当下

  • 累计撰写 60 篇文章
  • 累计创建 21 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

基于图的时间序列异常检测综述

灏天
2024-03-13 / 0 评论 / 0 点赞 / 8 阅读 / 21564 字 / 正在检测是否收录...

基于图的时间序列异常检测综述

摘要

随着技术的最新进步,各种系统随着时间的推移继续收集大量数据,从而生成时间序列。在电子商务、网络安全和医疗保健监测等各种应用中,检测时间序列数据中的异常是一项重要任务。然而,时间序列异常检测(TSAD)是非常具有挑战性的,因为它需要同时考虑时间依赖性和结构依赖性。最近基于图形的方法在应对这一领域的挑战方面取得了令人印象深刻的进展。在这项调查中,我们对基于图形的时间序列异常检测(G-TSAD)进行了全面和最新的综述。

首先,我们探索了基于图形的方法在识别时间序列数据中不同类型异常方面的巨大潜力。然后,我们对时间序列背景下的最新图形异常检测技术进行了结构化和全面的综述。最后,我们讨论了该研究领域的技术挑战和可能的未来改进方向。

1.引言

时间序列被定义为一个有序的值序列,表示一个变量(也称为单变量)或多个变量(或称为多变量)随时间的演变[Schmidl等人,2022]。时间序列数据也称为带时间戳的数据,即时间序列数据中的变量可以定义为系统在特定时间点的状态;例如,在计算机视觉任务中,变量是视频序列中的单个帧,在工业应用中,变量为传感器记录的时间序列数据。在图形术语中,变量被视为图形中的一个节点。由于时间是一切可观测事物的组成部分,时间序列数据在地球上随处可见,如自然界(如风速、温度)、营销和工业活动(如股价)、医学(如心脏和大脑活动)。因此,时间序列数据及其分析在过去十年中引起了人们的极大兴趣。尽管有静态数据(如图像),但时间序列数据的分析需要理解潜在的数据模式,如表示序列平均行为的趋势、表示数据周期性的季节性以及表示序列中意外行为的不规则性。因此,时间序列分析涉及广泛的任务。例如,最常见的目标是观察过去的行为并做出预测。其他共同目标是搜索趋势和季节变化,发现变量之间的相关性,然后对基于时间的相关性进行建模,并检测异常行为。

时间序列异常检测(TSAD)是一种识别不符合预期行为的异常模式的过程,已被广泛研究[Brazquez´et al.,2021]。传统上,领域专家已经提出了单变量TSAD的算法,其中即使存在多个变量,也通过检查一个单一变量来检测异常[Zong等人,2018;Ren等人,2019;Kieu等人,2019年;Lai等人,2021;Rebjock等人,2021年;Wu和Keogh,2021;Kim等人,2022b;Deng等人,2022a;Hojjati和Armanfard,2022]。然而,存在许多实际的、真实世界的系统,变量经常相互作用,即变量之间存在高度相关性和/或依赖性(例如,水处理系统中的传感器、测量大脑活动的电极)。因此,分析单个时间序列不能很好地代表整个系统的状态;因此,基于单个变量检测异常或天真地组合多个单变量时间序列的AD结果在TSAD任务上产生较差的性能。尽管最近已经提出了许多可以捕捉不同时间步长的时间依赖性的多变量TSAD研究来分析信号【Zhang et al.,2019;周等人,2019;Audibert等人,2020;张等人,2021;Abdulaal et al.,2021;Chen et al.,2021a;张等人,2021;Tuli et al.,2022】和视频【Morais et al.,2017;冯等人,2021,Georgescu等人,2021年;Huang等人,2022;Ristea等人,2022年;吴等人,2022】,但这些现有方法都无法同时捕捉这两者时间依赖性和结构依赖性。根据相关文献,我们将变量之间的关系称为结构依赖关系。一种有效的AD算法是通过标记异常时间段和相应的变量来准确识别异常发生的“时间”和“地点”的算法。由节点和边组成的图是表示变量网络中复杂关系的一种方法,其中节点表示变量,边表示它们的关系。

近年来,基于图的方法引起了人们对AD的极大关注[Ma et al.,2021;刘等人,2022b;谢等人,2022]。这导致了最先进的图异常检测(GAD)方法的快速发展,该方法旨在识别异常图对象(例如,图的节点、边、子图和图数据库中的异常图)。认识到基于图的方法(GA)、GAD和TSAD的重要性,最近引入了许多调查论文,并对这两个主题进行了扎实的综述。然而,如表1所示,现有的审查工作都没有将重点放在基于图形的TSAD上。尽管图形在TSAD中的使用是机器学习(ML)社区最近感兴趣的一个话题,但它在TSAD方面取得了显著的成就,并产生了最先进的性能。因此,在这项调查中,我们对这一日益增长的研究领域进行了全面和最新的概述,称为基于图的时间序列异常检测(G-TSAD)。

本次调查的贡献如下:•G-TSAD的第一次调查。据我们所知,这是第一次使用图表回顾TSAD最先进技术的调查。到目前为止,所有相关调查都集中在GA、TSAD或GAD上,没有关于G-TSAD的专门和全面的调查报告。我们的工作弥补了这一差距,我们希望一项结构化和全面的调查将有助于推动这一活跃领域的研究。•G-TSAD的详细概述。我们分析了TSAD中的关键挑战,提出时间序列数据的图表示学习的核心动机,以及基于图的时间序列异常的类型。•系统全面的审查。我们对最先进的G-TSAD方法进行了全面和最新的审查,并将其分为三组,以提高其清晰度和可访问性。这些类别包括基于生成、基于预测和对比的自我监督方法。•展望未来方向。我们指出了当前研究的技术局限性,并为G-TSAD的未来工作提出了有希望的方向。

2.G-TSAD概述

2.1时间序列数据的挑战

时间是许多任务中的一个关键因素,因为变量可能会随着时间的推移而变化和演变。然而,处理时间敏感数据需要仔细考虑几个因素,如时间性、非平稳性和噪声。这些挑战在多变量时间序列数据中比单变量时间序列分析更为显著,因为必须同时考虑时间和结构信息。

暂时性。多元时间序列X={X t}t∈t是k维向量的有序集合,其中每个向量都记录在特定时间t∈t⊆Z+并且由k个实值组成,表示为x t=(x t1,xt 2,xt k),即x t∈R k

由于序列中的每个连续观测都取决于其过去的值,因此在当前状态和先前状态之间存在时间依赖性。观测序列的联合分布由链式规则[CChoi et al.,2021]表示为:

其中条件概率p(·|·)表示当前状态和先前状态之间的时间依赖性。

非平稳性。如前所述,在分析时间序列数据时,重要的是要考虑在任何给定时间点影响统计特性(如平均值、方差等)的趋势、季节性和不规则性。因此,时间序列数据被认为是非平稳的,这可能容易误导AD方法,因为某些时间戳的异常可能不是真正的异常[Kim等人,2022b]。因此,能够适应数据结构变化的检测方法通常需要大量的数据。

维度。当前的技术进步使我们能够记录大量的多变量时间序列数据,以捕捉观测之间的时间和空间相关性。这样丰富的数据集的存在使我们能够设计出在各种数据集之间一致且可靠的时间序列分析。考虑到每个变量的每个数据点都可以被视为一个数据维度,我们在设计算法时面临着维度诅咒的挑战。

因此,需要开发能够处理这种复杂和高维数据的算法。

噪音当谈到TSAD时,在噪声和异常之间进行语义区分是很重要的。噪声在现实世界的系统中被认为是一个面包和黄油的问题,它是一种随机的、不必要的变化,会降低时间序列数据的质量。例如,噪声是影响整个时间序列的传感器的微小波动或灵敏度。

在这种情况下,应该消除噪声以提高数据质量。尽管相对于一组预先建立的正常观测而言,异常是一个不寻常的实体,但在地球科学中的生态系统紊乱、喷气式涡轮机工程中的结构缺陷、心脏病学中的心力衰竭或大脑癫痫发作等应用中,这是一个有趣而重要的现象活动因此,了解噪声的性质并应用适当的降噪技术以避免与异常概念混淆是至关重要的。

2.2动机:为什么基于图表?

与传统的ML方法相比,基于深度学习的方法已被证明在处理TSAD和多变量时间序列数据方面更有效,因为它们更适合处理高维数据和学习复杂信息(例如,时间依赖性);因此,他们获得的结果更具普遍性,不太容易过度拟合[CChoi et al.,2021]。然而,一个主要的缺点仍然没有解决,即没有考虑结构信息和变量之间的关系,导致对高维数据的拟合不足,从而导致TSAD性能较差。同时,许多真实世界的时间序列系统可以建模为图,其中节点被视为变量(例如,传感器、图像帧、快照等),边表示变量之间的关系。图表显示了在许多时间序列应用中表示和捕捉复杂数据模式的能力,如水处理厂、卫星系统、土壤水分主动/被动系统、视频、心脏和大脑网络、物理交互网络等。

图1:显示TSAD和G-TSAD之间差异的示例。

图1通过一个测量大脑活动的传感器系统示例显示了TSAD和G-TAD之间的差异。

传统TSAD技术将剪辑作为输入,并且仅使用特征知识来识别剪辑是否异常。请注意,剪辑包括在预先指定的时间段内由大脑传感器记录的所有大脑信号(作为一个整体)。因此,这些技术无法研究单个大脑通道、区域或大脑区域之间的关系,而这些通道、区域在定位大脑中的异常区域方面非常重要。然而,G-TSAD可以解决这个问题,因为图形有可能捕捉单个通道的特征、通道及其特征之间的可能关系以及随时间的变化。因此,对于每个剪辑,G-TSAD能够识别图形异常对象(例如,通道、区域和关系)。

用于表示时间序列数据的图应该同时显示时间和结构相关性。我们称这样的图为动态图。动态图,也称为最大时间戳为T的图流,由G={Gt}表示

T T=1,其中每个G T=(V T,E t)是时间t∈R时的图+。节点的集合V t和边的集合E t随着时间而改变。节点数和每个Gt中时间戳t处的边分别由n t=|Vt表示|和mt=|Et|。

关于结构依赖性{i,j}=(v t i,vtj)∈Et,其中v t i,vtj∈vt,表示节点vt i和vt j之间存在关系同时,G中的时间依赖性表明存在边e{i t,jt−1}=(v t i,vt−1 j),其中v t i,vt−1 j∈Et,E t−1,表示当前状态和先前状态的节点之间的关系。

注意,在大多数G-TSAD研究中,图流中的每个图都被视为属性图,表示为Gt=(在,Xt节点,Xt边),其中At∈Rn×n是邻接矩阵,Xt结点和Xt边分别是随时间演化的节点特征矩阵和边特征矩阵。

2.3基于图形的时间序列异常

图2:具有两个连续时间戳的动态图中的异常节点、边和子图的示例。

由于图被认为是动态的,动态图中的时间和结构变化都是按时间索引的,即节点和边缘特征及其关系在每个时间步长都会发生变化。因此,在本节中,我们将动态图中出现的异常分为四种类型:异常节点、边、子图和图。由于动态图引入了时间和结构信息,并且时间序列数据中存在大量时间戳,因此检测动态图中的异常对象比其他情况更具挑战性[Liu et al.,2022b]。

图2中显示了图中一个异常节点、两个异常边和一个异常子图的示例。请注意,三种类型的图异常显示在图2中的单个图中。然而,在实践中,很少有工作能够同时检测动态图中的多个异常对象。这将在第4节中进一步讨论。在本例中,显示了两个时间戳,都有九个节点。每个节点的特征都显示在该节点的顶部,每个节点有四个特征。在第一个时间戳中,所有节点和边都定义为法线。然而,异常节点v7和两个异常边e{6,8},e{8,9}

示出了它们的结构和特征与图中的其余节点/边相比的不规则演变,如第二时间戳中所示。与异常节点或边不同,在异常子图中,每个节点和边都可能是正常的,但当被视为大多数节点及其关系不正常的一组时,它们就会被证明是异常的。由于子图的大小和内部结构也各不相同,检测异常子图比节点和边更具挑战性。关于图级异常,它们被定义为图流中的异常图——更具体地说,给定一系列图,即异常图可以根据其不寻常的结构和特征的演变模式来区别于其他图。在大多数应用程序中(例如,在视频中),识别图形流中图形异常的时间戳也很重要。

一般来说,给定一个动态图G={Gt}T T=1,检测异常的目标是产生可学习的异常评分函数f,该函数在时间戳上将异常评分分配给节点、边、子图和图,分别表示为f(vt)、f(et{i,j}),f(Ht)和f(Gt),其中Ht⊆Gt表示子图。f(·)越大,图形对象异常的概率就越高。

3.G-TSAD方法及应用

图3:三类G-TSAD的比较:基于生成、基于预测和对比自监督方法。

在本节中,我们讨论了三种类型的G-TSAD方法,包括基于生成的、基于预测的和对比自监督的方法。请注意,来自这三种方法类别的大多数现有研究仅在正态图数据上训练,而测试集还包括异常数据,以验证方法的检测性能。

图3显示了这三个类别之间的主要区别。基于生成的技术学习正常数据的表示以及如何从嵌入空间重建正常模式。然后,他们根据测试数据的重建误差来检测异常。基于预测的方法学习基于先前观察到的数据来预测正常数据的未来模式。然后,他们根据预测误差检测异常。最后,作为一种新兴的范式,对比自监督方法通过解决一些精心设计的辅助任务(即借口任务),只访问正常数据,从而学习到更合适的嵌入。。这些方法在G-TSAD任务上提供了更好的性能和泛化能力。请注意,这三种方法都从两个角度学习基于图的表示:图的特征和结构。

在本节末尾,我们提供了一个表(即表2),其中列出了具有代表性的G-TSAD方法、它们的相关学习任务(在第2.3节中讨论)以及它们的目标应用案例。

3.1基于生成的方法

基于生成的方法将每个时间戳的完整图作为输入,并旨在重建其组件:

节点/边特征和邻接矩阵。这种方法的起源可以追溯到自动编码器(AE),一种编码器-解码器框架,其中编码器网络Eθ

(由θ参数化)学习将图数据压缩为低维表示(即嵌入),解码器网络Dφ(由φ参数化)旨在重建输入。该框架可表述如下:

其中目标函数L通常是均方误差(MSE)或交叉熵(CE)损失。

DeepSphere[Teng et al.,2018]是GTSAD的首个AE作品。它将长短期记忆(LSTM)AE与超球学习相结合,以支持的方式捕捉给定图在不同时间步长的邻接矩阵的时空依赖性,然后重建正常模式。位于超球面外且距离较大的图形对象往往是异常的。当为每个图分配异常分数时,该知识用于修改基于LSTM的AE的最终重建误差。

MTHL[Teng et al.,2017]还利用超球面学习来学习具有软约束的法线动态图周围的紧致超球面。这个学习到的超球体可以区分正常和异常的边。

受AE的启发,许多研究最近开发了基于变分自动编码器(VAE)的生成算法,以提高G-TSAD的性能。[Chen et al.,2022]提出了一种概率方法,称为深度变分图卷积递归网络(DVGCRN),用于对时间序列通道之间的分层非确定性相互关系进行建模,同时,以对多级时间依赖性和高斯分布式信道嵌入进行建模,从而捕获不同信道的相似性和随机性。异常是通过重建损失来检测的,即观察越是遵循异常模式,就越有可能无法重建。另一种基于VAE的方法,称为GReLeN[Zhang et al.,2022b],结合了图神经网络(GNN)和随机图关系学习策略来捕捉传感器之间的依赖性。然后基于重建为每个传感器分配异常分数。

其他研究表明,基于生成的方法的另一个分支,即生成对抗性网络(GAN),取得了显著的G-TSAD结果。例如,[梁等人,2021]提出了基于互相关图的编码器-解码器GAN(CCG-EDGAN),它由一个生成器和一个鉴别器组成,前者通过编码器-解码器-编码器结构生成最相似的伪数据,以捕捉序列相关图的内部特征和结构,后者对真实数据或重建数据进行分类。从编码器-解码器结构获得基于重建的异常分数。其他类似的工作,如HAD-MDGAT[Zhou et al.,2022a],将GAN和多头动态图注意力相结合,以同时学习传感器之间的时间和结构依赖性。

基于重建分数再次检测异常。STGAN[Deng et al.,2022b]通过生成器从正常交通网络中学习时空特征、历史趋势特征和外部特征,而正常和异常数据通过鉴别器进行区分。然后由生成器和鉴别器组件检测异常——即生成器检测流量网络的突然变化,而鉴别器计算真实序列和伪序列的鉴别器分数之间的差异。

有趣的是,最近一个基于归一化流(NF)的深度生成模型已经应用于G-TSAD,该模型表明其训练过程比VAE和GAN更稳定,更容易收敛。它是一种利用概率变化规律将基本分布转换为目标分布的统计方法。[Dai和Chen,2022]证明NF通过对历史数据的连续条件作用来表达序列的密度;因此,条件流可以学习时间序列数据的条件密度。因此,异常位于数据分布的低密度区域。特别是,他们提出了图增广NF(GANF),以沿特征、时间和序列维度对密度进行因子分解;他们使用基于图的依赖编码器来学习建模的贝叶斯图的图邻接矩阵的演化,并识别跨越长时间段的分布漂移。另一项名为OmniAnomaly[Su et al.,2019]的工作使用平面NF,它采用一系列可逆映射来学习潜在随机空间中的非高斯后验分布。OmniAnomaly还结合了门控递归网络和VAE,以捕捉潜在空间中图的随机变量之间的时间相关性。异常程度也根据重建得分进行排序。

3.2基于预测的方法

在这种方法中,异常是通过一个预测过程来检测的,即所谓的时间序列预测,这是将模型拟合到带有时间戳的历史数据中以预测未来值的任务;在每个时间戳t,该方法计算期望的图G’t+1。然后将异常分数计算为预期图G’t+1和实际图G’t+1之间的差。与基于生成的方法相比,时间序列预测问题是一项艰巨的任务,因为必须深入学习跨时间戳序列的时间复杂性。因此,除了图邻接矩阵表示的图特征和结构外,还考虑了其他重要因素,如节点度和节点之间的最短路径长度,以帮助捕获长距离依赖关系。基于预测的方案的公式定义如下:

其中L是MSE、根MSE(RMSE)或CE损失。

最近的许多研究表明,图神经网络(GNN)在分析时间序列预测问题的图的特征和内部结构方面具有潜力。例如,[Deng和Hooi,2021]提出了一种基于图形注意力的预测(GDN),以基于过去预测每个传感器在每个时间的行为。这有助于识别与预期行为大相径庭的传感器。基于图注意力的特征提取器本质上用于将节点的信息与其邻居融合(即,对邻居进行注意力,这允许对不同的传感器类型产生异构影响)。然后通过重建误差来计算每个时间步长t处的异常分数。MTAD-GAT[赵等人,2020]还利用图形注意力网络来学习传感器和时间戳之间的关系,以对时间依赖性进行建模。此外,它还利用了基于预测的模块(用于RMSE的单时间戳预测)和基于重建的VAE模块(用于捕获整个时间序列的数据分布)。受GDN的启发,另一项名为FuSAGNet[Han和Woo,2022]的工作,除了GNN之外,还添加了稀疏自动编码器(SAE),以在其潜在空间中诱导稀疏性。引入稀疏性约束的联合优化来优化SAE和GDN。因此,通过重建和预测得分来计算异常得分。

一项名为GTA[Chen et al.,2021b]的有趣工作提出了基于Gumbelsoftmax采样方法的连接学习策略,以学习传感器之间的双向边,从而避免了通过前K近邻方法选择节点近邻的问题。然后,开发了一个基于Transformer的架构来学习图结构,并使用图卷积从图序列中充分探索时间上下文建模过程。然后采用基于预测的策略来预测下一时间步长的图,并通过MSE返回每个时间戳的异常分数。

SEDANSPOT[Eswaran和Faloutsos,2018]和Midas[Batia et al.,2020]对从动态图中检测边缘流中的异常边缘表现出类似的兴趣,但他们对异常分数提出了不同的假设。

SEDANSPOT设计了一个异常评分函数,如果将边缘添加到边缘样本中会导致其入射节点之间的距离发生较大变化,则该函数会为边缘提供更高的分数。

Midas计算当前时间戳中边缘出现次数的高斯似然性,如果似然性低于可调阈值,则声明异常,这是为了保证误报概率。

序列图[Boniol和Palpanas,2022]显示了检测异常子图的有趣任务。它将子序列定义为数据序列的局部区域。节点是根据子序列的重叠轨迹创建的,边表示原始序列中子序列之间的转换,还指示原始序列中两个子序列相继出现的次数。Series2Graph可以学习图形的表示-导致对应于正常行为的重复子序列和对应于异常的很少出现的子序列之间的区别。

评分基于边缘权重和节点度。

另一项序列预测研究称为Eland[赵等人,2021],提出了基于动作序列增强的Seq2Seq编码器-解码器网络实现早期G-TSAD的想法。Eland使用GNN来训练具有CE损失的基于增广图的序列,以最大化预测序列和实际序列之间的余弦相似性。

虽然上述研究在训练阶段只使用了正常数据,但一些研究,如GCLNC[Cong et al.,2019]、WAGCN[Cao et al.,2022]和WSANV[Li et al.,2042b],在训练阶段利用了弱监督标签(例如,包括噪声标签作为正常图的错误注释)来改进视频中异常片段的检测。由于视频序列在片段之间具有时间演化,这些方法不仅基于时空特征的相似性,而且基于视频片段的时间接近度来构建图,以捕捉片段之间的相关性关系。请注意,它们不是定义邻接矩阵,而是在训练模型时动态调整邻接矩阵。考虑其他视频片段对当前视频片段的影响来产生每个片段的异常概率分数。

3.3对比自监督方法

自监督学习(SSL)是无监督方法的一个子集,它为无注释标签的训练数据提供了新的见解,并在图上产生了最先进的性能[Liu et al.,2022b]。SSL的直觉是通过精心设计的借口任务从大量未标记的数据中学习可转移的知识,然后将学习到的知识推广到下游任务[Hojjati et al.,2022]。在G-TSAD研究中,一种称为对比学习(CL)的SSL用于所有研究。它是根据互信息(MI)最大化的概念发展起来的;即,相同图对象(例如,节点、边等)的扩增样本之间的MI被最大化。这种方法可以正式描述如下:

其中L是对比损失,Get(1)和Get(2)是Gt的两个不同的增广样本

,Dφ是估计两个增广样本Get(1)和Get(2)之间一致性的鉴别器。借口任务旨在最大化正对之间的MI(例如,来自相同图对象的扩增样本),同时最小化负对之间的MI(例如,源自不同图对象的增强样本)。请注意,在图上应用扩充技术比任何其他数据类型都要困难得多[Liu et al.,2022b]。这将在第4节中讨论。

AddGraph[Zheng et al.,2019]引入了负采样策略来生成负图样本。

由于在训练阶段所有边缘都被假设为正常(即正),AddGraph为每个正边缘考虑从伯努利分布采样的负(即异常)边缘。然后,AddGraph采用基于注意力的时态图卷积网络(GCN)来支持动态大型图中的时间依赖性学习。节点在每个时间戳的隐藏状态用于计算所有边的异常概率。由于生成的负边缘可能仍然是正常的,因此使用基于裕度的成对损失,而不是诸如CE之类的严格损失。与AddGraph类似,由于训练集中的所有可用边都是正的,TADDY[Liu et al.,2021]随机采样相同数量的负边,并确保它们不属于现有的法线边。TADDY提出了动态图变换器来提取边缘的时空知识。采用基于CE损失的判别异常检测器来计算所有边缘的异常分数。

[Ho和Armanfard,2023]提出了EEG-CGS,通过引入有效的正负子图采样,考虑嵌入构建的脑图中的局部结构和特征信息。对于每个目标节点,正子图由紧密连接的节点基于控制周围上下文的半径进行采样,而负子图则通过使用相同半径找到最远的节点进行采样。基于对比学习和生成学习的GNN分别通过对比损失学习子图中的局部结构,通过重建损失学习特征。异常分数是两个组成部分的组合,最终分配给图中的每个节点。

CL还成功地应用于检测视频中的异常,这些异常通常由正常事件组成,而异常仅发生在少数片段中。例如,CRFAD[Purwanto et al.,2021]将自我关注与条件随机场相结合,对跨帧的局部和全局特征之间的交互进行建模,以捕捉时空图中节点之间的关系。

添加了对比多实例学习方案,以最大化正常帧和异常帧之间的差异。CAAD[Chang et al.,2021]提出了一种新的基于对比注意力的深度神经网络模块来选择分段级异常。即,在异常视频中,如果注意力权重正确地选择了异常片段,则未选择的部分都被视为正常片段。然后对注意力权重进行转换,以获得正常部分的转换权重。转换后的权重用于生成视频级特征(类似于GAN的极小极大问题),最终由分类器将其与真正的正常视频级特征进行比较,以细化注意力模块。

4.挑战和未来方向

尽管G-TSAD是一个新话题,但正如第3节所述,在著名的人工智能领域发表的研究数量表明的那样,它的受欢迎程度迅速上升。然而,在具有进化图特征和结构的动态图中检测异常是具有挑战性的,这导致了现有研究中的几个主要问题。在本节中,我们分析了这些挑战,并指出了未来G-TSAD研究的潜在方向。

理论基础和可解释性。尽管在各种时间序列应用中取得了巨大成功,但大多数现有的G-TSAD方法都是由empir设计和评估的-

表2:代表性G-TSAD方法从多个方面进行比较。

没有足够的理论基础来证明其可靠性的ical实验。此外,它们忽略了学习表示和预测结果的可解释性——例如,图中的重要特征、结构或特征-结构关系是什么?输出(例如,异常分数)是否足以得出图形对象异常的结论?这些都是解释模型行为的重要问题。

因此,我们认为,除了实证设计之外,提供坚实的图论理论基础和对所学表示的深入分析,以提高模型的泛化能力和鲁棒性至关重要。

图形增强策略。由于动态图的性质(例如,时间复杂、非欧几里得结构),不适合直接将基于图像的增强应用于图。大多数现有的CL研究只考虑掩蔽或搅乱节点/边缘特征、子图采样或图扩散——当生成增广图时,这可能会提供有限的多样性和不确定的不变性。

拥有额外但有效的增强技术,如基于特征、基于结构、基于采样和自适应增强[Wu et al.,2021]将是G-TSAD研究的有希望的方向。

多图异常的识别。所有现有的方法只能检测异常节点、边、子图或图(见表2)。然而,在许多现实世界的系统中,不同的时间戳可以具有不同类型的异常(例如,在一些时间戳,只有单个传感器是异常的,但在一些其他时间戳,一组传感器是异常)。因此,拥有一个可以在构建的图中检测多种类型异常的模型将是一条非常有趣的研究路线。

方法论的范围更广。基于生成和预测的方法很容易实现,因为损失很容易构建,但恢复输入和学习长期依赖关系需要消耗内存。对比SSL方法已经显示出有希望的结果,但框架、增强技术和损失函数的设计在很大程度上依赖于耗时的经验实验。最近,基于SSL[Liu et al.,2022b]的混合方法利用现有方法,以多任务学习的方式集成多个借口任务,从各个角度提供不同的监督信号,已经产生了最先进的性能。因此,混合方法对于进一步的G-TSAD研究将是令人感兴趣的。

5.结论

本文对G-TSAD进行了全面的调查。

首先,我们介绍了时间序列数据的主要挑战,将它们表示为图的优势,以及基于图的时间序列异常的类型。然后,我们提出了一个系统的分类法,将G-TSAD分为三类:基于生成的、基于预测的和对比SSL方法。对于每个类别,我们提供最新的评论和方法之间的比较。还介绍了广泛的实际时间序列应用。最后,我们指出了当前研究的几个局限性,并为G-TSAD的未来工作提出了有希望的方向。

我们希望这项调查能为后续研究人员探索该领域的更多研究提供有用的参考。

0

评论区