用于检测实时序列中的异常的方法

文档序号:9564652阅读:483来源:国知局
用于检测实时序列中的异常的方法
【专利说明】
[0001] 相关申请
[0002] 此专利申请关于MERL-2729,在此共同申请并通过引用并入本文中。两个申请使用 相似性矩阵应对处理数据,以形成图拉普拉斯矩阵(graph Laplacian)。
技术领域
[0003] 本发明一般涉及时间序列数据的数据分析以检测数据中的异常,更具体地,涉及 存储由非常大数量的传感器从大型工业机器或机器的整个安装获得的传感器数据的大型 数据库。
【背景技术】
[0004] 机器和设备的状况的自动化监视使用处理非常大的传感器数据流的方法,该传感 器数据流包括通过以高速率对各种传感器进行采样获得的许多单独读数。数据获取、通信 以及存储技术的迅速降低的成本使得以多元时间序列数据的形式积累大量的数据是经济 上可行的,其中,时间序列的每个组分(变量)可以被视为指示正在被监视的系统的状态的 观测向量的单独维度。
[0005] 这种数据的主要用途之一是自动地检测可能意味着系统中存在故障的异常状况。 这种故障可以包括松动的或破坏的组件、错误的操作顺序、异常的操作条件等等。在大多数 情况下,为了确保安全、使材料的浪费最小化或执行维护以避免灾难性故障,立即发现这种 异常状况是非常希望的。
[0006] 发现异常的一种可能的方式是以描述当变量超出它的正常范围时的逻辑规则的 形式明确地指定被认为是异常的状况。对于一些系统,这种方法是非常成功的,例如,当监 视主动地调整一些参数(诸如,温度,压力,湿度等等)的过程,并且他们的正常范围是已知 的时。
[0007] 当这样的范围不可用时,可以通过数据驱动的方法获得正常的操作极限,其中,数 据变量都是在正常条件下测得的,并且从该数据提取正常操作范围的描述符。这种描述 符的示例是逻辑规则,或概率分布。例如,如果X表示来自监视系统的瞬时测量变量的向 量,并且,f(x)是在X的域上的概率密度函数(其对应于值X与系统的正常操作对应的概 率),则可以连续地评价这个概率密度,并且,当f(x)小于预定的阈值τ时,可以用通报 (signal)报警。
[0008] 然后问题变成怎样确定概率密度函数f(x)的适当的估计,假定所观测的数据的 数据库X = [X1, X2,…,Xn],其中,Xt是在时间t确定的观测列向量,t = 1,…,N。向量X t 包括M个变量,使得Xlt是在时间t的第i个变量的值,i = 1,. . .,M。
[0009] 存在用于从域中所获得的数据点的采样估计该域上的概率密度函数的许多方法。 参数方法做出关于分布类型的明确的假设,并且然后估计分布的参数。例如,如果函数是高 斯分布,则参数是分布的均值μ和协方差矩阵S。在这种情况下,
[0011] 其中,T是转置运算符。
[0012] 当变量的数目M非常大时,如对于许多工业系统来说是典型的,产生的估计可能 是不精确的,并且不方便使用。它可能不是非常精确,因为正确的概率分布与高斯分布差异 很大。该估计可能不方便使用,因为协方差矩阵S尽管对称,但是当M非常大时它可以包含 M2的量级的数量,例如,数量以数千或数百万计。因此,在存储器中保持S实际上变得难以 处理。此外,不能估计具有独立条目的全协方差矩阵S,除非读数的数目N大于数据向量M 的维数,并且至少M+1个数据点在普通位置,也就是,线性无关。
[0013] 然而,其他的估计模型和方法(诸如,混合高斯分布)可以被用来克服信号单个多 元高斯分布的精度问题,这些方法仍然遭受与使用大的协方差矩阵相关的问题,当考虑一 个以上的高斯分量时,该问题变得更糟糕。
[0014] 相比参数模型,非参数密度估计方法(诸如,Parzen核密度估计(PKDE))不假设 用于分布的特定的参数形式,而是通过合适的核函数K估计密度
[0016] 作为单独分量的总和,其中,每个所获取的数据点一个单独分量。然而,核函数的 选择通常是不容易的,并且这个方法也需要将所有N个获取的数据点保持在存储器中,当 这个数目很大,并且甚至无限时,这是有问题的。
[0017] 这些方法的另一个共同的缺点是它们不能容易地处理混合型的数据,例如,当一 些变量是连续的,并且其他的是离散的时。
[0018] 当数据向量的数目很大时,用来处理数据向量的高维度的更有效的方法是尝试在 数据向量X的子集上将概率分布f(x)分解(因式(factor))为P个单独的概率分布,使得
[0020] 其中,fp(X(p))是在数据向量的子集χ(ρ)上的概率密度函数。设%代表从X到X (p) 的投影算子,也就是,X(p)= JT Ρ(Χ)。设V= {1,2,···,Μ}是数据变量的所有指数的集合,Vp 是在部分P中的变量的指数的集合,并且Mp= IvpI是部分P中变量的数目。然后,期望获 得V到集合Vp的合适的分割,使得
并且,相应地,
[0023] 通过改变每个部分的大小,可以控制需要被估计并存储在存储器中的参数的数 目。例如,如果高斯模型适合每个部分,则针对某部分的协方差矩阵包含M 21J^量级的元素。 这种方法也处理混合型的变量,其中连续的和离散的变量可以被放入不同的部分,并且不 同的参数模型可以适合这些部分,例如,高斯、伯努利以及多项式模型。
[0024] 然而,使用最小可能部分对于异常检测的目的是不太有效的。平凡因式分解(其 中,每个变量在它自己的部分内)使得P = M,Vp= {p},Mp= 1,将确实导致概率密度的 非常紧促的表示,但是将不能捕获变量之间的依存关系,并且将不能检测所谓的前后关系 (contextual)的异常。这些变量由可能是整体的一个变量的读数表示,而不是当另一变量 具有特定的值时。例如,所测得的空气温度可以是90° F,并且这本身未必就是信号异常气 候条件,但是如果表示日历月的另一变量的值被设为十二月,并且测量位置在北半球,则两 个读数一起将清晰地表示异常。
[0025] 因此,需要确定一种在所识别的部分的尺寸、可用于每个部分中单独的密度函数 的估计的点的数目以及所得到的密度的精度之间具有合理均衡的分割方法。

【发明内容】

[0026] 本发明的实施方式提供了一种用于将一大组变量分割成较小部分的方法,使得在 变量的整个集合上的正常行为的模型可以被因式分解(factor)为在每个部分上的单独模 型,并且这些单独部分特定模型更容易估计、维持以及用于时间序列数据中的异常检测。该 方法使用没有明确地确定所有变量上的全协方差矩阵的谱聚类方法,但是对于非常大的特 征值问题,反而依赖于有效的特征值的解决方法。
[0027] 具体地,通过首先确定多对正常的时间序列数据之间的成对相似性的相似性矩阵 来检测实时序列中的异常。将谱聚类过程应用到相似性矩阵以将表示时间序列数据的维度 的变量分割为互斥的组。针对每个组估计正常行为的模型。然后,针对实时序列数据,使用 针对每个组的模型确定异常分数,并且将该异常分数与预定的阈值进行比较,以用通报该 异常。
【附图说明】
[0028] 图1是根据本发明的实施方式的用于检测实时序列数据中的异常的方法的流程 图。
【具体实施方式】
[0029] 如图1所示,我们的发明的实施方式提供了一种用于检测实时序列数据140中的 异常171的方法。从正常的时间序列数据101的多对维度之间的成对相似性确定110非负 相似性矩阵A 111。谱聚类120被应用于相似性矩阵,以将表示时间序列数据的维度112的 变量分割120为组121,其中,这些组是互斥的。针对每个组,确定130正常行为的模型131。 对于实时序列数据140,使用针对每个组的模型确定150异常分数151。然后,将异常分数 与预定的阈值τ 169进行比较,以通报异常171。
[0030] 可选地,可以将单独的异常分数组合160以形成全局的异常分数161,并且可以将 全局的异常分数与预定的阈值τ 169进行比较,以通报异常171。
[0031] 可以在连接到存储器和如本领域已知的通过
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1