一种时序数据异常检测方法及其系统与流程

文档序号:17179039发布日期:2019-03-22 20:45阅读:247来源:国知局
一种时序数据异常检测方法及其系统与流程
本发明属于数据处理领域,尤其涉及一种时序数据异常检测方法及其系统。
背景技术
:随着传感技术的不断发展,越来越多的设备上通过安装传感器实现了设备的智能化。随着时间的推移,传感器所检测到的数据形成了时间序列,即时序数据。对时序数据的异常检测是设备故障预警、异常定位、故障分析的重要基础与依据。在设备运行过程中,通常其会产生两种离群数据:1)突变数据:设备运行模式的突然改变会导致传感数据发生突变,这种突变是设备正常运行产生的;2)异常数据:设备运行过程中某个或某几个部件产生故障,或导致获取的数据不正常,这种不正常的数据为异常数据,是我们需要检测的。当前对时序数据的异常检测主要有以下缺点:1)不能区分突变数据与异常数据。在大多数异常检测方法中这两种离群数据都被认为是异常数据,导致了异常的误报。2)不能定位异常参数。一些异常检测方法只能检测异常,并不能定位异常参数是哪些。技术实现要素:为了解决现有技术的缺点,本发明提供一种时序数据异常检测方法及其系统。本发明能够提高时序数据异常检测的准确率以及确保异常检测的正确性。为实现上述目的,本发明采用以下技术方案:一种时序数据异常检测方法,包括:接收设置于机器中一个或一个以上传感器所采集的时序数据并把时序数据中最新观测数据作为待监测数据;计算待监测数据中各个参数与机器内缓存的固有长度的时间序列相应参数的相对离群距离,进一步得到带有离群标识的离群数据;利用固有长度的时序数据中参数值之间的相关性,从离群数据中筛选出异常观测数据并定位异常观测数据中的异常参数。其中,一个时序数据是按照时间顺序排列的若干个观测数据,每个观测数据又包含了若干个参数的观测值。这些观测数据之间的间隔是固定的。计算待检测观测数据的各个参数与机器内缓存的固有长度的时间序列相应参数的相对离群距离之后,还包括:将待监测数据的各参数相对离群距离与当前时序数据中各参数相对离群距离进行聚类。在本发明的异常检测方法中在单参数时序序列上基于相对离群距离计算,发现数据离群点;然后利用参数序列之间的相关性对离群数据进行甄别,找到其中的异常数据并定位异常参数,提高时序数据异常检测的准确率,确保异常检测的正确性。该方法还包括:根据聚类结果判断是否将各参数名称添加至待监测数据的标志位。本发明的标志位的作用是用来标识检测数据的检测信息,用来区分突变数据与异常数据,避免了异常的误报,而且达到了定位异常参数的目的。该方法还包括:若待监测数据中任一参数值满足时序数据中参数值之间的相关性关系,则清除该待监测数据标志位上的相应参数名称并设其标志位为突变。本发明使用观测数据中各个参数值代入预设相关关系表达式来验证参数之间是否满足相关关系,能够区分突变数据与异常数据,来确定是否清除该待监测观测数据标志位上的相应参数名称以及设其标志位是否为突变。该方法还包括:获取固有长度的时序数据中参数值之间的相关性,其具体过程为:获取固有长度时序数据的训练集;计算训练集中时序数据的不同参数组合之间的相关系数;求解相关系数超于预设相关系数阈值的参数之间的表达式,进而获取固有长度的时序数据中参数值之间的相关性。一种时序数据异常检测系统,包括:时序数据接收模块,其用于接收设置于机器中一个或一个以上传感器所采集的时序数据并把时序数据中最新观测数据作为待监测数据;离群标识获取模块,其用于计算待监测数据中各个参数与机器内缓存的固有长度的时间序列相应参数的相对离群距离,进一步得到带有离群标识的离群数据;筛选定位模块,其用于利用固有长度的时序数据中参数值之间的相关性,从离群数据中筛选出异常观测数据并定位异常观测数据中的异常参数。该系统还包括:聚类模块,其用于将待监测数据的各参数相对离群距离与当前时序数据中各参数相对离群距离进行聚类。该系统还包括:标志位添加模块,其用于根据聚类结果还判断是否将各参数名称添加至待监测数据的标志位。该系统还包括:标志位设置模块,其用于若待监测数据中任一参数值满足时序数据中参数值之间的相关性关系,则清除该待监测数据标志位上的相应参数名称并设其标志位为突变。该系统还包括相关性获取模块,其用于获取固有长度的时序数据中参数值之间的相关性;所述相关性获取模块包括:训练集获取模块,其用于获取固有长度时序数据的训练集;相关系数计算模块,其用于计算训练集中时序数据的不同参数组合之间的相关系数;参数表达式计算模块,其用于求解相关系数超于预设相关系数阈值的参数之间的表达式,进而获取固有长度的时序数据中参数值之间的相关性。本发明的有益效果为:(1)在本发明的异常检测方法中在单参数时序序列上基于相对离群距离计算,发现数据离群点;然后利用参数序列之间的相关性对离群数据进行甄别,找到其中的异常数据并定位异常参数,提高时序数据异常检测的准确率,确保异常检测的正确性;(2)基于该方法,本发明定位了异常的参数信息,为设备维护以及设备的改进提供了数据基础。附图说明图1是本发明提供的一种时序数据异常检测方法流程示意图;图2为相对离群距离计算流程图;图3为获取固有长度的时序数据中参数值之间的相关性流程图;图4是本发明的一种时序数据异常检测系统结构示意图;图5是本发明的相关性获取模块结构示意图。具体实施方式下面结合附图与实施例对本发明做进一步说明:图1是本发明提供的一种时序数据异常检测方法流程示意图,如图1所示的时序数据异常检测方法至少包括以下三个步骤:步骤(1):接收设置于机器中一个或一个以上传感器所采集的时序数据并把时序数据中最新观测数据作为待监测数据。在具体实施过程中,一个时序数据是按照时间顺序排列的若干个观测数据,每个观测数据又包含了若干个参数的观测值。这些观测数据之间的间隔是固定的。假设机器中设置有m个传感器,其中,m为正整数;那么设置于机器中一个或一个以上传感器所采集的时序数据为<p1i,p2i,,…pmi>,其中p1,p2,…pm为参数名称,i代表当前为i时刻。步骤(2):计算待监测数据中各个参数与机器内缓存的固有长度的时间序列相应参数的相对离群距离,进一步得到带有离群标识的离群数据。在具体实施过程中,得到待监测时序数据的离群点的具体过程包括:步骤(2.1):分别计算待监测数据中各参数的参数值之间的相对离群距离,以及机器内固有长度的当前时序数据中相应参数的参数值之间的相对离群距离。其中,计算相对离群距离的过程,如图2所示:某参数的相对离群距离代表了检测数据中某参数的稳定情况。以待监测数据<p1i,p2i,,…pmi>,其中p1,p2,…pm为参数名称,i代表当前为i时刻,对于参数p1的离群距离计算过程为例,可概括为以下六个步骤:Step1:设置统计数目count=0,距离累加和dsum=0;Step2:获取当前参数值p1i;Step3:若p1i=0,则相对离群距离dr(p1i)=0,跳转至Step6;否则执行Step3;Step3:设置j为k(k为时间序列窗口的大小),迭代以下过程,直至i值为0:Step3.1:获取时间序列窗口j位置的观测数据,若该观测数据的标志位S上含有该参数名称p1,则跳转到Step3.4;否则执行Step3.2;Step3.2:统计数目count+=1;距离累加和dsum+=|p1i-p1j|;Step3.3:若该观测值的标志位S为突变标识,则跳转至Step4;否则进行Step3.4;Step3.4:j=j-1;Step4:若count=0,则平均距离davg=0,平均距离davg=dsum/count;Step5:相对离群距离dr(p1i)=davg/p1i;Step6:返回dr(p1i)。在上述计算过程中,时间序列窗口为当前时序数据的固有长度。步骤(2.2):将待监测数据的各参数相对离群距离与当前时序数据中各参数相对离群距离进行聚类。其中,聚类可采用CKmeans聚类方法或是其他聚类方法。该方法还包括:根据聚类结果还判断是否将各参数名称添加至待监测数据的标志位。本发明的标志位的作用是用来标识待监测数据的检测信息,用来区分突变数据与异常数据,避免了异常的误报,而且达到了定位异常参数的目的。在检测过程中,需要为待监测数据设置标志位,标志位的作用是用来标识待监测数据的检测信息。在该检测方法中标志位用一个集合S标识。标志位S有三种形式,如表格1所示。表格1标志位S形式列表数据检测情况标志位S形式正常数据{}突变数据{突变标识}异常数据{异常参数名称1,异常参数名称2,…}对于所有的检测数据,其标志位S都初始化为正常数据{}。在本发明的时序数据异常检测方法中,Step3的聚类结果有三种:1)参数的相对离群距离单独为一类;2)参数的相对离群距离与有离群标识相对离群距离为一类;3)参数的相对离群距离与不带离群标识的相对离群距离聚为一类。在Step6中,对于前两种结果要在标志位上添加该参数名称,对于结果3不需要添加。步骤(3):利用固有长度的时序数据中参数值之间的相关性,从离群数据中筛选出异常观测数据并定位异常观测数据中的异常参数。该方法还包括:若待监测时序数据中任一参数值满足时序数据中参数值之间的相关性关系,则清除该待监测时序数据标志位上的相应参数名称并设其标志位为突变。该方法还包括:获取固有长度的时序数据中参数值之间的相关性。如图3所示的获取固有长度的时序数据中参数值之间的相关性具体过程为:步骤(3.1):获取固有长度时序数据的训练集。步骤(3.2):计算训练集中时序数据的不同参数组合之间的相关系数。在本实施例中,使用的是线性相关关系,求相关系数可以用皮尔逊线性相关系数r表示,其计算公式如(1)所示。在公式(1)中,X和Y是两个参数向量,和是参数X和Y分别的平均值,n是参数向量的长度。r就是计算出的线性相关系数。r位于-1到1之间。r的绝对值越大,说明两个参数越相关。在我们的中r的绝对值大于0.8时,两个参数被判断为相关参数。步骤(3.3):求解相关系数超于预设相关系数阈值的参数之间的表达式,进而获取固有长度的时序数据中参数值之间的相关性。本实施例中使用高斯最小二乘法来求解两个参数X、Y之间的拟合直线Y=kX+b。k和b的计算公式如(2)(3)所示。在公式(2)(3)中,X和Y是两个参数向量,和是参数X和Y分别的平均值。n是参数向量的长度,k是待求直线的斜率,b是待求直线在y轴的截距。在获取参数之间的表达式之后,使用表达式来验证参数之间是否满足相关关系。误差在10%之时之内的参数满足相关关系。下面使用一个简单的示例进行说明。假设两个参数p1、p2之间的表达式为p1=0.95*p2+0.3,在检测数据中p1,p2的参数值分别为2.36,2.3。由于(1-0.1)*2.36<=0.95*2.3+0.3<=(1+0.1)*2.36,两个参数满足相关关系。在本发明的异常检测方法中在单参数时序序列上基于相对离群距离计算,发现数据离群点;然后利用参数序列之间的相关性对离群数据进行甄别,找到其中的异常数据并定位异常参数,提高时序数据异常检测的准确率,确保异常检测的正确性;基于该方法,本发明定位了异常的参数信息,为设备维护以及设备的改进提供了数据基础。图4是本发明的一种时序数据异常检测系统结构示意图。如图4所示的时序数据异常检测系统至少包括:时序数据接收模块,其用于接收设置于机器中一个或一个以上传感器所采集的时序数据并把时序数据中最新观测数据作为待监测数据;离群标识获取模块,其用于计算待监测数据中各个参数与机器内缓存的固有长度的时间序列相应参数的相对离群距离,进一步得到带有离群标识的离群数据;筛选定位模块,其用于利用固有长度的时序数据中参数值之间的相关性,从离群数据中筛选出异常观测数据并定位异常观测数据中的异常参数。该系统还包括:聚类模块,其用于将待监测数据的各参数相对离群距离与当前时序数据中各参数相对离群距离进行聚类。本发明在单参数时序序列上基于相对离群距离计算,发现数据离群点;然后利用参数序列之间的相关性对离群数据进行甄别,找到其中的异常数据并定位异常参数,提高时序数据异常检测的准确率,确保异常检测的正确性;本发明还定位了异常的参数信息,为设备维护以及设备的改进提供了数据基础。该系统还包括:标志位添加模块,其用于根据聚类结果还判断是否将各参数名称添加至待监测数据的标志位。本发明的标志位的作用是用来标识检测数据的检测信息,用来区分突变数据与异常数据,避免了异常的误报,而且达到了定位异常参数的目的。该系统还包括:标志位设置模块,其用于若待监测数据中任一参数值满足时序数据中参数值之间的相关性关系,则清除该待监测数据标志位上的相应参数名称并设其标志位为突变。本发明使用时序数据中各个参数值代入预设相关关系表达式来验证参数之间是否满足相关关系,能够区分突变数据与异常数据,来确定是否清除该待监测数据标志位上的相应参数名称以及设其标志位是否为突变。该系统还包括相关性获取模块,其用于获取固有长度的时序数据中参数值之间的相关性。图5是本发明的相关性获取模块结构示意图。如图5所示的相关性获取模块包括:训练集获取模块,其用于获取固有长度时序数据的训练集;相关系数计算模块,其用于计算训练集中时序数据的不同参数组合之间的相关系数;参数表达式计算模块,其用于求解相关系数超于预设相关系数阈值的参数之间的表达式,进而获取固有长度的时序数据中参数值之间的相关性。上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1