一种时序数据异常变化过程的挖掘系统及方法

文档序号:9453112阅读:383来源:国知局
一种时序数据异常变化过程的挖掘系统及方法
【专利说明】一种时序数据异常变化过程的挖掘系统及方法 【技术领域】
[0001] 本发明属于智能信息处理和计算机技术领域,具体涉及一种针对时序数据异常变 化过程的挖掘系统及方法。 【【背景技术】】
[0002] 时间序列的异常变化过程对于认识时间序列规律特征,分析故障演化过程和故障 成因,挖掘故障知识,更深层次地认识和学习时序系统,预测系统健康状态,介入早期故障 预警都具有重要作用。
[0003] 时间序列的变化往往都有一个发展过程。不同的异常变化其演变历程也各不相 同,各有特点。挖掘异常变化的演变过程和特征变化规律,就是要从海量异常数据中挖掘出 时间序列状态从正常到偏离再到异常,以及从轻度异常到重度异常或者故障的变化过程; 然后分析这些演变过程中不同特征的变化规律。 【
【发明内容】

[0004] 本发明提的目的在于提供一种时序数据异常变化过程的挖掘系统及方法,通过数 据预处理、综合特征向量提取、SDMC聚类、特征字符串生成、异变过程学习处理,可以从海量 时序数据中挖掘出从正常到异常的变化过程。
[0005] 为了实现上述目的,本发明采用如下技术方案:
[0006] -种时序数据异常变化过程的挖掘系统,包括数据预处理模块、综合特征向量提 取模块、SDMC聚类模块、特征字符串生成模块和异变过程学习模块;
[0007] 数据预处理模块,用于对原始时序数据进行清洗、插值处理,获得归一化数据;
[0008] 综合特征向量提取模块,用于自动分析所得归一化数据,求出数据的最小完整周 期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方 差、小波特征、傅里叶特征构成综合特征向量;
[0009]SDMC聚类模块,用于对综合特征向量进行聚类并对聚类结果进行簇间合并;
[0010] 特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串;
[0011] 异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频 繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非 频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
[0012] 本发明进一步的改进在于:数据预处理模块包括去野值、生成单参数文件、等间隔 处理以及归一化处理步骤;去野值的步骤包括:对每个数据设定上下限,把大于上限的数 值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据 每隔1秒进行采样,等间隔处理后的数据,每分钟都从〇秒开始,59秒结束;数据经过等间 隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上。
[0013] 本发明进一步的改进在于:综合特征向量提取模块在观察窗口上获取多种特征 综合构成特征向量;综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征]; 自动识别出时序数据的最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后 该窗口向后滑动At时间得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔 At时间;然后每个窗口内的参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与 {t+At,t+2At,…,t+NAt}时刻窗口向量之间的内积,得到内积值序列;然后对内积值序 列进行傅里叶变换,求取傅里叶系数最大值所对应的频率,最后按照如下公式计算出数据 的周期:
[0014]
[0015] 其中,C表示数据周期,N表示窗口个数,T表示采样间隔At,k表示最大傅里叶 系数所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多 种类型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小; 对于非周期数据,则指定一个固定值作为窗口大小;窗口特征包括窗口内的均值、方差、小 波特征、傅里叶特征构成特征向量;小波特征通过小波分解得到;小波分解层数L根据窗口 大小k和阈值h自适应得到;阈值h是期望得到小波系数的最大长度;L初始为1,对于固 定长度的窗口大小,如果k/2M、于阈值h,则分解层数为L,否则L加1,重复上述过程,直到 k/2M、于阈值h;窗口数据通过L层小波分解后,得到相同长度的小波近似系数和小波细节 系数;傅里叶特征由固定数目的傅里叶系数及其对应频率组成;观察窗口经过傅里叶变换 后得到一系列傅里叶系数;忽略直流分量,选择前n个最大的傅里叶系数及其对应频率作 为傅里叶特征;n取值为2。
[0016] 本发明进一步的改进在于:SDMC聚类模块使用观察窗口的综合特征向量对数据 进行聚类;SDMC聚类模块的聚类方法具体包括以下步骤:首先取第一条综合特征向量单独 为一个簇,并作为簇中心;然后依次取后续综合特征向量并计算该综合特征向量与当前所 有簇中心的距离;如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇 中,并调整该簇中心;如果该距离大于给定阈值则将该综合特征向量单独生成一个簇,并作 为簇中心;按照上述过程把所有综合特征向量处理完之后,再次遍历所有综合特征向量,依 次取一条综合特征向量,计算该综合特征向量与当前所有簇中心的距离,然后将该综合特 征向量放入与其最近的簇中;如此处理完一遍所有综合特征向量之后调整当前所有的簇中 心;如果簇中心有变化,则重复前述过程直至簇中心不再变化为止;当簇中心不再变化时, 计算两两簇中心之间的距离;如果簇心之间的距离小于给定阈值,则合并该两簇;然后重 复执行该过程直至任意两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束。
[0017] 本发明进一步的改进在于:特征字符串生成模块根据聚类结果找到每个观察窗口 对应特征向量所属的簇,然后用该簇的特征字符表示该观察窗口,把N个观察窗口序列转 换为N个特征字符序列,即把原始时序数据转换为长度为N的特征字符串。
[0018] 本发明进一步的改进在于:异变过程学习模块首先给定待考察单词大小;然后把 特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就 是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而 相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变 化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程 的特征。
[0019] -种时序数据异常变化过程的挖掘方法,包括以下步骤:
[0020] 第一步:数据预处理模块对原始时序数据进行清洗、插值处理,获得归一化数据;
[0021] 第二步:综合特征向量提取模块自动分析所得归一化数据,求出数据的最小完整 周期,然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方 差、小波特征、傅里叶特征构成综合特征向量;
[0022] 第三步:SDMC聚类模块对综合特征向量进行聚类并对聚类结果进行簇间合并;
[0023] 第四步:特征字符串生成模块根据聚类结果将数据转换成对应的特征字符串;
[0024] 第五步:异变过程学习模块将特征字符串划分为单词序列,根据单词的频率分为 频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到 非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
[0025] 本发明进一步的改进在于,所述挖掘方法具体包括以下步骤:
[0026] 第一步:数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处 理以及归一化处理;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为 上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1 秒进行采样,等间隔处理后的数据,每分钟都从〇秒开始,59秒结束;数据经过等间隔处理 之后进行归一化处理,将其取值范围转换到[0, 1]区间上;
[0027] 第二步:综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量; 综合特征向量具体构成为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的 最小完整周期,包括以下步骤:首先设定一个初始观察窗口,然后该窗口向后滑动At时间 得到一个新窗口,以此类推,得到N个窗口,每个窗口之间间隔At时间;然后每个窗口内的 参数值构成该窗口向量,接着分别计算t+0时刻窗口向量与{t+At,t+2At,…,t+NAt}时 刻窗口向量之间的内积,得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶 系数最大值所对应的频率,最后按照如下公式计算出数据的周期:
[
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1