一种时序数据异常变化过程的挖掘系统及方法_3

文档序号:9453112阅读:来源:国知局
两簇;然后重复执行该过程直至任意 两个簇心之间的距离均大于给定阈值;至此SDMC聚类过程结束。
[0050]特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串。
[0051]特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇,然 后用该簇的特征字符表示该观察窗口,从而把N个观察窗口序列转换为N个特征字符序列, 即把原始时序数据转换为长度为N的特征字符串;越大的字符则表示越可能的异常特征, 即出现概率越小的特征;概率最大的特征记为"a",次大特征记为"b"以此类推;一条原始 时序数据被转换为一个特征字符串。
[0052]异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频 繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非 频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
[0053]异变过程学习模块首先给定待考察单词大小(默认为4,可以认为给定);然后把 特征字符串划分成单词序列;接着统计每个单词的出现概率;大于给定概率阈值的单词就 是频繁单词,否则就是非频繁单词;然后在特征字符串中连续的频繁单词构成频繁模式,而 相邻频繁模式的间隙就是非频繁模式;从频繁模式变化到非频繁模式以及从非频繁模式变 化到频繁模式的过程就是异常变化过程,非频繁模式所对应的特征字符串就是该异变过程 的特征。
[0054]本发明一种时序数据异常变化过程的方法,包括以下步骤:
[0055]首先,数据预处理模块1-1对原始时序数据进行清洗、插值处理,得到有效数据形 式,以便进行后续挖掘工作。
[0056]其次,综合特征向量提取模块1-2自动分析数据,求出周期数据的最小完整周期, 然后对于周期数据以其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小 波特征、傅里叶特征构成综合特征向量。
[0057]然后,SDMC聚类模块1-3对综合特征向量进行聚类并对聚类结果进行簇间合并。
[0058]接着,特征字符串生成模块1-4根据聚类结果将数据转换成对应的特征字符串。
[0059]最后,异变过程学习模块1-5将特征字符串划分为单词序列,根据单词的频率分 为频繁与非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式,从频繁模式变化 到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程。
[0060] 参照图2,其为本发明SDMC聚类模块的流程图,包括以下步骤:
[0061] 首先进行步骤2-1,取第一条综合特征向量单独为一个簇,并作为簇中心。然后进 行步骤2-2,判断所有综合特征向量是否处理完。如果未处理完所有综合特征向量,则执行 步骤2-3,取下一条综合特征向量。接着执行步骤2-4,计算该综合特征向量与当前所有簇 中心的距离。然后执行步骤2-5,判断该综合特征向量是否与某个簇中心的距离小于指定阈 值。如果小于指定阈值,则执行步骤2-6,将该综合特征向量放入与其距离最小的簇中,并调 整该簇中心,然后转至步骤2-2。否则,执行步骤2-7,将该综合特征向量单独生成一个簇, 并作为簇中心,然后转至步骤2-2。如果所有综合特征向量已经处理完,则执行步骤2-8,取 第一条综合特征向量。然后执行步骤2-9,判断综合特征向量是否处理完。如果未处理完所 有综合特征向量,则执行步骤2-10,计算该综合特征向量与当前所有簇中心的距离。接着执 行步骤2-11,将该综合特征向量放入与其距离最近的簇中。然后执行步骤2-12,取下一条 数据。然后转至步骤2-9。如果所有综合特征向量已经处理完,则执行步骤2-13,判断聚类 结果是否发生变化。如果聚类结果发生了变化,则执行步骤2-14,调整变化簇的簇中心,然 后转至步骤2-8。如果聚类结果无变化,则执行步骤2-15,计算两两簇中心之间的距离,从 所有簇中选择簇中心最近的两个簇。然后执行步骤2-16,判断该对簇中心之间的距离是否 小于给定阈值。如果簇心距离小于给定阈值,则执行步骤2-17,合并这两个簇,然后转至步 骤2-15。如果簇心距离不小于给定阈值,则SDMC聚类过程结束。
[0062] 参照图3,其为本发明异变过程学习模块流程图,包括以下步骤:
[0063] 首先进行步骤3-1,获取由特征字符串生成模块生成的特征字符串序列。然后执行 步骤3-2,在该字符串中统计所有长度为L(默认为4,可以认为给定)个字符的单词的出现 频率。然后执行步骤3-3,判断所有单词的出现频率是否大于给定阈值。如果单词频率不 大于给定阈值则执行步骤3-4,标记该单词为非频繁单词;否则执行步骤3-5,标记该单词 为频繁单词。所有单词判断完之后,执行步骤3-6,重新扫描特征字符串序列。然后执行步 骤3-7,判断当前位置是否到达字符串末尾。如果未到达字符串末尾,则执行步骤3-8,判断 从当前位置开始连续的L个字符是否是频繁单词。如果该单词不是频繁单词,则执行步骤 3-9,判断其前一个单词是否为频繁单词。如果前一个单词是频繁单词,则执行步骤3-12从 上一个位置到当前位置得到一个频繁模式(即连续频繁单词的串),并将该模式放入频繁 模式队列中。然后执行步骤3-10,向后滑动一个字符。如果前一个单词不是频繁单词,则 直接执行步骤3-10,向后滑动一个字符。然后转至步骤3-7。如果从当前位置开始连续的 L个字符是频繁单词,则执行步骤3-11,向后滑动L个字符。然后转至步骤3-7。如果字符 串已经扫描完,到达字符串末尾,则执行步骤3-13,从频繁模式队列中找出所有相邻频繁模 式之间的间隙所对应的字符串,即为非频繁模式。然后执行步骤3-14,输出所有非频繁模式 所对应的异常变化过程,包括从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁 模式的过程。至此,异变过程学习结束。
[0064] 参照图4,其为本方法一个示例参数的数据曲线图。
[0065] 参照图5,其为从上述示例参数中所得到的频繁模式和非频繁模式。其中数字表示 模式在特征字符串中出现的位置。
[0066] 参照图6,图示了从上述示例参数中挖掘出的一个异常变化过程。
【主权项】
1. 一种时序数据异常变化过程的挖掘系统,其特征在于,包括数据预处理模块、综合特 征向量提取模块、SDMC聚类模块、特征字符串生成模块和异变过程学习模块; 数据预处理模块,用于对原始时序数据进行清洗、插值处理,获得归一化数据; 综合特征向量提取模块,用于自动分析所得归一化数据,求出数据的最小完整周期,然 后对于周期数据W其最小完整周期为一个观察窗口,然后提取该窗口内的均值、方差、小波 特征、傅里叶特征构成综合特征向量; SDMC聚类模块,用于对综合特征向量进行聚类并对聚类结果进行簇间合并; 特征字符串生成模块,用于根据聚类结果将数据转换成对应的特征字符串; 异变过程学习模块,用于将特征字符串划分为单词序列,根据单词的频率分为频繁与 非频繁单词,然后通过求取频繁模式间隙从而得到非频繁模式;从频繁模式变化到非频繁 模式W及从非频繁模式变化到频繁模式的过程就是异常变化过程。2. 根据权利要求1所述的一种时序数据异常变化过程的挖掘系统,其特征在于,数据 预处理模块包括去野值、生成单参数文件、等间隔处理W及归一化处理步骤;去野值的步骤 包括:对每个数据设定上下限,把大于上限的数值变为上限,小于下限的数值变为下限,W 此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行采样,等间隔处理后的数据, 每分钟都从O秒开始,59秒结束;数据经过等间隔处理之后进行归一化处理,将其取值范围 转换到[〇,1]区间上。3. 根据权利要求1所述的一种时序数据异常变化过程的挖掘系统,其特征在于,综合 特征向量提取模块在观察窗口上获取多种特征综合构成特征向量;综合特征向量具体构成 为:[均值,方差,小波特征,傅里叶特征];自动识别出时序数据的最小完整周期,包括W下 步骤:首先设定一个初始观察窗口,然后该窗口向后滑动At时间得到一个新窗口,W此类 推,得到N个窗口,每个窗口之间间隔At时间;然后每个窗口内的参数值构成该窗口向量, 接着分别计算t+0时刻窗口向量与{t+At,t巧At,…,t+NAt}时刻窗口向量之间的内积, 得到内积值序列;然后对内积值序列进行傅里叶变换,求取傅里叶系数最大值所对应的频 率,最后按照如下公式计算出数据的周期:其中,C表示数据周期,N表示窗口个数,T表示采样间隔At,k表示最大傅里叶系数 所对应的倍频数;然后把时序数据划分成不相交的观察窗口,在每个观察窗口提取多种类 型特征构成综合特征向量;对于周期数据,则取数据的最小完整周期作为窗口大小;对于 非周期数据,则指定
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1