一种挖掘时序数据故障模式的系统及方法_3

文档序号:9453111阅读:来源:国知局
⑴第一次聚类;(2) 如果第一次聚类得到的簇的数目在[min,max]范围中,则执行第(3)步,否则按照上述方法 调整阈值t并重复执行第(1)步;(3)聚类并调整簇心,迭代次数i递增;(4)判断聚类结果 是否稳定,如果聚类结果不稳定,则重复执行第(3)步,否则聚类结束。在第一次聚类中,当 簇每增加一条数据时,就会调整簇中心,直到处理完所有数据。在第(3)步的聚类过程中, 直到所有数据全部处理完后,才调整一次簇心。TK-Means方法对于支持度大于给定阈值的 簇,用'a'表示最大的簇(即点个数最多的簇),用'b'表示次大的簇,依此类推;对于支持 度小于给定阈值的簇,通通用'?'表示;对于空数据,即未记录数据的区间或者被删除的区 间,则用'#'来表示。
[0043] 统计学习模块,通过寻找频繁模式的间隙来确定非频繁模式,即异常模式;也就 是说,正常模式被打断的地方就是异常模式;正常模式就是频繁发生的模式,对应特征字符 串上的频繁模式;而异常模式不是频繁发生,所以把特征字符串上的频繁模式去掉之后,剩 下的片段就是非频繁模式,即潜在异常模式。寻找异常模式的过程为:(1)把特征字符串划 分为一系列长度为L的单词(即连续L个字符),并且统计每个单词的出现频率;(2)如果 一个单词的出现频率大于给定阈值,称作频繁单词,否则为非频繁单词;(3)连续取L个字 符构成当前单词;如果未达到字符串末尾,则执行下一步;否则把当前频繁模式放入频繁 模式集中,输出频繁模式集,然后执行第(7)步;(4)判断当前单词是否为频繁单词;如果是 执行下一步,否则执行第(6)步;(5)向后滑动L个字符并更新当前频繁模式,然后执行第 (3)步;(6)向后滑动一个字符,并判断前一个单词是否为频繁单词;如果是,则更新频繁模 式集,即把当前频繁模式放入频繁模式集中;然后执行第(3)步;(7)按照起始位置取出频 繁模式集中相邻的两个频繁模式;(8)相邻频繁模式的间隙就是非频繁模式,即潜在异常 模式;间隙就是从上一个模式末尾到下一个模式开头之间的字符串,即如下定义:
[0044] U = c(Sf:+])-c(SC-1),SfrSfi+leS
[0045] 其中U表示一个潜在异常模式,c(Sf7+1)表示频繁模式Sf^末尾之后的第1个字 符,表示频繁模式Sf1+1首字符之前的第1个字符,S表示频繁模式集合,SfjPSf1+1 是频繁模式集合S中相邻的两个频繁模式。
[0046]DBSCAN聚类模块,用密度聚类方法对多个参数的异常模式进行聚类,找到在相近 时刻发生异常的多个参数异常模式;在同一个簇中,异常发生的时间是相近的,则可以认为 同一个簇中的参数在这段时间构成了故障模式;故障模式就是在相近时刻出现多个异常模 式。DBSCAN聚类中一个数据点就是上述一个潜在异常模式及其起始位置(即起始时刻)。 具体过程如下:(1)扫描统计学习模块得到的所有非频繁模式,把数据点分为核心点、边界 点和噪音点。核心点就是该点邻域内有足够多的其他点,即与该点距离小于指定值的数据 点的个数大于等于给定阈值pt。边界点就是该点邻域内至少有1个核心点,但是数据点的 个数小于阈值pt。噪音点就是除了核心点和边界点之外的其他数据点。(2)取出一个标签 集为空的核心点,生成一个新簇,并将新簇的标签加入该点标签集以及该核心点邻域内所 有核心点和边界点的标签集。(3)重复步骤(2)直至所有核心点和边界点的标签集都不为 空。(4)合并密度联通的簇,即遍历所有核心点和边界点,如果该点标签集长度大于1,则将 该标签集中所有簇标签全部映射为一个标签。具体映射过程为,首先逐一检查标签集中所 有簇标签是否在映射表中已经存在。若存在,则从映射表中取出已经存在的映射目标,并将 本标签集中所有簇标签映射为该目标。若不存在,则将本标签集中所有簇标签映射为一个 新标签。(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签。(6) 全部噪音点归为一个簇。(7)输出所有簇及该簇内的所有点,聚类结束。
[0047] 故障模式生成模块,根据DBSCAN得到的聚类结果,将故障模式写成形式化规则; 形式化规则按照时间点(即潜在异常模式开始的位置)进行排序,时间在前的模式蕴含着 时间在后的模式,时间相同的模式则彼此为合取关系。所以形式化规则一定程度上反映了 事件发生的先后顺序。例如,DBSCAN聚类得到的一个簇,包含数据点为:
[0048] {[,A,,2],[,B,,3],[,C,,2],[,D,,4]}
[0049] 其中,每个数据点包括两部分:潜在异常模式和模式的起始位置。上述方法所得形 式化规则为:
[0050] ['A',2]&&['C',2] - ['B',3] - ['D',4]
[0051] 'A'模式和'C'模式具有相同的起始位置,并且位置最靠前,所以它们作为第一个 前件。'B'模式的起始位置落后于'A'模式和'C'模式,所以'B'模式成为'A'模式和'C' 模式的后件。又由于'D'模式的起始位置最靠后,所以'D'模式就成为'B'模式的后件,SP 'B'模式可以看作'D'模式的前件。当然'A'模式和'C'模式可以看作'D'模式的诱因。
[0052] 本发明一种挖掘时序数据故障模式的系统及方法,包括以下步骤:
[0053] 1)、数据预处理模块,对原始时序数据进行清洗、插值处理,得到有效数据形式。
[0054]2)、参照图2,TK-Means聚类模块,采用TK-means方法对特征向量进行聚类,然后 根据聚类结果将数据转换成特征字符串:
[0055] 首先进行步骤2-1,从预处理后的时序数据中取一条未计算数据。然后进行步骤 2-2,判断数据预处理模块处理后的数据是否全部处理完。如果数据没有处理完,则进行步 骤2-3,计算该数据与所有簇中心距离。步骤2-4判断数据与最近簇中心距离是否小于阈 值t。如果不小于,则执行步骤2-5,把该数据单独生成一个簇,并作为簇中心,然后转至步 骤2-1。如果小于,则执行步骤2-6,将该数据放入最近簇中,并调整该簇中心,然后转至步 骤2-1。如果所有数据已经处理完,则执行步骤2-7,判断簇的数目是否在[min,max]中。如 果簇数目不在[min,max]范围中,则执行步骤2-8,调整阈值t,然后转至步骤2-1。如果簇 数目在[min,max]范围中,则执行步骤2-9,取一条未计算数据。然后执行步骤2-10,判断 是否处理完所有数据。如果数据没有处理完,则执行步骤2-11,计算该数据与所有簇中心的 距离。然后执行步骤2-12,把该数据放入距其最近的簇中。然后转至步骤2-9。如果所有 数据都处理完,则执行步骤2-13,重新计算每个簇的中心向量。然后执行步骤2-14,判断聚 类结果是否发生变化,即是否有簇中心向量发生了变化。如果有簇中心向量发生了变化,则 转至步骤2-9。如果没有簇中心向量发生变化,即聚类结果不再变化,则结束聚类过程。
[0056] 3)、参照图3,统计学习模块,对特征字符串进行统计学习,找出频繁模式和非频繁 模式,所述非频繁模式对应着异常模式:
[0057] 首先进行步骤3-1,获取TK-Means聚类结果所生成特征字符串序列。然后进行步 骤3-2,在特征字符串序列中统计长度为L(可以人工设定,默认为4)的所有单词频率。然 后执行步骤3-3,初始化频繁模式集和当前频繁模式。步骤3-4初始化当前字符位置。接着 步骤3-5在特征字符串中从当前位置开始获取长度为L的当前特征单词。然后在步骤3-6 判断特征字符串是否已经处理完。如果特征字符串未处理完,则执行步骤3-7,判断当前特 征单词是否频繁。如果当前单词是频繁单词,即其频率大于给定阈值,则执行步骤3-8,更 新当前频繁模式,即在当前频繁模式末尾追加当前特征单词。然后执行步骤3-9,字符位置 向后滑动L个字符。然后转至步骤3-5。如果当前单词不是频繁单词,则执行步骤3-11,判 断前一个单词是否频繁。如果前一个单词是频繁单词,则执行步骤3-12,更新频繁模式集, 即把当前频繁模式加入频繁模式集中。然后执行步骤3-13,把当前频繁模式更新为空。接 着执行步骤3-14,字符位置向后滑动一个1字符。如果前一个单词不是频繁单词,则直接 执行步骤3-14。步骤3-14之后转至步骤3-5。直至特征字符串处理完,则执行步骤3-10, 输出频繁
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1