一种挖掘时序数据故障模式的系统及方法_3

文档序号：9453111阅读：来源：国知局

⑴第一次聚类；（2) 如果第一次聚类得到的簇的数目在[min，max]范围中，则执行第（3)步，否则按照上述方法调整阈值t并重复执行第（1)步；（3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第（3)步，否则聚类结束。在第一次聚类中，当簇每增加一条数据时，就会调整簇中心，直到处理完所有数据。在第（3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心。TK-Means方法对于支持度大于给定阈值的簇，用'a'表示最大的簇（即点个数最多的簇），用'b'表示次大的簇，依此类推；对于支持度小于给定阈值的簇，通通用'？'表示；对于空数据，即未记录数据的区间或者被删除的区间，则用'#'来表示。
[0043] 统计学习模块，通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；也就是说，正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，所以把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式。寻找异常模式的过程为：（1)把特征字符串划分为一系列长度为L的单词（即连续L个字符），并且统计每个单词的出现频率；（2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；（3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第（7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第（6)步；（5)向后滑动L个字符并更新当前频繁模式，然后执行第 (3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第（3)步；（7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串，即如下定义：
[0044] U = c(Sf：+])-c(SC-1),SfrSfi+leS
[0045] 其中U表示一个潜在异常模式，c(Sf7+1)表示频繁模式Sf^末尾之后的第1个字符，表示频繁模式Sf1+1首字符之前的第1个字符，S表示频繁模式集合，SfjPSf1+1 是频繁模式集合S中相邻的两个频繁模式。
[0046]DBSCAN聚类模块，用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，则可以认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式。DBSCAN聚类中一个数据点就是上述一个潜在异常模式及其起始位置（即起始时刻）。具体过程如下：（1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点。核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt。边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt。噪音点就是除了核心点和边界点之外的其他数据点。（2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集。（3)重复步骤（2)直至所有核心点和边界点的标签集都不为空。（4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签。具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在。若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标。若不存在，则将本标签集中所有簇标签映射为一个新标签。（5)重复步骤（4)直至所有核心点和边界点的标签集中有且只有一个簇标签。（6) 全部噪音点归为一个簇。（7)输出所有簇及该簇内的所有点，聚类结束。
[0047] 故障模式生成模块，根据DBSCAN得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点（即潜在异常模式开始的位置）进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。所以形式化规则一定程度上反映了事件发生的先后顺序。例如，DBSCAN聚类得到的一个簇，包含数据点为：
[0048] {[，A，，2]，[，B，，3]，[，C，，2]，[，D，，4]}
[0049] 其中，每个数据点包括两部分：潜在异常模式和模式的起始位置。上述方法所得形式化规则为：
[0050] ['A'，2]&&['C'，2] - ['B'，3] - ['D'，4]
[0051] 'A'模式和'C'模式具有相同的起始位置，并且位置最靠前，所以它们作为第一个前件。'B'模式的起始位置落后于'A'模式和'C'模式，所以'B'模式成为'A'模式和'C' 模式的后件。又由于'D'模式的起始位置最靠后，所以'D'模式就成为'B'模式的后件，SP 'B'模式可以看作'D'模式的前件。当然'A'模式和'C'模式可以看作'D'模式的诱因。
[0052] 本发明一种挖掘时序数据故障模式的系统及方法，包括以下步骤：
[0053] 1)、数据预处理模块，对原始时序数据进行清洗、插值处理，得到有效数据形式。
[0054]2)、参照图2,TK-Means聚类模块，采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串：
[0055] 首先进行步骤2-1，从预处理后的时序数据中取一条未计算数据。然后进行步骤 2-2,判断数据预处理模块处理后的数据是否全部处理完。如果数据没有处理完，则进行步骤2-3,计算该数据与所有簇中心距离。步骤2-4判断数据与最近簇中心距离是否小于阈值t。如果不小于，则执行步骤2-5,把该数据单独生成一个簇，并作为簇中心，然后转至步骤2-1。如果小于，则执行步骤2-6,将该数据放入最近簇中，并调整该簇中心，然后转至步骤2-1。如果所有数据已经处理完，则执行步骤2-7,判断簇的数目是否在[min，max]中。如果簇数目不在[min，max]范围中，则执行步骤2-8,调整阈值t，然后转至步骤2-1。如果簇数目在[min,max]范围中，则执行步骤2-9,取一条未计算数据。然后执行步骤2-10,判断是否处理完所有数据。如果数据没有处理完，则执行步骤2-11，计算该数据与所有簇中心的距离。然后执行步骤2-12,把该数据放入距其最近的簇中。然后转至步骤2-9。如果所有数据都处理完，则执行步骤2-13,重新计算每个簇的中心向量。然后执行步骤2-14,判断聚类结果是否发生变化，即是否有簇中心向量发生了变化。如果有簇中心向量发生了变化，则转至步骤2-9。如果没有簇中心向量发生变化，即聚类结果不再变化，则结束聚类过程。
[0056] 3)、参照图3,统计学习模块，对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式：
[0057] 首先进行步骤3-1，获取TK-Means聚类结果所生成特征字符串序列。然后进行步骤3-2,在特征字符串序列中统计长度为L(可以人工设定，默认为4)的所有单词频率。然后执行步骤3-3,初始化频繁模式集和当前频繁模式。步骤3-4初始化当前字符位置。接着步骤3-5在特征字符串中从当前位置开始获取长度为L的当前特征单词。然后在步骤3-6 判断特征字符串是否已经处理完。如果特征字符串未处理完，则执行步骤3-7,判断当前特征单词是否频繁。如果当前单词是频繁单词，即其频率大于给定阈值，则执行步骤3-8,更新当前频繁模式，即在当前频繁模式末尾追加当前特征单词。然后执行步骤3-9,字符位置向后滑动L个字符。然后转至步骤3-5。如果当前单词不是频繁单词，则执行步骤3-11，判断前一个单词是否频繁。如果前一个单词是频繁单词，则执行步骤3-12,更新频繁模式集，即把当前频繁模式加入频繁模式集中。然后执行步骤3-13,把当前频繁模式更新为空。接着执行步骤3-14,字符位置向后滑动一个1字符。如果前一个单词不是频繁单词，则直接执行步骤3-14。步骤3-14之后转至步骤3-5。直至特征字符串处理完，则执行步骤3-10，输出频繁

完整全部详细技术资料下载

当前第3页1 2 3 4 5