一种挖掘时序数据故障模式的系统及方法_2

文档序号：9453111阅读：来源：国知局

理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min,max];设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t;如果第一次聚类得到的簇数目大于 max，且t小于最大阈值t*，则将阈值t增大At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于At，则将阈值t减小At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中；TK-Means聚类的具体过程为：（1)第一次聚类；（2)如果第一次聚类得到的簇的数目在 [min，max]范围中，则执行第（3)步，否则按照调整阈值t并重复执行第（1)步；（3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第⑶步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第（3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心；
[0025] 第三步：统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：（1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；（3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第（7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第（6)步； (5)向后滑动L个字符并更新当前频繁模式，然后执行第（3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第（3)步；（7)按照起始位置取出频繁模式集中相邻的两个频繁模式； (8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串；
[0026] 第四步：DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：（1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt;边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt;噪音点就是除了核心点和边界点之外的其他数据点；（2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；（3)重复步骤（2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；（5)重复步骤 (4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；（7)输出所有簇及该簇内的所有点，聚类结束。
[0027] 本发明进一步的改进在于：所述一种挖掘时序数据故障模式的方法还包括：
[0028] 第五步：故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。
[0029] 本发明相对于现有技术，具有以下有益效果：本发明使用聚类方法对异常模式进行聚类，根据聚类结果将故障模式写成形式化规则，并且形式化规则的前件和后件反映了对应事件的先后关系。本发明一方面可以挖掘出数据变化规律的共同特征，从而发现比较通用、一致的异常和故障模式；另一方面也可以挖掘出新型变化规律，从而发现未知异常和故障模式。【【附图说明】】
[0030] 图1是本发明一种挖掘时序数据故障模式的系统的模块框架图。
[0031] 图2是本发明TK-Means聚类模块流程图。
[0032]图3是本发明统计学习模块流程图。
[0033] 图4是本发明DBSCAN聚类模块流程图。
[0034] 图5是本发明示例的A、B、C、D、E共5个参数的时序数据曲线图。【【具体实施方式】】
[0035] 请参阅图1所示，本发明一种挖掘时序数据故障模式的系统，包括数据预处理模块1-1、TK-Means聚类模块1-2、统计学习模块1-3、DBSCAN聚类模块1-4和故障模式生成模块1-5。
[0036] 数据预处理模块，用于对原始时序数据进行清洗、插值处理，得到有效数据形式，以便进行后续挖掘工作。
[0037]TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后通过TK-Means方法对特征向量进行聚类，并将得到的聚类结果表示成特征字符，把输入数据表示成特征字符串。
[0038] 统计学习模块，默认待考察单词长度为4 (可以人工设定，默认为4)，然后把特征字符串划分成单词序列；接着根据单词出现频率将其分为频繁单词和非频繁单词；然后连续的频繁单词就得到频繁模式，再由相邻频繁模式间隙得到非频繁模式。
[0039] DBSCAN聚类模块，为了获取异常和故障模式，对统计学习模块输出的非频繁模式按照DBSCAN算法进行聚类，如果簇中数据数目大于设定阈值，则认为存在故障模式。
[0040] 故障模式生成模块，用于将DBSCAN聚类模块得到的故障模式写成形式化规则。
[0041] 数据预处理模块包括去野值、生成单参数文件（清洗）、等间隔处理（差值处理）以及归一化处理工作；为了去除噪音干扰，获取有效数据值，本方法通过"去野值处理"删除原始数据中的无效野值，保留有效值。具体为，对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此达到去野值的目的。本方法提取单参数特征，不考虑多参数之间的关系。因此我们将每个有效参数单独写成一个数据文件。本方法对数据进行等间隔处理以保证在连续时间段内任意两个数据点之间的时间间隔相同。等间隔处理程序中，我们默认对数据每隔1秒进行采样。等间隔处理后的数据，每分钟都从〇秒开始， 59秒结束。数据经过等间隔处理之后还要进行归一化处理，将其取值范围转换到[0，1]区间上，以消除量纲对结果的影响。具体采用线性归一化方法，其中最大最小值由等间隔处理后的数据统计得到，也可以人为设置。
[0042]TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符：TK-Means方法与传统K-means方法不同，TK-Means方法不需要人工指定簇的数目，而是自适应确定簇数目；在TK-Means方法中，簇的数目不是一个固定值，而是一个范围 [min,max];设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t，如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中。如果第一次聚类得到的簇的数目小于min，且阈值t大于At，则将阈值t减小At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中。TK-Means聚类的具体过程为：

完整全部详细技术资料下载

当前第2页1 2 3 4 5