一种挖掘时序数据故障模式的系统及方法_5

文档序号：9453111阅读：来源：国知局

的系统，其特征在于，DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：（1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值Pt;边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值Pt;噪音点就是除了核心点和边界点之外的其他数据点；(2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；（3)重复步骤⑵直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；（5)重复步骤（4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；(7)输出所有簇及该簇内的所有点，聚类结束。7. 根据权利要求2所述的一种挖掘时序数据故障模式的系统，其特征在于，故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。8. -种挖掘时序数据故障模式的方法，其特征在于，包括以下步骤：第一步：数据预处理模块对原始时序数据进行清洗、插值处理，获得归一化数据；第二步=TK-Means聚类模块对数据预处理模块处理后的数据进行特征向量提取，然后采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串；第三步：统计学习模块对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式；第四步=DBSCAN聚类模块把多个参数的异常模式聚集在一起形成故障模式。9. 根据权利要求8所述的一种挖掘时序数据故障模式的方法，其特征在于，所述挖掘时序数据故障模式的方法具体包括以下步骤：第一步：数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处理以及归一化；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从O秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0, 1]区间上；第二步=TK-Means聚类模块首先对数据预处理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min，max];设置一个最大相似度阈值 t*，在聚类开始的时候，随机选择一个初始阈值t;如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于At，则将阈值t减小At，重新进行聚类，直到第一次聚类得到的簇的数目在[min，max]范围中；TK-Means聚类的具体过程为：（1)第一次聚类；（2)如果第一次聚类得到的簇的数目在 [min，max]范围中，则执行第（3)步，否则按照调整阈值t并重复执行第（1)步；（3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第⑶步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第（3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心；第三步：统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：（1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；（3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第（7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第（6)步； (5)向后滑动L个字符并更新当前频繁模式，然后执行第（3)步；(6)向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第（3)步；（7)按照起始位置取出频繁模式集中相邻的两个频繁模式； (8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串；第四步=DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式； DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：（1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值Pt;边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt;噪音点就是除了核心点和边界点之外的其他数据点；（2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；（3)重复步骤（2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；（5)重复步骤 (4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6)全部噪音点归为一个簇；（7)输出所有簇及该簇内的所有点，聚类结束。10.根据权利要求8所述的一种挖掘时序数据故障模式的方法，其特征在于，所述一种挖掘时序数据故障模式的方法还包括：第五步：故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。
【专利摘要】本发明公开一种挖掘时序数据故障模式的系统及方法，包括数据预处理模块、TK-Means聚类模块、统计学习模块、DBSCAN聚类模块、故障模式生成模块；本发明通过对时序数据异常信息进行分析，一方面可以挖掘出数据变化规律的共同特征，从而发现比较通用、一致的异常和故障模式；另一方面也可以挖掘出新型变化规律，从而发现未知异常和故障模式。本发明利用DBSCAN方法对异常模式进行聚类，根据聚类结果将故障模式写成形式化规则。同时，形式化规则的前件和后件也反映了对应事件的先后关系。
【IPC分类】G06F17/30
【公开号】CN105205111
【申请号】CN201510551484
【发明人】鲍军鹏, 杨天社, 樊恒海, 齐勇, 高宇, 王小乐, 傅娜, 魏强
【申请人】西安交通大学, 中国西安卫星测控中心
【公开日】2015年12月30日
【申请日】2015年9月1日

完整全部详细技术资料下载

当前第5页1 2 3 4 5