一种挖掘时序数据故障模式的系统及方法

文档序号：9453111阅读：355来源：国知局

一种挖掘时序数据故障模式的系统及方法
【专利说明】一种挖掘时序数据故障模式的系统及方法【技术领域】
[0001] 本发明属于计算机技术和智能信息处理领域，具体涉及一种挖掘时序数据故障模式的系统及方法。【【背景技术】】
[0002] 时序数据就是随着时间不断变化的数据序列。时序数据产生于社会生活生产活动中对各种对象的持续观测记录，具有极其广泛的来源和重要的作用。例如，对航天器实时检测的数据、PM2. 5等各种气象观测数据、股票期货等金融交易数据、各种传感器的监测数据、网络流量数据等等。时序数据遍布现代生活的方方面面，是构成大数据的主要源泉之一。
[0003] 从时序数据中挖掘和发现故障模式对于维护系统正常运营，提取异常和故障知识，针对观测对象检测、发现、预测、预警异常和故障事件，建立故障诊断和健康管理系统都具有重要作用。【
【发明内容】
】
[0004] 本发明的目的在于提供一种挖掘时序数据故障模式的系统及方法，本发明解决了从海量时序观测数据中挖掘数据变化规律，发现故障模式的问题。
[0005] 为了实现上述目的，本发明采用如下技术方案：
[0006] -种挖掘时序数据故障模式的系统，包括：数据预处理模块、TK-Means聚类模块、统计学习模块和DBSCAN聚类模块；
[0007] 数据预处理模块，用于对原始数据进行清洗、插值处理，获得归一化数据；
[0008] TK-Means聚类模块，用于对数据预处理模块处理后的数据进行特征向量提取，然后采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串；
[0009] 统计学习模块，用于对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式；
[0010] DBSCAN聚类模块，用于把多个参数的异常模式聚集在一起形成故障模式。
[0011] 本发明进一步的改进在于：所述系统还包括故障模式生成模块；所述故障模式生成模块，用于把故障模式写成形式化规则。
[0012] 本发明进一步的改进在于：数据预处理模块包括去野值、生成单参数文件、等间隔处理以及归一化处理步骤；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从〇秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0，1]区间上。
[0013] 本发明进一步的改进在于：TK-Means聚类模块首先对数据预处理模块处理后的数据进行特征向量提取，然后用TK-Means方法对特征向量进行聚类，并将所得聚类结果的每一个簇表示成一个特征字符；在TK-Means方法中，簇的数目是一个范围[min,max];设置一个最大相似度阈值t*，在聚类开始的时候，随机选择一个初始阈值t;如果第一次聚类得到的簇数目大于max，且t小于最大阈值t*，则将阈值t增大At，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；如果第一次聚类得到的簇的数目小于min，且阈值t大于At，则将阈值t减小At，重新进行聚类，直到第一次聚类得到的簇的数目在[min,max]范围中；TK-Means聚类的具体过程为：（1)第一次聚类；(2)如果第一次聚类得到的簇的数目在[min，max]范围中，则执行第⑶步，否则按照调整阈值t并重复执行第 (1)步；（3)聚类并调整簇心，迭代次数i递增；(4)判断聚类结果是否稳定，如果聚类结果不稳定，则重复执行第（3)步，否则聚类结束；在第一次聚类中，当簇每增加一条数据时，调整簇中心，直到处理完所有数据；在第（3)步的聚类过程中，直到所有数据全部处理完后，才调整一次簇心。
[0014] 本发明进一步的改进在于：统计学习模块通过寻找频繁模式的间隙来确定非频繁模式，即异常模式；正常模式被打断的地方就是异常模式；正常模式就是频繁发生的模式，对应特征字符串上的频繁模式；而异常模式不是频繁发生，把特征字符串上的频繁模式去掉之后，剩下的片段就是非频繁模式，即潜在异常模式；寻找异常模式的过程为：（1)把特征字符串划分为一系列长度为L的单词，并且统计每个单词的出现频率；(2)如果一个单词的出现频率大于给定阈值，称作频繁单词，否则为非频繁单词；（3)连续取L个字符构成当前单词；如果未达到字符串末尾，则执行下一步；否则把当前频繁模式放入频繁模式集中，输出频繁模式集，然后执行第（7)步；(4)判断当前单词是否为频繁单词；如果是执行下一步，否则执行第（6)步；（5)向后滑动L个字符并更新当前频繁模式，然后执行第（3)步；(6) 向后滑动一个字符，并判断前一个单词是否为频繁单词；如果是，则更新频繁模式集，即把当前频繁模式放入频繁模式集中；然后执行第（3)步；(7)按照起始位置取出频繁模式集中相邻的两个频繁模式；(8)相邻频繁模式的间隙就是非频繁模式，即潜在异常模式；间隙就是从上一个模式末尾到下一个模式开头之间的字符串。
[0015] 本发明进一步的改进在于：DBSCAN聚类模块用密度聚类方法对多个参数的异常模式进行聚类，找到在相近时刻发生异常的多个参数异常模式；在同一个簇中，异常发生的时间是相近的，认为同一个簇中的参数在这段时间构成了故障模式；故障模式就是在相近时刻出现多个异常模式；DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置；具体过程如下：（1)扫描统计学习模块得到的所有非频繁模式，把数据点分为核心点、边界点和噪音点；核心点就是该点邻域内有足够多的其他点，即与该点距离小于指定值的数据点的个数大于等于给定阈值pt;边界点就是该点邻域内至少有1个核心点，但是数据点的个数小于阈值pt;噪音点就是除了核心点和边界点之外的其他数据点；（2)取出一个标签集为空的核心点，生成一个新簇，并将新簇的标签加入该点标签集以及该核心点邻域内所有核心点和边界点的标签集；（3)重复步骤（2)直至所有核心点和边界点的标签集都不为空；(4)合并密度联通的簇，即遍历所有核心点和边界点，如果该点标签集长度大于1，则将该标签集中所有簇标签全部映射为一个标签；具体映射过程为，首先逐一检查标签集中所有簇标签是否在映射表中已经存在；若存在，则从映射表中取出已经存在的映射目标，并将本标签集中所有簇标签映射为该目标；若不存在，则将本标签集中所有簇标签映射为一个新标签；（5)重复步骤（4)直至所有核心点和边界点的标签集中有且只有一个簇标签；(6) 全部噪音点归为一个簇；（7)输出所有簇及该簇内的所有点，聚类结束。
[0016] 本发明进一步的改进在于：故障模式生成模块根据DBSCAN聚类模块得到的聚类结果，将故障模式写成形式化规则；形式化规则按照时间点进行排序，时间在前的模式蕴含着时间在后的模式，时间相同的模式则彼此为合取关系。
[0017] -种挖掘时序数据故障模式的方法，包括以下步骤：
[0018] 第一步：数据预处理模块对原始时序数据进行清洗、插值处理，获得归一化数据；
[0019] 第二步：TK-Means聚类模块对数据预处理模块处理后的数据进行特征向量提取，然后采用TK-means方法对特征向量进行聚类，然后根据聚类结果将数据转换成特征字符串；
[0020] 第三步：统计学习模块对特征字符串进行统计学习，找出频繁模式和非频繁模式，所述非频繁模式对应着异常模式；
[0021] 第四步：DBSCAN聚类模块把多个参数的异常模式聚集在一起形成故障模式。
[0022] 本发明进一步的改进在于：所述挖掘时序数据故障模式的方法具体包括以下步骤：
[0023] 第一步：数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处理以及归一化；去野值的步骤包括：对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此去野值；等间隔处理处理步骤中，默认对数据每隔1秒进行采样，等间隔处理后的数据，每分钟都从〇秒开始，59秒结束；数据经过等间隔处理之后进行归一化处理，将其取值范围转换到[0, 1]区间上；
[0024] 第二步：TK-Means聚类模块首先对数据预处

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲍军鹏;杨天社;樊恒海;齐勇;高宇;王小乐;傅娜;魏强;
技术所有人：西安交通大学;中国西安卫星测控中心;
我是此专利的发明人

上一篇：一种时序数据异常变化过程的挖掘系统及方法
上一篇：多载通信会话的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。