一种挖掘时序数据故障模式的系统及方法

文档序号:9453111阅读:355来源:国知局
一种挖掘时序数据故障模式的系统及方法
【专利说明】一种挖掘时序数据故障模式的系统及方法 【技术领域】
[0001] 本发明属于计算机技术和智能信息处理领域,具体涉及一种挖掘时序数据故障模 式的系统及方法。 【【背景技术】】
[0002] 时序数据就是随着时间不断变化的数据序列。时序数据产生于社会生活生产活动 中对各种对象的持续观测记录,具有极其广泛的来源和重要的作用。例如,对航天器实时检 测的数据、PM2. 5等各种气象观测数据、股票期货等金融交易数据、各种传感器的监测数据、 网络流量数据等等。时序数据遍布现代生活的方方面面,是构成大数据的主要源泉之一。
[0003] 从时序数据中挖掘和发现故障模式对于维护系统正常运营,提取异常和故障知 识,针对观测对象检测、发现、预测、预警异常和故障事件,建立故障诊断和健康管理系统都 具有重要作用。 【
【发明内容】

[0004] 本发明的目的在于提供一种挖掘时序数据故障模式的系统及方法,本发明解决了 从海量时序观测数据中挖掘数据变化规律,发现故障模式的问题。
[0005] 为了实现上述目的,本发明采用如下技术方案:
[0006] -种挖掘时序数据故障模式的系统,包括:数据预处理模块、TK-Means聚类模块、 统计学习模块和DBSCAN聚类模块;
[0007] 数据预处理模块,用于对原始数据进行清洗、插值处理,获得归一化数据;
[0008] TK-Means聚类模块,用于对数据预处理模块处理后的数据进行特征向量提取,然 后采用TK-means方法对特征向量进行聚类,然后根据聚类结果将数据转换成特征字符串;
[0009] 统计学习模块,用于对特征字符串进行统计学习,找出频繁模式和非频繁模式,所 述非频繁模式对应着异常模式;
[0010] DBSCAN聚类模块,用于把多个参数的异常模式聚集在一起形成故障模式。
[0011] 本发明进一步的改进在于:所述系统还包括故障模式生成模块;所述故障模式生 成模块,用于把故障模式写成形式化规则。
[0012] 本发明进一步的改进在于:数据预处理模块包括去野值、生成单参数文件、等间隔 处理以及归一化处理步骤;去野值的步骤包括:对每个数据设定上下限,把大于上限的数 值变为上限,小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据 每隔1秒进行采样,等间隔处理后的数据,每分钟都从〇秒开始,59秒结束;数据经过等间 隔处理之后进行归一化处理,将其取值范围转换到[0,1]区间上。
[0013] 本发明进一步的改进在于:TK-Means聚类模块首先对数据预处理模块处理后的 数据进行特征向量提取,然后用TK-Means方法对特征向量进行聚类,并将所得聚类结果的 每一个簇表示成一个特征字符;在TK-Means方法中,簇的数目是一个范围[min,max];设 置一个最大相似度阈值t*,在聚类开始的时候,随机选择一个初始阈值t;如果第一次聚类 得到的簇数目大于max,且t小于最大阈值t*,则将阈值t增大At,重新进行聚类,直到第 一次聚类得到的簇的数目在[min,max]范围中;如果第一次聚类得到的簇的数目小于min, 且阈值t大于At,则将阈值t减小At,重新进行聚类,直到第一次聚类得到的簇的数目 在[min,max]范围中;TK-Means聚类的具体过程为:(1)第一次聚类;(2)如果第一次聚类 得到的簇的数目在[min,max]范围中,则执行第⑶步,否则按照调整阈值t并重复执行第 (1)步;(3)聚类并调整簇心,迭代次数i递增;(4)判断聚类结果是否稳定,如果聚类结果 不稳定,则重复执行第(3)步,否则聚类结束;在第一次聚类中,当簇每增加一条数据时,调 整簇中心,直到处理完所有数据;在第(3)步的聚类过程中,直到所有数据全部处理完后, 才调整一次簇心。
[0014] 本发明进一步的改进在于:统计学习模块通过寻找频繁模式的间隙来确定非频繁 模式,即异常模式;正常模式被打断的地方就是异常模式;正常模式就是频繁发生的模式, 对应特征字符串上的频繁模式;而异常模式不是频繁发生,把特征字符串上的频繁模式去 掉之后,剩下的片段就是非频繁模式,即潜在异常模式;寻找异常模式的过程为:(1)把特 征字符串划分为一系列长度为L的单词,并且统计每个单词的出现频率;(2)如果一个单词 的出现频率大于给定阈值,称作频繁单词,否则为非频繁单词;(3)连续取L个字符构成当 前单词;如果未达到字符串末尾,则执行下一步;否则把当前频繁模式放入频繁模式集中, 输出频繁模式集,然后执行第(7)步;(4)判断当前单词是否为频繁单词;如果是执行下一 步,否则执行第(6)步;(5)向后滑动L个字符并更新当前频繁模式,然后执行第(3)步;(6) 向后滑动一个字符,并判断前一个单词是否为频繁单词;如果是,则更新频繁模式集,即把 当前频繁模式放入频繁模式集中;然后执行第(3)步;(7)按照起始位置取出频繁模式集中 相邻的两个频繁模式;(8)相邻频繁模式的间隙就是非频繁模式,即潜在异常模式;间隙就 是从上一个模式末尾到下一个模式开头之间的字符串。
[0015] 本发明进一步的改进在于:DBSCAN聚类模块用密度聚类方法对多个参数的异常 模式进行聚类,找到在相近时刻发生异常的多个参数异常模式;在同一个簇中,异常发生的 时间是相近的,认为同一个簇中的参数在这段时间构成了故障模式;故障模式就是在相近 时刻出现多个异常模式;DBSCAN聚类中一个数据点就是一个潜在异常模式及其起始位置; 具体过程如下:(1)扫描统计学习模块得到的所有非频繁模式,把数据点分为核心点、边界 点和噪音点;核心点就是该点邻域内有足够多的其他点,即与该点距离小于指定值的数据 点的个数大于等于给定阈值pt;边界点就是该点邻域内至少有1个核心点,但是数据点的 个数小于阈值pt;噪音点就是除了核心点和边界点之外的其他数据点;(2)取出一个标签 集为空的核心点,生成一个新簇,并将新簇的标签加入该点标签集以及该核心点邻域内所 有核心点和边界点的标签集;(3)重复步骤(2)直至所有核心点和边界点的标签集都不为 空;(4)合并密度联通的簇,即遍历所有核心点和边界点,如果该点标签集长度大于1,则将 该标签集中所有簇标签全部映射为一个标签;具体映射过程为,首先逐一检查标签集中所 有簇标签是否在映射表中已经存在;若存在,则从映射表中取出已经存在的映射目标,并将 本标签集中所有簇标签映射为该目标;若不存在,则将本标签集中所有簇标签映射为一个 新标签;(5)重复步骤(4)直至所有核心点和边界点的标签集中有且只有一个簇标签;(6) 全部噪音点归为一个簇;(7)输出所有簇及该簇内的所有点,聚类结束。
[0016] 本发明进一步的改进在于:故障模式生成模块根据DBSCAN聚类模块得到的聚类 结果,将故障模式写成形式化规则;形式化规则按照时间点进行排序,时间在前的模式蕴含 着时间在后的模式,时间相同的模式则彼此为合取关系。
[0017] -种挖掘时序数据故障模式的方法,包括以下步骤:
[0018] 第一步:数据预处理模块对原始时序数据进行清洗、插值处理,获得归一化数据;
[0019] 第二步:TK-Means聚类模块对数据预处理模块处理后的数据进行特征向量提取, 然后采用TK-means方法对特征向量进行聚类,然后根据聚类结果将数据转换成特征字符 串;
[0020] 第三步:统计学习模块对特征字符串进行统计学习,找出频繁模式和非频繁模式, 所述非频繁模式对应着异常模式;
[0021] 第四步:DBSCAN聚类模块把多个参数的异常模式聚集在一起形成故障模式。
[0022] 本发明进一步的改进在于:所述挖掘时序数据故障模式的方法具体包括以下步 骤:
[0023] 第一步:数据预处理模块对原始时序数据进行去野值、生成单参数文件、等间隔处 理以及归一化;去野值的步骤包括:对每个数据设定上下限,把大于上限的数值变为上限, 小于下限的数值变为下限,以此去野值;等间隔处理处理步骤中,默认对数据每隔1秒进行 采样,等间隔处理后的数据,每分钟都从〇秒开始,59秒结束;数据经过等间隔处理之后进 行归一化处理,将其取值范围转换到[0, 1]区间上;
[0024] 第二步:TK-Means聚类模块首先对数据预处
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1