一种基于最大信息熵的化工数据流实时异常检测方法

文档序号:6649200阅读:740来源:国知局
一种基于最大信息熵的化工数据流实时异常检测方法
【专利摘要】本发明提出了一种基于最大信息熵的化工数据流实时异常检测方法,该方法应用实时聚类算法DSC-Stream(The Dimension Space Cluster-Stream),以数据维度空间为切入口,将数据维度空间按最大熵原则分为若干个维度簇,处在同一组维度簇中的数据形成微簇,实现数据流的实时聚类;该算法能够有效减少传统密度网格算法中无效网格产生数量,大大提高了运算的效率;同时,该算法通过设置维度簇相似度的方法有效解决传统密度算法因对扫描半径和密度阈值敏感导致鲁棒性差的问题,能更好适应流数据。
【专利说明】一种基于最大信息熵的化工数据流实时异常检测方法

【技术领域】
[0001] 本发明涉及异常检测领域,特别涉及到一种基于最大信息熵的化工数据流实时异 常检测方法。

【背景技术】
[0002] 异常检测是化工生产监控的一个重要的领域,异常检测的工作机制是异常在数据 集中偏离大部分数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不 同的机制。
[0003] 化工过程数据流聚类是最近数据挖掘研究领域的新热点之一,它以实时、连续、有 序的数据序列方式广泛存在。化工生产监控数据是流数据,它具有数据量大、连续快速、不 可预测和短暂易逝等特点,将监控过程中所有的元素全部存储起来是不现实的。因此,处理 化工监测数据的算法应该具有低内存消耗,高计算效率和单遍扫描数据等特点,主要表现 为以下三点:(1)化工数据流的实时性对算法的响应有严格的要求,通常牺牲一定的精度 来提高算法的响应速度;(2)随着化工数据流连续不断地到来,使得对数据的访问只能是 一次或是有限次,通常要求在对数据的一次访问中获得较优的解;(3)传统离线化工数据 应用中的一些常用操作在数据流中是不可行的。
[0004] 现有的化工数据流实时异常检测方法很难达到上述要求。因此,有必要研究出一 种全新的化工数据流实时异常检测方法,从而解决现有技术的上述缺陷。


【发明内容】

[0005] 为了解决上述问题,本发明提出了一种基于最大信息熵的化工数据流实时异常检 测方法。
[0006] 在化工数据流聚类算法以及异常检测方面,本发明提出了一种基于维度簇 空间最大信息熵的化工数据流在线实时聚类算法DSC-Stream(The Dimension Space Cluster-Stream),该算法以数据维度空间为切入口,将数据维度空间按最大熵原则分为若 干个维度簇,处在同一组维度簇中的数据形成微簇。其能够有效减少传统密度网格算法中 无效网格产生数量,大大提高了运算的效率。另外,该算法通过设置维度簇相似度的方法有 效解决传统密度算法因对扫描半径和密度阈值敏感导致鲁棒性差的问题,能更好适应流数 据。维度簇半径由维度空间数据按照最大熵原则自动产生,因此DSC-Stream算法更有效、 鲁棒性更强。
[0007] 本发明请求保护一种基于最大信息熵的化工数据流实时异常检测方法,该方法包 括如下步骤:
[0008] S101,初始化窗口,从数据流读入η个数据,η为滑动窗口宽度;
[0009] S102,利用DSC-Stream算法计算微族彳目息摘;
[0010] 该算法的流程具体如下:
[0011] S201,从数据不同维度空间计算出各维度组距rj,将数据按各维组距进行分组;
[0012] S202,选取维度组列中密度最大组,按照连通原则检测两边维度组相似组;
[0013] S203,判断维度组相似度是否大于相似度参数ε ;
[0014] S204,若条件不满足则产生一个维度簇并结束此次递归,如果维度空间还有未归 类数据则重复步骤S202及S203,直到维度空间中所有数据都被处理;
[0015] S205,维度空间中维度簇边界按照最大熵原理划分,按照该划分方式将各个维度 空间划分成维度簇,同时生成数据维度簇标示数组F ;
[0016] S206,将各维度都处在同一维度簇的数据集合成簇,生成数据微簇集合mico-P;
[0017] S207,根据微簇特征按照不同衰减策略进行衰减;
[0018] S208,如果数据流未结束,则继续读入数据,如果数据点不能被原有维度组接收, 则生成新的维度组;并重复S202至S207,同时更新数据微簇特征值;
[0019] S209,计算微簇信息熵。
[0020] S103,将监测变量各个维度的历史数据经阻尼衰减主簇窗口模型处理后,计算历 史数据信息熵;
[0021] S104,通过比较微簇信息熵与历史数据信息熵大小,以监测所选取指标是否超出 阈值,如果超出,系统立即发出警报。
[0022] 进一步的,微簇集合micro-P的具体定义如下:
[0023] micro-P (Pi, β i, a flagD保存在窗口内等待更新或衰减,其中Pi表示微簇中 心值,数组β?记录每一个微簇的存在时间,数组ct i记录每一个微簇的数据个数,flag i 是微簇权重系数。

【权利要求】
1. 一种基于最大信息熵的化工数据流实时异常检测方法,其特征在于,该方法包括如 下步骤: S101,初始化窗口,从数据流读入η个数据,η为滑动窗口宽度; 5102, 利用DSC-Stream算法计算微簇信息熵; 该算法的流程具体如下: S201,从数据不同维度空间计算出各维度组距Ij,将数据按各维组距进行分组; 5202, 选取维度组列中密度最大组,按照连通原则检测两边维度组相似组; 5203, 判断维度组相似度是否大于相似度参数ε ; 5204, 若条件不满足则产生一个维度簇并结束此次递归,如果维度空间还有未归类数 据则重复步骤S202及S203,直到维度空间中所有数据都被处理; 5205, 维度空间中维度簇边界按照最大熵原理划分,按照该划分方式将各个维度空间 划分成维度簇,同时生成数据维度簇标示数组F ; 5206, 将各维度都处在同一维度簇的数据集合成簇,生成数据微簇集合mico-P; 5207, 根据微簇特征按照不同衰减策略进行衰减; 5208, 如果数据流未结束,则继续读入数据,如果数据点不能被原有维度组接收,则生 成新的维度组;并重复S202至S207,同时更新数据微簇特征值; 5209, 计算微簇信息熵。 5103, 将监测变量各个维度的历史数据经阻尼衰减主簇窗口模型处理后,计算历史数 据信息熵; 5104, 通过比较微簇信息熵与历史数据信息熵大小,以监测所选取指标是否超出阈值, 如果超出,系统立即发出警报。
2. 如权利要求1所述的方法,其特征在于,微簇集合micro-P的具体定义如下: micro-P (Pi, Pi, Ctpflagi)保存在窗口内等待更新或衰减,其中?1表示微簇中心值, 数组β i记录每一个微簇的存在时间,数组α 3己录每一个微簇的数据个数,打&81是微簇权 重系数。
其中num(CM)为取维度j中第i个微簇中数据的个数,Iium(C j) 表示为维度j所包含的所有数据个数;微簇数据个数在整个窗口数据中占有多数即Hagi > IAmm(P)或新产生的微簇被称为权重簇,另一种是微簇数据量较为稀少即HagiS 1/ num(P)或簇生存时间长的微簇被称为权轻簇。
3. 如权利要求2所述的方法,其特征在于,步骤S207中,根据微簇不同,在处理微簇的 衰减时分为以下两种策略:(1)权重簇衰减函数为「(%) = 1 -?·56αΓ°,对这类数据需要对其 特征进行存储; (2)权轻簇,其数据量较小,更新不频繁簇,这类簇的衰减函数为= 其中入 > 1,h为微簇i产生时间,a i+1为微簇更新时间。当微簇更新后,将a i+1的值赋予a i, a i+1记录下次微簇更新时间。
4. 如权利要求1所述的方法,其特征在于,计算微簇信息熵的具体过程为: 由微簇信息熵公式」
,其中= num(Cip为取维度i中 第j个微簇中数据的个数,num(Cj)表示为维度j所包含的所有数据个数,Cij表示维度j中 第i个维度簇,根据数据维度簇信息熵求出微簇信息熵输出。
【文档编号】G06F19/00GK104517041SQ201510038229
【公开日】2015年4月15日 申请日期:2015年1月26日 优先权日:2015年1月26日
【发明者】耿志强, 姬威, 韩永明, 朱群雄, 徐圆 申请人:北京化工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1