一种基于最大信息熵的化工数据流实时异常检测方法

文档序号：6649200阅读：740来源：国知局

一种基于最大信息熵的化工数据流实时异常检测方法
【专利摘要】本发明提出了一种基于最大信息熵的化工数据流实时异常检测方法，该方法应用实时聚类算法DSC-Stream(The Dimension Space Cluster-Stream)，以数据维度空间为切入口，将数据维度空间按最大熵原则分为若干个维度簇，处在同一组维度簇中的数据形成微簇，实现数据流的实时聚类；该算法能够有效减少传统密度网格算法中无效网格产生数量，大大提高了运算的效率；同时，该算法通过设置维度簇相似度的方法有效解决传统密度算法因对扫描半径和密度阈值敏感导致鲁棒性差的问题，能更好适应流数据。
【专利说明】一种基于最大信息熵的化工数据流实时异常检测方法

【技术领域】
[0001] 本发明涉及异常检测领域，特别涉及到一种基于最大信息熵的化工数据流实时异常检测方法。

【背景技术】
[0002] 异常检测是化工生产监控的一个重要的领域，异常检测的工作机制是异常在数据集中偏离大部分数据，使人怀疑这些数据的偏离并非由随机因素产生，而是产生于完全不同的机制。
[0003] 化工过程数据流聚类是最近数据挖掘研究领域的新热点之一，它以实时、连续、有序的数据序列方式广泛存在。化工生产监控数据是流数据，它具有数据量大、连续快速、不可预测和短暂易逝等特点，将监控过程中所有的元素全部存储起来是不现实的。因此，处理化工监测数据的算法应该具有低内存消耗，高计算效率和单遍扫描数据等特点，主要表现为以下三点：（1)化工数据流的实时性对算法的响应有严格的要求，通常牺牲一定的精度来提高算法的响应速度；（2)随着化工数据流连续不断地到来，使得对数据的访问只能是一次或是有限次，通常要求在对数据的一次访问中获得较优的解；（3)传统离线化工数据应用中的一些常用操作在数据流中是不可行的。
[0004] 现有的化工数据流实时异常检测方法很难达到上述要求。因此，有必要研究出一种全新的化工数据流实时异常检测方法，从而解决现有技术的上述缺陷。

【发明内容】

[0005] 为了解决上述问题，本发明提出了一种基于最大信息熵的化工数据流实时异常检测方法。
[0006] 在化工数据流聚类算法以及异常检测方面，本发明提出了一种基于维度簇空间最大信息熵的化工数据流在线实时聚类算法DSC-Stream(The Dimension Space Cluster-Stream)，该算法以数据维度空间为切入口，将数据维度空间按最大熵原则分为若干个维度簇，处在同一组维度簇中的数据形成微簇。其能够有效减少传统密度网格算法中无效网格产生数量，大大提高了运算的效率。另外，该算法通过设置维度簇相似度的方法有效解决传统密度算法因对扫描半径和密度阈值敏感导致鲁棒性差的问题，能更好适应流数据。维度簇半径由维度空间数据按照最大熵原则自动产生，因此DSC-Stream算法更有效、鲁棒性更强。
[0007] 本发明请求保护一种基于最大信息熵的化工数据流实时异常检测方法，该方法包括如下步骤：
[0008] S101，初始化窗口，从数据流读入η个数据，η为滑动窗口宽度；
[0009] S102,利用DSC-Stream算法计算微族彳目息摘；
[0010] 该算法的流程具体如下：
[0011] S201，从数据不同维度空间计算出各维度组距rj，将数据按各维组距进行分组；
[0012] S202,选取维度组列中密度最大组，按照连通原则检测两边维度组相似组；
[0013] S203,判断维度组相似度是否大于相似度参数ε ;
[0014] S204,若条件不满足则产生一个维度簇并结束此次递归，如果维度空间还有未归类数据则重复步骤S202及S203,直到维度空间中所有数据都被处理；
[0015] S205,维度空间中维度簇边界按照最大熵原理划分，按照该划分方式将各个维度空间划分成维度簇，同时生成数据维度簇标示数组F ;
[0016] S206,将各维度都处在同一维度簇的数据集合成簇，生成数据微簇集合mico-P;
[0017] S207,根据微簇特征按照不同衰减策略进行衰减；
[0018] S208,如果数据流未结束，则继续读入数据，如果数据点不能被原有维度组接收，则生成新的维度组；并重复S202至S207,同时更新数据微簇特征值；
[0019] S209,计算微簇信息熵。
[0020] S103,将监测变量各个维度的历史数据经阻尼衰减主簇窗口模型处理后，计算历史数据信息熵；
[0021] S104,通过比较微簇信息熵与历史数据信息熵大小，以监测所选取指标是否超出阈值，如果超出，系统立即发出警报。
[0022] 进一步的，微簇集合micro-P的具体定义如下：
[0023] micro-P (Pi, β i, a flagD保存在窗口内等待更新或衰减，其中Pi表示微簇中心值，数组β?记录每一个微簇的存在时间，数组ct i记录每一个微簇的数据个数，flag i 是微簇权重系数。

【权利要求】
1. 一种基于最大信息熵的化工数据流实时异常检测方法，其特征在于，该方法包括如下步骤： S101，初始化窗口，从数据流读入η个数据，η为滑动窗口宽度； 5102, 利用DSC-Stream算法计算微簇信息熵；该算法的流程具体如下： S201，从数据不同维度空间计算出各维度组距Ij，将数据按各维组距进行分组； 5202, 选取维度组列中密度最大组，按照连通原则检测两边维度组相似组； 5203, 判断维度组相似度是否大于相似度参数ε ; 5204, 若条件不满足则产生一个维度簇并结束此次递归，如果维度空间还有未归类数据则重复步骤S202及S203,直到维度空间中所有数据都被处理； 5205, 维度空间中维度簇边界按照最大熵原理划分，按照该划分方式将各个维度空间划分成维度簇，同时生成数据维度簇标示数组F ; 5206, 将各维度都处在同一维度簇的数据集合成簇，生成数据微簇集合mico-P; 5207, 根据微簇特征按照不同衰减策略进行衰减； 5208, 如果数据流未结束，则继续读入数据，如果数据点不能被原有维度组接收，则生成新的维度组；并重复S202至S207,同时更新数据微簇特征值； 5209, 计算微簇信息熵。 5103, 将监测变量各个维度的历史数据经阻尼衰减主簇窗口模型处理后，计算历史数据信息熵； 5104, 通过比较微簇信息熵与历史数据信息熵大小，以监测所选取指标是否超出阈值，如果超出，系统立即发出警报。
2. 如权利要求1所述的方法，其特征在于，微簇集合micro-P的具体定义如下： micro-P (Pi, Pi, Ctpflagi)保存在窗口内等待更新或衰减，其中？1表示微簇中心值，数组β i记录每一个微簇的存在时间，数组α 3己录每一个微簇的数据个数，打&81是微簇权重系数。
其中num(CM)为取维度j中第i个微簇中数据的个数，Iium(C j) 表示为维度j所包含的所有数据个数；微簇数据个数在整个窗口数据中占有多数即Hagi > IAmm(P)或新产生的微簇被称为权重簇，另一种是微簇数据量较为稀少即HagiS 1/ num(P)或簇生存时间长的微簇被称为权轻簇。
3. 如权利要求2所述的方法，其特征在于，步骤S207中，根据微簇不同，在处理微簇的衰减时分为以下两种策略：（1)权重簇衰减函数为「(％) = 1 -?·56αΓ°,对这类数据需要对其特征进行存储； (2)权轻簇，其数据量较小，更新不频繁簇，这类簇的衰减函数为= 其中入 > 1，h为微簇i产生时间，a i+1为微簇更新时间。当微簇更新后，将a i+1的值赋予a i， a i+1记录下次微簇更新时间。
4. 如权利要求1所述的方法，其特征在于，计算微簇信息熵的具体过程为：由微簇信息熵公式」
，其中= num(Cip为取维度i中第j个微簇中数据的个数，num(Cj)表示为维度j所包含的所有数据个数，Cij表示维度j中第i个维度簇，根据数据维度簇信息熵求出微簇信息熵输出。
【文档编号】G06F19/00GK104517041SQ201510038229
【公开日】2015年4月15日申请日期:2015年1月26日优先权日:2015年1月26日
【发明者】耿志强, 姬威, 韩永明, 朱群雄, 徐圆申请人:北京化工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：耿志强;姬威;韩永明;朱群雄;徐圆;
技术所有人：北京化工大学;
我是此专利的发明人

上一篇：增量数据推送系统和方法
上一篇：一种基于视觉行为的网上用户类型识别方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。