一种基于模糊c均值聚类算法和熵理论的数据流检测方法

文档序号：9350396阅读：801来源：国知局

一种基于模糊c均值聚类算法和熵理论的数据流检测方法
【技术领域】
[0001] 本发明涉及一种数据流聚类，属性改变的概念漂移检测技术，该方法简单、实用，形象、直观，克服了以往数据挖掘中分类算法复杂的缺点。
【背景技术】
[0002] 近些年随着数据流挖掘成为研宄热点，其分类问题也自然被学术界广泛关注。互联网和无线通信网的出现，产生了大量的数据流类型的数据：大型超市交易记录数据、股票交易所的股票价格、股票交易信息数据、网络监测数据、电信部门的通话记录数据、信用卡交易流、传感器传回的数据等，我们注意到这类数据大都与地理信息有一定关联，这主要是因为地理信息的维度较大，容易产生这类大量的细节数据。复杂分析折叠需要以近实时的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析，如趋势分析，预测。以前往往是脱机进行的，然而一些新的应用，尤其是在网络安全和国家安全领域，对时间都非常敏感，如检测互联网上的极端事件、欺诈、入侵、异常，复杂人群监控，趋势监控，探查性分析，和谐度分析等，都需要进行联机的分析。对数据流进行很好的分类才能将数据流中蕴藏的信息量进行挖掘，所以对数据流进行分类的研究是一个重要的课题，并且已经取得了一些成果。对数据流聚类来说，2009年Alex等人针对海量实时数据流在聚类过程中受至IJ时间和空间局限的问题，将两种聚类方法，即神经云（Neuralgas，NG)与自组织映射 (Self-organizingmap,S0M)算法进行改进，提出一种基于单次通过（Onepass)的NG和 SOM模型，其主要思想是利用快速划分方法将动态数据流转变为静态数据块，进而使用数据块评估函数对这些数据块进行评估，如果此数据块对聚类的帮助程度达不到标准则将其删除，否则被使用进行聚类。Chen等人使用一种树形结构对数据流进行聚类，并且能够在一定程度上克服数据流概念漂移的问题。Chi等人同样针对动态更新的网页和博客数据流进行聚类，采用两种框架构建聚类模型。首先使用基于K-means的方法对数据流进行粗聚类，然后使用一种概念漂移检测函数去检测是否发生概念漂移，如果发生则重新聚类，否则不必再聚类。通过上述两步能够使得模型具有抗概念漂移的能力，保证聚类结果的准确性。但是现有的数据流聚类研究多使用传统的硬聚类的方法，这种分类是非此即彼的，而事实上，现实生活中，事物的属性是模糊的，并不是严格的区分的。
[0003] 模糊聚类被引入用在数据流的聚类分析中是比较最近才提出来的，参考的文献也比较少。模糊划分的概念最早由Ruspini提出，由于模糊聚类得到的是样本属于各个类别的不确定性程度，这种表达体现了样本类属的中介性，即建立起了样本对于类别的不确定性的描述，能更客观地反映现实世界，从而成为聚类分析研究的主流。实际中受到普遍欢迎的是基于目标函数的方法，该方法设计简单、解决问题的范围广，最终还可以转化为优化问题而借助经典数学的非线性规划理论求解，并易于计算机实现。模糊C均值聚类（Fuzzy C-Means)算法又是基于目标函数中应用最广泛的一种。
[0004] 随着时间的推移，数据不断地涌入，有时会发现待学习目标概念与之前的并不一致，通常这种改变是隐藏的、不可预知的、不明确的，甚至是随机的。隐含数据分布的改变会引起目标概念的改变从而产生概念漂移现象。数据发生了概念漂移，旧系统则对新的数据不能尽可能准确的进行处理，性能就会下降。为了保证系统对数据流的尽可能准确的分析，及时的检测出概念漂移并作出是否更新的决定，是维持系统正常运行的重要技术。
[0005] 概念漂移又分为三类，属性改变的，类别改变的和两者都改变的。本发明针对属性改变的概念漂移检测提出了解决方案。

【发明内容】

[0006] 本发明是为解决上述问题进行的研究，其目的是将模糊聚类的思想引用到数据流的聚类中，使聚类效果更真实的反映目标与类的关系；提供一种算法简单、直观形象的方法检测出属性改变的概念漂移，及时对系统是否更新做出判断。
[0007] 为实现上述目的，本发明公开了如下的技术方案：一种基于模糊C均值聚类算法和熵理论的数据流检测方法，它是将FCM算法引入数据流的聚类分析中，对数据流数据进行模糊C均值聚类分析；利用得到的数据的隶属度计算数据流的信息熵；通过分析数据流的熵的变化趋势，进行是否有属性改变的概念漂移的检测：特别是对数据流进行FCM聚类分析，会得到数据流中每个数据对类的隶属度；利用隶属度计算数据的熵值，将数据流的熵值在时间轴上表示，得到数据流熵的曲线，通过曲线趋势进行属性改变的概念漂移的检测，主要包括：
模糊聚类是根据隶属度来划分的，同一目标可以根据隶属程度属于不同的类别。
[0008] 2、数据流的熵
[0009] 由公式（3)可知，变量的不确定性越大，变量的概率就越小，熵也就越大，即要充分了解则所需要的信息量也就越大。由此可知，若数据流平稳，隶属度高，信息熵就很低；反之，一若数据流发生了概念漂移，出现了混乱，隶属度就减小，信息熵就变高。
[0010] 本发明进一步公开了基于模糊C均值聚类算法和熵理论的数据流检测方法在用于及时提醒系统是否更新参数，以保证对不断涌入的数据流尽可能正确的聚类分析方面的应用。实验结果显示：模糊聚类算法对数据流的聚类是准确的；基于熵理论的属性改变的概念漂移是敏感，有效的。该方法可以在实际中得到应用与推广。
[0011] 本发明主要解决了： (1)数据流环境下引入模糊聚类算法对数据聚类；根据隶属度对目标进行聚类，同一目标可以根据需要隶属于不同的类别，这样的结果更接近真实情况。
[0012] (2)将隶属度与熵值计算结合，直观形象的检测出属性改变的概念漂移；熵表示系统的不确定性，结合隶属度，表示了系统聚类的不确定性。
[0013](3)该算法更简单，优于之前复杂的数据流算法；本发明公开的基于模糊C均值

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王为;秦姗;张宝菊;
技术所有人：天津师范大学;
我是此专利的发明人

上一篇：分类模型训练方法及装置的制造方法
上一篇：基于脊波和深度卷积网络的高光谱图像分类方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。