一种基于模糊c均值聚类算法和熵理论的数据流检测方法

文档序号:9350396阅读:801来源:国知局
一种基于模糊c均值聚类算法和熵理论的数据流检测方法
【技术领域】
[0001] 本发明涉及一种数据流聚类,属性改变的概念漂移检测技术,该方法简单、实用, 形象、直观,克服了以往数据挖掘中分类算法复杂的缺点。
【背景技术】
[0002] 近些年随着数据流挖掘成为研宄热点,其分类问题也自然被学术界广泛关注。互 联网和无线通信网的出现,产生了大量的数据流类型的数据:大型超市交易记录数据、股 票交易所的股票价格、股票交易信息数据、网络监测数据、电信部门的通话记录数据、信用 卡交易流、传感器传回的数据等,我们注意到这类数据大都与地理信息有一定关联,这主要 是因为地理信息的维度较大,容易产生这类大量的细节数据。复杂分析折叠需要以近实时 的方式对更新流进行复杂分析。对以上领域的数据进行复杂分析,如趋势分析,预测。以 前往往是脱机进行的,然而一些新的应用,尤其是在网络安全和国家安全领域,对时间都非 常敏感,如检测互联网上的极端事件、欺诈、入侵、异常,复杂人群监控,趋势监控,探查性 分析,和谐度分析等,都需要进行联机的分析。对数据流进行很好的分类才能将数据流中 蕴藏的信息量进行挖掘,所以对数据流进行分类的研究是一个重要的课题,并且已经取得 了一些成果。对数据流聚类来说,2009年Alex等人针对海量实时数据流在聚类过程中受 至IJ时间和空间局限的问题,将两种聚类方法,即神经云(Neuralgas,NG)与自组织映射 (Self-organizingmap,S0M)算法进行改进,提出一种基于单次通过(Onepass)的NG和 SOM模型,其主要思想是利用快速划分方法将动态数据流转变为静态数据块,进而使用数据 块评估函数对这些数据块进行评估,如果此数据块对聚类的帮助程度达不到标准则将其删 除,否则被使用进行聚类。Chen等人使用一种树形结构对数据流进行聚类,并且能够在一 定程度上克服数据流概念漂移的问题。Chi等人同样针对动态更新的网页和博客数据流进 行聚类,采用两种框架构建聚类模型。首先使用基于K-means的方法对数据流进行粗聚类, 然后使用一种概念漂移检测函数去检测是否发生概念漂移,如果发生则重新聚类,否则不 必再聚类。通过上述两步能够使得模型具有抗概念漂移的能力,保证聚类结果的准确性。但 是现有的数据流聚类研究多使用传统的硬聚类的方法,这种分类是非此即彼的,而事实上, 现实生活中,事物的属性是模糊的,并不是严格的区分的。
[0003] 模糊聚类被引入用在数据流的聚类分析中是比较最近才提出来的,参考的文献也 比较少。模糊划分的概念最早由Ruspini提出,由于模糊聚类得到的是样本属于各个类别 的不确定性程度,这种表达体现了样本类属的中介性,即建立起了样本对于类别的不确定 性的描述,能更客观地反映现实世界,从而成为聚类分析研究的主流。实际中受到普遍欢 迎的是基于目标函数的方法,该方法设计简单、解决问题的范围广,最终还可以转化为优化 问题而借助经典数学的非线性规划理论求解,并易于计算机实现。模糊C均值聚类(Fuzzy C-Means)算法又是基于目标函数中应用最广泛的一种。
[0004] 随着时间的推移,数据不断地涌入,有时会发现待学习目标概念与之前的并不一 致,通常这种改变是隐藏的、不可预知的、不明确的,甚至是随机的。隐含数据分布的改变会 引起目标概念的改变从而产生概念漂移现象。数据发生了概念漂移,旧系统则对新的数据 不能尽可能准确的进行处理,性能就会下降。为了保证系统对数据流的尽可能准确的分析, 及时的检测出概念漂移并作出是否更新的决定,是维持系统正常运行的重要技术。
[0005] 概念漂移又分为三类,属性改变的,类别改变的和两者都改变的。本发明针对属性 改变的概念漂移检测提出了解决方案。

【发明内容】

[0006] 本发明是为解决上述问题进行的研究,其目的是将模糊聚类的思想引用到数据流 的聚类中,使聚类效果更真实的反映目标与类的关系;提供一种算法简单、直观形象的方法 检测出属性改变的概念漂移,及时对系统是否更新做出判断。
[0007] 为实现上述目的,本发明公开了如下的技术方案: 一种基于模糊C均值聚类算法和熵理论的数据流检测方法,它是将FCM算法引入数据 流的聚类分析中,对数据流数据进行模糊C均值聚类分析;利用得到的数据的隶属度计算 数据流的信息熵;通过分析数据流的熵的变化趋势,进行是否有属性改变的概念漂移的检 测:特别是对数据流进行FCM聚类分析,会得到数据流中每个数据对类的隶属度;利用隶属 度计算数据的熵值,将数据流的熵值在时间轴上表示,得到数据流熵的曲线,通过曲线趋势 进行属性改变的概念漂移的检测,主要包括:
模糊聚类是根据隶属度来划分的,同一目标可以根据隶属程度属于不同的类别。
[0008] 2、数据流的熵
[0009] 由公式(3)可知,变量的不确定性越大,变量的概率就越小,熵也就越大,即要充分 了解则所需要的信息量也就越大。由此可知,若数据流平稳,隶属度高,信息熵就很低;反 之,一若数据流发生了概念漂移,出现了混乱,隶属度就减小,信息熵就变高。
[0010] 本发明进一步公开了基于模糊C均值聚类算法和熵理论的数据流检测方法在用 于及时提醒系统是否更新参数,以保证对不断涌入的数据流尽可能正确的聚类分析方面的 应用。实验结果显示:模糊聚类算法对数据流的聚类是准确的;基于熵理论的属性改变的 概念漂移是敏感,有效的。该方法可以在实际中得到应用与推广。
[0011] 本发明主要解决了: (1)数据流环境下引入模糊聚类算法对数据聚类;根据隶属度对目标进行聚类,同一目 标可以根据需要隶属于不同的类别,这样的结果更接近真实情况。
[0012] (2)将隶属度与熵值计算结合,直观形象的检测出属性改变的概念漂移;熵表示系 统的不确定性,结合隶属度,表示了系统聚类的不确定性。
[0013](3)该算法更简单,优于之前复杂的数据流算法; 本发明公开的基于模糊C均值
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1