一种基于模糊c均值聚类算法和熵理论的数据流检测方法_2

文档序号：9350396阅读：来源：国知局

聚类算法和熵理论的数据流检测方法的有益效果是： (1)本发明基于模糊C均值聚类算法（FCM)和熵理论进行数据流聚类和概念漂移的检测，使数据流聚类算法更加简单、有效。
[0014] (2)将FCM算法引入数据流的聚类分析中，对数据流数据进行模糊C均值聚类分析；利用得到的数据的隶属度计算数据流的信息熵；通过分析数据流的熵的变化趋势，进行是否有属性改变的概念漂移的检测。在试验中取得了明显的效果。对数据流进行FCM聚类处理，将数据进行初步的分类，分类精度可以到达80°/『90%。隶属度是模糊聚类中分类的依据，我们将熵的理论引入，利用数据对类的隶属程度，计算数据流的熵，在时间轴上将熵值的变化表示出来，通过这一曲线的趋势来进行检测是否有属性变化的概念漂移。如果没有属性变化，那么，所有数据的熵值都比较小；如果在数据不断流入的过程中，某一类中属性发生了改变，那么，数据流的熵会随着数据流的不断进入而增加，直到重新稳定，在新数据新属性的背景下，熵值逐渐减小，最后又趋于稳定，所以，在发生属性改变的概念漂移的过程中，会出现有峰值的熵值曲线。因此，可以形象直观的通过观察熵值曲线的走势来进行属性改变的概念漂移的检测。
[0015] (3)实验结果表明，对数据流进行模糊的软聚类方法，聚类结果可以真实地反映对象和类的实际关系，基于熵理论的概念漂移检测是有效、敏感的。采用这种新的方法，相对于传统聚类方法仍有较高的聚类正确率，并且同一目标可以根据不同的情形隶属于不同的类别，聚类更加灵活，方便，更接近真实情形。通过隶属度计算得到的熵，同样具有不确定性的含义，可以通过数据流熵值的随时间的变化曲线来检测属性改变的概念漂移，曲线的表达直观形象，有很好的可视性。
【附图说明】
[0016] 图1为FCM对seed data数据集的聚类；图2为seed data数据的熵值得曲线；图3为FCM对两组高斯数据的聚类；图4为高斯数据流的熵值曲线；图5为0点和21点交界部分数据流熵值曲线；图6为0点和1点交界部分数据流熵值曲线。
[0017]
【具体实施方式】
[0018] 实施例1: 我们选取了一个人工数据集和两个真实数据做实验。真实数据是从开放数据库UCI下载得到。首先是没有概念漂移发生的真实数据，Seeds Data数据集，这个数据集包括三类，分别是Kama, Rosa和Canadian每类有70个样本，七个属性。从图1可以看出FCM对数据进行了较准确的聚类；图2是该数据的熵值得曲线，可以从纵坐标看出，良好分类并且没有属性改变的概念漂移发生时，熵的值是比较低的。
[0019] 实施例2: 高斯数据集是用来检测概念漂移的。两组高斯数据分别服从N([2;2]，1)和N([4;4]，8).的分布。数据流长度为1000,概念漂移长度为400。图3是两组高斯数据的分类情况，因为均值和方差不同，说明了数据属性发生了变化，交界部分发生了属性改变的概念漂移。图4是其数据流熵的曲线。可以看到在交界部分出现了熵曲线的峰值，说明发生了属性改变的概念漂移；之后熵值又趋于平稳，说明目前的系统可以适应新的数据流，不需要进行参数更新。
[0020] 实施例3 : Powersupply数据集.该数据集收集了 24小时主网和子网的供电数据。每小时有 1247个样本。实验选取了 0点，1点，个21点三个时间段的数据。首先是0点和21点的数据进行实验，21点相比于0点是用电高峰点，可以认为与0点相比发生了属性改变的概念漂移，图5是两组数据在交界部分的熵值曲线，可以看出熵值明显的增加，数据稳定后，熵值减小。图6是0点和1点的数据流熵值曲线，0点和1点用电情况相似，可以看做是没有发生概念漂移的数据流，所以熵值曲线是平稳的。
【主权项】
1. 一种基于模糊C均值聚类算法和熵理论的数据流检测方法，它是将FCM算法引入数据流的聚类分析中，对数据流数据进行模糊C均值聚类分析；利用得到的数据的隶属度计算数据流的信息熵；通过分析数据流的熵的变化趋势，进行是否有属性改变的概念漂移的检测：包括：隶属度的计算模糊聚类是根据隶属度来划分的，同一目标可以根据隶属程度属于不同的类别；数据流的熵设尚散型随机变量X的概率分布为其中：的信息熵定义为"加权平均信息量"：本发明中，将隶属度类比于概率，由此计算数据流的熵值：对于任意％S^^则有成立；由公式（3)可知，变量的不确定性越大，变量的概率·就越小，熵也就越大，即要充分了解则所需要的信息量也就越大，由此可知，若数据流平稳，隶属度高，信息熵就很低；反之，一若数据流发生了概念漂移，出现了混乱，隶属度就减小，信息熵就变高。2. 权利要求1所述的基于模糊C均值聚类算法和熵理论的数据流检测方法在用于及时提醒系统是否更新参数，以保证对不断涌入的数据流尽可能正确的聚类分析方面的应用。
【专利摘要】本发明公开了一种基于模糊C均值聚类算法和熵理论的数据流检测方法，它是将FCM算法引入数据流的聚类分析中，对数据流数据进行模糊C均值聚类分析；利用得到的数据的隶属度计算数据流的信息熵；通过分析数据流的熵的变化趋势，进行是否有属性改变的概念漂移的检测；包括隶属度的计算、数据流的熵。本发明将熵的理论引入，利用数据对类的隶属程度，计算数据流的熵，在时间轴上将熵值的变化表示出来，通过这一曲线的趋势来进行检测是否有属性变化的概念漂移。可以形象直观的通过观察熵值曲线的走势来进行属性改变的概念漂移的检测。该检测主要应用于及时提醒系统是否更新参数，以保证对不断涌入的数据流尽可能正确的聚类分析。
【IPC分类】G06K9/62
【公开号】CN105069469
【申请号】CN201510455282
【发明人】王为, 秦姗, 张宝菊
【申请人】天津师范大学
【公开日】2015年11月18日
【申请日】2015年7月30日

完整全部详细技术资料下载

当前第2页1 2