一种结合类内紧致性和类间分离性的增量模糊聚类方法与流程

文档序号：11177821阅读：933来源：国知局

本发明涉及一种聚类方法，具体地，涉及一种结合类内紧致性和类间分离性的增量模糊聚类方法，属于数据挖掘领域。

背景技术：

聚类算法将相似度高的数据对象划分为一个簇，将相异度高的数据对象划分为不同的簇。迄今为止，针对聚类算法的研究成果丰硕，根据数据对象在聚类中的积聚规则不同，这些算法可划分为硬聚类和模糊聚类。在硬聚类中，每个数据对象只能完全隶属于某一个簇；而模糊聚类则要求每个数据对象以不同的概率隶属于多个簇。相比较而言，两类算法各有所长，硬聚类算法简单高效，而模糊聚类算法更符合人们对客观世界的认知。

无论是硬聚类还是模糊聚类，大部分聚类算法只考虑类内紧致性，而忽略类间分离性，因此fcs(fuzzycompactnessandseparation)算法被提出。fcs算法保证了类内紧致性最小的同时，类间分离性最大，且具有硬聚类和模糊聚类的特性，能够有效提升聚类精度与聚类效率。

然而fcs算法无法有效处理大规模数据与流数据，因此，本发明提出一种新的结合类内紧致性和类间分离性的增量方法。该方法通过将数据分为连续的数据块，并按顺序进行处理，使本发明可以处理大规模数据和数据流。

技术实现要素：

为了解决现有技术中存在的问题，本发明提出一种结合类内紧致性和类间分离性的增量模糊聚类方法，该方法包括以下步骤：

(1)将整个数据集分成d块，并为每块数据中的每个数据点分配权重1；

(2)对数据块进行聚类处理；

(3)对每个数据块循环执行步骤(2)，直到所有数据块处理完毕，获取每一数据块的聚类结果[ui1,ui2,...,uit,...,uic]和聚类质心[ai1,ai2,...,ait,...,aic]，其中0<t≤c，uic表示第i个数据块的第c类，aic表示第i个数据块的第c个质心；为每一个质心ait赋予权重值wt，wt为整个数据块中的数据点隶属于聚类uit的隶属度之和；若最后一个数据块小于聚类个数c，则不进行聚类，将所有数据点作为质心，其权重全部为1。

(4)将上述赋过权重的质心作为一个新的数据块d,对新数据块d进行步骤(2)操作，得到聚类结果[u1,u2,...,ut,...,uc]和质心[a1,a2,...,at,...,ac]，此质心为最终质心，每个质心原来所在类中的所有数据点都属于它现在所在的类。

更具体地，上述步骤(2)中的聚类步骤具体如下：

1)初始化β、最大误差值ε、最大迭代次数τmax和隶属度矩阵ucj，将η赋值为0到1的随机数，定义τ＝1；

2)根据ηc，ucj和更新ac；

3)根据ηc，ac和更新ucj；

4)根据β，ac和更新ηc；

5)更新τ＝τ+1；

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ＝τmax，结束迭代，否则返回步骤2)。

其中c是类的个数，n是数据个数，ηc为控制第c个质心与其它质心所在类不重合的参数，ucj是第j个数据点对第c个类的隶属度，约束条件为m是模糊因子且m>1，wj为第j个数据的权重，ac是第c个类的质心，xj是第j个数据点，是数据均值，||xj-ac||²是第j个数据点到第c个质心欧氏距离的平方，0≤β≤1.0，k＝1,...,c。

为了能够处理大规模数据和数据流，提出了本发明，该方法不但可以明显提高处理速度，而且不会影响聚类的精确度。与现有方法相比，本发明新提出的方法可以更快更精确的处理大规模数据和数据流。

具体实施方式

为了使用单通道增量方法，需要对fcs算法进行加权。首先，定义加权的类内矩阵sifw和类间矩阵sifb，其中c是类的个数，n是数据的个数，wj为权重，ucj是第j个数据点对第c个类的隶属度，约束条件为m是模糊因子且m>1，xj是第j个数据点，是样本均值，ac是第c个类的质心，其中||xj-ac||²是第j个数据点到第c个质心的欧氏距离的平方。

根据sifw与sifb，得到增量fcs算法的目标函数

受条件约束，其中

根据约束条件，对jifcs(u,v,a)运用拉格朗日乘子法，构造如下新的目标函数，可求得使jifcs(u,v,a)达到最小值的必要条件

对j(u,v,a)中u求偏导并让其等于0，得

根据与约束条件可得

同样的，对j(u,v,a)中a求偏导并让其等于0，得根据可得

该方法包括以下步骤：

(1)将整个数据集分成d块，并为每块数据中的每个数据点分配权重1；

(2)对数据块进行聚类处理；

步骤(2)中聚类的具体步骤如下：

1)初始化β、最大误差值ε、最大迭代次数τmax和隶属度矩阵ucj，将η赋值为0到1的随机数，定义τ＝1；

2)根据ηc，ucj和更新ac；

3)根据ηc，ac和更新ucj；

4)根据β，ac和更新ηc；

5)更新τ＝τ+1；

6)如果max(|ucj(τ)-ucj(τ-1)|)≤ε或τ＝τmax，结束迭代，否则返回步骤2)。

以statlogsegmentation数据集为例，该数据集具有2310个数据点，19个属性，划分成7个类。对该数据集进行聚类方法如下：

将该数据集分成10块，每块具有231个数据点，对每个数据点分配权重1；对每个数据块分别进行聚类处理，总共得到70个类和其对应的70个质心，每个质心分配的权重为该类数据点隶属度之和；将这70个质心作为70个类的代表，当做一个新的数据块进行聚类处理，最终得到7个类和质心即为聚类结果。

该方法将数据集进行分块处理，减少了数据量即聚类迭代次数，因此提升了聚类效率，且经实验可得，本方法的f-measure值比传统的ofcm方法和ohfcm方法分别提升了15.4％和42.9％。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘永利;段天毅;陈敬丽;王恒达;逯静
技术所有人：河南理工大学
我是此专利的发明人

上一篇：一种风阀开度信号共享系统的制造方法与工艺
上一篇：一种多功能把窑炉余热用到民用的设备的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。