一种基于广义模糊聚类算法的无监督数据分类方法与流程

文档序号:15762092发布日期:2018-10-26 19:25阅读:283来源:国知局
一种基于广义模糊聚类算法的无监督数据分类方法与流程

本发明属于数据挖掘领域里的无监督数据分类的方法,特别涉及一种基于广义模糊聚类算法的无监督数据分类方法。



背景技术:

基于目标函数的模糊聚类是聚类分析领域的重要研究内容,并被广泛应用于无监督模式分类、音视频分析处理、机器智能学习和数据挖掘分析等领域。模糊c均值算法(fuzzyc-meansclustering,fcm)是一种典型的从聚类目标函数出发推导的模糊聚类算法,是最重要和应用最广泛的模糊聚类方法。fcm算法的模型表达形式直观且易于理解、优化求解的理论较为严谨、可通过计算机编程计算、聚类的结果表现较好等。

fcm算法受限于归一化条件的约束,因此对噪声数据较为敏感,远离各类聚类中心的噪声数据依然能够获得较高的模糊隶属度,pcm算法(possibilitycmeanclusteringalgorithm,pcm)在fcm算法的基础上放弃了归一化约束,但样本模糊隶属度仅与该类聚类中心有关而导致聚类中心一致性,pfcm、fpcm等算法在fcm、pcm算法的基础上,分别采取加法组合及乘法组合的形式将二者结合起来,以充分利用两算法各自的优势,但增加了很多需人工经验取定的组合变量,进而使得聚类算法复杂且无有效的参数优化确定方法。

模糊聚类算法中存在三个重要的因素,一是模糊隶属度的表达。模糊隶属度体现了样本与聚类中心的关系,当样本和聚类中心距离较大时,聚类算法赋予样本较小的模糊隶属度,所以模糊隶属度反比例于样本、聚类中心距离。二是聚类中心的取定。为了聚类目标函数最小化,聚类中心应与模糊隶属度较大的样本靠近,换言之即聚类中心应落入样本聚集较多的地方。聚类中心主要通过两种方法计算得到,一种是样本模糊隶属度加权平均,另外一种是通过生物进化算法如遗传算法(geneticalgorithm,ga)寻优估计得到。三是确定聚类目标函数。fcm算法的聚类目标函数是基于类内误差加权平方和最小化的,隐隶属度模糊c均值聚类算法(hidden-membershipfuzzyc-meansclusteringalgorithm,hmfcm)通过等式变换,将fcm算法聚类目标函数转换为样本、聚类中心距离的最小化形式,这也体现聚类算法的本质所在,也就是类内误差依靠样本与聚类中心距离表现,追求类内误差的最小化。由于样本、聚类中心距离与模糊隶属度成反比例关系,因此聚类目标函数还可表达为模糊隶属度的最大化。

另外,自fcm算法提出以来,bezdek利用梯度法和ao交替迭代法所确定的模糊隶属度、聚类中心估计方法一直影响着后续研究工作的展开,fcm算法的收敛性条件要求模糊隶属度二阶海赛阵正定,具体表现为要求模糊指标大于1。理论证明指出,当利用粒子群算法(particleswarmoptimizationalgorithm,pso)等生物进化算法对模糊隶属度进行估计时,由于摆脱了梯度法收敛性的限制,聚类算法可以将模糊指标取值范围扩展到大于零的情况,聚类算法依然能保持聚类效果。



技术实现要素:

本发明为了克服模糊c均值聚类算法(fcm)归一化约束对噪声数据敏感的缺陷,提出广义模糊聚类算法(generalizedfuzzyclusteringalgorithm,gfc),通过反比例形式定义模糊隶属度与聚类中心之间的关系,同时利用粒子群算法进行聚类中心参数估计以及以模糊隶属度最大化为目标函数的可对噪声数据集包容。

为了实现上述发明目的,本发明采用如下技术方案:

一种基于广义模糊聚类算法的无监督数据分类方法,包括如下步骤:

步骤1:对样本集合依gfc目标函数最小化原则进行最优化划分;

步骤2:初始化多个粒子的位置和速度值;

步骤3:将粒子位置值与样本聚类中心对应实现聚类中心初始化;

步骤4:定义样本、聚类中心间的距离与模糊隶属度成反比例关系从而计算样本模糊隶属度;

步骤5:按粒子群算法迭代公式得到更新的聚类中心;

步骤6:计算得到gfc目标函数。

进一步,所述步骤1具体步骤为:

令x={x1,x2,l,xj,l,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合x进行最优化划分,使得目标函数值jgfc最小,其中jgfc由式(1)所确定;

在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度;u={uij,i=1,l,c;j=1,l,n}表示隶属度矩阵,m(m>0)为模糊指标,为uij的m次。

进一步,所述步骤2具体步骤为:用0,1之间的随机数初始化多个c×d维粒子的位置xh(0)和速度vh(0)

进一步,所述步骤3具体步骤为:

初始化λ=1,则第λ次迭代的聚类中心为θi(λ),聚类中心矩阵为p(λ)={θi(λ),i=1,...,c};将粒子位置xh(λ)以每d维分量为一组,对应为第i类的聚类中心θi(λ),i=1,...,c。定义迭代次数为λ,最大迭代次数为λmax。

进一步,所述步骤4具体步骤为:

用式(2)计算模糊隶属度的m次方

ε表示一个很小的正数,用以克服式(3)的算式不完备性;m为某一正常数,用以表现模糊隶属度与样本、聚类中心距离反比例关系水平,可不失一般性取为1;||xj-θi(λ)||表示基于第j个样本xj与第i类聚类中心θi(λ)的距离,

模糊聚类算法要求样本、聚类中心距离与模糊隶属度成反比例关系,反比例关系有多种,此处gfc算法选择简单的线性乘积反比例关系,其它反比例关系也可以引入gfc算法中进行关系替换。

进一步,所述步骤5具体步骤为:

定义pso算法适应度函数式(4)

判断||f(u(λ))-f(u(λ-1))||<ε或λ>λmax,若成立,则uij(λ)为迭代算法参数估计出的最优模糊隶属度,并令uij(λ)=uij代入式(1)中,进而实现对样本集合x的最优划分,ε,λmax是事先给定的阈值;若不成立,转步骤6,直到条件满足为止。

进一步,所述步骤6具体步骤为:

根据pso算法优解适应度函数值f(u(λ)),记录粒子群算法中当代个体最优解ph(λ)和群体最优解g(λ),令λ=λ+1,由式(5)、(6)更新粒子速度vh(λ+1)及位置xh(λ+1),转步骤3;

vh(λ+1)=wvh(λ)+c1r1[ph(λ)-xh(λ)]+c2r2[g(λ)-xh(λ)](5)

xh(λ+1)=xh(λ)+vh(λ+1)(6)

式(5)、(6)中c1,c2为加速因子,取为正的常数;r1,r2为[0,1]之间的随机数,w称为惯性因子。

与已有技术相比,本发明的有益效果体现在:

1.模糊指标m>0的拓展和对模糊指标的省略

聚类目标函数式(1)和反比例关系式(2)决定了gfc算法的性质。模糊指标m扩展为m>0,由式(2)可知,样本、聚类中心距离||xj-θi||2是与成反比例关系的,当m>0时,与模糊隶属度uij成正比例关系,因此||xj-θi||2是与uij成反比关系的,符合模糊聚类算法样本、聚类中心距离越大隶属度越小的聚类基本原则。结合式(1)和式(2),由于模糊指标m>0,因此gfc算法目标函数最大化等价于类内误差的最小化,也符合聚类算法评价的考核标准。

另外,由式(1)可知,当m>0时,gfc算法目标函数的最小化等价于的最小化,即gfc算法目标函数可与模糊指标m无关。结合式(1)及(1)可知,仅需确定||xj-θi||2的取值即可确定目标函数值,gfc算法可不依赖于模糊指标而得到目标函数和进行类别判决,等价于gfc算法可省略对模糊指标的设置。

2.可基于图示直观分析gfc算法的抗噪性能

3.gfc算法反比例关系的扩展性

gfc算法反比例关系可以扩展为多种表达形式:

其中式(7)即为指数形式的反比例关系。

其中式(8)即为对数形式的反比例关系。

还可以构造多项式形式的反比例关系,以及组合反比例关系等形式。gfc算法反比例析关系的拓展,丰富了gfc算法的表现形态和适用范围,形成gfc算法簇。

4.gfc算法对噪声数据具有很好的抗噪性

fcm算法对噪声数据敏感的原因在于其归一化约束,如式(9)所示:

即样本xj对于各类的隶属度的和为1,当噪声数据xk远离各类数据时,其样本模糊隶属度依然服从归一化约束,导致fcm算法对噪声数据依然赋予较高的模糊隶属度,使得算法无法对噪声数据进行拒识。

gfc算法模糊隶属度由式(10)确定:

由式(10)可知,当噪声数据xj远离所有聚类中心θi时,其模糊隶属度uij取值将非常小,而不受归一化的约束,从而将其与正常数据区分开来,因此gfc算法具有一定的噪声拒识能力。

附图说明

图1是取(5,5)为聚类中心的高斯数据集;

图2是取(10,10)为聚类中心的高斯数据集。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明一种基于广义模糊聚类算法(gfc算法)的无监督数据分类方法放弃了传统fcm算法的建模形式,设定样本、聚类中心间的距离与模糊隶属度成反比例关系,利用粒子群算法(pso)在解空间中搜索聚类中心优解,并以模糊隶属度最大化为聚类目标函数。gfc算法不受归一化约束的限制,能够对噪声数据作有效挖掘和识别。所构造的反比例关系形式可以拓展变形为多种形式,提升了聚类算法的适用范围。gfc算法还可对模糊指标作隐藏忽略,从而避免了模糊指标对聚类算法的干扰。

本发明的方法按如下步骤进行:

步骤1:令x={x1,x2,l,xj,l,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合x进行最优化划分,使得目标函数值jgfc最小,其中jgfc由式(1)所确定。

在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度。u={uij,i=1,l,c;j=1,l,n}表示隶属度矩阵,m(m>0)为模糊指标,为uij的m次。

步骤2:用0,1之间的随机数初始化多个c×d维粒子的位置xh(0)和速度vh(0)

步骤3:初始化λ=1,则第λ次迭代的聚类中心为θi(λ),聚类中心矩阵为p(λ)={θi(λ),i=1,...,c}。将粒子位置xh(λ)以每d维分量为一组,对应为第i类的聚类中心θi(λ),i=1,...,c。定义迭代次数为λ,最大迭代次数为λmax;

步骤4:用式(2)计算模糊隶属度的m次方

ε表示一个很小的正数,用以克服式(3)的算式不完备性;m为某一正常数,用以表现模糊隶属度与样本、聚类中心距离反比例关系水平,可不失一般性取为1。||xj-θi(λ)||表示基于第j个样本xj与第i类聚类中心θi(λ)的距离,

模糊聚类算法要求样本、聚类中心距离与模糊隶属度成反比例关系,反比例关系有多种,此处gfc算法选择简单的线性乘积反比例关系,其它反比例关系也可以引入gfc算法中进行关系替换。

步骤5:定义pso算法适应度函数式(4)

判断||f(u(λ))-f(u(λ-1))||<ε或λ>λmax,若成立,则uij(λ)为迭代算法参数估计出的最优模糊隶属度,并令uij(λ)=uij代入式(1)中,进而实现对样本集合x的最优划分,ε,λmax是事先给定的阈值。若不成立,转步骤6,直到条件满足为止。

步骤6:根据pso算法优解适应度函数值f(u(λ)),记录粒子群算法中当代个体最优解ph(λ)和群体最优解g(λ),令λ=λ+1,由式(5)、(6)更新粒子速度vh(λ+1)及位置xh(λ+1),转步骤3。

vh(λ+1)=wvh(λ)+c1r1[ph(λ)-xh(λ)]+c2r2[g(λ)-xh(λ)](5)

xh(λ+1)=xh(λ)+vh(λ+1)(6)

式(5)、(6)中c1,c2为加速因子,取为正的常数;r1,r2为[0,1]之间的随机数,w称为惯性因子。

实施例1:

在本实施例中,pcm算法在仿真测试中多次出现聚类中心一致性的现象,导致聚类结果无效。因此为了验证gfc算法的有效性和可行性,选择将gfc算法与fcm算法作对比测试。

广义模糊聚类算法(gfc)是按如下步骤进行:

步骤1:令x={x1,x2,l,xj,l,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合x进行最优化划分,使得目标函数值jgfc最小,其中jgfc由式(1)所确定。

在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度。u={uij,i=1,l,c;j=1,l,n}表示隶属度矩阵,m(m>0)为模糊指标,为uij的m次。

一、基于二维高斯数据集的测试

测试包括两个方面,一是聚类算法的聚类有效性,主要体现为聚类算法的测试精度,二是聚类算法对噪声数据的抗噪性,要求聚类算法对噪声数据赋予较低的模糊隶属度,即聚类算法能将噪声数据与正常数据区分开来。

1)有效性测试

对人工生成二维高斯数据集作测试,选择聚类类别数为2,利用两个高斯随机组合生成测试数据集,约定类中心为(5,5)和(10,10),两类样本数分别各为100,协方差矩阵都取为[50;05]。

粒子群算法提供了gfc算法求解的途径,粒子群算法中粒子位置向量和速度向量的每维分量都为实数,一个粒子位置向量即为一个可行解,位置向量维数为c×d维,c为聚类类别数,d为样本的分量维数,对应了c个聚类中心的d维空间坐标。粒子规模取为30,迭代次数规定为300次,粒子未知向量的每维分量取值范围为[0,20],粒子位置向量的每d维分量特定对应为某个聚类中心的d维分量。为了避免粒子群优化计算陷入聚类效果极差的局部最优,选取fcm算法所训练出来的聚类中心,串联构成为粒子群算法的一个初始粒子位置,以提高gfc算法的聚类性能,即有:

θi(0)=θi*(11)

其中θi(0)串联起来对应了粒子群算法初始化赋值时的位置值xh(0),θi*为fcm算法聚类结果中的优解,其目的在于利用fcm算法引导gfc算法跳出糟糕的局部极值解。另外对于gfc算法式(2)中的参量,取ε=0.1,m=1

测试结果记录各类的测试精度,保存两类数据迭代最终聚类中心坐标,表1给出了测试精度和聚类中心坐标。

表1基于二维高斯数据集的测试结果

从表1可知,对于具有较好间隔分类的团状数据集,fcm算法和gfc算法都可取得较好分类效果,聚类精度差异性不大,且gfc算法可省略对模糊指标m的选取,简化了算法参数的设置。

2)抗噪性测试

检验两算法对噪声数据的包容性能,即要求聚类算法对噪声数据分配的模糊隶属度越小越好。在原有二维高斯数据集的基础上,补充坐标为(500,500)的一个噪声样本。抗噪测试记录结果包括了样本类中心、噪声数据的各类模糊隶属度隶属度以及正常数据的聚类效果,测试结果如表2所示。

表2基于含噪(500,500)二维高斯数据集的测试结果

由测试结果表2可知,噪声数据(500,500)对fcm算法和gfc算法的聚类效果都具有较大的影响。正如fcm算法归一化约束所分析的,噪声数据(500,500)被fcm算法赋予了较高的模糊隶属度,导致fcm算法无法拒识噪声数据。而噪声数据对于gfc算法的影响就是两类聚类中心出现了一致性现象,使得聚类有效性降低,但因为该算法的抗噪性设计原理,在聚类精度上优于fcm算法,且使得噪声数据相对于正常数据仅能获得极小模糊隶属度。噪声数据的各类模糊隶属度差异性非常小,因此可以利用噪声数据特性构造拒识的方法,定义模糊隶属度差值阈值公式式(12)拒识噪声数据,如所示。

max(uij)-min(uij)<δ1(12)

在式(12)中,max(uij)-min(uij)<δ1为模糊隶属度差值阈值拒识公式。对于任意样本xj,它的各类模糊隶属度为uij(i∈1,...,c),当这些uij满足式(12)的要求时,则可视样本xj为噪声数据。在基于含噪(500,500)的二维高斯仿真数据集聚类测试中,取δ1=0.00001,即可对噪声数据进行拒识,这是因为噪声数据远离聚类中心而获得极小的各类模糊隶属度。在运用gfc算法时,应首先将其用于对噪声数据进行拒识,然后再进行聚类分析,即可获得较好聚类结果。

二、基于uci数据集的测试

基于uci机器学习数据库中iris数据集进行算法测试,iris数据集特性如表3所示,测试相关设置与基于高斯数据集的测试类似,粒子每维分量取值范围为[0,50],且在gfc算法测试时对参量m和ε进行取值变换,以研究算法对参量的稳定性。每种聚类算法根据参数和数据集进行10次测试,计算各类聚类平均精度。表4给出了基于iris数据的测试结果。

表3实验数据集属性

由表4可知,当m=1、ε=0.1,gfc算法取得最低聚类平均精度90.60,当m=3、ε=0.3时,gfc算法取得最高聚类平均精度92.20,gfc算法的最低和最高平均聚类精度均高于fcm算法的聚类平均精度,另外gfc算法基于各种参数取值的总平均精度为91.47938,优于fcm算法的聚类效果。从两仿真测试可知,gfc算法与fcm算法相比具有更佳的聚类性能,说明了所设计算法的聚类有效性。

表4基于iris数据集的测试结果

步骤2:用0,1之间的随机数初始化多个c×d维粒子的位置xh(0)和速度vh(0)

步骤3:初始化λ=1,则第λ次迭代的聚类中心为θi(λ),聚类中心矩阵为p(λ)={θi(λ),i=1,...,c}。将粒子位置xh(λ)以每d维分量为一组,对应为第i类的聚类中心θi(λ),i=1,...,c。定义迭代次数为λ,最大迭代次数为λmax;

步骤4:用式(2)计算模糊隶属度的m次方

ε表示一个很小的正数,用以克服式(3)的算式不完备性;m为某一常数,用以表现模糊隶属度与样本、聚类中心距离反比例关系水平,可不失一般性取为1。||xj-θi(λ)||表示基于第j个样本xj与第i类聚类中心θi(λ)的距离,

模糊聚类算法要求样本、聚类中心距离与模糊隶属度成反比例关系,反比例关系有多种,此处gfc算法选择简单的线性乘积反比例关系,其它反比例关系也可以引入gfc算法中进行关系替换。

步骤5:定义pso算法适应度函数式(4)

判断||f(u(λ))-f(u(λ-1))||<ε或λ>λmax,若成立,则uij(λ)为迭代算法参数估计出的最优模糊隶属度,并令uij(λ)=uij代入式(1)中,进而实现对样本集合x的最优划分,ε,λmax是事先给定的阈值。若不成立,转步骤6,直到条件满足为止。

步骤6:根据pso算法优解适应度函数值f(u(λ)),记录粒子群算法中当代个体最优解ph(λ)和群体最优解g(λ),令λ=λ+1,由式(5)、(6)更新粒子速度vh(λ+1)及位置xh(λ+1),转步骤3。

vh(λ+1)=wvh(λ)+c1r1[ph(λ)-xh(λ)]+c2r2[g(λ)-xh(λ)](5)

xh(λ+1)=xh(λ)+vh(λ+1)(6)

式(5)、(6)中c1,c2为加速因子,取为正的常数;r1,r2为[0,1]之间的随机数,w称为惯性因子。

如图1和图2所示,给出一类50个样本组成的高斯数据集,中心为(5,5)、协方差矩阵为[3,0;0,3],数据的离散程度通过协方差矩阵表达,取(5,5)为高斯数据集的第一个聚类中心θ1,如图1所示,取(10,10)为高斯数据集的第二个聚类中心θ2聚类中心,如图2所示。很显然,图1中的聚类中心θ1相比于图2中θ2更符合实际聚类问题的需要。图1的聚类中心θ1到各样本的距离小于图2的情况,根据模糊聚类算法的基本原则可知,图1中各样本的模糊隶属度高于图2中的样本,若将图2视作聚类算法的初始状态而图1视作聚类优化终止状态,则在图2中的聚类中心θ2向图1中的聚类中心θ1优化演变过程中,亦即等价于式(1)的最大化,所以gfc算法中式(1)的最大化及式(2)的反比例关系是服从模糊聚类算法目标要求的。

通过仿真实验可以说明,所提出的gfc算法在聚类有效性和抗噪性能上是优秀的。gfc算法构造了样本、聚类中心与模糊隶属度的反比例关系,并以模糊隶属度m次方和的最大化作为算法的聚类目标函数,同时利用pso粒子群生物进化算法在解空间中搜索聚类中心优解。gfc算法没有归一化约束因此不会对噪声数据敏感,能够对噪声数据作有效的拒识,同时可省略模糊指标作省略,且其反比例关系可以变换为多种反比例关系,进一步增强了gfc算法对各种数据的适应性。

综上所述,本发明公开了一种基于广义模糊聚类算法(gfc算法)的无监督数据分类方法,其特征信息按如下步骤所示:其特征信息按如下步骤所示:1.对样本集合依gfc目标函数最小化原则进行最优化划分;2.初始化多个粒子的位置和速度值;3.将粒子位置值与样本聚类中心对应实现聚类中心初始化;4.定义样本、聚类中心间的距离与模糊隶属度成反比例关系从而计算样本模糊隶属度;5.按粒子群算法迭代公式得到更新的聚类中心;6.计算得到gfc目标函数。本发明所构造的模糊聚类算法不受归一化约束的限制,能够对噪声数据作有效挖掘和识别。所构造的模糊隶属度与聚类中心反比例关系形式可以拓展变形为多种形式,提升了聚类算法的适用范围,还可对模糊指标作隐藏忽略,从而避免了模糊指标对聚类算法的干扰。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1