基于Gauss诱导核的模糊c均值聚类算法的制作方法

文档序号:11323815阅读:351来源:国知局

本发明属于数据挖掘领域进行无监督数据分类的算法,具体的说是一种基于gauss诱导核的模糊c均值聚类算法。



背景技术:

聚类分析是无监督模式识别的一个重要内容,聚类的目的是使得相似样本划分在一起,而将不相似样本划分为不同类别。模糊c均值聚类算法(fcm)是聚类分析中应用最为广泛的一种方法,是由dun、bezdek等人发展而成的一种模糊聚类算法,fcm算法基于加权误差平方和最小化理论,使用欧式距离度量样本与聚类中心,用于表现样本与聚类中心间的误差,适合于数据集为线性关系的数据,但对非线性数据的聚类往往效果不好。

自核方法被成功的应用于分类器支持向量机(svm)以来,即受到机器学习和模式分类领域研究者的广泛关注和研究,并进一步将其推广应用到特征提取、模糊聚类等领域。

核方法将输入空间的非线性关系通过非线性映射转换为高维特征空间的线性关系,增大了模式间的差异性刻画,且利用核函数表示高维特征空间中的内积运算,无需明确知道具体的非线性映射形式,克服了机器学习的维数灾难问题,所以在模糊聚类领域有着广泛而成功的应用。

由于核方法利用核函数表达特征空间中的内积运算,且特征空间中的空间距离可转换为内积运算形式,所以核方法适合于在特征空间中仅存在内积和距离运算的算法。聚类中心是模糊聚类算法的重要组成部分,由于核方法中非线性映射的无具体形式给出,因此在模糊聚类算法中应用核方法时,一个关键性的问题是如何表示核聚类中心。

自girolami和张莉、焦李成等提出硬核聚类算法以来,将核方法应用于聚类算法的各种核模糊聚类算法应运而生,通过对比研究可以发现,这些核模糊聚类算法的根本原理都是相同的,即在各种模糊聚类算法中结合应用核方法。这些核模糊聚类算法的聚类目标函数和模糊隶属度公式在形式上是一致的,不同之处在于核聚类中心的推导原理及表现形式的不同。

现有核模糊聚类算法依聚类中心生成原理可分为三种,第一种是利用核矩阵k(vi,vi)及k(xh,vi)交替迭代,对模糊隶属度进行估计,聚类中心vi没有显示给出,该核聚类算法称为隐核模糊c均值聚类算法(hkfcm),算法性能不够稳定。第二种是利用高斯核函数求偏导在输入空间中得到聚类中心的vi的显式表达,但聚类中心迭代公式右端包含聚类中心本身,不满足聚类算法收敛性证明的要求,称为gauss核模糊c均值聚类算法(gkfcm)。第三种是利用粒子群生物进化算法(pso)在输入空间中对聚类中心进行搜索,称为pso核模糊c均值聚类算法(pso—kfcm),依赖于粒子群算法的迭代收敛,当初始条件不好时,则聚类性能较差。



技术实现要素:

本发明为了克服现有技术存在的不足之处,充分利用核函数的非线性表达能力,提出一种基于gauss诱导核的模糊c均值聚类算法,目的在于充分利用聚类算法在输入空间和核映射空间的分类信息,提升算法的分类性能。同时以显示形式表现参数迭代公式,且迭代公式右端不含有待迭代参数自身,进而保证算法的收敛性。

为了实现上述发明目的,本发明采用如下技术方案:

本发明基于gauss诱导核的模糊c均值聚类算法,特点按如下步骤进行:

步骤1:令x={x1,x2,l,xj,l,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合x进行最优化划分,使得目标函数值jgikfcm最小,其中jgikfcm由式(1)所确定。

在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度,0≤uij≤1,且有表示第j个样本xj归属于各类的模糊隶属度的和为1;u={uij,i=1,l,c;j=1,l,n}表示隶属度矩阵,m(m>1)为模糊指标,为uij的m次;dkij表示基于核函数k(·,·)空间下第j个样本xj与第i类聚类中心的距离vi,并且有:

dkij2=||φ(xj)-φ(vi)||2=<φ(xj)-φ(vi),φ(xj)-φ(vi)>=k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)

式(2)中,φ(xj)表示第j个样本非线性映射到高维特征空间中的映射函数;并且有:

<φ(xj),φ(vi)>=k(xj,vi)(3)

式(4)为高斯核函数,σ∈r为尺度因子。

当核函数k(·,·)取值高斯核函数式(4)时,有:

kg(x,x)=1(5)

则式(2)在高斯核函数下则转换为:

步骤2:用值在0,1间的随机数初始化第j个样本xj隶属于第i类的模糊隶属度定义迭代次数为λ,最大迭代次数为λmax;初始化λ=1,则第λ次迭代的隶属矩阵为u(λ),第λ次迭代的聚类中心为聚类中心矩阵为

步骤3:用式(7)计算第λ次迭代的c个聚类中心i=1,...,c。

式(7)中,kg表示高斯核函数,表示第λ-1次迭代时高斯核空间中第j个样本xj隶属于第i类的模糊隶属度,i=1,...,c,j=1,...,n。

步骤4:根据式(8)计算第λ次迭代的核模糊隶属度

在式(8)中,表示第λ次迭代时高斯核空间中的第i类的聚类中心。

步骤5:判断或λ>λmax,若成立,则ukij(λ)为迭代算法参数估计出的最优模糊隶属度,并令ukij(λ)=uij代入式(1)中,进而实现对样本集合x的最优划分,ε,λmax是事先给定的阈值。若不成立,则令λ=λ+1,重复步骤3顺序执行,直到条件满足为止。

与已有技术相比,本发明的有益效果体现在:

1.gauss诱导核模糊c均值聚类算法(gikfcm)将隐核模糊c均值聚类算法(hkfcm)与gauss核模糊c均值聚类算法(gkfcm)相结合,得到gauss核诱导聚类中心式(7)。在gauss核诱导聚类中心的推导过程中,既利用了隐核聚类中心在高维核空间中关于φ(vi)的梯度优化信息,又结合了gauss核聚类中心关于vi的梯度优化信息,因此能够从数据集x中获取较hkfcm和gkfcm更多的数据划分优化信息,从而提升聚类算法的优化性能,保证gikfcm算法拥有更加准确的聚类表现。

2.gikfcm算法聚类中心式(7)右端不包含聚类中心vi,仅为模糊隶属度uij的函数,这与gkfcm算法聚类中心截然不同,从而满足了模糊聚类算法收敛性证明的要求,即要求聚类中心和模糊隶属度公式互为嵌套对偶函数,通过ao交替迭代过程对参数进行估计,进而从理论上保证了gikfcm算法的收敛性。

3.gikfcm算法聚类中心函数仅以模糊隶属度为自变量,而模糊隶属度函数以聚类中心为自变量,与模糊c均值聚类算法(fcm)类似,因此既可以对聚类中心进行初始化,也可以对模糊隶属度进行初始化,反映了该算法的迭代通用性。而gkfcm、pso-kfcm算法只能先对聚类中心进行初始化,否则无法进行算法的迭代计算。hkfcm只能对模糊隶属度作初始化。在本实施例中,采用基于uci机器学习数据库中的公共数据集进行算法比对测试,所选数据集为iris数据集,数据集的信息如表1所示。选用hkfcm、gkfcm算法与gikfcm算法做对比测试。

具体实施方式

在本实施例中,采用基于uci机器学习数据库中的公共数据集进行算法比对测试,所选数据集为iris数据集,数据集的信息如表1所示。选用hkfcm、gkfcm算法与gauss诱导核模糊c均值聚类算法(以下简称gikfcm算法)做对比测试。

表1iris实验数据集

gauss诱导核模糊c均值聚类算法是按如下步骤进行:

步骤1:令x={x1,x2,l,xj,l,xn}表示给定的样本集合,xj表示第j个样本;1≤j≤n,n是样本的个数;对样本集合x进行最优化划分,使得目标函数值jkfcm最小,其中jkfcm由式(1)所确定。gikfcm算法、gkfcm算法、hkfcm算法的测试结果分别如表2、表3、表4所示。

在测试时,三种核聚类算法都选用gauss核函数,gauss核函数需要对gauss核参数σ赋值,取核参数σ取值范围为[21,22,23,24],聚类算法模糊指标m取值为[2,3,4]。每种聚类算法根据参数和数据集进行10次测试,计算各类聚类平均精度。很显然这三种核聚类算法的核模糊隶属度及聚类目标函数是相同的,区别在于聚类中心的表达上,其中gkfcm和gikfcm算法在输入空间中寻找聚类中心,而hkfcm算法在核映射空间中隐式表现了聚类中心。在算法迭代的初始化方面,gkfcm、gikfcm算法选择对聚类中心做初始化,hkfcm算法选择对模糊隶属度做初始化。

表2gikfcm算法基于iris数据集的分类精度(%)

表3gkfcm算法基于iris数据集的测试结果(%)

表4hkfcm算法基于iris数据集的分类精度(%)

gauss诱导核模糊c均值聚类算法(以下简称gikfcm)基于数据集iris的最高平均分类精度为92.67%,在参数σ=2,m=4时取得;最低平均分类精度为89.33%,分别在参数σ=8m=2和σ=16m=2。在聚类平均精度的基础上,再取聚类平均精度的平均为90.4225%。gkfcms算法基于数据集iris的最高平均分类精度为92.53%,在参数σ=2,m=4时取得;最低平均分类精度为89.33%,分别在参数σ=8m=2和σ=16m=2。在聚类平均精度的基础上,再取聚类平均精度的平均为90.39%。hkfcm算法基于数据集iris的最高平均分类精度为90.00%,在参数σ=16m=3时取得,最低平均分类精度为66.67%,分别在参数σ=2m=3和σ=2m=4。在聚类平均精度的基础上,再取聚类平均精度的平均为80.51%。

在式(1)中,c表示划分的类别数,1≤i≤c,uij表示第j个样本xj隶属于第i类的模糊隶属度,0≤uij≤1,且有表示第j个样本xj归属于各类的模糊隶属度的和为1;u={uij,i=1,l,c;j=1,l,n}表示隶属度矩阵,m(m>1)为模糊指标,为uij的m次;dkij表示基于核函数k(·,·)空间下第j个样本xj与第i类聚类中心的距离vi,并且有:

dkij2=||φ(xj)-φ(vi)||2=〈φ(xj)-φ(vi),φ(xj)-φ(vi)>=k(xj,xj)+k(vi,vi)-2k(xj,vi)(2)

式(2)中,φ(xj)表示第j个样本非线性映射到高维特征空间中的映射函数;并且有:

<φ(xj),φ(vi)>=k(xj,vi)(3)

式(4)为高斯核函数,σ∈r为尺度因子。

当核函数k(·,·)取值高斯核函数式(4)时,有:

kg(x,x)=1(5)

则式(2)在高斯核函数下则转换为:

步骤2:用值在0,1间的随机数初始化第j个样本xj隶属于第i类的模糊隶属度定义迭代次数为λ,最大迭代次数为λmax;初始化λ=1,则第λ次迭代的隶属矩阵为u(λ),第λ次迭代的聚类中心为聚类中心矩阵为

步骤3:用式(7)计算第λ次迭代的c个聚类中心i=1,...,c。

式(7)中,kg表示高斯核函数,表示第λ-1次迭代时高斯核空间中第j个样本xj隶属于第i类的模糊隶属度,i=1,...,c,j=1,...,n。

步骤4:根据式(8)计算第λ次迭代的核模糊隶属度

在式(8)中,表示第λ次迭代时高斯核空间中的第i类的聚类中心。

步骤5:判断或λ>λmax,若成立,则为迭代算法参数估计出的最优模糊隶属度,并令代入式(1)中,进而实现对样本集合x的最优划分,ε,λmax是事先给定的阈值。若不成立,则令λ=λ+1,重复步骤3顺序执行,直到条件满足为止。

由表2和表3可知,gikfcm和gkfcm算法对于iris数据集都能取得较好的聚类结果,在不同的参数取值情况下,gikfcm和gkfcm算法聚类结果之间各有高低,如当σ=2,m=4时,gikfcm平均聚类精度92.67%高于gkfcm平均聚类精度92.53%;而在σ=4,m=4时,gikfcm平均聚类精度90.80%低于gkfcms平均聚类精度90.93%。但在最高平均分类精度上和聚类平均精度的平均上,gikfcm算法是高于gkfcm算法的,体现了gikfcm算法的有效性。由表4可知,hkfcm算法基于数据集iris的测试结果并不理想,体现在该算法对模糊指标m异常敏感,随着参数m的变化,hkfcm算法聚类结果波动较大,且聚类结果表现不好。综上所述,由于gikfcm充分利用了gkfcm算法和hkfcm算法在高维特征及低维输入空间中的数据优化信息,能够取得更好的聚类性能,且聚类中心以显式形式给出,具有充分的算法迭代鲁棒性,保证算法迭代收敛不受参数改变的影响。gikfcm更优的聚类分类性能和鲁棒的迭代收敛性,从而在数据挖掘、模式分类和机器学习等领域有着很好的实用性。

综上所述,本发明一种基于gauss诱导核的模糊c均值聚类算法包括如下步骤:1.对样本集合依目标函数最小化原则进行最优化划分;2.初始化模糊隶属度或者初始化聚类中心;3.按gauss诱导核聚类算法中的迭代计算公式对模糊隶属度和聚类中心进行参数估计;4.获得优化的目标函数。本发明能够有效利用核方法在聚类算法中的非线性表达能力,提升核聚类算法的聚类性能。且聚类中心迭代公式不包含聚类中心自身,满足了聚类算法迭代收敛证明的条件,从而从理论上保障了算法的收敛性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1