一种基于特征分析的粒子群聚类方法

文档序号:6618848阅读:303来源:国知局
专利名称:一种基于特征分析的粒子群聚类方法
技术领域
本发明涉及数据点聚类分析技术领域,尤其涉及一种基于特征分析的粒子群聚类 方法,在机器学习、数据挖掘、图像处理、模式识别等技术领域都面临需要对数据点聚类分 析的问题。
背景技术
聚类是数据挖掘的重要内容,是无监督学习的重要方法。为此,产生了大量的聚类 方法。在各种聚类优化方法中,基于进化计算的方法由于模拟自然界“物竞天择,适者生产” 原则具有深刻的智能背景,越来越多地受到青睐。同为具有深刻智能背景的进化计算方法, 粒子群优化(PSO)方法比遗传方法(GA)简单易于实现、收敛效率高,并且已经在聚类分析 中展现了潜力,因此,在实际聚类问题特别是未知分布的复杂数据中得到了广泛的应用。但是,在对线性不可分数据聚类时,粒子群聚类方法虽然能产生优于其它优化方 法的聚类结果,但产生这种良好聚类效果的比率不高,它只能说明粒子群聚类方法有潜力, 不具有实际应用意义。图2示出了对于线性不可分数据环形数据(图2(a))聚类经典方法K-均值方法 的结果(图2(b)),粒子群方法作为智能进化方法其典型结果如图2(c),它们都不能得到将 内环和外环分开的正确聚类结果。

发明内容
(一)要解决的技术问题本发明的目的在于提供一种基于特征分析的粒子群聚类方法,使其能够在保持粒 子群方法自身优点的基础上更进一步提高其聚类效果,特别是对于线性不可分数据的聚类 效果。( 二 )技术方案为实现上述目的,本发明提供了一种基于特征分析的粒子群聚类方法,包括以下 步骤步骤1 将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得 到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;步骤2 特征挑选,选取相应P个特征向量,将特征点集{S}变为点集{Y};步骤3 对点集{Y}进行数据处理,更新形成新的点集{Y};步骤4 对新的点集{Y}进行粒子群聚类。上述方案中,步骤1中所述对投影到特征空间得到的特征点集{S},应 确保点集{S}具有零均值,采用的操作是对得到的核矩阵K按下式中心化处理
K11 -K11 -去|>7.(、)^)-去Σ识7 ( )+去坌1> 00,其中,^fx、是 Xj
1、m~\丄、n-\7V m=\ ^=I'V y)
经过核变换投影到核空间的特征点。
上述方案中,步骤2中所述的特征挑选,采用最值原则,抽取最大或最小的ρ个特 征值对应的主分量,P的大小为聚类数目K。上述方案中,步骤3中所述对点集{Y}进行数据处理,是对点集{Y}进行尺度变换 或者加权处理。上述方案中,所述对点集{Y}进行数据处理,具体包括如果点集{Y}中各数据点某一维的数值远大于1或者远小于1,则对该维进行相应 的尺度压缩、拉伸变换;如果点集{Y}中数据点各维数值范围差距过大,则对点集{Y}进行归一化操作。上述方案中,步骤4中所述对新的点集{Y}进行粒子群聚类采用适应度函数 F\ = fitness{Cl)^YYj\Yn-C,\
J η其中,Ci为第i个粒子,Cij为第i个粒子中代表第j个聚类中心的分量,Yn为样 本集{Y}中所有属于第j个聚类的点。上述方案中,步骤4中所述对新的点集{Y}进行粒子群聚类,具体包括输入待聚类的特征点集Y: {yi} ^,聚类数目K ;输出聚类划分的结果sub ;1)、用K个聚类的中心C作为问题的解C = [i;〒;·.·^;],m, =( mu、 mi2、...、mip ),设定粒子数np,最大迭代步数maxst印,随机产生np个初始解C。;2)、根据当前位置,用适应度函数= fi^essiC,) = ΣΣ||Γ — C,j计算适应值,设
/ “
置当前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体 极值pbestF,找出全局极值gbestF和全局极值位置gbestC ;While (迭代次数< maxst印)dofor j = 1 :np ;3)、按 Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度, 并按把它限制在[-Vmax,Vmax]内;4)、按yid = yid+Vid更新自己的位置;5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中 心; 6)、计算适应 F,如果 F (j) < pbestF (j),则 pbestF (j) = F (j),pbestC (j)= C(j);end7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。8)、CO — ClEnd。(三)有益效果本发明提供的这种基于特征分析的粒子群聚类方法,克服了当后续方法是非智能 方法时必须手动挑选合适特征的麻烦。另外,本发明对变换到特征空间的点作出进一步处 理,比如尺度变换、归一化处理等操作,有利于后续优化方法的应用。


图1为本发明的聚类流程示意图;图2为经典聚类方法K-均值、粒子群聚类(PSO)对线性不可分数据环形数据聚类 遇到的困境,其中图2(a)表示待聚类的环形数据,图2(b) (c)分别为K-均值和粒子群聚类 (PSO)的聚类结果,它们都不能正确聚类。图3为本发明的KPCA-PSO方法、同为特征空间聚类的KPCA-KM方法对环形数据的
聚类。其中图3 (a)为环形数据;图3 (b)为本发明的KPCA-PSO方法聚类结果;图3 (c)为KPCA-KM方法当初始聚类中心良好的正确聚类;图3 (d)为KPCA-KM方法当初始聚类中心不好时的错误聚类结果。图4为KPCA-PSO方法与几种基于Mercer核的聚类方法对更复杂的IRIS数据聚 类的错误率,其中X轴的标号为7的方法为本发明的KPCA-PSO方法,标号为1-6对应的核 方法为核k-均值(KKM)、核模糊聚类(KFCM)、核确定性退火(KDA)、核蚁群聚类(KCA)、核凝 聚聚类、核可能性聚类(KPCM)。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。本发明提出一种基于特征分析的粒子群聚类方法,包括以下步骤首先采用核主 分量分析(KPCA)方法将待聚类的数据点集映射到特征空间,并抽取主分量,形成新的特征 空间的点集,实现将原空间的数据点集的聚类转换为对特征空间的新点集聚类。然后,使用 具有智能进化特点的粒子群方法(PSO)对特征空间的点集聚类。由于粒子群方法本身就具 有智能进化特点,在方法里又结合被证明有效的核主分量分析方法揭露数据的隐含特征, 因此,聚类效果特别是对于线性不可分数据的聚类效果,比单纯的粒子群方法大大提高,也 比单纯的用核主分量分析方法加上其它非智能方法如经典的K-均值方法即(KPCA-KM)效 果好。本发明中的核主分量分析(KPCA)步骤在抽取主分量时,采用的一种简便的处理 方式,即最值抽取法,抽取最大或最小的K个特征值对应的主分量,K为聚类的数目。这样 处理是因为(1)对应最值的特征值包含数据的主要的特征;(2)如果手动挑选合适特征,过程十分繁琐费时,且不易推广方法应用;(3)由于后续步骤是有智能进化特点的PSO方法,即使特征选取不是特别完美,也 能得到比较好的结果,对特征选择具有一定的容错性。以下结合图1所示的方法流程示意图说明本发明的聚类方法具体实施步骤步骤1、将样本空间待聚类的点集{X}通过核主分量分析(KPCA)方法投影到特征 空间得到特征点集{S},求出点集{S}的非零特征值及其对应的特征向量。核主分量分析(KPCA)方法如下
6
输入样本集X: (Xi)Il,选取特征向量个数P,选用核函数类型及其参数值;输出样本集X对应的特征空间点集Y:;1)、构造NXN核矩阵K,Kij=K (xi,xj) =<cp(xi),cp(xj)>,具体值由所选核函数
确定;2)、根据K α = λ α ,求特征值和特征向量;3)、选取ρ个特征值{λ } ,1,和对应特征向量{ }。,并且使
γI
ak ak 二 T^k=K 2、…、ρ;
N4)、为抽取测试点χ的主分量,计算投影 =Zq^x(Vx) k = 1、2.....P,其中
7=1
α ^是特征向量Cik的第j个元素。步骤2、运用最值原则,选取相应ρ个最大或最小的特征值对应的特征向量,ρ的大 小为聚类数目K,具体选用最大还是最小根据样本集不同而区别;经过最值挑选后,特征点 集{S}变为{Y};步骤3、为更好地实施后续聚类方法,对{Y}做相应的数据处理,比如尺度变换、归 一化操作,然后更新{Y}集合;具体地,如果集合{Y}中各数据点某一维的数值远大于1或 者远小于1,则对该维进行相应的尺度压缩、拉伸变换;如果{Y}中数据点各维数值范围差 距过大,则进行归一化操作。步骤4、对新的{Y}集合应用标准粒子群聚类方法(PSO)进行聚类,具体聚类方法 包括输入待聚类的特征点集Y: {yi} Γ=1,聚类数目K ;输出聚类划分的结果sub ;1)、用κ个聚类的中心C作为问题的解c =,Mj =( mn、
mi2、…、ITlip ),设定粒子数np,最大迭代步数maxst印,随机产生np个初始解C。;2)、根据当前位置,用适应度函数列=·/^7^^。)二—Α 计算适应值,设
J “
置当前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体 极值pbestF,找出全局极值gbestF和全局极值位置gbestC ;While (迭代次数< maxst印)dofor j = 1 :np ;3)、按 Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度, 并按把它限制在[-Vmax,Vmax]内;4)、按yid = yid+Vid更新自己的位置;5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中 心;6)、计算适应 F,如果 F (j) < pbestF (j),则 pbestF (j) = F (j),pbestC (j)= C(j);end7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。
8)、CO — ClEnd。实施例人工环形数据(Ring data),数据由两类圆形数据产生(半径分别为1,2),每类有 N= 51个样本组成,两类数据均加上了均值μ =0,方差02 = 0.001为高斯噪声.参见 图3(a),图3(b)为本发明提出的KPCA-PSO方法的典型结果,显然它能正确区分内环和外 环数据点,优于图2(c)中的单纯的粒子群聚类(PSO)结果。图3(c) (d)为核主分量分析方 法(KPCA)加上其它非智能方法(K-均值)的KPCA-KM方法的聚类结果,它受选取的初始聚 类中心影响较大,当初始中心选取较好时就能正确聚类如图3 (c),反之得到错误聚类如图 3 (d)。实验结果显示,本发明提出的KPCA-PSO方法即优于单纯地应用进化方法PS0,也由于 由核主分量分析(KPCA)结合其它的非进化智能方法(K-均值)得到的KPCA-KM方法。实际数据(IRIS),可以从UCI数据库获得。IRIS数据包含3类(IrisSetosa, Iris Versicolor and Iris Virginica),每类 50 个点,数据点为 4 维(s印allength, s印al width, petal length, petal width),其中一类与另外两类线性可分,后面两类互相不能线
性区分。 表 1表1数据进一步证明了(1)本发明提出的KPCA-PSO方法能够有效地对线性不可 分数据聚类(2) KPCA-PSO方法聚类效果优于经典非智能进化聚类方法(KM)、单纯使用智能 进化方法(PSO)、使用核主分量分析(KPCA)与非智能进化方法(KM)结合(KPCA-KM)。 表 2为进一步测试本发明提出的KPCA-PSO方法性能,使之与目前存在的另一种处理 线性不可分数据聚类技术即基于Mercer核函数的聚类方法的性能对比。由于它们都能处 理简单的线性不可分数据,如环形数据,这已经被实验证明。因此,将它们在更复杂的数据 IRIS上测试,所得结果如表2所示,显然本发明提出的方法具有明显的优越性。其错误率条 形图如图4所示。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
权利要求
一种基于特征分析的粒子群聚类方法,其特征在于,包括以下步骤步骤1将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;步骤2特征挑选,选取相应p个特征向量,将特征点集{S}变为点集{Y};步骤3对点集{Y}进行数据处理,更新形成新的点集{Y};步骤4对新的点集{Y}进行粒子群聚类。
2.根据权利1所述的基于特征分析的粒子群聚类方法,其特征 在于,步骤1中所述对投影到特征空间得到的特征点集{S},应确保点 集{S}具有零均值,采用的操作是对得到的核矩阵K按下式中心化处理,其中,m(x、是 Xj 经过核变换投影到核空间的特征点。
3.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤2中所述的特 征挑选,采用最值原则,抽取最大或最小的P个特征值对应的主分量,P的大小为聚类数目 K0
4.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤3中所述对点 集{Y}进行数据处理,是对点集{Y}进行尺度变换或者归一化处理。
5.根据权利4所述的基于特征分析的粒子群聚类方法,其特征在于,所述对点集{Y}进 行数据处理,具体包括如果点集{Y}中各数据点某一维的数值远大于1或者远小于1,则对该维进行相应的尺 度压缩、拉伸变换;如果点集{Y}中数据点各维数值范围差距过大,则对点集{Y}进行归一化操作。
6.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤4中所述对新 的点集{Y}进行粒子群聚类采用适应度函数 其中,Ci为第i个粒子,Cij为第i个粒子中代表第j个聚类中心的分量,Yn为样本集 {Y}中所有属于第j个聚类的点。
7.根据权利1所述的基于特征分析的粒子群聚类方法,其特征在于,步骤4中所述对新 的点集{Y}进行粒子群聚类,具体包括输入待聚类的特征点集Y: {yi} ,1,,聚类数目K ; 输出聚类划分的结果SUb ;1)、用K个聚类的中心C作为问题的解(7二[&;冗;···;^],mt=( mn,mi2、…、rtlip ),设定粒子数np,最大迭代步数maxst印,随机产生np个初始解C。;2)、根据当前位置,用适应度函数 计算适应值,设置当 前适应值为个体极值pbestF,当前位置为个体极值位置pbestC,根据各个粒子的个体极值 pbestF,找出全局极值gbestF和全局极值位置gbestC ; While (迭代次数< maxst印)dofor j = 1 :np ;3)、按Vid = w*Vid+2*rand*(pbestC-yid)+2*rand*(gbestC-yid)更新自己的速度,并按 把它限制在[_Vmax,Vmax]内;4)、按yid= yid+Vid更新自己的位置;5)、根据当前位置,对特征点集Y的各个样本按最小距离原则分配给K个聚类中心;6)、计算适应F,如果 F (j) <pbestF(j)JlJpbestF(j) = F(j),pbestC(j) = C(j); end7)、比较pbestF,找出最小值作为全局极值,并更新全局极值位置。8)、CO— Cl EncL
全文摘要
本发明公开了一种基于特征分析的粒子群聚类方法,包括以下步骤步骤1将样本空间待聚类的点集{X}通过核主分量KPCA方法投影到特征空间得到特征点集{S},求出特征点集{S}的非零特征值及其对应的特征向量;步骤2特征挑选,选取相应p个特征向量,将特征点集{S}变为点集{Y};步骤3对点集{Y}进行数据处理,更新形成新的点集{Y};步骤4对新的点集{Y}进行粒子群聚类。本发明克服了当后续方法是非智能方法时必须手动挑选合适特征的麻烦。另外,本发明对变换到特征空间的点作出进一步处理,比如尺度变换、归一化处理等操作,有利于后续优化方法的应用。
文档编号G06N3/08GK101894294SQ20091008416
公开日2010年11月24日 申请日期2009年5月20日 优先权日2009年5月20日
发明者王徽蓉, 邓貌, 金小贤, 鲁华祥 申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1