一种基于谱聚类算法的选择性聚类集成方法

文档序号:6540651阅读:216来源:国知局
一种基于谱聚类算法的选择性聚类集成方法
【专利摘要】本发明公开了一种基于谱聚类算法的选择性聚类集成方法,包括以下步骤:聚类成员生成;基于谱聚类算法选择代表成员;对代表成员进行集成;结束。本发明的显著优点是:实现简单且可以有效提升聚类集成的效果。
【专利说明】一种基于谱聚类算法的选择性聚类集成方法
【技术领域】
[0001]本发明涉及一种基于谱聚类算法的选择性聚类集成方法,属于数据挖掘【技术领域】。
【背景技术】
[0002]聚类分析已有四十多年的研究历史,它在机器学习、数据挖掘、信息检索、模式识另O、生物信息学等领域发挥了极其重要的作用。传统的聚类算法层出不穷,然而没有一种算法能够有效识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。与传统的聚类算法相比,聚类集成技术具备鲁棒性、新颖性、稳定性等优点,目前已成为机器学习的研究热点之一。现有的聚类集成方法都存在很多问题与不足,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。

【发明内容】

[0003]发明目的:针对现有技术中存在的问题与不足,本发明提供一种可以有效提升聚类集成效果的基于谱聚类算法的选择性聚类集成方法。
[0004]技术方案:一种基于谱聚类算法的选择性聚类集成方法,包括如下步骤:
[0005]1、聚类成员生成;2、基于谱聚类算法选择代表成员;3、对代表成员进行集成;4、结束。
[0006]有益效果:与现有技术相比,本发明提供的基于谱聚类算法的选择性聚类集成方法实现简单且可以有效提升聚类集成的效果。
【专利附图】

【附图说明】
[0007]图1是本发明方法的流程图;
[0008]图2是聚类成员生成的流程图;
[0009]图3是基于谱聚类算法选择代表成员的流程图;
[0010]图4是对代表成员进行集成的流程图;
[0011]图5是使用谱聚类算法对聚类成员聚类的流程图;
[0012]图6是使用谱聚类算法对数据集聚类的流程图。
【具体实施方式】
[0013]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0014]本发明的方法如图1所示。步骤O是初始动作。步骤I为聚类成员生成,该步骤将在后面的部分结合图2进行具体介绍。步骤2基于谱聚类算法选择代表成员,该步骤将在后面的部分结合图3进行具体介绍。步骤3对代表成员进行集成,该步骤将在后面的部分结合图4进行具体介绍。步骤4是图1的结束状态。
[0015]图2详细说明了图1中的步骤1,其作用是生成多个聚类成员。步骤10是起始动作。步骤11获取聚类成员个数I (I是一个大于I的整数)和聚类个数k (一般将聚类个数k设置为数据集包含的真实类别数)。步骤12将控制参数i置初值I。步骤13判断控制参数i是否小于或等于1,是则转到步骤14,否则转到步骤17。步骤14随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对数据集进行划分。步骤15得到聚类结果?“) = ^,),…,Ck(i)}。步骤16将控制变量i加I,然后转到步骤13。步骤17构建聚类成员集合P={P(1),…,Ρα)}。步骤18是图2的结束状态。
[0016]图3详细说明了图1中的步骤2,其作用是基于谱聚类算法选择代表成员,用于后续集成。步骤20是起始动作。步骤21计算聚类成员之间的相似度,即聚类成员之间的NMI值(Normalized Mutual Information,规范化互信息)。NMI值越大,两个聚类结果的匹配程度越高,聚类成员之间的相似度越大,其求解方法如下。设X和Y分别为聚类成SP(a)和P(b)表示的随机变量,其中Ρω和P(b)分别有1^和0个簇。设<SP(a)中的簇Ch包含的对象个
数,?if为P(b)中的簇C1包含的对象个数^^表示Ch和C1共有的对象个数,则P(a)和P(b)之间的匪I值为:
【权利要求】
1.一种基于谱聚类算法的选择性聚类集成方法,其特征在于,包括以下步骤: (1)聚类成员生成; (2)基于谱聚类算法选择代表成员; (3)对代表成员进行集成; (4)结束。
2.根据权利要求1所述的基于谱聚 类算法的选择性聚类集成方法,其特征在于,所述聚类成员生成的步骤是: (1)步骤11获取聚类成员个数I和聚类个数k,其中I是一个大于I的整数,将聚类个数k设置为数据集包含的真实类别数; (2)步骤12将控制参数i置初值I; (3)步骤13判断控制参数i是否小于或等于聚类成员个数I,是则执行步骤14,否则转到步骤17 ; (4)步骤14随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对数据集进行划分; (5)步骤15得到聚类结果Ρω= {Αω,-,Ck(i)}; (6)步骤16将控制参数i加I,然后转到步骤13; (7)步骤17构建聚类成员集合P={Ρω,…,Ρ(1)}; (8)结束。
3.根据权利要求1所述的基于谱聚类算法的选择性聚类集成方法,其特征在于,所述基于谱聚类算法选择代表成员的步骤是: (1)步骤21计算聚类成员之间的相似度; (2)步骤22根据步骤2计算出的相似度,使用谱聚类算法对聚类成员聚类; (3)步骤23根据步骤22获得的聚类结果,从每个聚类成员集合中各选出一个与该簇中所有其他成员之间的NMI值之和最大的聚类成员作为代表成员; (4)结束。
4.根据权利要求1所述的基于谱聚类算法的选择性聚类集成方法,其特征在于所述对代表成员进行集成的步骤是: (1)步骤31计算数据点之间的相似度,数据点(Ii和dj的相似度计算如下=Sij=Cli与dj属于同一个簇的次数/r ; (2)步骤32使用谱聚类算法对数据集聚类; (3)结束。
5.根据权利要求3所述的基于谱聚类算法的选择性聚类集成方法,其特征在于基于谱聚类算法选择代表成员中,所述使用谱聚类算法对聚类成员聚类的步骤是: (1)步骤221获取要选出的代表成员个数&; (2)步骤222构建图上的随机游走对应的转移概率矩阵P1,具体求解方法如下:P1= (D1) I1,其中S1是聚类成员之间的相似度矩阵,其元素值在权利要求书3中的步骤21求得,D1是对角度矩阵,对角元素#(“);(3)步骤223求解P1的特征值X1≥…≥λi,若存在某个序i,使得入1严格大于λ?+1,则令r=i ;否则令r=rQ ; (4)步骤224将P1的前r个最大特征值对应的特征向量按列排放,构建矩阵1=[ιν..ur]; (5)步骤225使用K均值算法将Ur的行聚为r个聚类成员集合G1,…,Gr; (4)结束。
6.根据权利要求4所述的基于谱聚类算法的选择性聚类集成方法,其特征在于对代表成员进行集成,所述使用谱聚类算法对数据集聚类的步骤是: (I)步骤321构建图上的随机游走对应的转移概率矩阵P,具体求解方法如下=P=D4S,其中S是数据点之间的相似度矩阵,其元素值由步骤31求得,D是对角度矩阵,对角元素o(i,i) = j); (2 )步骤3 2 2求解P的前k个最大特征值对应的特征向量并按列排放,构建矩阵Vk= [V1 …vk]; (3)步骤323使用K均值算法将Vk的行聚为k个簇D1,-,Dk; (4)结束。
【文档编号】G06F17/30GK103995821SQ201410096258
【公开日】2014年8月20日 申请日期:2014年3月14日 优先权日:2014年3月14日
【发明者】徐森, 李先锋, 曹瑞, 花小朋, 徐静, 陈荣 申请人:盐城工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1