基于混合聚类集成选择策略的聚类集成方法与流程

文档序号:11251429阅读:309来源:国知局

本发明涉及计算机人工智能领域,尤其涉及一种基于混合聚类集成选择策略的聚类集成方法。



背景技术:

聚类算法是重要的无监督学习方法,在机器学习、生物信息学、模式识别和多媒体等领域具有良好的应用性。但单一聚类算法难以保证对各种复杂数据集的聚类准确性,因此聚类集成算法的研究逐渐受到关注,聚类集成算法通过对多个基础聚类结果进行有机融合,得到更准确更鲁棒的聚类结果。在聚类集成中加入聚类集成选择策略,能有效剔除对最终集成结果没有帮助的基础聚类结果,提高聚类集成性能。

以往的聚类集成选择策略并没有得到很好的优化,仍需更深入地研究。kuncheva等人认为应使用高多样性的聚类结果子集。hadjitodorov等人则认为应选择中等多样性的聚类结果子集。azimi等人设定相关阈值来选择中等多样性和高多样性的聚类结果子集。fer等人利用人工参数构造多样性与一致性结合的目标公式并据此进行聚类集成选择。目前大多数聚类集成选择策略具有以下局限性:第一,依赖于经验选择或人工参数,可扩展性差;第二,选择的聚类结果子集冗余度高;第三,算法大多采用贪心策略,优化不足。



技术实现要素:

为了克服现有技术存在的缺点与不足,本发明提供一种基于混合聚类集成选择策略的聚类集成方法,通过将基础聚类结果视作特征的新视角,设计了混合聚类集成选择策略,达到了比目前聚类集成算法更好的聚类效果。

为解决上述技术问题,本发明提供如下技术方案:一种基于混合聚类集成选择策略的聚类集成方法,包括如下步骤:

s1、输入测试数据集样本矩阵x;

s2、使用基础聚类算法对测试数据集样本矩阵x进行聚类操作,生成基础聚类结果集合;

s3、将基础聚类结果集合转换到新特征空间,且基础聚类结果集合中的每一个聚类结果作为新特征空间的每一个特征;

s4、使用特征选择技术对特征进行聚类集成选择,得到聚类结果子集;

s5、对聚类结果子集使用赋权函数获得最终聚类结果子集;

s6、集成最终聚类结果子集,得到最终聚类结果。

进一步地,所述步骤s1的测试数据集样本矩阵x,其行向量对应样本维、列向量对应属性维。

进一步地,所述步骤s2具体为:

s21、使用k均值聚类算法或谱聚类算法作为基础聚类算法;

s22、设creal为真实聚类数,取区间[2,2creal]内随机整数用于设置基础聚类算法的聚类数参数;

s23、使用基础聚类算法和聚类数参数对测试数据集样本矩阵x进行聚类操作;

s24、根据设定次数,重复步骤s21-s23,产生基础聚类结果集合l={l1,l2,…,ls}。

进一步地,所述k均值聚类算法的使用方式为:先随机选取k个样本作为初始聚类中心,接着计算每个样本与各聚类中心的欧氏距离,把每个样本分配给最近的聚类中心,然后将每个聚类中心更新为各个聚类内样本的均值,上述过程不断重复直至满足所述设定次数,所述设定次数根据实际需求进行调整;

所述谱聚类算法的使用方式为:通过生成图的邻接矩阵得到归一化拉普拉斯矩阵,通过对拉普拉斯矩阵最小k个特征值对应的特征向量进行k均值聚类算法聚类,得到基础聚类结果。

进一步地,所述设定次数为100次。

进一步地,所述步骤s3,具体为:

s31、将每个聚类结果作为新特征空间的一个特征;

s32、将每个聚类结果对测试数据集样本中某一样本的聚类标签构成列向量,得到该样本在新特征空间表示;

s33、使用步骤s32得到的所有列向量构成新特征空间下的样本矩阵其中x′pi=lip(p∈{1,…,n}),∈{1,…,}),l为基础聚类结果集合,li为第i个基础聚类结果,n为样本数,s为基础聚类结果数;将每个聚类结果视作新样本,各个基础聚类结果视作特征,即x′第i行包含了各个聚类结果对样本x′p的预测聚类标签。

进一步地,所述步骤s4,具体为:

s41、采用spec算法作为特征选择技术对特征进行聚类集成选择,得到聚类结果子集lspec;

s42、采用relief算法作为特征选择技术对特征进行聚类集成选择,得到聚类结果子集lrelief;

s43、采用mrmr算法作为特征选择技术对特征进行聚类集成选择,得到得到聚类结果子集lmrmr;

44、采用disr算法作为特征选择技术对特征进行聚类集成选择,得到聚类结果子集ldisr。

进一步地,所述spec算法使用径向基函数来生成相似度矩阵a,其元素aij(i,j∈{1,…,s})计算公式如下:

式中,li和lj是集合l中第i和第j个聚类结果,参数ε=1;接着,spec算法从成对相似矩阵a构造标准化拉普拉斯矩阵z:

z=d-1/2ad1/2

式中,d为对角矩阵;然后计算z的特征值及其对应特征向量:

z*ξi=λi*ξi

式中,λi表示第i个特征值,ξi为对应的特征向量;最后spec算法使用赋权函数δ1来对除了第一个的前s′个特征值赋权,进行无监督聚类结果选择,公式如下:

式中,s′为预先定义的聚类结果子集大小,δij表示聚类结果li与特征向量ξj夹角的余弦值;

所述relief算法寻找在相同类别中有相同值、在不同类别中有不同值的离散属性,并根据赋权公式δ2为l中属性赋权:

l中值相同

式中,f为l中的属性值集合,c是聚类集合,通过relief算法获得所选择聚类结果子集lrelief;

所述mrmr算法同时考虑了聚类结果和类别标签之间的相关度κi和li的冗余度ιi,并逐步选出聚类结果,算法目标函数为:

κi=i(c,li)

式中,i()表示互信息计算;mrmr算法根据最小冗余度最大相关度指标来找到冗余性和相关性的最佳平衡,以此达到聚类结果的选择;

所述disr算法考虑了两个聚类结果的联合概率分布,基于对称相关性γ定义了指标函数δ4,具体如下:

式中,h()为熵计算。

进一步地,所述步骤s5,具体为:

s51、类内聚集度最小化所有样本点到聚类中心的距离平方均值,定义如下:

式中,是距离函数,u是聚类中心;类间离散度最小化聚类之间的相关度,定义如下:

式中,ch表示在第h个聚类类别中的样本,τ(ci,x-ci)衡量了ci和其他聚类之间的关联度,ζ(ci,x)衡量了ci和x之间的关联度;对于聚类结果子集l′g,包含了s′g个基础聚类结果,l′g中的聚类结果li权重计算如下:

式中,f为类内聚集度和类间离散度之一;另一方面,对于基础聚类结果集合l中没有被选择到的聚类结果权重设置为0,即对所有li∈l-l′g有

s52、聚类结果子集的权重由它所包含的聚类结果决定,公式如下:

式中,s′g为第g个子集中的聚类结果数;

s53、聚类结果子集权重归一化公式为:

s54、基础聚类结果权重ψ(lj)根据步骤s51中的基础聚类结果权重和步骤s53中的聚类结果子集权重计算得到,具体公式如下:

s55、选择权重最大的前sf个基础聚类结果构成最终聚类结果子集;所述sf的个数根据实际情况设定,需满足sf≤s,所述s为所述设定次数。

进一步地,所述步骤s6,具体为:

s61、计算一致性矩阵,首先将聚类结果子集中每个聚类结果li转化为邻接矩阵mi,mi中元素为:

一致性矩阵w由所有邻接矩阵根据以下公式得到:

根据一致性矩阵和测试数据集构造图g=(x,w),节点为样本点,节点i和节点j的边对应于一致性矩阵w中的权重wij,该权重度量了两个样本处于同个聚类中的概率。

s62、对s61中g使用ncut算法进行聚类,所述ncut算法具体为:

首先求解(d-w)θ=λdθ中第中的特征值和对应特征向量,式中λ为特征值,θ为对应特征向量,d为n×n对角矩阵,其对角线元素为dii=∑jwij;

将所有特征值从大到小排序,取前creal个特征值对应的特征向量构成n×creal的矩阵l,l即测试数据集新的样本表示,每一行是一个样本的矢量表示,对l使用k均值算法聚类得到ncut聚类结果,即最终聚类结果。

采用上述技术方案后,本发明至少具有如下有益效果:

(1)使用k均值聚类算法和谱聚类算法生成基础聚类结果,从两种不同角度对数据集进行聚类,基础聚类结果更具多样性;

(2)创新性地将聚类集成选择问题转化为了特征选择问题,为解决聚类集成选择问题提供了新视角;

(3)基于四种成熟特征选择算法进行聚类结果子集选择,考虑到了特征、样本与类别之间的关系,避免了人为因素及冗余度问题;

(4)基于类内聚集度或类间离散度设计了赋权函数,既考虑了局部各聚类结果子集的权重,也考虑了全局聚类结果的权重,有机结合四个聚类结果子集得到最终聚类结果子集。

附图说明

图1为本发明基于混合聚类集成选择策略的聚类集成方法的步骤流程图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。

如图1所示,本发明提供一种基于混合聚类集成选择策略的聚类集成方法,主要步骤包括下面所述。

步骤1:输入测试数据集样本矩阵x

测试数据集样本矩阵x,其行向量对应样本维,列向量对应属性维。

步骤2:生成基础聚类结果集合

2a)随机使用k均值聚类算法或谱聚类算法作为本次迭代的基础聚类算法。k均值聚类算法先随机选取k个样本作为初始聚类中心,接着计算每个样本与各聚类中心的欧氏距离,把每个样本分配给最近的聚类中心,然后每个聚类中心更新为各个聚类内样本的均值,上述过程不断重复直至满足终止条件;而谱聚类算法通过生成图的邻接矩阵得到归一化拉普拉斯矩阵,通过对拉普拉斯矩阵最小k个特征值对应的特征向量进行k均值聚类算法聚类,得到聚类结果。

2b)设creal为真实聚类数,取区间[2,2creal]内随机整数用于设置2a)中基础聚类算法的聚类数。

2c)使用2a)选择的基础聚类算法和2b)选择的聚类数参数对x进行聚类操作。

2d)对重复步骤2a)、2b)和2c)s次,产生基础聚类结果集合l={l1,l2,…,ls}。

步骤3:将样本转换到新特征空间

3a)将每个聚类结果作为新特征空间的一个特征。

3b)将每个聚类结果对某一样本的聚类标签构成列向量,得到该样本在新特征空间表示。

3c)使用步骤3b)得到的所有列向量构成新特征空间下的样本矩阵其中x′pi=lip(p∈{1,…,n}),i∈{1,…,s}),l为基础聚类结果集合,li为第i个基础聚类结果,n为样本数,s为基础聚类结果数,这样可以将每每个聚类结果视作新样本,各个基础聚类结果视作特征,即x′第i行包含了各个聚类结果对样本x′p的预测聚类标签。

步骤4:使用特征选择技术进行聚类集成选择

4a)spec算法为基于谱图的特征选择算法,它是基于图论为全局特征统一赋权的特征选择算法,使用径向基函数来生成相似度矩阵a,其元素aij(i,j∈{1,…,s})计算公式如下:

其中li和lj是集合l中第i和第j个聚类结果,参数ε=1;接着,spec从成对相似矩阵a构造标准化拉普拉斯矩阵z:

z=d-1/2ad1/2

其中d为对角矩阵。然后计算z的特征值及其对应特征向量:

z*ξi=λi*ξi

λi表示第i个特征值,ξi为对应的特征向量;最后spec使用赋权函数δ1来对除了第一个的前s′个特征值赋权,进行无监督聚类结果选择,公式如下:

其中s′为预先定义的聚类结果子集大小,δij表示聚类结果li与特征向量ξj夹角的余弦值,通过这种方法,使用spec获得选择的聚类结果子集lspec。

4b)relief算法为基于relief的特征选择算法,寻找在相同类别中有相同值、在不同类别中有不同值的离散属性,并根据赋权公式δ2为l中属性赋权:

(l中值相同)

其中f为l中的属性值集合,c是聚类集合,通过relief将获得所选择聚类结果子集lrelief。

4c)mrmr算法为基于最小冗余度最大相关度的特征选择算法,它同时考虑了聚类结果和类别标签之间的相关度κi和li的冗余度li,并逐步选出聚类结果,算法目标函数为:

κi=i(c,li)

其中i()表示互信息计算。mrmr算法根据最小冗余度最大相关度指标来找到冗余性和相关性的最佳平衡,以此达到聚类结果的选择,由上述步骤,mrmr算法得到聚类结果子集lmrmr。

4d)disr算法为基于双输入对称相关性的特征选择算法,它考虑了两个聚类结果的联合概率分布,基于对称相关性γ定义了指标函数δ4,具体如下:

其中h()为熵计算,通过disr算法得到第四个聚类结果子集ldisr。

步骤5:使用赋权函数获得最终聚类结果子集:“类内聚集度”和“类间离散度”是一种对聚类结果好坏的衡量指标,因为聚类算法会将数据集中样本聚成多个类别,“类内聚集度”主要衡量这些类别内样本点的紧凑度,“类间离散度”主要用来衡量这些类别两两之间的区分度;

5a)类内聚集度最小化所有样本点到聚类中心的距离平方均值,定义如下:

其中是距离函数,u是聚类中心;类间离散度最小化聚类之间的相关度,定义如下:

其中ch表示在第h个聚类类别中的样本,τ(ci,x-ci)衡量了ci和其他聚类之间的关联度,ζ(ci,x)衡量了ci和x之间的关联度;对于聚类结果子集l′g,包含了s′g个基础聚类结果,l′g中的聚类结果li权重计算如下:

其中f为类内聚集度和类间离散度之一;另一方面,对于中没有被选择到的聚类结果权重设置为0,即对所有li∈l-l′g有

5b)聚类结果子集的权重由它所包含的聚类结果决定,公式如下:

其中s′g为第g个子集中的聚类结果数。

5c)聚类结果子集权重归一化公式为:

5d)基础聚类结果权重ψ(lj)根据步骤5a)中的基础聚类结果权重和步骤5c)中的聚类结果子集权重计算得到,具体公式如下:

步骤6:聚类结果子集集成

6a)计算一致性矩阵,首先将聚类结果子集中每个聚类结果li转化为邻接矩阵mi,mi中元素为:

一致性矩阵w由所有邻接矩阵根据以下公式得到:

根据一致性矩阵和原始数据集可以构造图g=(x,w),节点为样本点,节点i和节点j的边对应于一致性矩阵w中的权重wij,该权重度量了两个样本处于同个聚类中的概率。

6b)ncut算法的目标函数就是最小化聚类之间的相关性并同时最大化聚类内的关联度,定义如下:

节点集x被分成两个子集x1和x2,τ(x1,x2)表示x1和x2之间的相关度,wpq为节点xp和xq之间边的权重,且p,q,o∈{1,…,n},求解上述目标函数可以转化到求解(d-w)θ=λdθ中第二小的特征值对应的特征向量,其中d为n×n对角矩阵,其对角线元素为dii=∑jwij。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1