一种确定最佳聚类数的方法

文档序号:6526246阅读:1709来源:国知局
一种确定最佳聚类数的方法
【专利摘要】一种确定最佳聚类数的方法,通过有效性指标Q(C)来评估数据集的聚类效果,聚类有效性指标Q(C)取最小值时所对应的聚类数为最佳聚类数。本发明提出新的数据相似度度量方法,结合层次聚类,按照自底向上地生成所有可能的聚类划分,并计算此时的有效性指标值,根据该值构建一条关于不同划分的聚类质量曲线,曲线的极值点所对应的划分为最佳聚类划分。这样就可以避免对大型数据集的反复聚类,而且本发明不依赖于特定的聚类算法。实验结果和理论分析都表明,本发明具有良好的性能与可行性,同时也可以大幅度提高计算效率。
【专利说明】一种确定最佳聚类数的方法
【技术领域】[0001]本发明属于数据挖掘【技术领域】,涉及一种确定最佳聚类数的方法。
【背景技术】
[0002]最佳聚类数的判定大多数都是采用一种基于迭代的trial-and-error过程来进行的,在给定的数据集上,使用不同的参数(通常是聚类数k)运行特定的聚类算法对数据集进行不同的划分,然后计算各种划分的有效性指标值,通过比较各个指标值,选择符合预定条件的指标值所对应的聚类数被认为是最佳的聚类数。实际上,trial-and-error过程存在几个不足之处,一是聚类数k值的确定对于缺乏丰富聚类分析经验的用户来说是难以准确确定的,这就要求我们进一步提出寻找更合理的聚类数k的方法;其二是目前已经提出了许多检验聚类有效性的指标,主要代表有Vxie指标、Vwsj指标等。由于这些指标都是基于某个特定聚类算法提出的,使得该方法在实际应用中受到了极大的限制。另外该方法对大型、维数比较复杂的数据集,计算效率较差。

【发明内容】

[0003]本发明的目的是提供一种确定最佳聚类数的方法,能避免现有技术对大型数据集的反复聚类的问题,且计算效率较高。
[0004]本发明的技术方案是,一种确定最佳聚类数的方法,通过有效性指标Q(C)来评估数据集的聚类效果,聚类有效性指标Q(C)取最小值时所对应的聚类数为最佳聚类数。
[0005]本发明的特点还在于:
[0006]有效性指标的确定,首先计算类内紧凑度和类间分离度,再根据两者的一个线性组合来表示有效性指标;具体包括:
[0007]1、假设对于多维数据集DB,其中一个聚类划分为Ck = IC1, C2, , CJ,而此时聚类Ck的类内紧凑度是通过计算同一类中的任意两个数据对象之间距离的平方和得到的,用Scat (Ck)来表示,
[0008]
【权利要求】
1.一种确定最佳聚类数的方法,其特征在于:通过有效性指标Q (C)来评估数据集的聚类效果,聚类有效性指标Q(C)取最小值时所对应的聚类数为最佳聚类数。
2.如权利要求1所述的确定最佳聚类数的方法,其特征在于:所述有效性指标的确定为,首先计算类内紧凑度和类间分离度,再根据两者的一个线性组合来表示有效性指标;具体包括: 1)假设对于多维数据集DB,其中一个聚类划分为Ck= (C1, C2,, CJ,而此时聚类Ck的类内紧凑度是通过计算同一类中的任意两个数据对象之间距离的平方和得到的,用Scat (Ck)来表示,
3.如权利要求1所述的确定最佳聚类数的方法,其特征在于:所述最佳聚类数的确定方法为,采用基于MDL剪枝算法来消除噪声点和孤立点对聚类结果的影响,最后得到最佳聚类数;MDL算法的处理过程为:
4.如权利要求3所述的确定最佳聚类数的方法,其特征在于:所述噪声点与孤立点的消除方法为,采用基于MDL(minimal description length)的剪枝方法对结果进行处理,具体处理方法如下: 令G" =……Cl}为G:包含的数据对象的个数;首先按照|<|从大到小排序生成一个新的序列C1, C2,.....Ck,然后将这个序列以Cm(l〈m〈k)为界分为两个部分,即:
5.如权利要求2所述的确定最佳聚类数的方法,其特征在于:所述数据集DB包括人工合成的数据集和标准数据集。
6.如权利要求1-5任一项所述的确定最佳聚类数的方法,其特征在于:具体实施过程如下: 1)计算数据集DB中任意两点的相似度,存入数组D中,并将数组D中的数值按照从大到小的顺序进行排序; 2)对数组D中的当前元素,首先判断这两个数据对象是否已被合并到类中,如果没有,就将这两个数据对象合并成一个类,如果其中一个数据对象已被合并到某一个类中,则将另一个对象也合并到那个类中,如果它们已分别被合并到两个不同的类,则将其所在的两个类合并成一个类,如果它们已经属于同一个类时,则放弃此次合并,此时,根据式(7),计算此时的聚类有效性指标Q(C)的值,连同此时的聚类划分一起保存在数组A中,此时的数据集的聚类个数k=k-l ;然后取D中的下一个元素,继续判断与计算,直到数据集的聚类个数为I时结束; 3)根据式(8)获取数组A中最小的聚类指标值以及所对应的聚类划分;对所选择的最小聚类指标值以及所对应的聚类划分,按式(9)的过程对其中被识别为噪声点与孤立点所组成的类进行“剔除”,最后获得最佳的聚类数k。#。
7.如权利要求6所述的如权利要求2所述的确定最佳聚类数的方法,其特征在于:所述相似度的度量方法为,在给定的d维数据集DB中,任意两个数据对象Xi和\的相似度公式可定义为:

【文档编号】G06F17/30GK103714154SQ201310739837
【公开日】2014年4月9日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】周红芳, 王啸, 赵雪涵, 段文聪, 郭杰, 张国荣, 王心怡, 何馨依 申请人:西安理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1