一种基于层次聚类的自适应选择性文本聚类集成方法与流程

文档序号:15695093发布日期:2018-10-19 18:54阅读:300来源:国知局
本发明涉及一种基于层次聚类的自适应选择性文本聚类集成方法,属于数据挖掘
技术领域
:。
背景技术
::聚类分析已有五十年的研究历史,它在机器学习、数据挖掘、信息检索、模式识别等领域发挥了极其重要的作用。传统的聚类算法层出不穷,然而没有一种算法能够有效识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。与传统的聚类算法相比,聚类集成技术具备鲁棒性、新颖性、稳定性等优点,目前已成为机器学习的研究热点之一。现有的聚类集成方法都存在很多问题与不足,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。技术实现要素:发明目的:针对现有技术中存在的问题与不足,本发明提供一种可以有效提升聚类集成效果的基于层次聚类的自适应选择性文本聚类集成方法。技术方案:基于层次聚类的自适应选择性文本聚类集成方法,包括如下步骤。1、文本聚类成员生成;2、判断聚类集体的稳定性;3、根据聚类集体的稳定性自适应选择不同的聚类集体子集subset;4、采用层次聚类算法对subset进行集成。有益效果:与现有技术相比,本发明提供的基于层次聚类的自适应选择性文本聚类集成方法能够选出精度较高,差异较大的文本聚类成员,可以有效提高文本聚类集成的质量。附图说明图1是本发明方法的流程图。图2是文本聚类成员生成的流程图。图3是判断聚类集体的稳定性的流程图。图4是根据聚类集体的稳定性自适应选择不同的聚类集体子集subset的流程图。图5是采用层次聚类算法对subset进行集成的流程图。具体实施方式下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本发明的方法如图1所示。步骤s01为文本聚类成员生成,该步骤将在后面的部分结合图2进行具体介绍。步骤s02判断聚类集体的稳定性,该步骤将在后面的部分结合图3进行具体介绍.步骤s03根据聚类集体的稳定性自适应选择聚类集体子集subset,该步骤将在后面的部分结合图4进行具体介绍。步骤s04采用层次聚类算法对subset进行集成,该步骤将在后面的部分结合图5进行具体介绍。图2详细说明了图1中的步骤s01,其作用是生成文本聚类成员。步骤s11输入聚类成员个数l=1000,随机生成聚类个数,其中k为数据集包含的真实类别数。步骤s12将控制参数i置初值1。步骤s13判断控制参数i是否小于或等于1000,是则转到步骤s14,否则转到步骤s17。步骤s14随机生成s个均值向量,作为k均值算法的初始质心,使用k均值算法对数据集进行划分。步骤s15得到聚类结果p(i)={c1(i),…,cs(i)}。步骤s16将控制参数i加1,然后转到步骤s13。步骤s17构建聚类成员集合p={p(1),…,p(1000}。图3详细说明了图1中的步骤s02,其作用是判断聚类集体的稳定性。步骤s21计算聚类成员之间的规范化互信息nmi(normalizedmutualinformation)。nmi越大,两个聚类结果的匹配程度越高,聚类成员之间的相似度越大,差异性越小,其求解方法如下。设x和y分别为聚类成员p(a)和p(b)表示的随机变量,其中p(a)和p(b)分别有ka和kb个簇。设为p(a)中的簇cp包含的对象个数,为p(b)中的簇cq包含的对象个数,np,q表示cp和cq共有的对象个数,则p(a)和p(b)之间的nmi值为:图3的步骤s22根据步骤s21计算出的nmi,计算聚类集体的整体平均规范化互信息tanmi(totalaveragenormalizedmutualinformation),其求解方法如下。图3的步骤s23根据步骤s22计算出的tanmi,判断tanmi是否大于或等于0.5,是则转到步骤s24,否则转到步骤s25。步骤s24判定聚类集体稳定性为s(stable,稳定)。步骤s25判定聚类集体稳定性为ns(non-stable,不稳定)。图4详细说明了图1中的步骤s03,其作用是根据聚类集体的稳定性自适应选择相应的聚类集体子集subset。步骤s31使用层次聚类算法(averagelinkage,al)对所有聚类成员进行集成,得到初始一致划分p0。步骤s32计算所有聚类成员与步骤s31求出的p0的nmi值,将所有聚类成员按照其与p0的nmi值大小降序排列。步骤s33判断聚类集体稳定性是否为s,是则转到步骤s34,否则转到步骤s35。步骤s34根据步骤s32求出的排列次序,选择与p0的nmi值最大的1/4聚类成员集合hq(highquarter)及与p0的nmi值最小的1/4聚类成员集合lq(lowquarter),构建聚类集体子集subset=hq∪lq。步骤s35根据步骤s32求出的排列次序,选择与p0的nmi值最小的1/2聚类成员集合lh(lowhalf),构建聚类集体子集subset=lh。图5详细说明了图1中的步骤s04,其作用是采用层次聚类算法对subset进行集成。步骤s41根据步骤s03求出的subset计算文本之间的相似度矩阵。步骤s42使用层次聚类算法al对文本集聚类。步骤s43得到最终的聚类集成结果。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1