基于中心法的自适应文本聚类算法

文档序号:6535632阅读:1236来源:国知局
基于中心法的自适应文本聚类算法
【专利摘要】基于中心法的自适应文本聚类算法是一种迭代分割聚类算法,迭代之前,算法首先初始化相关参数,然后随机将数据集分割为大小相同的一组聚簇,并计算每个聚簇的CFC向量;在此之后,算法进入迭代过程,在进入迭代过程之后,每次迭代过程包括下列主要步骤:根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇;在重新组织每个文本之后,重新计算每个非空聚簇的CFC向量;判定算法是否满足终止条件,若满足则终止,否则继续进行迭代过程;具有如下主要优点:(1)方法简单,易于实现;(2)具有自适应性。
【专利说明】基于中心法的自适应文本聚类算法
【技术领域】
[0001]本发明属于信息检索领域,尤其涉及一种基于中心法并自适应确定聚类个数的文本聚类算法。
【背景技术】
[0002]文本聚类算法是机器学习、信息检索等领域中一类主要的文本数据挖掘方法,是解决互联网文本信息过载的主要途径之一。其目的是按照“物以类聚”的原则组织互联网文本集合,以得到一系列有意义的文本子集。其中,每个文本子集内的文本之间最大程度地相似,而不同文本子集的文本之间最大程度地不同。良好的文本聚类算法能够将同话题同种类的文本聚集成一个有意义的文本子集,可以帮助互联网用户从海量文本信息中更容易地找到其最感兴趣的内容。研究和运用文本聚类算法对于完成文本数据挖掘任务具有重要的理论价值和现实意义。
[0003]目前,已提出了多种文本聚类算法,大体分为如下三类:层次聚类算法、分割聚类算法和概率模型聚类算法。层次聚类算法通常以自顶向下或者自底向上的方式将文本集合组织成一个层次结构;分割聚类算法则按照某种选定标准将文本集合直接分割成几个聚簇,聚簇的数目通常是预先设定的;而概率模型聚类算法通过概率主题模型来解决文本聚类问题。
[0004]其中,分割聚类算法因其具有容易理解、实现简单的优点而被广泛研究和使用。分割聚类算法的基本原理和过程是:首先,根据某一选定标准将数据集分割为k份,每份代表一个聚簇。分割产生的聚簇具备两个特点:1)每个聚簇至少包含一个数据,2)每个数据只属于一个聚簇。然后,通过反复的迭代过程对初次产生的划分进行逐步调整。最后,当选定标准达到最优或者迭代收敛条件满足时算法终止。
[0005]从上述算法过程可以看出:分割聚类在算法运行之前需要人工预先指定聚簇个数k,这是其主要问题之一。另外,根据前人研究:分割聚类算法在数据集包含较多类别时算法表现较差。综上,分割聚类算法存在两个主要问题:1)在算法运行之前需要人工预先指定聚簇个数;2)在数据集包含较多类别时算法表现较差。

【发明内容】

[0006]针对分割聚类算法在算法运行之前需要人工预先指定聚簇个数以及在数据集包含较多类别时算法表现较差这两个问题,本发明的目的是提供一种在算法运行之前不需人工预先指定聚类个数(即根据数据集和算法运行情况自适应确定聚类个数)并且在数据集包含较多类别时算法表现较好的分割聚类算法。本发明方法:首先将文本数据集随机分割成大小相同并且较小的一组聚簇;然后根据文本和各聚簇中心的相似度通过迭代过程对聚簇进行调整、对数据集进行重组;最后当终止条件达到时迭代过程终止,可以获得更准确的聚类结果。
[0007]本发明提供了一种基于中心法并自适应确定聚簇个数的文本聚类算法,所述方法包括如下步骤:
[0008]步骤1:初始化算法相关参数
[0009]首先,初始化聚簇的“类一特征一中心”(CFC: Class-Feature-Centroid)向量计算参数:b和log函数的底数。其次,设置算法运行控制参数,包括:随机聚类过程时的初始聚簇大小参数Im,重启频率参数Fm和重启范围Rm。最后,设置算法终止条件参数:最大迭代次数和收敛准确率。
[0010]步骤2:分割数据集
[0011]随机将数据集分割为大小为Im的一组聚簇,并计算每个聚簇的CFC向量。
[0012]步骤3:重组数据集
[0013]根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇,重组过程包含两种处理情况:
[0014](I)非重启迭代重组:将每个文本分配到和其最相似的CFC向量所属的聚簇中。
[0015](2)重启迭代重组:将每个文本分配到和其第2到第Rm相似区间中的某一 CFC向量所属的聚簇中。
[0016]步骤4:重新计算各聚簇的CFC向量
[0017]在将所有文本重组之后,重新计算每个非空聚簇的CFC向量。
[0018]步骤5:判定算法是否终止
[0019]算法有两个终止条件:最大迭代次数和收敛准确率。如果两个终止条件有一个满足,则算法终止。否则,算法继续进行,转到步骤3。
【专利附图】

【附图说明】
[0020]图1基于中心法的自适应文本聚类算法流程示意图。
[0021]图2四个子数据集上本方法与其他4个方法的F值比较图。
[0022]图3四个子数据集上本方法与其他4个方法的纯度比较图。
[0023]图4四个子数据集上本方法与其他4个方法的信息熵比较图。
[0024]图5参数Im和F值的关系图。
[0025]图6参数Fm和F值的关系图。
[0026]图7参数Rm和F值的关系图。
[0027]图8重启和非重启情况下的F值比较图。
[0028]图9重启和非重启情况下的纯度比较图。
[0029]图10重启和非重启情况下的信息熵比较图。
【具体实施方式】
[0030]以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
[0031 ] 本发明实施例的前提是已获得了文本数据集。
[0032]图1为本发明实施例提供的基于中心法的自适应文本聚类算法流程示意图,如图1所示,本实施例主要包含以下步骤:
[0033]步骤1:初始化相关参数[0034]首先,初始化聚簇的CFC向量计算参数b和log函数的底数。其次,设置算法随机分割过程时的参数初始聚簇大小Im,设置算法重启策略的参数重启频率Fm和重启范围Rm。最后,设置算法终止条件的参数最大迭代次数和收敛准确率。
[0035]步骤2:分割数据集
[0036]随机将数据集分割为聚簇大小为Im的一系列聚簇,并按公式(I)计算每个聚簇的CFC向量。
【权利要求】
1.基于中心法的自适应文本聚类算法,其特征在于,包括如下步骤: 步骤1:初始化算法相关参数 首先,初始化聚簇的“类一特征一中心”(CFC:Class-Feature-Centroid)向量计算参数:b和log函数的底数,其次,设置算法运行控制参数,包括:随机聚类过程时的初始聚簇大小参数Im,重启频率参数Fm和重启范围Rm,最后,设置算法终止条件参数:最大迭代次数和收敛准确率; 步骤2:分割数据集 随机将数据集分割为大小为Im的一组聚簇,并计算每个聚簇的CFC向量; 步骤3:重组数据集 根据每个文本和不同聚簇的CFC向量的相似度重新组织每个文本,以得到新的一组聚簇,重组过程包含两种处理情况: (O非重启迭代重组:将每个文本分配到和其最相似的CFC向量所属的聚簇中; (2)重启迭代重组:将每个文本分配到和其第2到第Rm相似区间中的某一 CFC向量所属的聚簇中; 步骤4:重新计算各聚簇的CFC向量 在将所有文本重组之后,重新计算每个非空聚簇的CFC向量; 步骤5:判定算法是否终止 算法有两个终止条件:最大迭代次数和收敛准确率,如果两个终止条件有一个满足,则算法终止,否则,算法继续进行,转到步骤3。
2.根据权利要求1所述的基于中心法的自适应文本聚类算法,其特征在于,该算法采用如下基本原理对文本进行聚类: 首先将文本数据集随机分割成大小相同并且较小的一组聚簇;然后根据文本和各聚簇中心的相似度通过迭代过程对聚簇进行调整、对数据集进行重组;最后当终止条件达到时迭代过程终止,可以获得更准确的聚类结果。
3.根据权利要求1所述的基于中心法的自适应文本聚类算法,其特征在于,按照如下方法构造每个聚簇的CFC向量:
4.根据权利要求1所述的基于中心法的自适应文本聚类算法,其特征在于,按照如下方法构造文本向量和聚簇的CFC向量的相似度:
5.根据权利要求1所述的基于中心法的自适应文本聚类算法,其特征在于,按照如下策略对聚簇进行调整、对数据集进行重组: (O当前迭代次数没达到重启频率参数Im时,进行“非重启策略迭代重组”,即将每个文本分配到和其最相似的CFC向量所属的聚簇中; (2)当前迭代次数达到重启频率参数Im时,进行“重启策略迭代重组”,即将每个文本分配到和其非最相似的某一 CFC向量(第2到第Rm相似区间中的某一个CFC向量)所属的聚簇中,重启策略的目的是避免算法过早地陷入到局部极小值中。
6.根据权利要求1所述的基于中心法的自适应文本聚类算法,其特征在于,按照如下条件终止运行: 算法有两个终止条件:最大迭代次数和收敛准确率,如果两个终止条件有一个满足,则算法终止,否则,算法继续进行。
【文档编号】G06F17/30GK103699695SQ201410014995
【公开日】2014年4月2日 申请日期:2014年1月14日 优先权日:2014年1月14日
【发明者】欧阳继红, 周晓堂, 李熙, 马超, 王旭 申请人:吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1