一种融合成对约束和关键词的半监督文本聚类方法及装置的制作方法

文档序号:6607377阅读:408来源:国知局
专利名称:一种融合成对约束和关键词的半监督文本聚类方法及装置的制作方法
技术领域
本发明涉及文本聚类方法,尤其是指一种融合成对约束和关键词的半监督文本聚类方法及装置。
背景技术
传统的文本聚类通常采用无监督学习机制,自动将主题相近的文本划分在一起, 而将主题不同的文本划分开。然而,这种文本聚类方法的表现常常不令人满意。这由很多原因导致,比如,无法与用户交互,划分结果难于理解等等。近些年,许多研究者采用半监督学习策略,融合先验信息以辅助文本聚类,有效提高了聚类质量以及划分结果的可理解性。先验信息主要包含实例层信息和属性层信息。实例层信息包括类标签,成对约束(pairwise constraints)等形式的数据。成对约束信息由被确定属于同一类的关系(关联关系)和被确定不属于同一类的关系(非关联关系) 组成。关联关系(χ,y)表示实例χ和y相似、必须被划分在一起;非关联关系(χ,ζ)表示实例1和ζ不同、必须被划分开。相比于类标签,成对约束更易获得。文献[Jim Sun, Wenbo Zhao,Jiangwei Xue,ZhiyongShen,Yi-Dong Shen. Clustering with feature order preferences. PRICAI 2008,pp. 382-393]定义了一种属性层信息——属性排序,该形式信息用(s,t,δ)(δ >0), ws-wt ^ δ进行表示,即属性s的权重比属性t的权重大δ,也即说明属性s比t要重要得多。属性排序是一种常见的属性层信息。对应到文本聚类中,即表示某个词(词组)比另一个词(词组)的重要性程度,这些重要词通常也即一些关键词, 然而,在文本聚类中,难以准确指出关键词s的权重究竟比其它词重要多少。因此,往往用
二元组(s,δ)来表示关键词信息(本发明令3=4,d表示文本数据集中的特征词总数)。
a在实际应用中,用户往往会同时提供成对约束和关键词这两种不同性质的信息。 虽然单纯基于其中一种限制性信息的半监督文本聚类方法可有效提高聚类质量,但它们在处理时均未综合考虑这两种不同种类信息的融合问题,导致聚类结果的准确性和稳定性都不高。

发明内容
有鉴于此,本发明提供一种融合成对约束和关键词的半监督文本聚类方法,充分利用这两种不同性质的信息,有效提高聚类结果的准确性。为达到上述目的,本发明的技术方案是这样实现的本发明的实施提供了一种融合成对约束和关键词的半监督文本聚类方法,该方法包括以下步骤A、利用融合成对约束的半监督文本聚类方法对文本数据集进行划分,并得到初始特征词权重;B、基于初始特征词权重,同时融合成对约束和关键词两种信息对文本数据集进行聚类划分;C、以用户满意度为指标,评价所产生的文本划分的质量,并选择质量高的聚类结果输出。由上述的技术方案可知,本发明中的半监督文本聚类方法,由于在融合成对约束的基础上,继续添加关键词,在运用成对约束学习特征词权重的同时,利用关键词对相应的特征词权重进行调整,使这两种先验信息相互影响,相互促进,所以可获得更准确的聚类结
: O


图1为本发明实施例中融合成对约束和关键词的半监督文本聚类方法的流程图。图2为本发明实施例中基于初始特征词权重,同时融合两种信息对文本数据集进行划分的流程图。图3为本发明实例中一种融合成对约束和关键词的半监督文本聚类装置的结构图。
具体实施例方式为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施例对本发明再作进一步详细说明。本发明提供了一种半监督文本聚类方法,该方法首先融合成对约束形式的实例层信息以辅助划分文本数据集,并学习得到初始特征词权重。然后,继续添加关键词形式的属性层信息,以有效融合这两种不同性质的先验信息进行文本聚类。最后,依据用户满意度评估上述两步的聚类质量,并选择质量高的文本划分为最终的聚类结果。在文本聚类前,需对文本数据集进行预处理,将文本数据集转化为聚类方法可以处理的形式。文本预处理主要由分词处理、特征词提取、文本向量化、规整数据集四个步骤组成。具体的处理过程如下所述1)分词处理。分词是依据某种规则(如英文中的空格),将指定文本划分为若干独立的词,并统计每个词在该文本中出现的次数。2)特征词提取。文本集中的词非常多,因此需去除不常用的、不重要的词,保留更具代表性的词。 在特征词提取时,本发明去除停用词、出现频率过低或过高的词,并依据特征词构建文本集的词典。3)文本向量化。文本向量化,即将文本集中的文本表示为高维欧几里德空间中的向量,文本向量的所有维度与词典中的特征词一一对应。本发明使用词频逆文本频率(TFIDF)方法来表示文本集
权利要求
1.一种融合成对约束和关键词的半监督文本聚类方法及装置,其特征在于,该方法及装置包括以下步骤A、利用融合成对约束的半监督文本聚类方法对文本数据集进行划分,并得到初始特征词权重;B、基于初始特征词权重,同时融合成对约束和关键词两种信息对文本数据集进行聚类划分;C、以用户满意度为指标,评价所产生的文本划分的质量,并选择质量高的聚类结果输出ο
2.根据权利要求1所述的方法,其特征在于步骤A中初始特征词权重通过测度学习得到。
3.根据权利要求1所述的方法,其特征在于步骤B中半监督文本聚类采用广义I散度对文本距离进行度量。
4.根据权利要求1所述的方法,其特征在于,步骤A和步骤B中半监督聚类为软限制性优化聚类方法。
5.根据权利要求1所述的方法,其特征在于,步骤C中用户满意度采用对用户所提供成对约束信息的满足程度度量。
6.根据权利要求1所述的方法,其特征在于,步骤A之前还包括对所述文本集进行预处理;所述预处理包括文本分词、特征词提取、文本向量化和规整数据集。
7.一种融合成对约束和关键词的半监督文本聚类装置,其特征在于,该装置包括预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块;所述预处理模块,用于对文本数据集进行预处理,以得到向量化的文本数据集;所述融合成对约束的文本聚类模块通过学习成对约束,得到初始特征词权重,并对文本数据集进行划分;所述融合成对约束和关键词两种信息的半监督文本聚类模块利用所获得的特征词权重进行初始化,同时融合成对约束和关键词两种信息进行文本聚类;所述评价及选择结果模块以用户满意度为标准评价文本划分结果,并选择其中质量高的结果作为最终聚类结果进行输出。
8.根据权利要求7所述的装置,其特征在于,所述预处理模块包括文本分词单元、特征词提取单元、文本向量化单元和规整数据集单元;所述文本分词单元,用于将文本集中的所有文本划分为若干独立的单词,并统计每个单词在相应文本中出现的次数;所述特征词提取单元,用于去除停用词、出现频率过高或过低的词,提取出重要的词, 并构建文本集的词典;所述文本向量化单元,利用词频逆文本频率方法将文本数据集表示为高维欧几里德空间中的文本向量;所述规整数据集单元,用于对向量化后的文本数据进行规整。
9.根据权利要求7所述的装置,其特征在于,所述融合成对约束的文本聚类模块包括 初始化特征词权重单元和文本聚类单元;所述初始化特征词权重单元,利用成对约束构建优化问题,而后求解得到初始特征词权重;所述文本聚类单元,依据初始特征词权重对文本数据集进行投影,而后对其进行聚类。
全文摘要
本发明公开了一种融合成对约束和关键词的半监督文本聚类方法及装置。本发明的方法包括融合成对约束辅助文本聚类并得到初始特征词权重;基于所获得的初始特征词权重,同时融合成对约束和关键词进行半监督聚类;依据用户满意度评估并选择聚类结果。本发明的装置包括预处理模块、融合成对约束的文本聚类模块、融合成对约束和关键词两种信息的半监督文本聚类模块和评价及选择结果模块。由于本发明所提供的半监督文本聚类方法在融合成对约束信息的基础上,继续添加关键词信息,在运用成对约束学习特征词权重的同时,利用关键词信息对相应的特征词权重进行调整,使两种先验信息相互影响,相互促进,所以可获得更准确的聚类结果。
文档编号G06F17/30GK102346753SQ20101024762
公开日2012年2月8日 申请日期2010年8月1日 优先权日2010年8月1日
发明者吴舜尧, 李刚, 王金龙 申请人:青岛理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1