聚类方法及装置的制作方法

文档序号:6363851阅读:270来源:国知局
专利名称:聚类方法及装置的制作方法
技术领域
本发明涉及信息检索领域,尤其涉及一种聚类方法及装置。
背景技术
检索结果聚类,是指将搜索引擎搜索到的检索结果中类似的搜索结果聚集成簇的 过程,其中,簇是一组彼此相似的检索结果的集合,相同簇中的检索结果彼此相似,而不同 簇中的检索结果则往往彼此相异。检索结果聚类能够帮助用户更好的使用搜索引擎,比如, 能够帮助用户更加快速的定位到需要的信息,或者能够帮助用户获取更加全面的信息等。在现有技术中,已有的检索结果聚类方法主要分为两类一类被称为基于文档 (Documents-Based)的方法;而另一类被称为基于标签(Label-Based)的方法。所谓基于 文档的方法是指首先通过传统的文档聚类方法,把文档聚集成多个类别,然后再从各类别 中分别抽取出合适的聚类标签来标注各个类别,由于采用基于文档的方法往往不能生成可 读性较好的聚类标签,不同聚类标签之间区分性较小,从而用户难以从区分性较小的各聚 类标签中找到符合自己需求的检索结果,因此这一类方法只是在早期的检索结果聚类工作 中使用较多;而基于标签的方法则是指首先从文档中抽取一些有代表性的词语,然后对抽 取的词语进行合理的评价与筛选,并将经过评价和筛选处理后得到的不同词语作为对应于 不同类别文档的聚类标签,从而后续可以以该不同类别的聚类标签为基础,进一步实现对 文档的分类,在这类方法中,聚类标签的选取很关键,但按照现有技术中提供的聚类标签选 取方式,同样很难得到可读性较好的聚类标签。由上述可知,现有技术采用的各类检索结果聚类方法都存在着难以生成可读性较 好的聚类标签,从而使得用户难以按照聚类标签找到符合自己需求的检索结果的缺陷。

发明内容
本发明实施例提供一种聚类方法及装置,用以解决按照现有技术提供的检索结果 聚类方法难以生成可读性较好的聚类标签的缺陷。为此,本发明实施例采用以下技术方案—种聚类方法,包括根据预设的选取策略,从待聚类的各个文档中选取第一候选 字串集合;针对所述第一候选字串集合中的各字串,根据与该字串相关的参数,从所述第一 候选字串集合中选取第二候选字串,所述与该字串相关的参数为该字串出现在所述待聚类 的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及 所述待聚类的文档中包含该各字串的文档个数中的至少一个参数;将所述第二候选字串确 定为对所述待聚类的各个文档进行聚类的聚类标签,并将所述待聚类的各个文档分别归类 到与所述聚类标签对应的簇中。较佳地,针对所述第一候选字串集合中的各字串,根据与该字串相关的参数,从所 述第一候选字串集合中选取第二候选字串具体包括针对所述第一候选字串集合中的各字 串,根据该字串出现在所述待聚类的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及所述待聚类的文档中包含该各字串的文档个数,采用下 述公式计算该字串的重要度Score Sco
权利要求
一种聚类方法,其特征在于,包括根据预设的选取策略,从待聚类的各个文档中选取第一候选字串集合;针对所述第一候选字串集合中的各字串,根据与该字串相关的参数,从所述第一候选字串集合中选取第二候选字串,所述与该字串相关的参数为该字串出现在所述待聚类的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及所述待聚类的文档中包含该各字串的文档个数中的至少一个参数;将所述第二候选字串确定为对所述待聚类的各个文档进行聚类的聚类标签,并将所述待聚类的各个文档分别归类到与所述聚类标签对应的簇中。
2.如权利要求1所述的方法,其特征在于,针对所述第一候选字串集合中的各字串,根 据与该字串相关的参数,从所述第一候选字串集合中选取第二候选字串具体包括针对所述第一候选字串集合中的各字串,根据该字串出现在所述待聚类的所有文档中 的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及所述待聚类的 文档中包含该各字串的文档个数,采用下述公式计算该字串的重要度Score Score = ~wor(^-tf_ * word,df * \og(word length) wordnormtf其中,word, tf为该字串出现在所述待聚类的各个文档中的总次数,word, normtf为该 字串出现在所述指定文档中的总次数,word, df为包含该字串的所述待聚类的文档个数, word, length为该字串包含的字符个数;在计算出所述第一候选字串集合中各字串的重要度Score后,根据所述重要度Score, 从所述第一候选字串集合中选取第二候选字串。
3.如权利要求2所述的方法,其特征在于,还包括按照所述确定的聚类标签的重要度Score由大至小的顺序,对所述确定的聚类标签进 行对应排列。
4.如权利要求1所述的方法,其特征在于,根据预设的选取策略,从待聚类的各个文档 中选取第一候选字串集合具体包括从待聚类的各个文档所包含的字串中,选取字串包含的字符个数与预设的第一字符个 数阈值一致的字串;从所述选取的字串中选取符合预设规则的第一候选字串集合,所述预设规则为以下规 则中的任意一种或为以下规则的任意组合针对所述第一候选字串集合中的各字串,包含该字串的所述待聚类的文档的个数不小 于预设的第一阈值;针对所述第一候选字串集合中的各字串,在所述待聚类的各个文档中,与该字串相邻、 位于该字串之前、且包含的字符数目与预设的第二字符个数阈值一致的不同字串的个数不 小于预设的第二阈值;针对所述第一候选字串集合中的各字串,在所述待聚类的各个文档中,与该字串相邻、 位于该字串之后、且包含的字符数目与预设的第二字符个数阈值一致的不同字串的个数不 小于预设的第三阈值;针对所述第一候选字串集合中的各字串,该字串出现在所述待聚类的所有文档中的总次数除以该字串包含的各字符出现在所述待聚类的所有文档中的总次数所得的数值不小于预设的第四阈值。
5.如权利要求1、2或4所述的方法,其特征在于,采用多模式匹配的方法,将所述待聚 类的各个文档分别归类到与所述聚类标签对应的簇中。
6.如权利要求1、2或4所述的方法,其特征在于,还包括针对所述确定的聚类标签中的各聚类标签,确定该聚类标签出现在所述待聚类的所有 文档中的总次数,并按照各个所述确定的总次数由多至少的顺序,对所述确定的聚类标签 进行对应排列;或针对所述确定的聚类标签中的各聚类标签,确定包含有该聚类标签的所述待聚类的文 档个数,并按照各个所述确定的文档个数由多至少的顺序,对所述确定的聚类标签进行对 应排列;或按照所述确定的聚类标签分别被用作搜索引擎所使用的查询词的频率由高至低的顺 序,对所述确定的聚类标签进行对应排列,其中,所述待聚类的文档为通过搜索引擎搜索到 的搜索结果。
7.一种聚类装置,其特征在于,包括第一选取单元,用于根据预设的选取策略,从待聚类的各个文档中选取第一候选字串 集合;第二选取单元,用于针对第一选取单元选取的第一候选字串集合中的各字串,根据与 该字串相关的参数,从所述第一候选字串集合中选取第二候选字串,所述与该字串相关的 参数为该字串出现在所述待聚类的所有文档中的总次数、该字串出现在指定文档中的总次 数、该字串包含的字符个数以及所述待聚类的文档中包含该各字串的文档个数中的至少一 个参数;标签确定单元,用于将第二选取单元选取的第二候选字串确定为对所述待聚类的各个 文档进行聚类的聚类标签;归类单元,用于将所述待聚类的各个文档分别归类到与所述标签确定单元确定的聚类 标签对应的簇中。
8.如权利要求7所述的装置,其特征在于,所述第二选取单元具体包括计算模块,用于针对所述第一候选字串集合中的各字串,根据该字串出现在所述待 聚类的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数 以及所述待聚类的文档中包含该各字串的文档个数,采用下述公式计算该字串的重要度 Score
9.如权利要求7所述的装置,其特征在于,所述第一选取单元具体包括第一选取模块,用于从所述待聚类的各个文档所包含的字串中,选取字串包含的字符个数与预设的第一字符个数阈值一致的字串;第二选取模块,用于从第一选取模块选取的字串中选取符合预设规则的第一候选字串 集合,所述预设规则为以下规则中的任意一种或为以下规则的任意组合针对所述第一候选字串集合中的各字串,包含该字串的所述待聚类的文档的个数不小 于预设的第一阈值;针对所述第一候选字串集合中的各字串,在所述待聚类的各个文档中,与该字串相邻、 位于该字串之前、且包含的字符数目与预设的第二字符个数阈值一致的不同字串的个数不 小于预设的第二阈值;针对所述第一候选字串集合中的各字串,在所述待聚类的各个文档中,与该字串相邻、 位于该字串之后、且包含的字符数目与预设的第二字符个数阈值一致的不同字串的个数不 小于预设的第三阈值;针对所述第一候选字串集合中的各字串,该字串出现在所述待聚类的所有文档中的总 次数除以该字串包含的各字符出现在所述待聚类的所有文档中的总次数所得的数值不小 于预设的第四阈值。
10.如7 9任一权利要求所述的装置,其特征在于,还包括 次数确定单元,用于分别针对标签确定单元确定的聚类标签中的各聚类标签,确定该 聚类标签出现在所述待聚类的所有文档中的总次数;标签排列单元,用于按照次数确定单元分别确定的各个总次数由多至少的顺序,对所 述确定的聚类标签进行对应排列;或者还包括文档个数确定单元,用于针对标签确定单元确定的聚类标签中的各聚类标签, 确定包含有该聚类标签的所述待聚类的文档个数;标签排列单元,用于按照文档个数确定单元确定的各个文档个数由多至少的顺序,对 所述确定的聚类标签进行对应排列;或者还包括标签排列单元,用于按照标签确定单元确定的聚类标签分别被用作搜索引擎 所使用的查询词的频率由高至低的顺序,对所述确定的聚类标签进行对应排列,其中,所述 待聚类的文档为通过搜索引擎搜索到的搜索结果。
全文摘要
本发明公开了一种聚类方法,用以解决现有技术提供的检索结果聚类方法难以生成可读性较好的聚类标签的缺陷,该方法包括根据预设的选取策略,从待聚类的各个文档中选取第一候选字串集合;针对第一候选字串集合中的各字串,根据与该字串相关的参数,从第一候选字串集合中选取第二候选字串,所述与该字串相关的参数为该字串出现在待聚类的所有文档中的总次数、该字串出现在指定文档中的总次数、该字串包含的字符个数以及待聚类的文档中包含该各字串的文档个数中的至少一个参数;将第二候选字串确定为对所述待聚类的各个文档进行聚类的聚类标签,并将待聚类的各个文档分别归类到与所述聚类标签对应的簇中。本发明还公开了一种聚类装置。
文档编号G06F17/30GK101989281SQ20091008917
公开日2011年3月23日 申请日期2009年8月3日 优先权日2009年8月3日
发明者孙宏伟, 罗治国, 胡珉 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1