搜索引擎检索结果聚类的中文标签提取方法

文档序号:6508246阅读:214来源:国知局
专利名称:搜索引擎检索结果聚类的中文标签提取方法
技术领域
本发明涉及基于搜索引擎的检索结果聚类的技术领域,特别涉及一种搜索引擎检 索结果聚类的中文标签提取方法。
背景技术
对搜索引擎返回结果的聚类,是提高搜索引擎服务质量的重要手段。它把同一个 子主题的网页分划到同一个类别当中,并对每个类用标签描述,作为对该类主题的概括,方 便用户快速定位自己感兴趣的主题的网页。搜索引擎结果聚类的研究,是现代搜索引擎研 究的热点和难点。目前对搜索引擎检索结果聚类的标签生成方法可以分为两类一、先聚类后抽取 标签的方法;二、先抽取标签然后把文档划分到对应标签的方法。(一)先聚类后抽取标签的方法把每个文档以词的权值为元素,表示成向量形 式,然后用一般的数值聚类的算法,如k均值聚类算法、层次聚类算法,对文档向量进行聚 类,再通过每个聚类中词语的统计特征,抽取聚类中相应的标签。这是早期的搜索引擎结果 聚类中采用的方法。这种方法基于一般数值聚类的方法对文档进行聚类,忽略了文档所固 有的语义特性,使得文档的组织并没有和用户所期望的根据主题组织的方式相一致,而且 各个聚类所对应的标签可读性差,无法准确地表述主题。聚类的数目以及聚类过程的终止 也很难确定。(二)先抽取标签后聚类的方法先对输入文档抽取出所有的公共短语,然后通过 不同评分方式选取若干公共短语作为候选标签,并合并相似度高的标签,再把文档划分到 对应的标签当中。这是现代搜索引擎中普遍采用的聚类方法。这种方法着重于聚类标签 的抽取,从而使得聚类标签有较高的可读性,同时,也使得文档能够更好地根据主题进行聚 类。现有的比较成熟的支持结果聚类的系统有元搜索引擎clusty、聚类引擎Carr0t2 等。但是,现有系统和算法所获得的对于中文查询的聚类结果,特别是聚类标签的质量,依 然有待于改善。主要存在的问题有(—)标签的噪音问题检索结果的聚类一般基于标题和摘要,然而标题和摘要当 中包含了大量的与文档内容、主题不相关的词,从而在标签的抽取过程中引入了大量的噪 音。而现有的噪音过滤技术主要是采用去掉html标记、去掉无意义的符号、去掉停用词等 一些简单的方法,无法很好地解决噪音问题。(二)标签不具有较好的主题代表性,且难以满足用户的查询需求。如Carrot〗 的一些聚类算法采用潜语义索引的方法,选取能最好代表各个概念的词或短语作为候选标 签,但是效果不佳。如何抽取有主题代表性的标签来代表聚类,如何抽取与用户的查询密切 相关的标签来细化用户的查询、提供用户感兴趣的信息,这是现有技术中还有待于完善的 问题。(三)标签的“不完整”和过于冗长的问题。简单短语提取方法提取的标签一般不够完整,无法完整表达聚类的内容。而潜语义索引的方法,从理论上来说又偏向于选取到过 于冗长的标签。如何选取能够简明地表达完整语义的标签,这也是技术上需要深入研究的 问题。(四)被聚类的文档数比例过低的问题。由于一些聚类标签的提取方法(如潜语 义索引的方法)通常计算开销较大,因此为了保证实时的在线响应,一般搜索引擎系统只 能选择前几百个网页进行聚类,使得被聚类的文档比例过少,无法较完整地反映搜索结果 的性质。

发明内容
本发明的目的在于克服上述现有技术的缺点和不足,提供一种搜索引擎检索结果 聚类的中文标签提取方法,其可以减少噪音标签,使标签具有更好的代表性、简明性和完整 性,更能满足用户的查询需求,提高被聚类文档的比例的效果。本发明的目的通过下述技术设计方案实现一种搜索引擎检索结果聚类的中文标 签提取方法,包括以下步骤Si、用户输入查询词,在得到检索结果后,选取检索结果的前M个结果页面的摘要 作为输入文档,形成文档集合,所述M为正整数;S2、在输入文档中选取候选词,对所有候选词评分根据各个候选词的主题代表 性、以及候选词和用户查询词的相关性给各个候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8 ;若是,则在未作标 记的候选词中,选出得分最高的候选词,并给予标记;把这个选中的候选词拓展成为包含该 词的有序词序列的集合,进入步骤S4 ;S4、计算步骤S3中各个有序词序列的频率,抽取高频词序列;S5、根据完整性和简明性对步骤S4中抽取的高频词序列评分,并选取得分最高的 词序列作为候选词序列;S6、如果当前候选词序列所关联的文档,与已有的标签所关联的文档相比,其覆盖 程度小于预设的阈值,则选取其对应的短语作为标签,进入步骤S7 ;否则该候选词序列未 被接受为标签,则返回步骤S3 ;S7、根据生成的标签进行聚类根据步骤S6生成的标签,计算每个检索结果网页 摘要与各标签的语义相关度,然后将与某标签相关度最高的文档划分到该类别;S8、结束操作。为更好的实现本发明,所述步骤S2中在输入文档中选取候选词,具体是指S2. 11、对输入文档分词对所有输入文档进行分词,把各个输入文档切分成词的 有序序列,并得到各个词的词性标注,构成新的集合Rl ;S2. 12、选取候选词在集合Rl中抽取所有的出现频率不小于3次的动词、名词作 为候选词。优选的,所述步骤S2中对所有候选词评分,具体是包括以下步骤S2. 21对Rl中各个输入文档,仅保留其动词和名词,得到各个输入文档对应的新 的有序词序列,构成新的集合R2 ;S2. 22选取任一未被评分的候选词,计算该候选词到查询词的平均距离
从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3,由于集 合R3中的各输入文档表示为有序词序列的形式,对于R3中的任一输入文档,所述有序词序
列标记为(W1,w2,-,wq, -,wt,……,wk),其中候选词Wt出现在序列中的第Pl,p2,......,
Pm个位置,查询词%出现在序列中的第q1; q2,......,qn个位置,则在该输入文档中,候选
词到查询词的距离为所有Ipi-CijI的最小值,其中i = 1,2,......,m,j = 1,2,……,η;
对R3中的所有输入文档,通过上述方法计算候选词到查询词的距离,求平均得到该候选词 到查询词的平均距离,记为Score1 ;S2. 23计算包含了该候选词的输入文档之间的平均相似度对于步骤S2. 22中选取的候选词,从集合R2中抽取出包含该词的所有输入文档并 分别表示成向量,向量的每个元素用词的TF-IDF权重表示,用向量空间的余弦相似度的计 算方法计算这些输入文档中任意两个文档的相似度,并对相似度求平均值,记为scores ;S2. 24计算该候选词的得分score(wt) = - α >l<r (wq) 5IiScore^Score2其中,SCOre(wt)代表的是Wt的候选词得分,Wt代表的是候选词,α代表的是 Score1的可变权值;%代表的是查询词,r 代表查询词在输入文档中的出现比率,r
=包含查询词的输入文档个数/输入文档的总个数M ;S2. 25判断是否已对所有候选词评分,若是,则进入步骤S3 ;若否,返回至步骤 S2· 22ο优选的,所述α值为3。优选的,所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的 集合,具体是指在集合R2中抽取出包含该候选词的所有输入文档,由于集合R2中的各输入文档 表示为有序词序列的形式,假设把候选词标记为wt,任意一个所述序列标记为(Wl,W2,……, Wt……,wk),则所有满足i彡t且j彡t的子序列Ov……,Wj)将被作为扩展得到的词序 列。优选的,所述步骤S4中计算步骤S3中各个有序词序列的频率,抽取高频词序列, 具体包括以下步骤假设待计算频率的序列为seq,令frequency (seq)表示seq的频率,length (seq) 表示seq的长度,d(seqi,seq2)表示序列Seq1与Seq2之间的字符串编辑距离,delta(i)代 表第i个文档中的词序列对seq频率增量的贡献,scale代表加权因子;S4. 1、选择一个未计算过频率的有序词序列seq ;S4. 2、初始化,令 frequency (seq) = 0,i = 1 ;S4. 3、对第i个输入文档Di,获取该文档的所有有序词序列集合Fi ;S4. 4、对于Fi中的所有序列Seq1,计算d(seq,Seq1),令d min为这些距离中的 最小值,如果d min/length(seq)超过给定阈值,则delta (i) = 0,否则令delta (i) = 1/ (1+scale氺d min/length(seq));S4. 5、令 frequency (seq) = frequency (seq)+delta (i),判断是否已计算完词序 列seq与所有输入文档中词序列的编辑距离,若否,则处理下一个输入文档,令i = i+Ι,跳 转至步骤S4. 3 ;若是,则进入步骤S4. 6 ;
S4. 6、判断是否已计算完步骤S3中各个有序词序列的频率,若否,返回至步骤 S4. 1 ;若是,则抽取高频词序列,进入步骤S5,所述高频词是指出现次数大于某个阈值的 词,所述阈值由管理员设置。优选的,所述scale值为2。优选的,所述步骤S4. 4中的阈值为1/3。优选的,所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分, 具体包括以下步骤S5. 1计算词序列的右独立性以seq代表待评分的序列,以length (seq)表示seq的长度,以Wb表示seq的最 后一个词,以Wlrf表示seq的倒数第二个词,则通过下式对序列的右独立性评分
权利要求
1.一种搜索引擎检索结果聚类的中文标签提取方法,其特征在于,包括以下步骤51、用户输入查询词,在得到检索结果后,选取检索结果的前M个结果页面的摘要作为 输入文档,形成文档集合,所述M为正整数;52、在输入文档中选取候选词,对所有候选词评分根据各个候选词的主题代表性、以 及候选词和用户查询词的相关性给各个候选词评分;53、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则在未作标记的 候选词中,选出得分最高的候选词,并给予标记;把这个选中的候选词拓展成为包含该词的 有序词序列的集合,进入步骤S4 ;54、计算步骤S3中各个有序词序列的频率,抽取高频词序列;55、根据完整性和简明性对步骤S4中抽取的高频词序列评分,并选取得分最高的词序 列作为候选词序列;56、如果当前候选词序列所关联的文档,与已有的标签所关联的文档相比,其覆盖程度 小于预设的阈值,则选取其对应的短语作为标签,进入步骤S7 ;否则该候选词序列未被接 受为标签,则返回步骤S3 ;57、根据生成的标签进行聚类根据步骤S6生成的标签,计算每个检索结果网页摘要 与各标签的语义相关度,然后将与某标签相关度最高的文档划分到该类别;58、结束操作。
2.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S2中在输入文档中选取候选词,具体是指S2. 11、对输入文档分词对所有输入文档进行分词,把各个输入文档切分成词的有序 序列,并得到各个词的词性标注,构成新的集合Rl ;S2. 12、选取候选词在集合Rl中抽取所有的出现频率不小于3次的动词、名词作为候 选词。
3.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S2中对所有候选词评分,具体是包括以下步骤S2.21对Rl中各输入文档,仅保留其动词和名词,得到各个输入文档对应的新的有序 词序列,构成新的集合R2;S2. 22选取任一未被评分的候选词,计算该候选词到查询词的平均距离从R2中抽取出同时包含该候选词和查询词的所有输入文档形成集合R3,由于集合R3 中的各输入文档表示为有序词序列的形式,对于R3中的任一输入文档,所述有序词序列标记为(W1, w2,-,wq, -,wt,……,wk),其中候选词wt出现在序列中的第Pl,p2,......,pm个位置,查询词%出现在序列中的第q1; q2,......,1个位置,则在该输入文档中,候选词到查询词的距离为所有Ipi-Cljl的最小值,其中i = 1,2,......,m,j = 1,2,……,n,对R3中的所有输入文档,通过上述方式计算候选词到查询词的距离,求平均得到该候选词到 查询词的平均距离,记为Score1 ;S2. 23计算包含了该候选词的输入文档之间的平均相似度对于步骤S2. 22中选取的候选词,从集合R2中抽取出包含该词的所有输入文档并分别 表示成向量,向量的每个元素用词的TF-IDF权重表示,用向量空间的余弦相似度的计算方 法计算这些输入文档中任意两个文档的相似度,并对相似度求平均值,记为scores ;S2. 24计算该候选词的得分score (wt) = - α *r (wq) 5IiScore^Score2其中,SC0re(Wt)代表的是 的候选词得分,wt代表的是候选词,α代表的是SCore1的 可变权值;&代表的是查询词,Hwtl)代表查询词在输入文档中的出现比率,r(W(1)=包含查 询词的输入文档个数/输入文档的总个数M ;S2. 25判断是否已对所有候选词评分,若是,则进入步骤S3 ;若否,返回至步骤S2. 22。
4.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述α值为3。
5.根据权利要求3所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S3中把这个选中的候选词拓展成为包含该词的有序词序列的集合,具体是 指在集合R2中抽取出包含该候选词的所有输入文档,由于集合R2中的各输入文档表 示为有序词序列的形式,假设把候选词标记为wt,任意一个所述序列标记为(Wl,W2,……, wt……,wk),则所有满足i彡t且j彡t的子序列Ov……,Wj)将被作为扩展得到的词序 列。
6.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S4中计算步骤S3中各个有序词序列的频率,抽取高频词序列,具体包括以下 步骤假设待计算频率的序列为seq,令frequency (seq)表示seq的频率,length (seq)表示 seq的长度,(Kseq1, seq2)表示序列Seq1与之间的字符串编辑距离,delta(i)代表第 i个文档中的词序列对seq频率增量的贡献,scale代表加权因子; S4. 1、选择一个未计算过频率的有序词序列seq ; S4. 2、初始化,令 frequency (seq) = 0,i = 1 ; S4. 3、对第i个输入文档Di,获取该文档的所有有序词序列集合Fi ; S4.4、对于Fi中的所有序列Seq1,计算d(seq,Seq1),令d min为这些距离中的最 小值,如果d min/length(seq)超过给定阈值,则delta(i) = 0,否则令delta(i) = 1/ (1+scale氺d min/length(seq));S4. 5、令 frequency (seq) = frequency (seq)+delta (i),判断是否已计算完词序列 seq 与所有输入文档中词序列的编辑距离,若否,则处理下一个输入文档,令i = i+Ι,跳转至步 骤S4. 3 ;若是,则进入步骤S4. 6 ;S4. 6、判断是否已计算完步骤S3中各个有序词序列的频率,若否,返回至步骤S4. 1 ;若 是,则抽取高频词序列,进入步骤S5,所述高频词是指出现次数大于某个阈值的词,所述阈 值由管理员设置。
7.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述scale值为2。
8.根据权利要求6所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S4. 4中的阈值为1/3。
9.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S5中根据完整性和简明性对步骤S4中抽取的高频词序列评分,具体包括以下步骤S5. 1计算词序列的右独立性以seq代表待评分的序列,以Iength(Seq)表示seq的长度,以Wb表示seq的最后一 个词,以Wlrf表示seq的倒数第二个词,则通过下式对序列的右独立性评分 EN1= 2 N
10.根据权利要求1所述一种搜索引擎检索结果聚类的中文标签提取方法,其特征在 于,所述步骤S6具体为假设该候选词词序列表示为seq(Wl,……,wb),并假设已经接受了 y个序列,已经划分 到这y个序列的文档的并集为Dy,作出如下定义
全文摘要
本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤S1、用户输入查询词,形成输入文档;S2、选取候选词,对所有候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则选出得分最高的候选词;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;S4、计算各个有序词序列的频率,抽取高频词序列;S5、对高频词序列评分,并选取候选词序列;S6、判断选词序列是否被接受为标签,若是,则进入步骤S7;若否,则返回步骤S3;S7、根据生成的标签进行聚类;S8、结束操作。本发明可以减少噪音标签,使标签具有更好的代表性、简明性和完整性。
文档编号G06F17/30GK102081642SQ20101052734
公开日2011年6月1日 申请日期2010年10月28日 优先权日2010年10月28日
发明者张丽平, 张凌, 李粤, 董守斌, 袁华 申请人:华南理工大学, 广州数园网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1