同义词检索结果按词义自动聚类方法

文档序号:6384782阅读:242来源:国知局
专利名称:同义词检索结果按词义自动聚类方法
技术领域
本发明属于文献检索和知识组织技术领域,具体涉及一种同义词检索结果按词义自动聚类方法。
背景技术
同义词在自然语言处理、信息检索等领域中具有十分重要的应用意义,通过扩展检索提高文献数据库和网络检索的效率,推动文献自动标引和检索的智能化,并能应用于分类表、叙词表、语义网络、本体等知识组织系统的构建,以及自动分类、自动文摘、自动翻译、自动问答和其他中文信息处理领域。目前有各种类型的同义词检索系统,以客户端(比如有道、灵格斯、金山词霸等)或网络在线(比如)方式为用户提供同义词检索服务,表I分别列出了一些常见的客户端和在线的同义词检索系统。表1.同义词检索系统不例
同义词检索系统客户端方式在线方式有道词典http ://www. synonymdictionary. com.au/灵格斯翻译专家http ://www. synonymy, com/金山词霸http ://www. synonymfor. com/微软必应词典http: / / www. e-synonym .1nfo/目前同义词检索系统存在一个普遍的缺陷,就是对同义词检索结果没有按照词义聚类。在实际应用中,通常只需要其中一种词义的同义词。以英文词汇“plant”为例,包含了工厂、植物、设备、种植等多种词义,对其进行同义词检索时,所有词义的同义词都会作为检索结果返回,而没有按照不同的词义进行聚类,因此检索者检索体验差,难以准确获得需要检索的信息。因此,对同义词检索系统的检索结果按照词义进行聚类是许多重要应用迫切需要解决的关键技术问题之一,所以本发明具有非常重要的实际意义和广阔的应用前景。

发明内容
针对现有技术存在的缺陷,本发明提供一种同义词检索结果按词义自动聚类方法,能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。本发明采用的技术方案如下本发明提供一种同义词检索结果按词义自动聚类方法,包括以下步骤
SI,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;S3,构建所述二级检索结果的交集矩阵;S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。优选的,所述一级检索结果得到m个词,则S3,构建所述二级检索结果的交集矩阵具体为S31,初始化(m+1) X (m+1)大小的交集矩阵SM ;S32,将所述一级检索结果填入所述交集矩阵的首行首列;S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。优选的,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为将所述一级检索结果填入所述交集矩阵的首行具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格

...
;将所述一级检索结果填入所述交集矩阵的首列具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格[1,0]、[2,0]... [m,0];其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。优选的,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。优选的,S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同;对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值。优选的,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值具体为对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为O ;第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值I ;第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值I ;第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值
优选的,S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类具体包括S51,对所述一级检索结果按词义进行浅层聚类;S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类。优选的,S51,对所述一级检索结果按词义进行浅层聚类具体为在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为所述浅层同义词聚类集合的一个元素。优选的,S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类具体为如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素,并作为深层同义词聚类集合中的一个元素。本发明的有益效果如下本发明提供一种同义词检索结果按词义自动聚类方法,能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。


图1为本发明提供的同义词检索结果按词义自动聚类方法的流程示意图。
具体实施例方式以下结合附图对本发明进行详细说明实施例1本发明基本思想为假设给定的同义词检索系统的检索结果是正确的,即检索结果中的任意一个词与检索词都是同义词,只不过由于检索词出现一词多义时,检索结果中的词与词之间可能不是同义词。给定任意一个可用的同义词检索系统,利用该同义词检索系统自身实现对同义词检索结果的按照词义自动聚类。该方法按实现顺序共分为五个步骤向同义词检索系统提交检索词进行一级检索,获得一级检索结果;把一级检索结果中的每个词进行二级检索,获得二级检索结果,即一级检索结果中每个词的检索结果;构建二级检索结果交集矩阵;根据二级检索结果的交集矩阵构建词义相似度矩阵;根据词义相似度矩阵对检索结果聚类。为达到上述目的,本发明采取的技术方案是本发明提供一种同义词检索结果按词义自动聚类方法,如图1所示,该方法包括五个步骤A、一级检索结果的获取;B、二级检索结果的获取;C、构建二级检索结果交集矩阵;D、计算词义相似度;E、同义词聚类。步骤A —级检索结果的获取过程进一步包括以下步骤Al、初始化一级检索结果集合FLRl ;A2、向同义词检索系统提交检索词X ;A3、同义词检索系统对提交的检索词X进行一级检索,如果检索结果为空,退出本次检索;否则转步骤A4;
A4、将一级检索结果(X1, X2, , xm}放入从集合FLRl ;A5、返回A4得到的集合FLRl。步骤B 二级检索结果获取过程进一步包括B1、初始化临时集合TFLRlJf FLRl集合中元素全部复制到TFLRl ;B2、如果BI得到的集合TFLRl为空,转步骤BlO ;否则转步骤B3 ;B3、初始化二级检索结果集合FLR2 ;B4、从集合TFLRl中取出检索结果之一 Xi ;B5、初始化二级检索结果单项集合FLR2i ;B6、向同义词检索系统提交检索词Xi ;B7、如果Xi的检索结果为空,将集合入集合FLR2,转步骤B2,否则转步骤B8 ;B8、将检索结果{xn, xi2, . . . , XimJ 放入从集合 FLR2i ;B9、将集合FLR2i放入集合FLR2,转步骤B2 ;B10、返回集合 FLR2 ;步骤C构建二级检索结果交集矩阵的过程进一步包括初始化(m+1) X (m+1)大小的交集矩阵;将一级检索结果填入交集矩阵的首行首列;将二级检索结果计算交集填入交集矩阵的其它单元格。其中,将所述一级检索结果填入所述交集矩阵的首行首列具体为将所述一级检索结果填入所述交集矩阵的首行具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格

...
;将所述一级检索结果填入所述交集矩阵的首列具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格[1,0]、[2,0]... [m,0];其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。具体的,包括Cl、初始化(m+1) X (m+1)矩阵SM
,m为一级检索结果集合FLRl的元素个数;C2、填写矩阵SM首行和首列的位置SM[i,j],i = O或j = O,且i和j不同时为
O;其中,填写矩阵SM首行和首列的位置进一步包括C2_l、初始化计数器i为O ;C2_2、如果i = m,转到步骤C2_6,否则转到步骤C2_3 ;C2_3、i = i+1 ;C2_4、取出集合FLRl中的元素Xi ;C2_5、填入 SM[i,0]和 SM [O, i],转到步骤 C2_2 ;
C2_6、返回矩阵 SM。C3、填写矩阵SM除首行和首列的其它位置SM[i,j],i古O且j古O。其中步骤C3填写矩阵SM除首行和首列的其它位置进一步包括C3_l、初始化计数器i为O ;C3_2、如果i大于m,转步骤C3_12,否则转步骤C3_3 ;C3_3、i = i+1 ;C3_4、从集合FLR2中取出集合FLI^i ;C3_5、初始化计数器j为O ;C3_6、j = j+1 ;C3_7、如果i等于j,转步骤C3_6,否则转步骤C3_8 ;C3_8、如果j大于m,转步骤C3_l,否则转步骤C3_9 ;

C3_9、从集合FLR2中取出集合FLR2」;C3_10、把 FLR2i H FLR2j 填入 SM[i, j];C3_l1、转步骤 C3_6 ;C3_12、返回矩阵 SM。步骤D计算词义相似度具体为所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同;所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同;对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值。其中,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值具体为对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为O ;第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值I ;第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值I;第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值I。进一步包括D1、初始化(m+1) X (m+1)词义相似度矩阵 WS
;D2、初始化计数器i为I ;D3、初始化计数器j为i+Ι ;D4、设 SM[i,j]为 O ;D5、如果SM[i,j]中元素数量大于等于2,设WS[i,j]为I ;D6、如果 Wi e FLR2」,设 WS[i,j]为 I ;D7、如果 Wj e FLR2i,设 WS[i,j]为 I ;D8、j = j+1;
D9、如果j > m,转到步骤D10,否则转到步骤D4 ;
DIO、i = i+Ι ;
Dll、如果i≤m,转到步骤D12,否则转到步骤D3 ;
D12、输出词义相似度矩阵WS。
步骤E同义词聚类进一步包括
E1、初始化同义词聚类集合SCS ;
E2、进行浅层同义词聚类;
其中,步骤E2浅层同义词聚类具体包括在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为所述浅层同义词聚类集合的一个元素;
进一步包括
E2_l、初始化计数器i为I ;
E2_2、初始化计数器j为i+Ι ;
E2_3、如果WS[i,j]为1,转步骤E2_4,否则转步骤E2_5 ;
E2_4、生成集合Iwi, wj,将该集合作为一个元素加入到同义词聚类集合SCS中;
E2_5、j = j+1 ;
E2_6、如果j > m,转到步骤E2_7,否则转到步骤E2_3 ;
E2_7、i = i+1 ;
E2_8、如果i彡m,转到步骤E2_9,否则转到步骤E2_2 ;
E2_9、输出同义词聚类集合SCS。
E3、进行深层同义词聚类;
其中步骤E3深层同义词聚类具体为如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素,并作为深层同义词聚类集合中的一个元素。
进一步包括
E3_l、初始化深层同义词聚类集合DSCS为空;
E3_2、将集合SCS中的元素序列化为{si,s2,...,S|scs|},其中|SCS|为集合SCS当前的元素数量;
E3_3、初始化计数器j为2 ;
E3_4、如果|SCS|≤1,转步骤E39,否则从集合SCS中取出第I个元素S1 ;
E3_5、从集合SCS中取出第j个元素Sj ;
E3_6、如果 S1 Π Sj 不为空,S1 = S1 U Sj ;
Ε3_7、如果当前j的值为|SCS|,转步骤E3_8,否则j = j+1,转步骤E3_4 ;
E3_8、将S1放入集合DSCS,转步骤E3_2 ;
E3_9、将集合DSCS中的所有元素加入集合SCS ;
E3_10、返回集合SCS。
E4、输出同义词聚类结果SCS。
实施例二
下面结合附图和实施例对本发明作进一步地描述。
以检索词book为例描述本发明所提出的同义词检索结果按词义自动聚类方法。表2列出了 book的一级检索结果和二级检索结果。为了便于理解,检索结果作了必要的简化。表权利要求
1.一种同义词检索结果按词义自动聚类方法,其特征在于,包括以下步骤 Si,向同义词检索系统提交检索词进行一级检索,获得一级检索结果; S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果; S3,构建所述二级检索结果的交集矩阵; S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵; S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。
2.根据权利要求1所述的同义词检索结果按词义自动聚类方法,其特征在于,所述一级检索结果得到m个词,则S3,构建所述二级检索结果的交集矩阵具体为 S31,初始化(m+1) X (m+1)大小的交集矩阵SM ; S32,将所述一级检索结果填入所述交集矩阵的首行首列; S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格。
3.根据权利要求2所述的同义词检索结果按词义自动聚类方法,其特征在于,S32,将所述一级检索结果填入所述交集矩阵的首行首列具体为 将所述一级检索结果填入所述交集矩阵的首行具体为将所述一级检索结果按顺序分别填入所述交集矩阵的下列单元格[O,I]、[O,2]...
; 将所述一级检索结果填入所述交集矩阵的首列具体为将所还一级检索结果按顺序分别填入所述交集矩阵的下列单元格[1,0]、[2,0]... [m,0]; 其中,所述一级检索结果填入所述交集矩阵首行的顺序与填入所述交集矩阵首列的顺序相同。
4.根据权利要求2所述的同义词检索结果按词义自动聚类方法,其特征在于,S33,将所述二级检索结果计算交集填入所述交集矩阵除首行首列以外的其它单元格具体为 对于所述交集矩阵除首行首列以外的其它任意一个单元格,即第[i,j]单元格,所述第[i,j]单元格填写一级检索结果中第i词的二级检索结果与第j词的二级检索结果的交集。
5.根据权利要求1所述的同义词检索结果按词义自动聚类方法,其特征在于,S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵具体为 所述词义相似度矩阵的大小与所述二级检索结果的交集矩阵的大小相同; 所述词义相似度矩阵的的首行首列与所述二级检索结果的交集矩阵的首行首列相同; 对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值。
6.根据权利要求5所述的同义词检索结果按词义自动聚类方法,其特征在于,所述对于所述词义相似度矩阵中除首行首列外的其他每个单元格,根据语义相似度的计算规则得到一个O或I的值具体为 对于所述词义相似度矩阵中除首行首列外的一个单元格,如果满足下列三种情况之一,则该单无格赋值1,否则赋值为O ; 第一种情况,如果对应行首词的同义词检索结果与对应列首词的同义词检索结果交集的大小为大于等于2,该单元格赋值I ; 第二种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值I ;第三种情况,如果对应行首词的同义词检索结果包含对应列首词,该单元格赋值I。
7.根据权利要求6所述的同义词检索结果按词义自动聚类方法,其特征在于,S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类具体包括S51,对所述一级检索结果按词义进行浅层聚类;S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类。
8.根据权利要求7所述的同义词检索结果按词义自动聚类方法,其特征在于,S51,对所述一级检索结果按词义进行浅层聚类具体为在所述词义相似度矩阵中,如果一个单元格为1,则该单元格对应的行首词和列首词互为同义词,则该单元格对应的行首词和列首词形成一个集合,并作为所述浅层同义词聚类集合的一个兀素。
9.根据权利要求8所述的同义词检索结果按词义自动聚类方法,其特征在于,S52,在浅层聚类后,对浅层聚类结果按词义进行深层聚类具体为如果所述浅层同义词聚类集合中,两个元素之间的交集不为空,则合并所述两个元素, 并作为深层同义词聚类集合中的一个元素。
全文摘要
本发明提供一种同义词检索结果按词义自动聚类方法,包括以下步骤S1,向同义词检索系统提交检索词进行一级检索,获得一级检索结果;S2,将所述一级检索结果中的每个词都进行二级检索,获得二级检索结果;S3,构建所述二级检索结果的交集矩阵;S4,根据所述二级检索结果的交集矩阵构建词义相似度矩阵;S5,根据所述词义相似度矩阵对所述一级检索结果按词义聚类。能够对同义词检索系统的检索结果自动进行词义聚类,从而使检索者更加准确简明的获得所需的检索信息,提高检索者的检索体验。
文档编号G06F17/30GK103049524SQ201210556988
公开日2013年4月17日 申请日期2012年12月20日 优先权日2012年12月20日
发明者刘伟, 王星 申请人:中国科学技术信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1