中文信息检索中基于结构约束的索引词权重计算方法

文档序号:6462524阅读:124来源:国知局
专利名称:中文信息检索中基于结构约束的索引词权重计算方法
技术领域
本发明涉及一种中文信息检索技术,特别涉及一种中文信息检索中基于结构约束的索引词权重计算方法。

背景技术
由于因特网的普及,大量的信息迅速积累并广泛地被使用。因此,时空距离远近不再是人们存取与使用信息的最大障碍,取而代之的问题是缺乏有效率的方式在浩瀚的因特网海量信息中寻找想要的信息。信息检索技术(information retrieval technologies)因为能够提供使用者便捷的方式去存取与使用想要的信息,因此在近几年来格外地受到重视。
搜索引擎(Search Engine)是基于信息检索技术来实现的,搜索引擎的重要功能就是对文本信息提供检索,中文信息检索技术中至关重要的环节是索引构建,而索引的构建离不开索引词(index term)的权重计算。
在进行索引词的权重计算之前,需要对中文查询进行结构化处理。请参阅图1所示,其为现有技术中对查询进行结构化的流程图。其中,D1为要进行的查询,例如该查询是一个句子,步骤M1对该查询进行分词;步骤M2将切分出的词进行词性标注;步骤M3对该查询进行浅层句法分析;步骤M4对该查询进行进一步的句法分析,最后得到结构化查询D2,D2中包含上述结构化处理M1、M2、M3及M4的结果,例如为句子的各句法成分、切分出的各个词、对各个词的词性标注、各个词的语义特征等。
上述处理步骤M1、M2、M3及M4是形成结构化查询的现有方法。对中文查询进行结构化处理,可选择其中一个或几个步骤,但至少需要其中一个步骤。
下面详细描述对查询进行结构化的过程。令q为一个中文查询(即图1中的D1)。在步骤M1中,q被分词算法(例如正向最大匹配法,逆向最大匹配法,正向-逆向最大匹配法)分为m个字符串组,q=p1,p2…pi…pm,其中这些字符串组是连续的。pi是q中的子字符串组。令pi=[(qi,1,ti,1),...(qi,j,ti,j)...,(qi,n,ti,n);Ti],其中qi,j是已识别的查询子字符串,其与给定的词列表W(例如词典)中的一些词条匹配,ti,j例如为qi,j的词性标注(或一些语义特征)(由图1中步骤M2处理),Ti是该子字符串组的句法成分(由图1中的步骤M3和步骤M4处理),句法分析所得到的句法成分例如为名词短语或者为介词短语。因此,查询q可被处理成(1)式格式,图1中的D2便可为此(1)式格式 [(q1,1,t1,1),(q1,2,t1,2),...,(q1,n,t1,n),T1],...[(qm,1,tm,1),(qm,2,tm,2),...,(qm,n,tm,p),Tm](1) 其中q是由下列子字符串组成q1,1,q1,2...q1,n...qm,1,qm,2,...qm,n。一个字符串组也可被嵌入另一个字符串组形成一个字符串组的嵌套结构。例如,下面就是嵌套字符串组结构(图1中D2可能的格式) [(q1,1,t1,1),[(q1,2,t1,2),(q1,n,t1,n),T2],T1] 其中,子字符串组T2嵌入子字符串组T1,这些子字符串组无需连续。这些非连续组可应用于中文分词中(特别是采用正向最大匹配算法时)。目前的表示法是通过增加一个数字后缀指示一对括号来表示非连续组。例如[1(q1,1,t1,1),[2(q1,2,t1,2),T1]1,(q1,n,t1,n)T2]2有如下嵌套组(q1,1,t1,1),(q1,2,t1,2)T1和(q1,2,t1,2),(q1,n,t1,n)T2。注意在上述表达中,T1与最近的括号,即“]1”绑定。
查询的结构不需要完全被句法结构(由图1中的步骤M4处理)限制,也不要求查询一定是名词短语、动词短语等。查询可以是由浅层句法分析(即图1中的步骤M3)识别出来的一些句法成分。这些子字符串组也可以是基于语义特征的,例如表1中L1的语义特征是+Loc(位置),语义特征例如可以通过语义知识库“知网”(HowNet)进行语义分析来获得。

表1 一个查询示例q1=香港理工大学之友,对其进行结构化处理,形成结构化查询,结构化查询的结果如表1所示,该结构化处理可以用已有的算法来实现,该查询可利用正向或者逆向最大匹配法以及这两种方法的组合来进行分词。词性标注可以通过隐式马尔科夫模型(hidden Markov model)或者错误驱动转换(error-driven transformation)方法来确定。实词可以通过分类法识别。句法分析可以通过CYK分析法,图表分析法等实现,在表1中,句法成分NP表示名词短语,句法成分PP表示介词短语;句法分析可以推广至分析属性语法,其中一些属性是基于语义的。在表1中,语义特征例如为+Loc(位置)。
这里,有两种类型的索引词,即重叠二元词(overlapping characterbigrams)和非连续二元词(non-contiguous bigrams)。在本查询示例q1中,重叠二元词即“香港”、“港理”、“理工”、“工大”、“大学”、“学之”和“之友”,其中,在词列表W中有的索引词例如为“香港”、“理工”,不在词列表W中的索引词例如为“港理”、“工大”;而非连续二元词例如为“理……大”、“学……友”,即非连续二元索引词是三个字的子字符串中的第一个字和最后一个字。
接下来,就可以将该结构化查询所得到的各字符串组和字符串做为索引词来进行权重计算。索引词的权重计算需要依赖词列表,因此词列表的规模对于权重计算的准确程度有着很大的制约作用。中文中,新词会频繁的出现,词列表也需要频繁的更新,词列表更新后,在先使用的旧列表就过期了,索引词的权重便需要重新计算,索引也需要重新构建,而搜索引擎的这种频繁更新是很难实现的,权重计算的准确程度也就无法得到保证。
在这种情况下,一些不在词列表中的索引词的权重计算便显得尤为重要,现有技术中对这种索引词权重的计算有如下方法如果是基于词的索引,其权重通过单个字的权重得到,例如“港理”这个词,通过单字“港”和“理”来计算其权重,完全没有考虑该词和上下文,即“香港”和“理工”的关系,因此这种权重的计算结果是不准确的。如果不是基于词的索引,通常会通过n-gram这种统计方法来分词并计算其权重,计算使用这种方法分出的索引词的权重时,并不会考虑该索引词是不是词列表中某个词的一部分,也不会考虑该索引词是不是在词汇表中某两个词的边界,或者该索引词本身就是一个词,这样计算出来的权重同样是不准确的。
有鉴于上述现有技术存在的缺陷,本发明人提出一种基于结构约束的索引词权重计算方法,其能够改进现有技术的权重计算方法,使索引词可以得到更准确的权重。


发明内容
本发明的主要目的在于,提供一种中文信息检索中基于结构约束的词权重计算方法,所要解决的技术问题是无论该索引词是否在词列表中,都能准确计算出其权重,从而实现词列表升级而无需完全重新计算索引词的权重。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种中文信息检索中基于结构约束的特征权重计算方法,包括以下步骤a、对查询进行结构化处理,得到结构化查询结果;所述结构化处理包括分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;b、根据所述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的所述结构化查询的结果,确定所述索引词的查询-上下文属性集;c、计算所述查询-上下文属性集中每个属性的权重值;d、通过第一组合函数将所述各个属性的权重值组合成所述索引词的属性值;f、使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。
本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。
前述的中文信息检索中基于结构约束的特征权重计算方法,所述索引词的查询-上下文属性集中每个属性都是一个数组,所述数组中的元素为所述结构化查询的结果中的子字符串、子字符串组、子字符串的词性、子字符串的语义特征或子字符串组的句法成分,且所述数组中的元素在所述索引词所在的位置、紧邻所述索引词所在的位置、和所述索引词所在的位置间隔一个字、和所述索引词所在的位置间隔两个字、和所述索引词所在的位置间隔三个字或括入所述索引词所在的位置。
前述的中文信息检索中基于结构约束的特征权重计算方法,其中,所述第一组合函数是IDF(x)函数;所述IDF(x)函数为模糊合取、模糊析取、模糊否定或是模糊聚集函数,所述模糊聚集为扩展布尔合取或扩展布尔析取。
前述的中文信息检索中基于结构约束的特征权重计算方法,所述第二组合函数将所述索引词的属性值与所述索引词在查询中的IDF值组合成索引词权重。
前述的中文信息检索中基于结构约束的特征权重计算方法,在进行语音查询和跨语言检索时,步骤a和步骤b之间进一步包括使用N-best算法列出N个结构化查询文本。
前述的中文信息检索中基于结构约束的特征权重计算方法,所述第二组合函数将同一查询的所述N个结构化查询文本的同一个索引词的属性值组合成索引词权重。
前述的中文信息检索中基于结构约束的特征权重计算方法,所述第二组合函数是模糊聚集,模糊连接或扩展布尔连接。
由上述技术方案可知,本发明具有以下有益效果 1、本发明利用第一组合函数将不在词列表中的索引词的“查询-上下文”属性集中属性的权重组合成属性值,从而可以为词列表中没有的索引词通过上下文关系更为准确的赋权重值,进而实现搜索引擎的词列表升级而不影响原有索引词的权重,其对于中文搜索引擎的动态调整适应,动态更新词列表是很重要的。
2、本发明提出了用位置区间来对属性进行处理,该处理方法支持非连接的索引词,跨越索引词边界,在索引词内和邻近索引词的词,因此本发明能为检索中的非连接的查询索引词赋予权重。
3、本发明使用第二组合函数(例如,模糊聚集,模糊连接或扩展布尔连接)来组合同一查询(例如语音查询和跨语言查询)的不同结构化查询文本中同一索引词的权重,形成该索引词的权重,因此在进行语音查询和跨语言检索时,也可较准确的计算其中未在词列表中出现的索引词和非连接索引词的权重。
通过以下参照附图对优选实施例的说明,本发明的上述以及其它目的、特征和优点将更加明显。



图1为现有技术中对查询进行结构化的流程图。
图2为本发明基于结构约束的索引词权重值计算方法流程图。
图3为本发明对同一查询的不同结构化查询文本中同一索引词权重的计算方法流程图。

具体实施例方式 下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
请参阅图2所示,其为本发明基于结构约束的词权重计算方法的流程图。对于一个查询D1,可以按照图1所示的步骤对其进行结构化,形成结构化查询D2。令q为一个中文查询,其被结构化为(1)式,如果没有字符串组,则(1)式可简化为 [(q1,1,t1,1)T1],......,[(qm,1,tm,1),Tm]......(2) 其中若没有类型标识符,即没有Ti,则(2)式进一步可简化为 (q1,1,t1,1),......,(qm,1,tm,1)......(3) 若没有词性标注,即没有ti,j,则在这种特殊情况下,结构化查询可被简化为 q1,1,......qm,1......(4) 本发明可以使用上述各式的算法对查询进行结构化,形成结构化查询,如步骤D2所示。本发明的词权重计算方法可以应用到非连接n-gram索引词和连接的n-gram索引词。
子字符串qi,j为单词列表W中条目。这个列表可以是某些字典中标题词,也可以是某些简单的子字符串(例如常规表达)。诸如,时间词“10月”就是通过识别一个或多个数字,之后识别时间词(即月)而识别出来的。此外,列表中也包括从一些文档资料中选取出来的子字符串。诸如两个字符的子字符串可以从基于点点交互方式的信息中选取。其也可以推广到选取n个特征字(n>2)。
假设查询q1=香港理工大学之友,结构化为非连接组(1香港(2理工)1大学)2(3之友)3,该算法生成的子字符串组和许多自然语言的句法分析生成的子字符串组是不同的,因为该算法没有考虑上下文的语法。这些非连接子字符串组按照第一个字出现的顺序排列。在本例中,q1=(1香港(2理工)1大学)2(3之友)3,其中,第一个子字符串是香港理工,第二个是理工大学,最后一个是之友。
在本实施例中,搜索引擎使用n-gram算法进行分词。但本发明并不限定于此,本发明可以使用至其他算法的词索引,或一些复合词的词索引等(例如,组合字,组合词和二元词)。
步骤M6通过查询的区间得到索引词,并(例如以深度优先的方式)得到这些索引词的属性。例如,在表1中,NP2的表示的位置区间是1到6,所以NP2这个索引词使用两个位置(即1和6),为查找在某个给定位置的重叠的各个位置区间的索引词,可以使用线段树(segment tree)、区间空指令表(interval skip list)和R-tree。这样的索引结构也支持快速查询处理。
步骤M7用来确定位置p第k个索引词tk,p。
每个索引词都有一系列的“查询-上下文”属性集,该“查询-上下文”属性集已经由步骤M6得到了,步骤M8的函数F(.)执行的就是找到索引词tk,p的“查询-上下文”属性集,即F(q,p,tk,p)={aj}j。如表1中位置2的不在词列表W中的第一个索引词“港理”的“查询-上下文”属性集为 F(q1,2,t1,2=港理)={a1=(word_boundary,L1,名词,L2,名词), a2=(word_group_boundary,L1,名词,NP1), a3=(in_word_group,NP2), a4=(in_word_group,NP3)} “查询-上下文”属性集中每个属性都是一个数组,数组中又包含若干个元素,这些元素为结构化查询的结果,例如是子字符串(子字符串例如为一个词)、子字符串组、子字符串的词性、子字符串的语义特征或子字符串组的句法成分,且每个属性数组的元素都是与索引词tk,p相邻且在词列表中的元素,这里所说的相邻可以为该元素在该索引词tk,p所在位置p、该元素紧邻该索引词tk,p所在位置p(例如,词末在p-1)、该元素接近该索引词tk,p所在位置p(例如,对于接近的三个词,词末分别在位置p-1,p-2或p-3)或该元素括入该索引词tk,p所在位置p(例如在位置p-1的四字词)。为表述更为清晰,本实施例中没有考虑语义特征。否则,由于它的所有成分都具有相同的语义特征+LOC,进而我们要增加特征来计算权重。
再如,在表1中的非连接二元词“理……大”所占的位置是3和5,可以将这个非连接的n-gram索引词看成从位置3到5的一个字符串,其相关的特征可以根据3到5的位置区间来确定。
有些在词列表中的索引词,则可以在属性集中加入另外一些特征,另外加入的特征将会给索引词增加更多的权重。
步骤M9通过函数w(.)来计算每个“查询-上下文”属性的权重值,这里我们假设各属性的权重值为 w(word_boundary,L1,名词,L2,名词)=0.5 w(word_group_boundary,L1,名词,NP1)=0.5×1/|NP1|1×IDF(NP1) w(in_word_group,NP2)=1/[|NP1|1+2]×IDF(NP1) w(in_word_group,NP3)=1/[|NP3|1+2]×IDF(NP3) 其中,|.|1是该字符串组的city-block长度,IDF(x)是字符串组x中所有索引词的逆文本频率指数的平均值。通常,IDF(x)可以视为P-范数(P-norm)扩展布尔合取值(Extended Boolean conjunction) 其中t是索引词,x是包含多个索引词的字符串组,#(x)是x中索引词的数量(包括重复的),IDF(t)是索引词t的IDF值; 或者,IDF(x)是P-范数(P-norm)扩展布尔析取值(Extended Booleandisjunction) 其中词IDF(t)可能为 或 其中N是检索中的总文档数,df(t)是出现索引词t的文档频率。
因此,通过函数w(aj)计算,所有的属性都成为了数字值。
步骤M10通过第一组合函数C(.)将各个属性权重值组合成一个单值,即属性值A(.) A(q,p,tk,p)=C({w(aj)}j). 如果对于所有的j,w(aj)j的值都在
区间,则C(.)可能是模糊连接(fuzzy connective)的某种组合(诸如模糊合取(fuzzy conjuction),模糊析取(fuzzy disjunction)和模糊否定(fuzzy negation))或者是模糊聚集(fuzzyaggregation)(例如,扩展布尔合取或者扩展布尔析取),若w(aj)j的值不在
区间,也可使用某种函数将其映射到
区间,这些都是可以通过现有技术实现的。对于我们在表1的例子,假定使用P-范数扩展布尔析取,则“港理”的属性值为
接下来,判断同一位置是否还有索引词(即步骤M11),如果有,则计算下一个索引词tk+1,p的属性值A(q,p,tk+1,p),直到没有更多的索引词。
步骤M12使用组合函数f(.)将A(.)的值与该索引词在查询中的IDF(或其变式)值W(.)组合成索引词权重ω(.),即ω(q,tk,p)=f(A(q,p,tk.p),W(tk,p))。例如,函数f(x,y)的可能实现为 或α.x+(1-α).y, 其中P例如为一个规定的参数,α例如是一个在
区间的参数,步骤D3将索引词权重ω(.)输出。这样,通过上述步骤,可以得到在位置p的查询索引词的权重。
本发明可以延伸至基于音节的索引构建,以用来进行基于语音查询的检索,由语音查询产生的不同的文本查询的各音节的权重组合成音节的权重。
请参阅图3所示,其为本发明对同一查询的不同结构化查询文本中同一索引词权重的计算方法流程图。对于一个语音查询s,可能产生一系列的候选文本查询,对候选文本查询结构化后,形成如图2中步骤D2所示的结构化查询;接下来执行步骤M5,使用N-best算法列出N个最有可能的结构化查询文本qh(h=1……N)例如对于s1,产生两个文本查询 q1=香港理工大学之友;和q2=香港理工大学只有; 其中s1=“xiang gang li gong da xue zhi you”(这里使用的是汉语识别);接下来执行步骤M6,得到索引词,并确定其属性;假设索引词是重叠二元词,可以结合两个查询文本中的二元索引词的权重,例如,索引词“港理”均出现在q1和q2中,则可以组合索引词“港理”在q1和q2中的属性值计算出该索引词的权重。
步骤M13确定第h个结构化查询,步骤M14(即图2中步骤M7-M11)得到位置p的各索引词的属性值A(q,p,tk,p),并继续计算位置p+1的各索引词的属性值A(q,p+1,tk,p+1),将所有位置的各索引词的属性值都计算出来后,开始确定第h+1个结构化查询,并计算相应的各索引词的属性值A(q,p,tk,p)。
步骤15使用组合函数c(.)组合不同结构化查询的索引词的属性值A(.)组合成索引词权重,例如均出现在q1和q2中的索引词“港理”,其权重为 ω(s1,港理)=c(A(q1,2,港理),A(q2,2,港理))(5) 其中,c(.)为组合函数,例如为模糊聚集,模糊连接、扩展布尔连接或p-范数扩展布尔析取。虽然这里以两个查询(即h=2)为例,事实上,本发明提出的方法可以用至任意多个查询文本。
本发明提出的权重计算方法也可以用于跨语言检索。例如,英文查询e1是“Friends of Hong Kong Polytechnic university”,使用翻译软件翻译该查询可能翻译成查询文本 q1=香港理工大学之友;和q3=香港理工大学的朋友; 索引词“港理”均出现在q1和q3中,根据图3所示的权重计算方法,在这两个查询中,索引词“港理”的权重为 ω(e1,港理)=c(A(q1,2,港理),A(q3,2,港理))(6) 此公式(6)和公式(5)相同,但q3中的结构约束和q2中的结构约束是不同的,因此,查询s1中索引词“港理”的属性权重可能与e1中索引词“港理”的属性权重不同。
当倒排索引没有位置信息来支持(5)、(6)式这种接近性查询时,本方法计算不同位置的同一个索引词的权重ω(.)有两个变量;而有位置信息来支持(5)、(6)式这种接近性查询时,词权重ω(.)有三个变量,即ω(q,p,tk),则(6)式中不同查询文本中同一个位置的同一个索引词的权重为 ω(e1,2,港理)=c(A(q1,2,港理),A(q3,2,港理))。
对于每个查询,其被发送至不同的搜索引擎时(例如在元搜索中或全文搜索或跨库搜索中),会得到来自不同搜索引擎的查询索引词权重,然后,来自不同搜索引擎的排序列表组合形成最后的排序列表。
本发明的方法可以准确地为非连接的n-gram索引词、连接的n-gram索引词和在词列表中的词汇赋权重,这些索引词可以是字符串组、字符串、词。本发明的方法也可被用于具有结构约束的英文查询。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
权利要求
1、一种中文信息检索中基于结构约束的特征权重计算方法,其特征在于,包括以下步骤
a、对查询进行结构化处理,得到结构化查询结果;
所述结构化处理包括
分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;
b、根据所述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的所述结构化查询的结果,确定所述索引词的查询-上下文属性集;
c、计算所述查询-上下文属性集中每个属性的权重值;
d、通过第一组合函数将所述各个属性的权重值组合成所述索引词的属性值;
f、使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。
2、根据权利要求1所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,所述索引词的查询-上下文属性集中每个属性都是一个数组,所述数组中的元素为所述结构化查询的结果中的子字符串、子字符串组、子字符串的词性、子字符串的语义特征或子字符串组的句法成分,且所述数组中的元素在所述索引词所在的位置、紧邻所述索引词所在的位置、和所述索引词所在的位置间隔一个字、和所述索引词所在的位置间隔两个字、和所述索引词所在的位置间隔三个字或括入所述索引词所在的位置。
3、根据权利要求1所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,其中,所述第一组合函数是IDF(x)函数;所述IDF(x)函数为模糊合取、模糊析取、模糊否定或是模糊聚集函数,所述模糊聚集为扩展布尔合取或扩展布尔析取。
4、根据权利要求1所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,所述第二组合函数将所述索引词的属性值与所述索引词在查询中的IDF值组合成索引词权重。
5、根据权利要求1所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,在进行语音查询和跨语言检索时,步骤a和步骤b之间进一步包括使用N-best算法列出N个结构化查询文本。
6、根据权利要求5所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,所述第二组合函数将同一查询的所述N个结构化查询文本的同一个索引词的属性值组合成索引词权重。
7、根据权利要求6所述的中文信息检索中基于结构约束的特征权重计算方法,其特征在于,所述第二组合函数是模糊聚集,模糊连接或扩展布尔连接。
全文摘要
本发明是有关于一种中文信息检索中基于结构约束的特征权重计算方法,包括以下步骤a.对查询进行结构化处理,得到结构化查询结果;结构化处理包括分词、对切分出的词进行词性标注、对查询进行浅层句法分析或对查询进行句法分析中一个或几个;b.根据述结构化查询结果确定索引词,然后根据与所述索引词相邻并位于词列表中的结构化查询的结果,确定所述索引词的查询—上下文属性集;c.计算查询—上下文属性集中每个属性的权重值;d.通过第一组合函数将各个属性的权重值组合成所述索引词的属性值;f.使用第二组合函数对所述索引词的属性值组合,得到所述索引词权重。无论索引词是否在词列表中,本发明的方法都能准确计算出其权重。
文档编号G06F17/30GK101576888SQ200810095689
公开日2009年11月11日 申请日期2008年5月7日 优先权日2008年5月7日
发明者陆永邦 申请人:香港理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1