例句索引创建方法和装置以及例句检索方法和装置的制作方法

文档序号:6652848阅读:247来源:国知局
专利名称:例句索引创建方法和装置以及例句检索方法和装置的制作方法
例句索引创建方法和装置以及例句检索方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种例句索引创建方法和装置以及例句检索方法和装置。背景技木信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技木。信息检索已经广泛地应用于文献、多媒体以及翻译领域等。在现有信息检索技术中存在ー种特殊的信息检索例句检索,即用于检索包含某些关键词的例句,例句检索通常用于单语词典中的例句展现或者翻译技术中的例句展现。然而,现有例句检索通常单纯基于关键词匹配进行检索,例如,应用在单语词典的例句展现中时,用户输入查询请求(query)“计算机”,会将包含关键词“计算机”的例句检索出来。应用在中-英翻译技术中时,当用户输入query “计算机”,会将包含“计算机”对应的英文的例句检索出来,即检索出包含“ computer”的例句。对于ー些基于语法的高级检索,则无法实现。例如,用户如果想要检索“困难”作为名词时有哪些例句,或者,想要检索“提高”和“水平”搭配使用时有哪些例句,或者,想要检索“苹果”作为ー个电子品牌时有哪些例句等则无法实现。

发明内容本发明提供了一种例句索引创建方法和装置以及例句检索方法和装置,从而实现基于语法的高级检索。具体技术方案如下一种例句索引创建方法,分别针对例句库中的各例句执行以下步骤A、对例句进行文本分析;B、根据文本分析的結果,创建该例句所对应的索引;其中索引包括以下所列中的至少ー种例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。其中,所述步骤A具体包括 Al、对所述例句进行分词处理;A2、—#,— A21、A22、A23、A24 中的至少ー个A21、对分词处理后得到的各词语进行词性标注;A22、对分词处理后得到的各词语进行专有名词的识别,确定被识别为专有名词的词语对应的命名实体类型;A23、对分词处理后得到的各词语进行句法分析,确定各词语的句法角色;A24、将分词处理后得到的各词语进行两两组合;如果执行所述步骤A21,则所述步骤B具体包括逐一将各词语及词语对应的词性的组合作为所述例句的索引;如果执行所述步骤A22,则所述步骤B具体包括逐一将被识别为专有名词的词语及词语对应的命名实体类型的组合作为所述例句对应的索引。如果执行所述步骤A23,则所述步骤B具体包括逐一将各词语及词语对应的句法角色的组合作为所述例句对应的索引。如果执行所述步骤A24,则所述步骤B具体包括将所述步骤A24得到的组合分别作为所述例句的索引。另外,该方法还包括将分词处理后得到的各词语分别作为所述例句的索引。其中,所述步骤A24具体包括基于句法分析确定分词处理后得到的各词语之间存在搭配关系的两两组合;其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。较优地,在所述步骤A24之前,或者,在所述步骤B之前,还包括基于预设的停用词表对分词处理后得到的各词语进行过滤,过滤掉停用词表中包含的词语。其中,所述例句库为单语例句库或者双语例句库。如果所述例句库为双语例句库,则该方法还包括将所述双语例句库中双语例句对中各例句所对应的索引都作为该双语例句对所对应的索引。更进ー步地,该方法还包括利用所述例句库中各例句及例句对应的索引,通过倒排方式建立索引表;其中,所述索引表中索引值为例句,索引键为例句对应的索引。如果针对双语例句库,则利用所述双语例句库中各双语例句对及双语例句对对应的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为双语例句对,索引键为双语例句对对应的索引。所述索引表至少包括以下所列中的至少ー种“词-词性”索引表,其中的索引键为词语及词语对应的词性的组合;“词-NE类型”索引表,其中的索引键为词语及词语对应的NE类型的组合;“词-句法角色”索引表,其中的索引键为词语及词语对应的句法角色的组合;以及,“词-词”索引表,其中的索引键为词语与词语的组合。较优地,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表或“词-词”索引表中,索引键为ニ级索引键,具体为在索引键中相同的词语归纳在一起作为第一级索引,所述“词-词性”索引表中第ー级索引对应的词性作为第二级索引,所述“词-NE类型”索引表中第一级索引对应的NE类型作为第二级索引,所述“词-句法角色”索引表中第一级索引对应的句法角色作为第二级索引,所述“词-词”索引表中与第一级索引组合的另ー词语作为第二级索引。ー种例句检索方法,该方法包括
A、接收用户的检索请求query ;B、解析出所述query包含的查询项,如果包含多个查询项,则还解析出各查询项之间的逻辑关系;C、利用解析出的各查询项逐一进行检索,获得各查询项对应的检索结果;D、如果所述query包含多个查询项,则依据各查询项之间的逻辑关系,对各查询项对应的检索结果进行整合处理,将整合处理后的检索结果返回给所述用户;如果所述query包含ー个查询项,则将该查询项对应的检索结果返回给所述用户;其中,所述查询项为以下所列中的至少ー种词语及该词语对应的词性的组合、词语及该词语对应的命名实体类型的组合、词语与该词语对应的句法角色的组合、以及词语与词语之间的组合;所述逻辑关系为交集或差集。其中,所述步骤C具体为
如果解析出的查询项为词语及该词语对应的词性的组合,则将该查询项与“词-词性”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果解析出的查询项为词语及该词语对应的NE类型的组合,则将该查询项与“词-NE类型”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果解析出的查询项为词语及该词语对应的句法角色的组合,则将该查询项与“词-句法角色”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果解析出的查询项为词语与词语的组合,则将该查询项与“词-词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。所述词语与词语之间的组合为存在基于句法分析的搭配关系的词语与词语的组合;其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。另外,解析出的查询项还包括词语;如果查询项为词语,则将该查询项与“词”索引表中的索引键进行匹配,将匹配的索弓I键对应的索引值作为该查询项的检索結果。所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表、“词-词”索引表中索引值、“词”索引表中的索引值为例句或双语例句对。较优地,如果某查询项不是为差集的逻辑关系相邻后端的查询项,且该查询项对应的检索结果低于预设的最低检索要求,则将该查询项中的各词语分别与所述“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。更进一歩地,在所述步骤E之前还包括 将所述整合处理后的检索结果进行排序,其中所述排序的依据包括以下所列之一或组合检索结果来源的置信状況,以及,检索结果与所述query的匹配状況。具体地,所述检索结果与所述query的匹配状况F (Ri)为
m)=ん纖 ZSiRlJtem^Aword ^8(^wordk) +\+] ぺ,[+] ) +ん ぺ,[-] );
j=\た=Iw=ln=\
其中,入iteni、入WOTd、入[+]和入[_]为预设的权重參数,5 (Ri, itenij)为检索结果Ri与第j个查询项的匹配值,J为所述query包含的查询项数目,5 (RijWordk)为检索结果Ri与第k个词语的匹配值,K为所述query中检索所使用词语的数目,8 (Ri, [+Jffl)为检索结果Ri与第m个为交集的逻辑关系的匹配值,M为所述query中为交集的逻辑关系数目,8 (Ri,[-] )为检索结果Ri与第n个为差集的逻辑关系的匹配值,N为所述query中为差集的逻辑关系数目。如果item」.为 Ri 的索引,5 (Ri, itenij)为 I,否则 5 (Ri, itenij)为 0 ;如果wordk 为 Ri 的索引,6 (Ri, wordk)为 I,否则 6 (Ri, itenij)为 0 ;如果为交集的逻辑关系[+凡两端的查询项均为Ri的索引,5 (Ri, [+]J为1,否则S (Ri, [+]m)为 0 ; 如果为差集的逻辑关系[_]n相邻前端的查询项为Ri的索引且相邻后端的查询项不是Ri的索引,则6 (Ri, [-] )为1,否则8 (Ri, [-]n)为O。一种例句索引创建装置,该装置包括文本分析単元和索引建立単元;所述文本分析単元,用于分别针对例句库中的各例句进行文本分析;所述索引建立単元,用于根据所述文本分析単元的分析結果,创建各例句所对应的索引;其中索引包括以下所列中的至少ー种例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。其中,所述文本分析単元包括分词处理子単元,还包括以下子単元中的至少ー个词性标注子単元、NE识别子単元、句法分析子単元和搭配组合子単元;所述分词处理子単元,用于对例句进行分词处理;所述词性标注子単元,用于对分词处理后得到的各词语进行词性标注;所述NE识别子単元,用于对分词处理后得到的各词语进行专有名词的识别,确定被识别为专有名词的词语对应的命名实体类型;所述句法分析子単元,用于对分词处理后得到的各词语进行句法分析,确定各词语的句法角色;所述搭配组合子単元,用于将分词处理后得到的各词语进行两两组合;所述索引建立単元根据所述词性标注子単元的词性标注结果,逐一将各词语及词语对应的词性的组合作为所述例句的索引;或者,根据所述NE识别子単元的识别结果,逐一将被识别为专有名词的词语及词语对应的命名实体类型的组合作为所述例句对应的索引;或者,根据所述句法分析子単元的分析结果,逐一将各词语及词语对应的句法角色的组合作为所述例句对应的索引;或者,将所述搭配组合子単元得到的组合分别作为所述例句的索引。另外,所述索引建立単元,还用于将所述分词处理子単元分词处理后得到的各词语分别作为所述例句的索引。所述搭配组合子単元具体基于句法分析确定分词处理后得到的各词语之间存在搭配关系的两两组合;其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。较优地,所述文本分析单元还包括词语过滤子单元,用于基于预设的停用词表,将所述分词处理子単元分词处理后得到的各词语进行过滤,过滤掉停用词表中包含的词语后,供所述搭配组合子単元进行组合,或者,供所述索引建立单元进行索引的建立。其中,所述例句库为单语例句库或者双语例句库。
如果所述例句库为双语例句库,则所述索引建立单元将所述双语例句库中双语例句对中各例句所对应的索引都作为该双语例句对所对应的索引。
更进一歩地,该装置还包括索引表建立単元,用于利用所述索引建立单元为例句库中各例句建立的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为例句,索引键为例句对应的索引。针对双语例句库,索引表建立単元,用于利用所述索引建立単元为双语例句库中各双语例句对建立的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为双语例句对,索引键为双语例句对对应的索引。其中,所述索引表包括以下所列中的至少ー种“词-词性”索引表,其中的索引键为词语及词语对应的词性的组合;“词-NE类型”索引表,其中的索引键为词语及词语对应的NE类型的组合;“词-句法角色”索引表,其中的索引键为词语及词语对应的句法角色的组合;以及,“词-词”索引表,其中的索引键为词语与词语的组合。较优地,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表或“词-词”索引表中,索引键为ニ级索引键,具体为在索引键中相同的词语归纳在一起作为第一级索引,所述“词-词性”索引表中第ー级索引对应的词性作为第二级索引,所述“词-NE类型”索引表中第一级索引对应的NE类型作为第二级索引,所述“词-句法角色”索引表中第一级索引对应的句法角色作为第二级索引,所述“词-词”索引表中与第一级索引组合的另ー词语作为第二级索引。ー种例句检索装置,该装置包括用户侧交互単元、请求解析単元、检索处理单元和结果整合単元;所述用户侧交互単元,用于接收用户的检索请求query,将所述结果整合単元提供的检索结果返回给所述用户;所述请求解析单元,用于解析出所述query包含的查询项,如果包含多个查询项,则还解析出各查询项之间的逻辑关系;所述检索处理单元,用于利用所述请求解析単元解析出的各查询项逐一进行检索,获得各查询项对应的检索结果;所述结果整合单元,用于在所述请求解析单元解析出所述query包含多个查询项时,利用所述请求解析単元解析出的各查询项之间的逻辑关系,对所述各查询项对应的检索结果进行整合处理,将整合处理后的检索结果提供给所述用户侧交互単元;在所述请求解析单元解析出所述query包含一个查询项时,将该查询项对应的检索结果提供给所述用户侧交互单元;其中,所述查询项为以下所列中的至少ー种词语及该词语对应的词性的组合、词语及该词语对应的命名实体类型的组合、词语与该词语对应的句法角色的组合、以及词语与词语之间的组合;所述逻辑关系为交集或差集。
如果所述请求解析単元解析出的查询项为词语及该词语对应的词性的組合,则所述检索处理单元将该查询项与“词-词性”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果所述请求解析単元解析出的查询项为词语及该词语对应的NE类型的组合,则所述检索处理单元将该查 询项与“词-NE类型”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果所述请求解析単元解析出的查询项为词语及该词语对应的句法角色的组合,则所述检索处理单元将该查询项与“词-句法角色”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果;如果所述请求解析単元解析出的查询项为词语与词语的组合,则所述检索处理单元将该查询项与“词-词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。所述词语与词语之间的组合为存在基于句法分析的搭配关系的词语与词语的组合;其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。另外,所述请求解析単元解析出的查询项包括词语;如果所述请求解析単元解析出的查询项为词语,则所述检索处理单元将该查询项与“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果。其中,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表、“词-词”索引表中索引值、“词”索引表中的索引值为例句或双语例句对。较优地,该装置还包括补充检索単元,用于在某查询项不是为差集的逻辑关系相邻后端的查询项,且该查询项对应的检索结果低于预设的最低检索要求时,将该查询项中的各词语分别与所述“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。具体地,所述结果整合単元可以包括整合处理子单元,用于在所述请求解析单元解析出所述query包含多个查询项时,利用所述请求解析単元解析出的各查询项之间的逻辑关系,对所述各查询项对应的检索结果进行整合处理;排序处理子单元,用于将整合处理后的检索结果进行排序,其中所述排序的依据包括以下所列之一或组合检索结果来源的置信状況,以及,检索结果与所述query的匹配状況。所述检索结果与所述query的匹配状况F(Ri)为
权利要求
1.一种例句索引创建方法,其特征在于,分别针对例句库中的各例句执行以下步骤 A、对例句进行文本分析; B、根据文本分析的結果,创建该例句所对应的索引; 其中索引包括以下所列中的至少ー种例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。
2.根据权利要求I所述的方法,其特征在于,所述步骤A具体包括 Al、对所述例句进行分词处理; 八2、执行步骤六21、六22、六23、六24中的至少ー个 A21、对分词处理后得到的各词语进行词性标注; A22、对分词处理后得到的各词语进行专有名词的识别,确定被识别为专有名词的词语对应的命名实体类型; A23、对分词处理后得到的各词语进行句法分析,确定各词语的句法角色; A24、将分词处理后得到的各词语进行两两组合; 如果执行所述步骤A21,则所述步骤B具体包括逐一将各词语及词语对应的词性的组合作为所述例句的索引; 如果执行所述步骤A22,则所述步骤B具体包括逐一将被识别为专有名词的词语及词语对应的命名实体类型的组合作为所述例句对应的索引。
如果执行所述步骤A23,则所述步骤B具体包括逐一将各词语及词语对应的句法角色的组合作为所述例句对应的索引。
如果执行所述步骤A24,则所述步骤B具体包括将所述步骤A24得到的组合分别作为所述例句的索引。
3.根据权利要求2所述的方法,其特征在于,该方法还包括将分词处理后得到的各词语分别作为所述例句的索引。
4.根据权利要求2所述的方法,其特征在于,所述步骤A24具体包括基于句法分析确定分词处理后得到的各词语之间存在搭配关系的两两组合; 其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。
5.根据权利要求2所述的方法,其特征在于,在所述步骤A24之前,或者,在所述步骤B之前,还包括 基于预设的停用词表对分词处理后得到的各词语进行过滤,过滤掉停用词表中包含的词语。
6.根据权利要求I所述的方法,其特征在于,所述例句库为单语例句库或者双语例句库。
7.根据权利要求6所述的方法,其特征在干,如果所述例句库为双语例句库,则该方法还包括 将所述双语例句库中双语例句对中各例句所对应的索引都作为该双语例句对所对应的索引。
8.根据权利要求I所述的方法,其特征在于,该方法还包括 利用所述例句库中各例句及例句对应的索引,通过倒排方式建立索引表;其中,所述索引表中索引值为例句,索引键为例句对应的索引。
9.根据权利要求7所述的方法,其特征在于,该方法还包括 利用所述双语例句库中各双语例句对及双语例句对对应的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为双语例句对,索引键为双语例句对对应的索引。
10.根据权利要求8或9所述的方法,其特征在于,所述索引表至少包括以下所列中的至少ー种 “词-词性”索引表,其中的索引键为词语及词语对应的词性的组合; “词-NE类型”索引表,其中的索引键为词语及词语对应的NE类型的组合; “词-句法角色”索引表,其中的索引键为词语及词语对应的句法角色的组合;以及, “词-词”索引表,其中的索引键为词语与词语的组合。
11.根据权利要求10所述的方法,其特征在于,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表或“词-词”索引表中,索引键为ニ级索引键,具体为 在索引键中相同的词语归纳在一起作为第一级索引,所述“词-词性”索引表中第一级索引对应的词性作为第二级索引,所述“词-NE类型”索引表中第一级索引对应的NE类型作为第二级索引,所述“词-句法角色”索引表中第一级索引对应的句法角色作为第二级索弓丨,所述“词-词”索引表中与第一级索引组合的另ー词语作为第二级索引。
12.ー种例句检索方法,其特征在于,该方法包括 A、接收用户的检索请求query; B、解析出所述query包含的查询项,如果包含多个查询项,贝U还解析出各查询项之间的逻辑关系; C、利用解析出的各查询项逐一进行检索,获得各查询项对应的检索結果; D、如果所述query包含多个查询项,则依据各查询项之间的逻辑关系,对各查询项对应的检索结果进行整合处理,将整合处理后的检索结果返回给所述用户;如果所述query包含ー个查询项,则将该查询项对应的检索结果返回给所述用户; 其中,所述查询项为以下所列中的至少ー种词语及该词语对应的词性的组合、词语及该词语对应的命名实体类型的组合、词语与该词语对应的句法角色的组合、以及词语与词语之间的组合;所述逻辑关系为交集或差集。
13.根据权利要求12所述的方法,其特征在于,所述步骤C具体为 如果解析出的查询项为词语及该词语对应的词性的組合,则将该查询项与“词-词性”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果解析出的查询项为词语及该词语对应的NE类型的组合,则将该查询项与“词-NE类型”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果解析出的查询项为词语及该词语对应的句法角色的组合,则将该查询项与“词-句法角色”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果解析出的查询项为词语与词语的组合,则将该查询项与“词-词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。
14.根据权利要求12所述的方法,其特征在于,所述词语与词语之间的组合为存在基于句法分析的搭配关系的词语与词语的组合; 其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。
15.根据权利要求12、13或14所述的方法,其特征在于,解析出的查询项还包括词语; 如果查询项为词语,则将该查询项与“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。
16.根据权利要求15所述的方法,其特征在于,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表、“词-词”索引表中索引值、“词”索引表中的索引值为例句或双语例句对。
17.根据权利要求15所述的方法,其特征在于,如果某查询项不是为差集的逻辑关系相邻后端的查询项,且该查询项对应的检索结果低于预设的最低检索要求,则将该查询项中的各词语分别与所述“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。
18.根据权利要求12所述的方法,其特征在于,在所述步骤E之前还包括 将所述整合处理后的检索结果进行排序,其中所述排序的依据包括以下所列之ー或组合 检索结果来源的置信状況,以及,检索结果与所述query的匹配状況。
19.根据权利要求18所述的方法,其特征在于,所述检索结果与所述query的匹配状况F(Ri)为
20.根据权利要求19所述的方法,其特征在于,如果iten^为Ri的索引,8(Ri, Itemj)为 1,否则 8 (Ri, itenij)为 0 ;如果 wordk 为 Ri 的索引,6 (Ri, wordk)为 I,否则 6 (Ri, itenij)为 0 ; 如果为交集的逻辑关系[+凡两端的查询项均为Ri的索引,5 (Ri, [+]J为1,否则S (Ri, [+]m)为 0 ; 如果为差集的逻辑关系[_]n相邻前端的查询项为Ri的索引且相邻后端的查询项不是Ri 的索引,则 6 (Ri, [-] )为 1,否则 8 (Ri, [-]n)为 O。
21.一种例句索引创建装置,其特征在于,该装置包括文本分析単元和索引建立单元; 所述文本分析単元,用于分别针对例句库中的各例句进行文本分析; 所述索引建立単元,用于根据所述文本分析単元的分析結果,创建各例句所对应的索引;其中索引包括以下所列中的至少ー种例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。
22.根据权利要求21所述的装置,其特征在于,所述文本分析単元包括分词处理子单元,还包括以下子単元中的至少ー个词性标注子単元、NE识别子単元、句法分析子単元和搭配组合子単元; 所述分词处理子単元,用于对例句进行分词处理; 所述词性标注子単元,用于对分词处理后得到的各词语进行词性标注; 所述NE识别子単元,用于对分词处理后得到的各词语进行专有名词的识别,确定被识别为专有名词的词语对应的命名实体类型; 所述句法分析子単元,用于对分词处理后得到的各词语进行句法分析,确定各词语的句法角色; 所述搭配组合子単元,用于将分词处理后得到的各词语进行两两组合; 所述索引建立単元根据所述词性标注子単元的词性标注结果,逐一将各词语及词语对应的词性的组合作为所述例句的索引;或者,根据所述NE识别子単元的识别结果,逐一将被识别为专有名词的词语及词语对应的命名实体类型的组合作为所述例句对应的索引;或者,根据所述句法分析子単元的分析結果,逐一将各词语及词语对应的句法角色的组合作为所述例句对应的索引;或者,将所述搭配组合子単元得到的组合分别作为所述例句的索引。
23.根据权利要求22所述的装置,其特征在于,所述索引建立単元,还用于将所述分词处理子単元分词处理后得到的各词语分别作为所述例句的索引。
24.根据权利要求22所述的装置,其特征在干,所述搭配组合子単元具体基于句法分析确定分词处理后得到的各词语之间存在搭配关系的两两组合; 其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。
25.根据权利要求22所述的装置,其特征在于,所述文本分析单元还包括词语过滤子単元,用于基于预设的停用词表,将所述分词处理子単元分词处理后得到的各词语进行过滤,过滤掉停用词表中包含的词语后,供所述搭配组合子単元进行组合,或者,供所述索引建立单元进行索引的建立。
26.根据权利要求21所述的装置,其特征在于,所述例句库为单语例句库或者双语例句库。
27.根据权利要求26所述的装置,其特征在于,如果所述例句库为双语例句库,则所述索引建立单元将所述双语例句库中双语例句对中各例句所对应的索引都作为该双语例句对所对应的索引。
28.根据权利要求21所述的装置,其特征在于,该装置还包括索引表建立単元,用于利用所述索引建立单元为例句库中各例句建立的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为例句,索引键为例句对应的索引。
29.根据权利要求27所述的装置,其特征在于,该装置还包括索引表建立単元,用于利用所述索引建立单元为双语例句库中各双语例句对建立的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为双语例句对,索引键为双语例句对对应的索引。
30.根据权利要求28或29所述的装置,其特征在于,所述索引表包括以下所列中的至少一种 “词-词性”索引表,其中的索引键为词语及词语对应的词性的组合; “词-NE类型”索引表,其中的索引键为词语及词语对应的NE类型的组合; “词-句法角色”索引表,其中的索引键为词语及词语对应的句法角色的组合;以及, “词-词”索引表,其中的索引键为词语与词语的组合。
31.根据权利要求20所述的装置,其特征在于,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表或“词-词”索引表中,索引键为ニ级索引键,具体为 在索引键中相同的词语归纳在一起作为第一级索引,所述“词-词性”索引表中第一级索引对应的词性作为第二级索引,所述“词-NE类型”索引表中第一级索引对应的NE类型作为第二级索引,所述“词-句法角色”索引表中第一级索引对应的句法角色作为第二级索弓丨,所述“词-词”索引表中与第一级索引组合的另ー词语作为第二级索引。
32.—种例句检索装置,其特征在于,该装置包括用户侧交互単元、请求解析単元、检索处理单元和结果整合単元; 所述用户侧交互単元,用于接收用户的检索请求query,将所述结果整合単元提供的检索结果返回给所述用户; 所述请求解析单元,用于解析出所述query包含的查询项,如果包含多个查询项,贝Ij还解析出各查询项之间的逻辑关系; 所述检索处理单元,用于利用所述请求解析単元解析出的各查询项逐一进行检索,获得各查询项对应的检索结果; 所述结果整合单元,用于在所述请求解析单元解析出所述query包含多个查询项时,利用所述请求解析単元解析出的各查询项之间的逻辑关系,对所述各查询项对应的检索结果进行整合处理,将整合处理后的检索结果提供给所述用户侧交互単元;在所述请求解析单元解析出所述query包含一个查询项时,将该查询项对应的检索结果提供给所述用户侧交互单元; 其中,所述查询项为以下所列中的至少ー种词语及该词语对应的词性的组合、词语及该词语对应的命名实体类型的组合、词语与该词语对应的句法角色的组合、以及词语与词语之间的组合;所述逻辑关系为交集或差集。
33.根据权利要求32所述的装置,其特征在干,如果所述请求解析単元解析出的查询项为词语及该词语对应的词性的组合,则所述检索处理单元将该查询项与“词-词性”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果所述请求解析単元解析出的查询项为词语及该词语对应的NE类型的组合,则所述检索处理单元将该查询项与“词-NE类型”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果所述请求解析単元解析出的查询项为词语及该词语对应的句法角色的组合,则所述检索处理单元将该查询项与“词-句法角色”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果; 如果所述请求解析単元解析出的查询项为词语与词语的组合,则所述检索处理单元将该查询项与“词-词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。
34.根据权利要求32所述的装置,其特征在于,所述词语与词语之间的组合为存在基于句法分析的搭配关系的词语与词语的组合; 其中所述搭配关系包括主谓关系、动宾关系、偏正关系、中补关系或者同位关系。
35.根据权利要求32、33或34所述的装置,其特征在于,所述请求解析単元解析出的查询项包括词语; 如果所述请求解析単元解析出的查询项为词语,则所述检索处理单元将该查询项与“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索结果。
36.根据权利要求35所述的装置,其特征在于,所述“词-词性”索引表、“词-NE类型”索引表、“词-句法角色”索引表、“词-词”索引表中索引值、“词”索引表中的索引值为例句或双语例句对。
37.根据权利要求35所述的装置,其特征在于,该装置还包括补充检索単元,用于在某查询项不是为差集的逻辑关系相邻后端的查询项,且该查询项对应的检索结果低于预设的最低检索要求时,将该查询项中的各词语分别与所述“词”索引表中的索引键进行匹配,将匹配的索引键对应的索引值作为该查询项的检索結果。
38.根据权利要求32所述的装置,其特征在于,所述结果整合単元具体包括 整合处理子单元,用于在所述请求解析单元解析出所述query包含多个查询项时,利用所述请求解析単元解析出的各查询项之间的逻辑关系,对所述各查询项对应的检索结果进行整合处理; 排序处理子单元,用于将整合处理后的检索结果进行排序,其中所述排序的依据包括以下所列之一或组合检索结果来源的置信状況,以及,检索结果与所述query的匹配状况。
39.根据权利要求38所述的装置,其特征在于,所述检索结果与所述query的匹配状况F(Ri)为
40.根据权利要求39所述的装置,其特征在于,如果iten^为Ri的索引,S(Ri, Itemj)为 1,否则 8 (Ri, itenij)为 0 ;如果 wordk 为 Ri 的索引,6 (Ri, wordk)为 I,否则 6 (Ri, itenij)为 0 ; 如果为交集的逻辑关系[+凡两端的查询项均为Ri的索引,5 (Ri, [+]J为1,否则S (Ri, [+]m)为 0 ; 如果为差集的逻辑关系[_]n相邻前端的查询项为Ri的索引且相邻后端的查询项不是Ri 的索引,则 6 (Ri, [-] )为 1,否则 8 (Ri, [-]n)为 O。
全文摘要
本发明提供了一种例句索引创建方法和装置以及例句检索方法和装置,通过对例句库中的例句进行文本分析后,为例句建立特殊的索引,用户在输入基于语法的高级检索时,对用户输入的检索请求进行解析,利用解析出的查询项,获取各查询项的检索结果,并根据解析出的各查询项之间的逻辑关系,对各查询项的检索结果进行整合处理。其中,上述建立的索引和查询项为以下所列的至少一种例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。通过本发明能够实现基于语法的高级检索,从而提高检索效果。
文档编号G06F17/27GK102654866SQ20111004984
公开日2012年9月5日 申请日期2011年3月2日 优先权日2011年3月2日
发明者吴华, 吴甜, 王海峰, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1