一种对例句检索结果进行排序的方法及装置的制作方法

文档序号:6435065阅读:143来源:国知局
专利名称:一种对例句检索结果进行排序的方法及装置的制作方法
一种对例句检索结果进行排序的方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种对例句检索结果进行排序的方法及装置。
背景技术
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用户输入相匹配的例句,帮助用户获得相关语言的正确用法。但是现有的例句检索系统在对检索结果的排序过程中,不考虑用户输入的查询词在某个具体的例句中与例句上下文之间的相互关系,这样很可能出现排在检索结果前列的例句,并不是用户真正希望获取的例句。例如针对用户输入的查询词“提高” + “效率”,得到下面两个匹配例句1、从某种意义上说,生产力的提高可以实现更高的效率。2、这篇文章详细的解释了如何提高大规模检索系统的效率。通常来说,当用户输入多个查询词,这多个查询词之间是有联系的,用户希望看到的是这几个查询词在例句中是如何被联合使用的。在例句2中,“提高”与“效率”恰好构成搭配关系,具有较强的内在联系,而例句1中,“提高”实际上是与“生产力”构成了搭配, “提高”与“效率”之间的联系并不强,对用户来说,显然例句2才是他真正希望获取的内容。 由于现有技术对例句检索结果进行排序时,不能对例句1和例句2这两种情况进行区分,从而导致与用户需求不够相关的检索结果被排在前列,从而影响了用户的浏览效率,增加了系统的响应次数。

发明内容本发明所要解决的技术问题是提供一种对例句检索结果进行排序的方法及装置, 以解决现有的例句检索系统中存在的影响用户浏览效率,增加系统响应次数的缺陷。本发明为解决技术问题而采用的技术方案是提供一种对例句检索结果进行排序的方法,包括A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。根据本发明之一优选实施例,所述句库包括单语句库或双语句库。根据本发明之一优选实施例,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。根据本发明之一优选实施例,所述方法进一步包括如果所述句库为双语句库,在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。根据本发明之一优选实施例,所述方法进一步包括在展示各个匹配例句时,确定并展示各匹配例句与所述查询词之间的搭配强度等级。本发明还提供了一种对例句检索结果进行排序的装置,包括接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含各查询词的匹配例句;计算单元,用于计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。根据本发明之一优选实施例,所述句库包括单语句库或双语句库。根据本发明之一优选实施例,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词相互之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。根据本发明之一优选实施例,所述装置进一步包括展示单元,如果所述句库为双语句库,则所述展示单元在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。根据本发明之一优选实施例,所述装置进一步包括确定单元,用于在展示各个匹配例句时,确定各匹配例句与所述查询之间的搭配强度等级。由以上技术方案可以看出,通过计算各个匹配例句中各查询词之间的搭配强度, 并根据搭配强度对匹配例句进行排序和展示,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。

图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图;图2为本发明中例句检索结果展示界面的实施例一的示意图;图3为本发明中例句检索结果展示界面的实施例二的示意图4为本发明中对例句检索结果进行排序的装置的实施例的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。请参考图1,图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图。如图1所示,所述方法包括步骤101 获取用户的查询词。步骤102 从句库中检索包含各查询词的匹配例句。步骤103 计算各个匹配例句与查询词之间的搭配强度。步骤104 按照匹配例句与查询词之间的搭配强度的大小对各个匹配例句进行排序。下面对上述步骤进行具体说明。用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本发明实施例中将只考虑两个或两个以上的查询词在例句中搭配关系的状况,因此在步骤101 中,获取的用户查询词为多个查询词。在步骤102中,从已有的句库中检索包含查询词的匹配例句,句库可以是单语句库或双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,在检索得到源语言的匹配例句时, 其对应的目标语言例句也可以相应得到。步骤103中,匹配例句与查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定。搭配概率是指词语之间形成搭配关系的可能性。例如“提高”常和“效率” 一起使用,那么“提高”和“效率”之间的搭配概率就较高,而“提高”和“面积”很少会在一起使用,那么“提高”和“面积”之间的搭配概率就很小。搭配概率可以通过现有技术获得,例如通过线下的大规模语料库进行词与词之间的共现概率的统计,就可以得到包含词和词之间的搭配概率的语言模型。由于在自然语言处理中,计算词和词之间的多元共现概率是非常成熟的技术,因此在本发明中将不再赘述其具体内容。匹配例句与查询词之间的搭配强度用于衡量匹配例句中各查询词之间结合的紧密程度,利用搭配强度,可以对相同的查询词在不同匹配例句中的应用进行区分,从而找到在匹配例句中,各查询词相互之间联系紧密的匹配例句返回给用户,这些匹配例句通常也是用户真正希望获得的。搭配强度在考虑词语之间的搭配概率的基础上有多种实施方式,其中一种方式是搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值。 以公式表示如下

权利要求
1.一种对例句检索结果进行排序的方法,其特征在于,所述方法包括A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。
2.根据权利要求1所述的方法,其特征在于,所述句库包括单语句库或双语句库。
3.根据权利要求1所述的方法,其特征在于,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括如果所述句库为双语句库,在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括在展示各个匹配例句时,确定并展示各匹配例句与所述查询词之间的搭配强度等级。
6.一种对例句检索结果进行排序的装置,其特征在于,所述装置包括接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含各查询词的匹配例句;计算单元,用于计算各个匹配例句与所述查询词之间的搭配强度,其中匹配例句与所述查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定,词语之间搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。
7.根据权利要求6所述的装置,其特征在于,所述句库包括单语句库或双语句库。
8.根据权利要求6所述的装置,其特征在于,匹配例句与所述查询词之间的搭配强度等于各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的比值,或者,各查询词之间的搭配概率中的最大值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率中的最大值的差值,或者,各查询词之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的比值,或者,各查询词相互之间的搭配概率的平均值与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率的平均值的差值,或者,各查询词之间的搭配概率之和与各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率之和的比值,与长度修正因子的乘积,其中所述长度修正因子是一个与匹配例句的长度有关的函数。
9.根据权利要求6所述的装置,其特征在于,所述装置进一步包括展示单元,如果所述句库为双语句库,则所述展示单元在展示各个匹配例句时,展示所述双语句库中与各个匹配例句互为译文的另一语言的例句。
10.根据权利要求6所述的装置,其特征在于,所述装置进一步包括确定单元,用于在展示各个匹配例句时,确定各匹配例句与所述查询之间的搭配强度等级。
全文摘要
本发明提供了一种对例句检索结果进行排序的方法及装置,其中所述方法包括A.获取用户的查询词;B.从句库中检索包含查询词的匹配例句;C.计算各个匹配例句与查询词之间的搭配强度,其中匹配例句与查询词之间的搭配强度由各查询词之间的搭配概率及各查询词与匹配例句中除各查询词之外的其他词之间的搭配概率来确定;D.按照匹配例句与所述查询词之间的搭配强度对各个匹配例句进行排序。通过上述方式,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。
文档编号G06F17/30GK102364469SQ201110303380
公开日2012年2月29日 申请日期2011年10月9日 优先权日2011年10月9日
发明者刘占一, 吴华, 王海峰 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1