一种对例句检索结果进行排序的方法和装置的制作方法

文档序号:6435116阅读:135来源:国知局
专利名称:一种对例句检索结果进行排序的方法和装置的制作方法
一种对例句检索结果进行排序的方法和装置
技术领域
本发明涉及自然语言处理技术,特别涉及一种对例句检索结果进行排序的方法和
直O
背景技术
随着计算机与互联网技术的深入发展,人们在语言学习中借助计算机强大的计算能力来获取自己需要的信息成为可能,例句检索系统就是一种帮助语言学习的人们获取相关资讯的有力工具,其通过在大规模句库中检索与用户输入相匹配的例句,帮助用户获得相关语言的正确用法。但是,在现有的例句检索系统中,只能为用户提供包含用户查询词的例句,而没有对这些例句进行组织,以一种更符合用户检索目的的方式提供给用户,例如用户输入“performance”,用户除了希望能获取到包含这个词语的句子,还希望得知句子中 “performance”这个词是如何使用的,而词语的使用方式通常是通过其与句子中的其他词的搭配关系来体现的,而现有的例句检索系统,不能对句子中的搭配信息进行识别,这样就导致与用户需求不够相关的例句检索结果出现在用户浏览页靠前的位置,使得用户为了找到想要的信息不得不进行翻页操作,从而降低了用户的浏览效率,也增加了系统的响应次数。

发明内容本发明所要解决的技术问题是提供一种对例句检索结果进行排序的方法和装置, 以解决现有的例句检索系统中存在的影响用户浏览效率,增加系统响应次数的缺陷。本发明为解决技术问题而采用的技术方案是提供一种对例句检索结果进行排序的方法,包括A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。根据本发明之一优选实施例,所述句库包括单语句库或双语句库。根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与所述匹配例句包含的词语个数的比值。根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N 的比值,其中N为正整数且N小于匹配例句包含的词语个数。根据本发明之一优选实施例,所述方法进一步包括对排序后的各个匹配例句进行展不。
根据本发明之一优选实施例,如果所述句库为双语句库,则在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。根据本发明之一优选实施例,所述方法进一步包括在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。根据本发明之一优选实施例,所述方法进一步包括E1、确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语;E2、按照预设的分类策略,对步骤El确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,并在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序并展示。根据本发明之一优选实施例,所述分类策略包括将具有相同词性组合的搭配词对分为一个类别;或者,将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或者,将所有的搭配词对分为一个类别。本发明还提供了一种对例句检索结果进行排序的装置,包括接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含所述查询词的匹配例句;计算单元,用于计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照所述查询词与所述匹配例句之间的搭配强度的大小对各个匹配例句进行排序。根据本发明之一优选实施例,所述句库包括单语句库或双语句库。根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。根据本发明之一优选实施例,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N 的比值,其中N为正整数且小于匹配例句包含的词语个数。根据本发明之一优选实施例,该装置还包括展示单元,用于对排序后的各个匹配例句进行展示。根据本发明之一优选实施例,如果所述句库为双语句库,所述展示单元在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。根据本发明之一优选实施例,该装置还包括标识单元,用于在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。根据本发明之一优选实施例,该装置还包括分类单元,用于确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语并按照预设的分类策略,对确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序;所述展示单元进一步用于展示各类别下经排序后的各搭配词对。根据本发明之一优选实施例,所述分类策略包括将具有相同词性组合的搭配词对分为一个类别;或将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别; 或将所有的搭配词对分为一个类别。
由以上技术方案可以看出,通过计算用户的查询词与匹配例句之间的搭配强度, 并根据搭配强度对匹配例句进行排序和展示,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。

图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图;图2为本发明中例句检索结果的展示界面的实施例一的示意图;图3为本发明中例句检索结果的展示界面的实施例二的示意图;图4为本发明中对例句检索结果进行排序的装置的实施例的结构示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。请参考图1,图1为本发明中对例句检索结果进行排序的方法的实施例的流程示意图。如图1所示,所述方法包括步骤101 获取用户的查询词。步骤102 从句库中检索包含查询词的匹配例句。步骤103 计算查询词与各个匹配例句之间的搭配强度。步骤104 按照查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。步骤105 确定各个匹配例句中与查询词之间的搭配概率大于设定阈值的词语, 并按照预设的分类策略,对确定的各词语分别与查询词组合形成的各搭配词对进行分类, 在各类别下按照搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序。步骤106 展示排序后的各个匹配例句和各类别下经排序后的各搭配词对。下面对上述步骤进行具体说明。用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本发明实施例中将只考虑单个查询词在例句中搭配关系的状况,因此在步骤101中,获取的用户查询词为单个查询词。在步骤102中,从已有的句库中检索包含查询词的匹配例句,句库可以包括单语句库,或者包括双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,在检索得到源语言的匹配例句时,其对应的目标语言例句也可以相应得到。步骤103中,查询词与匹配例句之间的搭配强度由查询词与匹配例句中除查询词之外的其他词之间的搭配概率确定。搭配概率是指一种语言的词语之间形成搭配关系的可能性。例如“提高”常和“效率” 一起使用,那么“提高”和“效率”之间的搭配概率就较高,而“提高”和“面积”很少会在一起使用,那么“提高”和“面积”之间的搭配概率就很小。 搭配概率可以通过现有技术获得,例如通过线下的大规模语料库进行词与词共现概率的统计,就可以得到包含词和词之间的搭配概率的搭配模型。由于在自然语言处理中,计算词和词之间的多元共现概率是非常成熟的技术,因此在本发明中将不再赘述其具体内容。搭配强度用于衡量查询词与例句中除查询词之外的其他部分之间结合的紧密程度,利用搭配强度更容易发现包含查询词的典型应用的相关例句。如果一个较短的匹配例句中,查询词与例句中的多个词都有很高的搭配概率,那么这个匹配例句与查询词的搭配强度就比较高,而这样的匹配例句显然能够为用户带来更全面的信息,从而有助于用户的语曰学习ο搭配强度的计算在考虑搭配概率的基础上可以有多种实施方式,一种实施方式是搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。以公式表达如下
Σj)M( q,E) = WjeE,w^q-
\E I其中,M(q,E)表示查询词q与匹配例句E之间的搭配强度,E表示匹配例句E包含的词语个数,Wj表示匹配例句E中除q之外的词语,q表示查询词,ρ (q,Wj)表示q与Wj 之间的搭配概率。由于在一个句子中,一个词通常只与少数几个词构成搭配关系,因此搭配强度也可以等于匹配例句中与查询词之间搭配概率最高的若干个词的平均搭配概率,即搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率中最大的N个值之和与N 的比值,其中N为正整数且N小于所述匹配例句包含的词语个数。在步骤104中,按照步骤103中计算的搭配强度大小对各个匹配例句进行排序,并在步骤106中,通过展示界面将排序后的各个匹配例句返回给用户。如果前面所说的句库为双语句库时,在展示排序后的各个匹配例句时,还将展示各个匹配例句在双语句库中互为译文的另一语言的例句。请参考图2,图2为本发明中例句检索结果的展示界面的实施例一的示意图。如图 2所示,假设用户输入的查询词(Query)为“广泛”,在例句显示框中,将展示按照搭配强度从大到小排列的包含“广泛”这个词的例句。此外,展示各个匹配例句时,还可以进一步在各个匹配例句中标识与查询词之间的搭配概率大于设定阈值的词语,以供标识的词语在匹配例句中进行突出显示。假设为搭配概率设定的阈值为0. 75,而图2所示的例句显示框内的匹配例句中的“兴趣”、“支持”、“涉及”、“领域”与“广泛”之间的搭配概率均高于0. 75,则可以在匹配例句中采取加粗的形式标识这些词语,除此之外,标识的策略还可以采用高亮、 飘红等形式。是否在各个匹配例句中标识与查询词的搭配概率较高的词语,也可以由用户来控制,如图2所示,在展示界面上有“关闭搭配词显示”按钮,当获取到用户通过点击这个按钮发送的指令后,匹配例句中搭配概率较高的词语的标识状态可以取消。图2显示的展示界面是考虑用户单语学习时的实施例,如果用户是为了进行双语学习,则在本发明的步骤102中,检索匹配例句的句库为双语句库,步骤106中进行展示时, 在展示与用户的查询词的语言相同的匹配例句的同时,也会展示双语句库中与匹配例句互为译文的另一语言的例句。请参考图3,图3为本发明中例句检索结果的展示界面的实施例二的示意图。如图3所示,在例句显示框中显示的例句以双语句对的形式出现。请继续参考图1。步骤105中,首先确定各个匹配例句中与查询词的搭配概率大于设定阈值的词语,如步骤103中已描述的,词语之间的搭配概率通过查询线下生成的包含词语之间共现概率的搭配模型即可得到。这些与查询词的搭配概率大于设定阈值的词语,也就是搭配概率较高的词语,与查询词组合后就成为了搭配词对,步骤105中将对这些搭配词对按照预设的分类策略进行分类,并在各个类别下按照搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序,并在步骤106中通过展示界面展示各类别下经排序后的各搭配词对。例如图2或图3中例句显示框中的匹配例句中的“兴趣” + “广泛”、“广泛” + “支持”、“涉及” + “广泛”和“领域” + “广泛”,都构成了搭配词对。分类策略包括将具有相同词性组合的搭配词对分为一个类别。例如将搭配词对分为下面几种类型 Tl:名词+动词令丁?形容词+名词 丁3:副词+动词......在如图2或图3所示的例句统计信息显示框中,将按照词性组合的类别对搭配词对进行分类显示,在各个类别下,搭配词对以在所有匹配例句中出现的总次数大小为顺序进行排列。例如在所有匹配例句中与“广泛”形成搭配的形容词与名词的搭配词对共有100 个,“兴趣” + “广泛”出现了 2次,“广泛” + “联系”出现了 1次等等。在本实施例中,例句统计信息显示框中,在每个搭配词对的旁边(图中小括号中)也注明了其在所有匹配例句中出现的总次数。通过这样的方式,用户可以轻易了解与查询词相关的用法,从而提高语言学习的效率。分类策略还可以包括将所有的搭配词对分为一个类别。如图2或图3所示的例句统计信息显示框中,在“全部”的类别下,包含了所有的搭配词对,并且各搭配词对是以其在所有匹配例句中出现的次数为顺序进行排列的。分类策略还可以包括将查询词在搭配词对中具有相同词性的搭配词对分为一个类别,这是指仅以查询词的词性作为搭配词对分类的依据,以查询词“广泛”来说,可以分为形容词或副词等等,在形容词的类别下,搭配词对有“广泛” + “联系”、“广泛” + “应用”等等,在副词的类别下,搭配词对有“广泛” + “分布”、“广泛” + “存在”等等。除此之外,分类策略还可包括将搭配词对在句子结构中的成分组合作为分类的依据,例如分为“主语” + “谓语”、“谓语” + “补语”等类别,或者将读音作为分类的依据,例如将搭配词对首字读音的拼音的首字母相同的分为一类,在此不再穷举其他分类策略。请参考图4,图4为本发明中对例句检索结果进行排序的装置的实施例的结构示意框图。如图4所示,所述装置包括接收单元201、检索单元202、计算单元203、排序单元 204、展示单元205、标识单元206及分类单元207。其中接收单元201,用于获取用户的查询词。
用户在进行语言学习时,在查询一个词或多个词时的目的通常是不一样的,在查询一个词的时候,用户希望获得包含该词语的例句,以了解查询词在句子中的用法,而用户在查询多个词时,通常这多个词在使用时是有搭配关系的,用户希望获得包含这几个查询词的例句,同时希望了解这几个查询词之间的搭配关系是如何体现在例句中的。在本发明实施例中将只考虑单个查询词在例句中搭配关系的状况,因此接收单元201获取的用户查询词为单个查询词。检索单元202,用于从句库中检索包含查询词的匹配例句。句库是一个已有的数据库,其包括单语句库或双语句库。单语句库是由一种语言的句子形成的句库,双语句库是由双语句对形成的句库,该句对由两种不同语言的句子构成,并且这两个句子互为对方的译文。句库可以通过现有技术在线下生成,例如单语句库可以从一种语言的大规模语料中得来,而双语句库可以从大规模双语语料中提取得来。如果句库为双语句库,在检索得到源语言的匹配例句时,其对应的目标语言例句也可以相应得到。计算单元203,用于计算查询词与各个匹配例句之间的搭配强度。查询词与匹配例句之间的搭配强度由查询词与匹配例句中除查询词之外的其他词之间的搭配概率确定。搭配概率是指一种语言的词语之间形成搭配关系的可能性。例如 “提高”常和“效率” 一起使用,那么“提高”和“效率”之间的搭配概率就较高,而“提高”和 “面积”很少会在一起使用,那么“提高”和“面积”之间的搭配概率就很小。搭配概率可以通过现有技术获得,例如通过线下的大规模语料库进行词与词共现概率的统计,就可以得到包含词和词之间的搭配概率的搭配模型。由于在自然语言处理中,计算词和词之间的多元共现概率是非常成熟的技术,因此在本发明中将不再赘述其具体内容。搭配强度用于衡量查询词与例句中除查询词之外的其他部分之间结合的紧密程度,利用搭配强度更容易发现包含查询词的典型应用的相关例句。如果一个较短的匹配例句中,查询词与例句中的多个词都有很高的搭配概率,那么这个匹配例句与查询词的搭配强度就比较高,而这样的匹配例句显然能够为用户带来更全面的信息,从而有助于用户的语曰学习ο搭配强度的计算在考虑搭配概率的基础上可以有多种实施方式,一种实施方式是搭配强度等于查询词与匹配例句中除查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。以公式表达如下
权利要求
1.一种对例句检索结果进行排序的方法,其特征在于,所述方法包括A.获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定, 词语之间的搭配概率是指词语之间形成搭配关系的可能性;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
2.根据权利要求1所述的方法,其特征在于,所述句库包括单语句库或双语句库。
3.根据权利要求1所述的方法,其特征在于,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与所述匹配例句包含的词语个数的比值。
4.根据权利要求1所述的方法,其特征在于,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N个值之和与N的比值,其中N为正整数且N小于匹配例句包含的词语个数。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括对排序后的各个匹配例句进行展示。
6.根据权利要求5所述的方法,其特征在于,如果所述句库为双语句库,则在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
7.根据权利要求5所述的方法,其特征在于,所述方法进一步包括在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
8.根据权利要求5所述的方法,其特征在于,所述方法进一步包括E1、确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语;E2、按照预设的分类策略,对步骤El确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,并在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序并展示。
9.根据权利要求8所述的方法,其特征在于,所述分类策略包括将具有相同词性组合的搭配词对分为一个类别;或者,将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或者,将所有的搭配词对分为一个类别。
10.一种对例句检索结果进行排序的装置,其特征在于,所述装置包括接收单元,用于获取用户的查询词;检索单元,用于从句库中检索包含所述查询词的匹配例句;计算单元,用于计算所述查询词与各个匹配例句之间的搭配强度,其中所述查询词与匹配例句之间的搭配强度由所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率确定,词语之间的搭配概率是指词语之间形成搭配关系的可能性;排序单元,用于按照所述查询词与所述匹配例句之间的搭配强度的大小对各个匹配例句进行排序。
11.根据权利要求10所述的装置,其特征在于,所述句库包括单语句库或双语句库。
12.根据权利要求10所述的装置,其特征在于,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率之和与匹配例句包含的词语个数的比值。
13.根据权利要求10所述的装置,其特征在于,所述查询词与匹配例句之间的搭配强度等于所述查询词与匹配例句中除所述查询词之外的其他词之间的搭配概率中最大的N 个值之和与N的比值,其中N为正整数且小于匹配例句包含的词语个数。
14.根据权利要求10所述的装置,其特征在于,该装置还包括展示单元,用于对排序后的各个匹配例句进行展示。
15.根据权利要求14所述的装置,其特征在于,如果所述句库为双语句库,所述展示单元在展示排序后的各个匹配例句时,展示各个匹配例句在所述双语句库中互为译文的另一语言的例句。
16.根据权利要求14所述的装置,其特征在于,该装置还包括标识单元,用于在各个匹配例句中标识与所述查询词之间的搭配概率大于设定阈值的词语,以供标识的词语进行突出显示。
17.根据权利要求14所述的装置,其特征在于,该装置还包括分类单元,用于确定各个匹配例句中与所述查询词之间的搭配概率大于设定阈值的词语并按照预设的分类策略, 对确定的各词语分别与所述查询词组合形成的各搭配词对进行分类,在各类别下按照所述搭配词对在所有匹配例句中出现的次数对各搭配词对进行排序;所述展示单元进一步用于展示各类别下经排序后的各搭配词对。
18.根据权利要求17所述的装置,其特征在于,所述分类策略包括将具有相同词性组合的搭配词对分为一个类别;或将所述查询词在搭配词对中具有相同词性的搭配词对分为一个类别;或将所有的搭配词对分为一个类别。
全文摘要
本发明提供了一种对例句检索结果进行排序的方法和装置,其中所述方法包括A获取用户的查询词;B.从句库中检索包含所述查询词的匹配例句;C.计算所述查询词与各个匹配例句之间的搭配强度;D.按照所述查询词与匹配例句之间的搭配强度的大小对各个匹配例句进行排序。通过上述方式,能够更好地满足用户的语言学习的目的和需求,提高用户的浏览效率,同时减少了系统为满足用户需求而增加的响应次数。
文档编号G06F17/30GK102346777SQ20111030338
公开日2012年2月8日 申请日期2011年10月9日 优先权日2011年10月9日
发明者刘占一, 吴华, 王海峰 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1