一种例句检索的方法及系统的制作方法

文档序号:6379725阅读:156来源:国知局
专利名称:一种例句检索的方法及系统的制作方法
技术领域
本发明涉及自然语言处理领域,特别地涉及一种例句检索的方法及系统。
背景技术
随着互联网技术的深入发展,使得人们在写作或语言学习中获得所需的信息更加便利。例句检索辅助用户获取与输入匹配的(双语)例句,从而满足用户了解词的用法或翻译的需求。另外,在机器翻译中,也会用到例句检索从而使得翻译更加精准。截至目前为止,有关例句检索中query (即查询词)与例句相关性计算方法主要有以下几种一是根据例句中匹配的query个数或长度计算;二是根据例句长度及匹配query字符串长度计算;三是根据query与例句的编辑距离计算。如CN 102346777公开了一种对例句检索结果进行排序的方法和装置,其中使用搭配来体现query的用法,但没有综合考虑例句中query的有关句法特征、例句本身的特征等因素,并且搭配概率的计算公式没有考虑query在搭配中所起的作用或所做的成分,搭配概率计算中笼统的采用了统一的计算公式。CN 1471030公开了一种基于加权编辑距离的自动例句检索的系统和方法,其中,通过编辑距离来进行检索,但依然侧重于query的字符串匹配。这几种方法都侧重于词层次的字符串匹配,基于字符串匹配的相关性计算方法只侧重给出包含query的例句,没有涉及到给出的例句中是否体现了 query用法的多样性及 翻译的多样性,这样排序靠前的例句很可能满足不了用户的意图。用户使用例句检索最主要是为了解query的相关用法或者翻译,而现有的例句与query的相关性计算大多只考虑了字符串层次的匹配,无法满足用户的需求,具体输出的例句检索结果存在以下问题I.例句仅注重词层次的匹配,未必体现query的常用(或某种)用法或翻译的多样性;2.可能输出具有歧义的结果;如输入query :有道输出他右边太阳穴上有道伤痕(只列出单语部分)。而用户意图为输出含“经营有道”、“取之有道”之类的例句,这样的结果与用户意图相左。3.输出结构不完整的例句;4.输出例句过长或过短;5.输出例句所含信息不丰富;如输入query :清明节输出清明节是什么?

发明内容
本发明解决的技术问题在于提供了一种例句检索的方法,以更好地满足用户的需求;本发明还提供了一种例句检索的系统。本发明实施例提供了一种例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。本发明实施例还提供了一种例句检索的系统,包括,查询词获取模块,用于获取用户输入的查询词;查询词处理模块,用于对用户输入的query进行处理;相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算; 相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;例句输出模块,用于输出例句并展示例句中的短语。采用本发明实施例提供的方案,在进行query与例句相关性计算时综合考虑了各种因素例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,引入query相关短语反映query用法,引入句法信息使得含有query句法意义的例句具有优势,引入例句结构完整性信息使得输出例句更加规整,并结合例句句长、所含数字标点的噪音特征共同进行相关性计算,比起其它相关性计算方法显示了优势。对某天的query log进行采样,分别抽取80个中文query与英文query,比较本方法的输出与传统基于字符串匹配方法的例句输出的效果,效果变好的占53%,效果相当的占47%,可见本发明所提方案非常有效。


此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图I是本发明第一实施例流程图;图2是query翻译多样性检索结果展现示意图;图3是query用法多样性检索结果展现示意图;图4是query用法多样性同种短语例句展现示意图;图5是本发明第二实施例系统结构图。
具体实施例方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。如图I所示,是本发明第一实施例流程图,提供了一种进行例句检索的方法,具体包括,步骤S101,获取用户输入的查询词query ;
具体地,用户输入的query中单个的词占的比例较大,此处仅考虑单个词的queryο步骤S102,对用户输入的query进行处理;对用户的query进行处理,是指用户输入时可能会输入多余的空格、标点、数字或乱码,甚至会出现用户输错某个字或词,在这种情况要进行处理,要进行纠错处理。步骤S103,在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;具体地,根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。输出双语例句时,最终概率为中英双语例句相关性概率的算术平均值。具体地,计算方法如下I. query在例句中的与其它词构成短语的短语概率Pphr用户输入query极有可能是想了解query的用法,这种用法在例句中由query与其它词构成的常用短语来体现,在这些短语中,query有可能是短语的核心词,也可能不是,
这两种情况区别计算短语概率,如conflict (冲突)在短语“conflict with”(与......冲
突)中是一个核心词,在“resolve conflict”中为一个非核心词,采用如下短语概率计算
公式
权利要求
1.一种例句检索的方法,其特征在于,包括, 获取用户输入的查询词query ; 在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算; 根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序; 输出例句并展示例句中的短语。
2.根据权利要求I所述的方法,其特征在于,在获取用户输入的查询词后,还包括, 对用户输入的query进行处理。
3.根据权利要求I或2所述的方法,其特征在于,所述在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算具体包括, 根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
4.根据权利要求3所述的方法,其特征在于, query在例句中的与其它词构成短语的短语概率Ppto
5.根据权利要求4所述的方法,其特征在于,相关性概率计算公式如下 Prel= λ 11 OgPphr+ λ 2l0gpsyn+ λ 31 OgPcom+ λ 41 OgPlen+ λ 51 OgPpun 各个概率前面的加权系数λρ λ2、λ3、λ4、λ 5通过开发集训练或者根据实际情况调難iF. O
6.根据权利要求I或2所述的方法,其特征在于,根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序具体包括, 根据Query用法多样性优先原则若根据相关性概率已有包含同一短语的η条例句排在前面,则当前例句相关性概率按照如下公式调整
7.根据权利要求I或2所述的方法,其特征在于,所述输出例句并展示例句中的短语具体为, 在输出例句时,query及其翻译在双语中进行颜色标示,且含有短语的例句在例句右下角进行短语标示,双语右方设置按钮,按任一单语端按钮进行展现或关闭同种搭配的k条例句。
8.根据权利要求7所述的方法,其特征在于,所述展现的方式包括, 按照翻译概率循环输出例句,即先输出第一种翻译的相关性最高的例句,再输出第二种翻译的相关性最高的例句,直至输出第η种翻译的相关性最高例句,再输出第一种翻译的相关性次高的例句;或者 以query与例句中词组成的短语来体现query用法的多样性,即先输出第一种query常用短语的相关性最高的例句,再输出第二种短语的相关性最高的例句,直至输出第η种短语的相关性最高例句,再输出第一种短语的相关性次高的例句。
9.一种例句检索的系统,其特征在于,包括, 查询词获取模块,用于获取用户输入的查询词; 相关性计算模块,用于在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算; 相关性调整模块,用于根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序; 例句输出模块,用于输出例句并展示例句中的短语。
10.根据权利要求9所述的系统,其特征在于,还包括,查询词处理模块,用于对用户输入的query进行处理。
11.根据权利要求9或10所述的系统,其特征在于,所述相关性计算模块具体用于根据例句中query与其它词构成短语的短语概率、相关句法结点概率、句子完整性概率、句长概率、噪音概率进行query与例句的相关性计算。
全文摘要
本发明涉及自然语言处理领域,提供了一种通过查询词进行例句检索的方法,包括,获取用户输入的查询词;对用户输入的query进行处理;在例句库中检索匹配query的例句,并进行所述query与例句的相关性计算;根据用法多样性或翻译多样性原则,进行例句相关性打分调整,进行例句排序;输出例句并展示例句中的短语。本发明还提供了一种通过查询词进行例句检索的系统。采用本发明提供的方案,在进行query与例句相关性计算时综合考虑了各种因素例句中query相关短语特征、句法特征、例句结构完整性特征、句长特征、例句所含标点数字噪音特征综合进行query与例句相关性计算,比起其它相关性计算方法显示了优势。
文档编号G06F17/30GK102890723SQ20121041329
公开日2013年1月23日 申请日期2012年10月25日 优先权日2012年10月25日
发明者杨振东, 石志伟, 周步恋, 车天文, 王更生, 王喜民, 何宏靖, 徐忆苏 申请人:深圳市宜搜科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1