计算句子相似度的方法和装置以及机器翻译的方法和装置的制作方法

文档序号:6568242阅读:179来源:国知局
专利名称:计算句子相似度的方法和装置以及机器翻译的方法和装置的制作方法
计算句子相似度的方法和装置以及机器翻译的方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种计算句子相似度的方法和装置以及机器翻译的方法和装置。
背景技术
句子相似度计算在问题检索、双语例句检索、机器翻译、文档文摘等领域都有很重要的应用价值,其中采用怎样的句子相似度计算方法能够准确地体现两个句子之间的相似状况是影响上述应用质量的关键。举一个在机器翻译技术中的应用,在机器翻译技术中通常使用预处理过的双语例句作为主要翻译资源,通过编辑与待翻译句子匹配的相似例句来生成最终译文。具体地,包括以下步骤I)在翻译实例库中搜索与待翻译句子匹配的相似例句。例如待翻译句子为This is a pencil。相似例句为That is a pen。 2)识别待翻译句子和相似例句之间的差异词This和That是差异词,pencil和pen是差异词。3)将待翻译句子中的差异词对应的译文作为候选译文片段。即“这”和“铅笔”作为候选译文片段。4)在相似例句的译文中,利用候选译文片段替换相似例句中差异词的译文,得到待翻译句子的译文。相似例句的译文为“那是一只钢笔”,用“这”替换“那”,用“铅笔”替换“铅笔”,得到待翻译句子的译文为“这是一只铅笔”。由以上机器翻译过程可以看出,如何选择相似例句是影响翻译质量高低的关键因素。现有的句子相似度计算通常采用计算句子之间编辑距离的方式,编辑距离由从一个句子转换到另一个句子所需要的最少操作数目确定,所述操作可以包括插入、删除或替换等,如果两个句子之间的编辑距离越小,则确定两个句子之间的相似度越高,但这种方式
会存在一定缺陷。例如,如果待翻译句子为CanI take a picture of the painting 通过计算编辑距离方式选择的相似例句为Can I take a picture of the car 利用该相似例句形成的译文为我能为这辆油画拍张照片吗?如果将句子Can we take a photo of the painting作为待翻译句子的相似例句,则形成的译文为我能为这幅油画拍张照片吗?可以看出,虽然句子Can we take a photo of the painting与待翻译句子的编辑距离大于句子Can I take a picture of the car与待翻译句子的编辑距离,但其与待翻译句子的相似性要高于句子Can I take a picture of the car,从而形成的译文质量也较闻。上述的问题就是因为在计算句子之间相似度时,没有考虑两句子差异词之间的关系。虽然有人提出在相似度的计算中基于同义词词典来考虑差异词之间的相似程度,但在很多应用下,诸如上述机器翻译应用中,差异词与上下文之间搭配关系相比较语义来说,在相似度计算中具有更加重要的意义,更能够准确地体现出两句子之间的匹配程度,对上述应用的质量影响更大。

发明内容本发明提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,以便于更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。具体技术方案如下一种计算句子相似度的方法,该方法包括A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。具体地,在所述步骤B中,按照如下公式为各差异词打分
权利要求
1.一种计算句子相似度的方法,其特征在于,该方法包括A、对第一句子和第二句子进行比较,确定差异词对;B、利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;C、利用差异词对中各差异词的打分结果,确定差异词对的打分;D、利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
2.根据权利要求1所述的方法,其特征在于,在所述步骤B中,按照如下公式为各差异词打分
3.根据权利要求1或2所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分
4.根据权利要求1所述的方法,其特征在于,该方法还包括确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;所述步骤C中确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。
5.根据权利要求4所述的方法,其特征在于,差异词的特征向量的确定方式具体为查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
6.根据权利要求4所述的方法,其特征在于,按照如下公式计算所述两差异词的相似距离dist(w,w) = A-Cosine(F(w),F(w)),其中,为差异词w和#的相似距离,A为预设的正数,F(W)为差异词w的特征向量,F(#)为差异词#的特征向量,CosineOF(HFOiO)为F(W)和的夹角余弦。
7.根据权利要求4、5或6所述的方法,其特征在于,在所述步骤C中,按照如下公式为差异词对打分
8.一种机器翻译的方法,其特征在于,该机器翻译的方法包括` 51、采用如权利要求1所述的方法计算待翻译句子和预设的例句库中句子的相似度; `52、选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数; ` 53、利用所述相似例句的译文得到所述待翻译句子的译文。
9.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤SI具体包括 ` 511、确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;`` ` 512、采用如权利要求1所述的方法计算待翻译句子和所述步骤Sll确定的句子之间的相似度。
10.根据权利要求8所述的机器翻译的方法,其特征在于,所述步骤S3具体包括 531、识别所述待翻译句子和所述相似例句之间的差异词; 532、将所述待翻译句子中的差异词对应的译文作为候选译文片段; 533、在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
11.根据权利要求8所述的机器翻译的方法,其特征在于,该机器翻译的方法还包括在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
12.—种计算句子相似度的装置,其特征在于,该装置包括 句子比较单元,用于对第一句子和第二句子进行比较,确定差异词对; 差异词打分单元,用于利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到; 差异词对打分单元,用于利用差异词对中各差异词的打分结果,确定差异词对的打分; 相似度确定单元,用于利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。
13.根据权利要求12所述的装置,其特征在于,所述差异词打分单元按照如下公式为各差异词打分
14.根据权利要求12或13所述的装置,其特征在于,所述差异词对打分单元按照如下公式为差异词对打分
15.根据权利要求12所述的装置,其特征在于,该装置还包括相似距离确定单元,用于确定差异词对中两差异词的特征向量,利用所述两差异词的特征向量,计算所述两差异词的相似距离;所述差异词对打分单元在确定差异词对的打分时,进一步利用差异词对中两差异词的相似距离。
16.根据权利要求15所述的装置,其特征在于,所述相似距离确定单元查询所述搭配概率模型,将与差异词的搭配概率达到预设搭配概率阈值的词语构成该差异词的特征向量。
17.根据权利要求15所述的装置,其特征在于,所述相似距离确定单元按照如下公式计算所述两差异词的相似距离
18.根据权利要求15、16或17所述的装置,其特征在于,所述差异词对打分单元按照如下公式为差异词对打分
19.一种机器翻译的装置,其特征在于,该机器翻译的装置包括如权利要求12所述的计算句子相似度的装置,用于计算待翻译句子和预设的例句库中句子的相似度;相似例句选择单元,用于选择相似度排在前N个的句子作为所述待翻译句子的相似例句,N为预设的正整数;译文形成单元,用于利用所述相似例句的译文得到所述待翻译句子的译文。
20.根据权利要求19所述的机器翻译的装置,其特征在于,该机器翻译的装置还包括初步选择单元,用于确定所述例句库中与所述待翻译句子之间的编辑距离满足预设要求的句子;所述计算句子相似度的装置计算待翻译句子和所述初步选择单元确定的句子之间的相似度。
21.根据权利要求19所述的机器翻译的装置,其特征在于,所述译文形成单元具体包括差异词识别子单元,用于识别所述待翻译句子和所述相似例句之间的差异词;片段构造子单元,用于将所述待翻译句子中的差异词对应的译文作为候选译文片段;译文形成子单元,用于在所述相似例句的译文中,利用候选译文片段替换相似例句中对应差异词的译文,得到所述待翻译句子的译文。
22.根据权利要求19所述的机器翻译的装置,其特征在于,该机器翻译的装置还包括显示单元,用于在显示所述待翻译句子的译文的同时,将采用的相似例句以及采用的相似例句和所述待翻译句子的各差异词对的打分结果进行显示。
全文摘要
本发明提供了一种计算句子相似度的方法和装置以及机器翻译的方法和装置,其中计算句子相似度的方法包括对第一句子和第二句子进行比较,确定差异词对;利用差异词对中差异词与其所在第一句子或第二句子中其他词语的搭配概率,为各差异词打分,其中两词语之间的搭配概率通过查询搭配概率模型得到,所述搭配概率模型中两词语之间的搭配概率由所述两词语在预设的语料库中的共现次数统计得到;利用差异词对中各差异词的打分结果,确定差异词对的打分;利用各差异词对的打分结果,确定所述第一句子和所述第二句子的相似度。通过本发明能够更加准确地体现两句子之间的匹配程度,从而提高其用于诸如机器翻译等应用的质量。
文档编号G06F17/28GK103034627SQ20111030352
公开日2013年4月10日 申请日期2011年10月9日 优先权日2011年10月9日
发明者刘占一, 吴华, 王海峰 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1