机器翻译方法和机器翻译系统的制作方法

文档序号:6488485阅读:346来源:国知局
机器翻译方法和机器翻译系统的制作方法
【专利摘要】本发明公开了一种机器翻译方法和机器翻译系统。所述机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。
【专利说明】机器翻译方法和机器翻译系统
【技术领域】
[0001]本发明一般地涉及机器翻译领域。更具体地说,本发明涉及用于将源语言的原文翻译为目标语言的译文的机器翻译方法和机器翻译系统。
【背景技术】
[0002]机器翻译技术是指使用计算机等计算设备将一种自然语言(一般称为源语言)的原文翻译为另一种自然语言(一般称为目标语言)的译文的技术。由于这一技术由机器完成,所以与人工翻译相比,可以以相对短的时间处理大量的翻译工作。近年来,机器翻译技术得到了长足的发展。
[0003]机器翻译技术大体上可以分为三类:基于规则的机器翻译技术(Rule-basedmachine translation, RBMT),基于实例的机器翻译技术(Example-based machinetranslation, EMBT)和基于统计的机器翻译技术(Statistical Machine Translation)。
[0004]基于规则的机器翻译技术一般需要借助于词典、模板和人工整理的规则进行。需要对要被翻译的源语言的原文进行分析,并对原文的意义进行表示,然后再生成等价的目标语言的译文。一个好的基于规则的机器翻译设备,需要有足够多、覆盖面足够广的翻译规贝U,并且有效地解决规则之间的冲突问题。由于规则通常需要人工整理,因此,人工成本高、很难得到数量非常多、覆盖非常全面的翻译规则,并且不同人给出的翻译规则冲突的概率较大。
[0005]基于实例的机器翻译技术以实例为基础,主要利用预处理过的双语语料和翻译词典进行翻译。在翻译的过程中,首先在翻译实例库搜索与原文片段相匹配的片段,再确定相应的译文片段,重新组合译文片段以得到最终的译文。翻译实例的覆盖范围和存储方式直接影响着这种翻译技术的翻译质量和速度。
[0006]基于统计的机器翻译技术是基于双语语料库的,其将双语语料库中的翻译知识通过机器学习的方法表示为统计模型并抽取翻译规则,按照翻译规则将需要翻译的原文翻译为目标语言的译文。由于基于统计的机器翻译技术需要的人工处理少、不依赖于具体的实例、不受领域限制、处理速度快,所以相对于其它两种机器翻译技术具有明显的优势。本发明主要涉及基于统计的机器翻译技术。
[0007]如上所述,在基于统计的机器翻译技术中,翻译规则是非常重要的翻译资源。基于统计的机器翻译技术要想取得较好的翻译质量,前提之一就是要有足够多且足够好的双语平行语料,使得计算机等计算设备能够基于双语平行语料自动学习到覆盖面足够广的翻译规则。
[0008]可见,在基于统计的机器翻译技术中,需要足够多且足够好的双语平行语料以及翻译规则。
[0009]然而,对于很多语言来说,要获取高质量、大规模的双语平行语料库较为困难。而对于一些语言来说,存在着这种语言与多种语言之间的大量的双语语料。例如,中日的双语平行语料较少,但中英、英日的双语平行语料较多。[0010]因此,存在一些机器翻译设备,其借助于中间语言进行源语言到目标语言的翻译。
[0011]然而,现有技术中存在的问题是机器翻译技术尤其是借助于中间语言的机器翻译技术的翻译质量存在提高的需要。

【发明内容】

[0012]在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0013]本发明的目的是提供一种机器翻译设备和机器翻译方法,能够通过对于同一原文通过多种手段给出多个译文候选,并采用合理的机制筛选出最佳的译文来提高翻译质量。
[0014]同时,本发明还从语料、译文候选筛选、规则等多个方面提出了对于借助于中间语言进行翻译的机器翻译技术的改进,以进一步提高翻译质量。
[0015]为了实现上述目的,根据本发明的一个方面,提供一种机器翻译方法,其包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。
[0016]根据本发明的另一方面,提供一种机器翻译设备,其包括:多个机器翻译设备,用于将源语言的原文翻译为目标语言,以得到多个候选译文;语言模型,用于针对多个候选译文分别计算语言模型得分;设备得分获取装置,被配置为分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;长度得分计算装置,被配置为基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;总得分计算装置,被配置为基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及译文选择装置,被配置为选择总得分最高的候选译文作为机器翻译的结果。
[0017]另外,根据本发明的另一方面,还提供了 一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
[0018]此外,根据本发明的再一方面,还提供了 一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
[0019]在下面的说明书部分中给出本发明的其他方面,其中,详细说明用于充分地公开本发明的优选实施例,而不对其施加限定。
【专利附图】

【附图说明】
[0020]参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:[0021]图1是示出根据本发明的机器翻译方法的流程图;
[0022]图2是示出扩展语料的获取方法的流程图;
[0023]图3是示出根据本发明的第二翻译设备将源语言的原文翻译为目标语言的译文的流程图;
[0024]图4是示出扩展规则的获取方法的示意图;
[0025]图5是示出根据本发明的机器翻译系统的示例结构的图;
[0026]图6是示出根据本发明的扩展语料生成装置的示例结构的图;
[0027]图7是示出根据本发明的第二翻译设备的示例结构的图;
[0028]图8是示出根据本发明的扩展规则生成装置的示例结构的图;以及
[0029]图9是示出个人计算机的示例性结构的框图。
【具体实施方式】
[0030]在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与设备及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
[0031]在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或多个其它附图或实施方式中示出的元素和特征相结合。
[0032]如上所述,在采用多个机器翻译设备对同一原文进行翻译时,并不存在有效的手段对来自多个机器翻译设备的多个候选译文进行合理的评价以选择最佳译文。
[0033]本发明的发明人意识到至少可以从以下三个方面对译文进行评价:语言模型、翻译设备给出的特征、原文译文长度比。本发明不限于此,可以将其它方面的评价结果与本发明提出的三个方面中的至少一个的评价结果相融合,作为最终的评价结果。
[0034]这里应指出,机器翻译设备的原文和译文不限于句子,也应包括由句子组成的段落,以及句子的一部分。
[0035]下面参照图1详细描述根据本发明的机器翻译方法的细节。
[0036]图1示出了根据本发明的机器翻译方法的流程图。
[0037]根据本发明的机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文(步骤SI);利用语言模型,针对多个候选译文分别计算语言模型得分(步骤S2);分别获得多个机器翻译设备给出的关于多个候选译文的设备得分(步骤S3);基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分(步骤S4);基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分(步骤S5);以及选择总得分最高的候选译文作为机器翻译的结果(步骤S6)。
[0038]在步骤SI中,利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文。[0039]应注意,本发明能够利用的机器翻译设备可以包括上面提到的各种机器翻译设备,如基于规则的机器翻译设备、基于实例的机器翻译设备、基于统计的机器翻译设备等。显然,也包括借助于中间语言进行翻译的机器翻译设备,但不限于此,只要机器翻译设备能够实现将源语言翻译为目标语言的功能即可。
[0040]在步骤S2中,利用语言模型,针对多个候选译文分别计算语言模型得分。
[0041]语言模型包括能够针对候选译文,从候选译文本身的特性,例如候选译文的流畅度、语法结构或语义结构的等方面,评价候选译文质量的语言模型。
[0042]语言模型大体可分为如下几类:基于译文流畅度的语言模型(如N元语言模型)、基于译文语法结构或语义结构的语言模型(如结构化语言模型)。
[0043]例如,N元语言模型可以计算一个句子的出现的概率来测试句子的流畅度。语言模型得分可以反映哪个词序列出现的可能性更大。例如,假设句子S=W1W2W3W4W5WfWn^md表示一个句子,W表示句子中的一个单元(词或字等),句子S的概率可以表示为:
[0044]P (S) =P (W1) P (W21W1) P (w31W1W2)...p (wn | W1W2…Wlri)
[0045]上式中的各概率及条件概率可通过对于语料库中的单语语料的学习而获得。
[0046]可以以概率值本身,或经过任何适当的变换处理等得到语言模型得分。
[0047]N元语言模型描述一个句子中单 元序列的线性关系,而结构化语言模型引入语法信息或语义结构。通过分析句子的语法信息和语义结构,并用树的形式对句子进行表示,来构建相应的语言模型。在给句子打分的时候,首先分析句子的结构信息,然后针对句子的结构信息给句子进行打分。
[0048]语言模型例如可以通过对语料库进行学习而生成。语言模型的生成方法在此不再赘述,本发明的意图在于利用语言模型,从语言模型的角度对候选译文进行评价。
[0049]在步骤S3中,分别获得多个机器翻译设备给出的关于多个候选译文的设备得分。
[0050]机器翻译设备在给出其输出结果即译文之前,通常会产生多个译文候选,通过机器翻译设备内部的评价方法对多个译文候选进行评价,并根据评价结果输出最佳的译文。
[0051]有的机器翻译设备会在输出译文的同时,输出该译文对应的设备得分;有的机器翻译设备虽然并不将设备得分与译文同时输出,但可以获得作为中间结果的设备得分。只要能够从机器翻译设备获得其给出的设备得分,就可以对于该译文执行本发明的步骤S3。
[0052]应注意,即使对于某些译文,无法获得其对应的设备得分,由于只要有译文就能计算本发明步骤S2中的语言模型得分以及下面将描述的长度得分,因此,这样的机器翻译设备及其译文仍适用于本发明的方法和系统,可以基于译文的语言模型得分和长度得分的至少一个,对该译文进行评价。
[0053]在下文所述的本发明的第一翻译设备、第二翻译设备、第三翻译设备中,均可通过如下方法计算设备得分:根据机器翻译设备给出的特征和权重,计算其输出的候选译文的设备得分。
[0054]其中,特征可以包括正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率、原文中有多少词需要调序等。各个特征的权重之和等于1,权重的具体取值可根据经验或语言学规律指定,或利用如最小错误率训练算法(Minimum Error Rate Training,MERT)在大量语料基础上训练得到。
[0055]例如,某一机器翻译设备使用M个特征W ('O,s表示原文,t表示译文,i表示特征的序号,i=l, 2,…,M,M为自然数,相应的特征权重为。则译文t的设备得分S (t)可
通过下式计算:
【权利要求】
1.一种机器翻译方法,包括: 利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文; 利用语言模型,针对多个候选译文分别计算语言模型得分; 分别获得多个机器翻译设备给出的关于多个候选译文的设备得分; 基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分; 基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及 选择总得分最高的候选译文作为机器翻译的结果。
2.如权利要求1所述的机器翻译方法,其中,所述分别计算语言模型得分包括: 利用语言模型,基于候选译文的流畅度、语法结构或语义结构的至少一个,计算每一个候选译文的语言模型得分。
3.如权利要求1所述的机器翻译方法,其中,所述分别获得设备得分包括: 根据机器翻译设备给出的特征和权重,计算其输出的候选译文的设备得分。
4.如权利要求1所述的机器翻译方法,其中,所述分别计算长度得分包括: 根据原文的长度和候选译文的长度之比与预定值的比较,计算每一个候选译文的长度得分。
5.如权利要求1所述的机器翻译方法, 其中,所述多个机器翻译设备包括:基于扩展语料训练的第一翻译设备; 其中,所述扩展语料通过如下步骤获得: 对于源语言和中间语言的第一语料库中的双语句对,将双语句对中的中间语言翻译为目标语言,以获得源语言和目标语言的双语句对,作为第一新双语句对; 对于中间语言和目标语言的第二语料库中的双语句对,将双语句对中的中间语言翻译为源语言,以获得源语言和目标语言的双语句对,作为第二新双语句对;以及基于第一新双语句对和第二新双语句对,获得扩展语料。
6.如权利要求5所述的机器翻译方法,其中,所述基于第一新双语句对和第二新双语句对,获得扩展语料包括: 去除不满足下述条件的第一新双语句对和第二新双语句对:新双语句对中的源语言的句子的长度与目标语言的句子的长度之比大于第一阈值且小于第二阈值;以及 将剩余的第一新双语句对和第二新双语句对与现有的源语言和目标语言的双语句对进行合并和去除重复,以获得扩展语料。
7.如权利要求1所述的机器翻译方法, 其中,所述多个机器翻译设备包括:第二翻译设备,所述第二翻译设备包括级联的能够在源语言和中间语言之间进行翻译的第一翻译子设备和能够在中间语言和目标语言之间进行翻译的第二翻译子设备; 其中,利用第一翻译子设备,将源语言的原文翻译为中间语言的多个中间结果;利用第二翻译子设备,将多个中间结果的每一个翻译为目标语言的多个译文候选;并从多个译文候选中选择最佳的一个作为候选译文; 其中,所述选择步骤包括:对于多个译文候选的每一个,根据第一翻译子设备给出的特征和权重,计算其第一翻译子设备得分,并根据第二翻译子设备给出的特征和权重,计算其第二翻译子设备得分;以及 将第一翻译子设备得分和第二翻译子设备得分之和最大的译文候选,作为候选译文。
8.如权利要求1所述的机器翻译方法, 其中,所述多个机器翻译设备包括:基于扩展规则的第三翻译设备; 其中,所述扩展规则通过如下步骤获得: 基于源语言和中间语言的第一语料库,抽取关于源语言和中间语言的第一规则; 基于中间语言和目标语言的第二语料库,抽取关于中间语言和目标语言的第二规则; 选择第一规则和第二规则使得第一规则的目标端与第二规则的源端相同;以及 基于所选择的第一规则的源端和第二规则的目标端,生成扩展规则。
9.如权利要求8所述的机器翻译方法,其中,所述生成扩展规则包括: 将所选择的第一规则的源端和第二规则的目标端作为扩展规则的源端和目标端;并且基于所选择的第一规则和第二规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率,分别计算扩展规则的正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率; 其中,对于具有同一源端的多个扩展规则,仅保留其正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率之和最大的前K个扩展规则,K为预定自然数。
10.一种机器翻译系统,包括: 多个机器翻译设备,用于将源语言的原文翻译为目标语言,以得到多个候选译文; 语言模型,用于针对多个候选译文分别计算语言模型得分; 设备得分获取装置,被配置为分别获得多个机器翻译设备给出的关于多个候选译文的设备得分; 长度得分计算装置,被配置为基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分; 总得分计算装置,被配置为基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及 译文选择装置,被配置为选择总得分最高的候选译文作为机器翻译的结果。
【文档编号】G06F17/28GK103678285SQ201210320544
【公开日】2014年3月26日 申请日期:2012年8月31日 优先权日:2012年8月31日
【发明者】李贤华, 郑仲光, 付亦雯, 孟遥, 于浩 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1