一种机器翻译后编辑处理方法与流程

文档序号:13672250阅读:278来源:国知局
技术领域本发明涉及机器翻译领域,特别涉及一种机器翻译后编辑处理方法。

背景技术:
如今互联网已经遍布全球,来自不同国籍和民族的人们能够随时随地分享交流信息;人们也迫切希望能快速畅通的获得网络上的所有信息。故而,多种语言之间准确高效的机器自动翻译在现在以及未来的国际化氛围下,有着极大的市场需求。但是,一个性能高、功能强大、准确率高的互联网多语言翻译系统在现在的技术水平下,还需要有很多重大的技术难点需要克服。在现有的机器翻译水平之下,高质量的可用的机器译文依然是不可得的。目前解决这一问题的一般方式为使用机器翻译作为前期处理,对机器翻译的结果作人工后编辑,从而能够得到可用的翻译结果。一般情况下要得到高质量的翻译结果,对人工后编辑的编辑人员的专业素质要求极高,专家级的人工后编辑人员是必不可少的,但是面对巨大的翻译需求缺口,人工后编辑的工作量极大,数量有限的专家是解决不了如此庞大的任务量,在后编辑中居高不下的人力和时间成本限制了机器翻译的发展和应用。研究者们通过对用户编辑模式和翻译错误类型的分析发现,在机器翻译的结果中,很多错误是重复出现的(如词汇翻译错误,句子结构类型的错误,词语形式的错误等),如果通过人工后编辑来处理这些重复的错误,将消耗极大的人力和物力成本,同时也严重降低了机器翻译的效率和翻译用户体验的满意度。因此很多研究者尝试构建一个自动后编辑模型,以根据机器翻译的错误类型自动得修正包含相同或类似的翻译错误,以减少人工后编辑的工作量,提高机器翻译质量。现有的主流方法大多是根据“机器译文——专家后编辑译文”的平行语料训练出基于SMT(基于统计的机器翻译)的自动后编辑模型。虽然基于统计机器翻译的自动后编辑的研究已经取得了一定的成果;但是统计机器翻译SMT里面具体发生了什么,还有很多是不明确的。就这一后编辑技术而言,仅能知道该方法能够提高最终翻译结果质量,但是不知道具体哪些后编辑操作是有效的(即那部分后编辑操作代表了机器翻译系统的缺陷),这不利于直观的分析机器翻译的弊端。在这些情况下如果能通过自动学习的方式解析出机器翻译的重复错误的相关模式,并且将这些模式化的错误自动更正;可以分析出机器翻译的错误根源,有助于从源头上提高机器翻译的质量。此外机器翻译的错误一般分为两类,第一、译词错误,翻译中译词错误是基本的错误之一,据统计,译词错误(包括词语丢失、多余词语、词语错误、译词不一致等情况)可以占到机器翻译总错误的60%以上;第二、语序错误,译文词语顺序错误,语序语法错误是基本的错误之一,据统计,语序错误(包括置前语序错误、句内疑问词(W)短语语序错误、句内be动词/情态动词(MD)短语语序错误、句内邻居短语语序错误等情况)在机器翻译总错误中所占据的比重很大,而且鉴于不同语言之间存在的巨大的语法差异,语序错误在机器翻译中出现的机率很大,语序错误极大的影响了机器翻译的专业化程度。译词错误和语序错误在机器翻译错误中所占的比重都很大,如果单一的纠正某个错误对机器翻译效果的改进是局部有限的;面对大量的翻译需求,需要一种能够综合提高机器译文质量的办法。

技术实现要素:
本发明的目的在于克服现有技术中所存在的上述不足,提供一种机器翻译后编辑处理方法,通过在对机器译文先进行译词错误修正再进行语序错误调整,使得机器翻译的译文质量显著提高。为了实现上述目的,本发明构建了错词修正规则模板和调序规则模板,根据先错词修正后语序调整的的方法来修改机器翻译的译文错误。其中本发明中的错词修正规则模板包含当前词和替换词的相关信息,所述当前词和替换词的相关信息除包含对应机器译文和标准译文的相关信息外,还包含对应源文的相关信息。所述调序规则模板中包含第一待调序词和第二待调序词的相关信息,以及第一待调序词和第二待调序词的相关信息。为了实现上述发明目的,本发明提供以下技术方案,一种机器翻译后编辑处理方法,包含以下实现过程:(1)构建错词修正规则模板,所述错词修正规则模板包括规则条件和修正动作,其中规则条件包括机器翻译的当前词,当前词的前N个词汇和当前词的后N个词汇,以及当前词对应的译文源词的前N个词汇和后N个词汇,其中N为不小于1的正整数;所述修正动作为:将当前词修正为替换词;构建调序规则模板,所述调序规则模板包括:待调序词对的对应信息,所述待第二待调序词对包括:第一待调序词和第二待调序词,其中所述第一待调序词信息包括:第一待调序词,第一待调序词的前后N个词与对应的词性以及第一待调序词对应原词的前后N个词;所述第二待调序词信息包括:第二待调序词,第二待调序词的前后N个词与对应的词性以及第二待调序词对应源词的前后N个词,其中N为0或者为正整数;(2)使用上述错词修正规则模板提取机器翻译的错词修正规则,根据错词修改规则来修正机器翻译的译词错误;(3)使用上述调序规则模板来提取机器翻译的调序规则,并根据调序规则来调整经过步骤(2)修正后的机器译文中的语序错误。具体的,所述当前词和替换词的获取过程包括:通过将机器译文和标准译文及源文的内容进行对比,当发现机器译文中A词的上下文内容与标准译文中的B词的上下文内容相同,而A≠B时,就将机器译文中的A词作为当前词,而将标准译文中的B词作为替换词。进一步的,其中所述步骤(2)中包括以下实现步骤:(2-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;(2-3)将所述训练样本集与机器译文输入到具有错词修正规则模板的学习机中;(2-4)所述学习机对比机器译文与标准译文和源文的差异,根据错词修正规则模板提取机器译文中的错词修正的第一规则,形成对应的第一规则集合;(2-5)利用第一规则集均修正Dev机器译文;并修正后的译文与Dev标准译文进行比较,计算每一条规则的BLEU增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第一修正规则);(2-6)应用所述第一修正规则来修正机器译文,形成第一修正译文,同样将第一修正规则应用到Dev机器译文;(2-7)将第一修正译文输入学习机中;所述学习机对比第一修正译文与标准译文和源文的差异,根据错词修正规则模板提取第二规则,形成第二规则集;(2-8)利用第二规则集来修正Dev机器译文;并修正后的译文与Dev标准译文进行比较,计算每一条规则的BLEU增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第二修正规则);依次迭代,直到所有抽取的修正规则的BLEU增益值小于设定的阈值,停止计算。进一步的,在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的修正规则提取记录下来;按照返回的先后顺序形成规则序列。进一步的,应用所述规则序列来自动更正机器译文中的错误译词;减少机器译文中的译词错误。进一步的,所述第一待调序词和第二待调序词的获取过程包括:通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在位置交叉的词对时,认为该词对为第二待调序词对,将第二待调序词对中前一个词定义为第一待调序词,将后一个词定义为第二待调序词。进一步的,所述步骤(3)包含以下实现步骤:(3-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;(3-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;(3-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习机中;(3-4)所述学习机对比机器译文与标准译文和源文的差异,根据译词调序规则模板提取机器译文中的语序调整的第一规则,形成对应的第一规则集合;(3-5)利用第一规则集的每条规则来调整开发集机器译文;并将调整后的开发集机器译文与开发集标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第一调序规则;(3-6)应用所述第一调序规则来调整机器译文,形成第一调整译文;(3-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;(3-8)利用第二规则集的每条规则来调整开发集中机器译文;并将调整后的译文与开发集的标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第二调序规则;依次迭代,直到BLEU的增益值小于设定的阈值,停止计算。进一步的,在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的调序规则提取出来;按提取的先后顺序形成规则序列。进一步的,应用所述规则序列来调整经过步骤(2)修正后的机器译文中的语序错误。进一步的,所述当前词可以为空值,即相当于对机器译文缺词的情况。进一步的,所述替换词也可以为空值,即相当于将机器翻译中出现多词的情况,通过替换为空值的情况,将多余的词语删除,使机器翻译的结果变好。进一步的,所述当前词和或替换词也可以为短语,通过短语的增加,删除和替换,可以发现更多的机器翻译的错词情况,使得机器翻译的结果效果显著的提升。进一步的,所述译词调序规则模板中第二待调序词的前N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠后位置的词语前置到句首。进一步的,所述译词调序规则模板中第一待调序词的后N个词可以为空值,这种情况相当于将机器翻译中的处于句中靠前位置的词语后置到句尾。进一步的,所述第一待调序词为由不少于两个个的词组成的词块。进一步的,所述第二待调序词为由不少于两个的词组成的词块。进一步的,所述第一待调序词和,或第二待调序词均为由不少于两个的词组成的词块。与现有技术相比,本发明的有益效果:本发明提供一种机器翻译后编辑处理方法,通过设计错词修正规则模板和调序规则模板来抽取机器翻译中的错词修正规则和调序规则,根据先修正译词错误再调整语序错误的顺序,来修正和调整机器译文的错误,以综合手段来系统的提高机器译文的质量,使得机器翻译的效果显著的提高。本发明的错词修正规则模板和调序规则模板中引入的考虑因数全面,除了具有机器译文、标准译文以外还引入了源文的相关信息;引入原文的方法更加符合翻译的原理和本质(因为翻译是在准确、通顺的基础上,把原文信息转变成另一种语言信息的行为);所提取出来的修正规则也相应的结合了更多的合理条件,能够更加有效的修正机器翻译的译词和语序错误。运用本方法来实现的机器翻译后编辑,实现了机器翻译后编辑的自动化,节省了用于人工后编辑所花费的人力和时间成本,为获得高质量的机器译文扫除了障碍。此外,本发明方法通过选择不同的机器翻译系统的机器译文进行修正规则的提取,提取出的修正规则和调序规则具有更强的适应性和针对性。附图说明:图1为本发明方法的实现过程示意图。图2为本发明方法中规则序列提取的过程示意图。图3为本发明错词修正规则以调序规则的抽取过程示意图。图4为本发明实施例1中采用的错词修正规则模板示意图。图5为本发明实施例1中采用的调序规则模板示意图。图6为本发明实施例1中的源文、机器译文以及标准译文的示意图。图7为本发明实施例1中的源文、机器译文以及标准译文对齐示意图。图8为经过漏词修正后的源文、机器译文以及标准译文示意图。图9为对齐图8中源文、机器译文以及标准译文示意图。图10为再次应用错词修改规则模板,修改后的源文、机器译文以及标准译文示意图。图11为图对齐图10源文、机器译文以及标准译,找出调序的“crossover”词组对的示意图。图12为应用调序规则模板抽取的调序规则调整图11中机器译文后的源文、机器译文以及标准译文示意图。需要说明的是,本发明所有附图均为示意性的,不代表实际过程。具体实施方式下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。一种机器翻译后编辑处理方法,通过在对机器译文先进行译词错误修正再进行语序错误调整,使得机器翻译的译文质量显著提高。本发明构建了错词修正规则模板和调序规则模板,根据先错词修正后语序调整的的方法来修改机器翻译的译文错误。其中本发明中的错词修正规则模板包含当前词和替换词的相关信息,所述当前词和替换词的相关信息除包含对应机器译文和标准译文的相关信息外,还包含对应源文的相关信息。所述调序规则模板中包含第一待调序词和第二待调序词的相关信息,以及第一待调序词和第二待调序词的相关信息。一种机器翻译后编辑处理方法,包含如图1所示以下实现过程:(1)构建错词修正规则模板,所述错词修正规则模板包括规则条件和修正动作,其中规则条件包括机器翻译的当前词,当前词的前N个词汇和当前词的后N个词汇,以及当前词对应的译文源词的前N个词汇和后N个词汇,其中N为不小于1的正整数;所述修正动作为:将当前词修正为替换词。上述规则模板通过对比机器译文和标准译文,找出机器译文中的译词错误,通过结合机器翻译的当前词及上下文内容和对应原文中的上下文内容,来提取修正译词错误的规则,考量因素更加全面合理,更加符合翻译的本质和原理,翻译是在准确、通顺的基础上,把原文信息转变成另一种语言信息的行为,参考机器译文和原文提取出的修正规则,更加贴合原文的语境,最终的翻译更加准确自然。构建调序规则模板,所述译词调序规则模板包括规则条件和调整动作,所述规则条件包括待第二待调序词对的相关信息,待第二待调序词对包括第一待调序词和第二待调序词;其中第一待调序词信息包括:第一待调序词,第一待调序词(或者词组)的前N个词,第一待调序词的后N个词,第一待调序词的前N个词的词性,第一待调序词的后N个词的词性,第一待调序词对应的源文中原词的前N个词和第一待调序词对应的源文中原词的后N个词。第二待调序词信息包括:第二待调序词(或者第二待调序词组),第二待调序词的前N个词,第二待调序词的后N个词,第二待调序词的前N个词的词性,第二待调序词的后N个词的词性,第二待调序词对应的源文中原词的前N个词和第二待调序词对应的源文中原词的后N个词,其中N为0或者为正整数(译词调序规则模板中的待第二待调序词对的相应信息可以根据需要向后文扩展,这样增加了提规则取出的灵活性,能够适应更加复杂的语序调整情况);所述调整动作为将第一待调序词与第二待调序词交换顺序;所述第一待调序词和第二待调序词的获取过程包括,通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在映射位置交叉的词对时,认为该词对为第二待调序词对(“crossover”词对),将第二待调序词对中前一个词定义为第一待调序词,将后一个词定义为第二待调序词。本发明方法通过上述规则模板通过对比机器译文和标准译文,找出机器译文中的语序错误和调序规则,通过考量待调整语序的第一待调序词和第二待调序词的相关信息(包括上下文的词语和,或对应的词性),并结合对应的源文的上下文信息,提取译词调序规则,考量因素更加全面合理,更加符合翻译的本质和原理,翻译是在准确、通顺的基础上,把源文信息转变成另一种语言信息的行为,参考机器译文和源文提取出的调序规则,更加贴合源文的语境,最终的翻译更加准确自然。(2)使用上述错词修正规则模板提取机器翻译的错词修正规则,根据错词修改规则来修正机器翻译的译词错误;本方法通过错词修正规则模板的匹配不断提取和修正相应的机器译文中的错误翻译词汇使得机器译文不断地向标准译文的方向逼近,以改善机器翻译的质量,达到自动后编辑的作用,应用本发明方法所提取出的修正规则来修正,将显著减小机器翻译中重复的译词错误,节省人工后编辑中用于修正译词错误所耗费的人力和时间成本。(3)使用上述调序规则模板来提取机器翻译的调序规则,并根据调序规则来调整经过步骤(2)修正后的机器译文中的语序错误。具体的,所述当前词和替换词的获取过程包括:通过将机器译文和标准译文及源文的内容进行对比,当发现机器译文中A词的上下文内容与标准译文中的B词的上下文内容相同,而A≠B时,就将机器译文中的A词作为当前词,而将标准译文中的B词作为替换词。进一步的,所述步骤(2)中包括如图2、图3所示的实现过程:(2-1)准备训练集,所述训练集包括源文和对应的标准译文,训练样本集的大小可以根据学习的需要来选取,比如说20000个,通常训练样本集中的样本会比较多,以保证提取出的修正规则的数量与质量;(2-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;机器翻译系统为现有的机器翻译系统,例如百度翻译、谷歌翻译、有道翻译、灵格斯翻译等,不同的机器翻译系统由于各自本身的特点其译词错误出现的方式可能有区别,本发明方法可以选用现有任何一种机器翻译系统,通用性好,适用面广阔;同时当选定某一机器翻译系统后,本发明会进行相应的错词修正规则提取,对该翻译系统存在的弊端进行直观而有效的分析,因而具有很强的针对性。(2-3)将所述训练样本集与对应的机器译文集输入到具有错词修正规则模板的学习机中;所述学习机为加载有错词修正规则模板的,能够实现机器译文、标准译文和原文之间的对齐和建立起相应的映射关系的功能模块(映射关系可以理解为原文、机器译文和标准译文中词汇或者短语的对应关系),其中机器译文与标注译文的对齐和映射关系的建立采用meteor工具来实现,而机器译文与翻译源文则通过字典及距离的方式进行对应。(2-4)所述学习机对比机器译文与标准译文和原文的差异,对比过程过程的采用METEOR对齐工具或者字典方式来实现,比如说原文为:根据错词修正规则模板提取机器译文中的错词修正的第一规则,形成对应的第一规则集合;训练样本集中,比如包含20000源文样本,对应的将具有20000条标准译文和对应20000条机器译文及对应的20000条翻译源文,通过规则模板的比对,将提取出一系列的修正规则。(2-5)利用第一规则集的每条规则来修正Dev机器译文集(Dev集为开发样本集);并将修正后的译文与Dev标准译文进行比较,计算用每一天规则修正前后的BLEU的增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第一修正规则);所述开发样本集的引入可以防止修正规则提取出现过拟合的情况出现。(2-6)应用所述第一修正规则来修正机器译文,形成第一修正译文;通过选取BLEU的增益值最大的规则来修正训练样本集中对应的机器译文,其修正的效果最为显著,有利于提高规则修正提取的效率。(2-7)将第一修正译文输入学习机中;所述学习机对比第一修正译文与标准译文和源文的差异,根据错词修正规则模板提取第二规则,形成第二规则集;(2-8)利用第二规则集的每条规则来修正Dev机器译文;并将修正后的机器译文与Dev标准译文进行比较,计算每条规则BLEU的增益值,从规则集中选出BLEU的增益值最大的修正规则(将其定义为:第二修正规则);在此计算BLEU的增益值时为了减少计算量提高效率,原有的未受新规则影响的规则沿用上一步骤中所计算出的BLEU的增益值即可。重复上述步骤,依次迭代,直到BLEU的增益值小于设定的阈值或者学不到新规则时停止计算。在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的修正规则(第一修正规则、第二修正规则、第三修正规则......)提取记录下来;最后所有返回规则按照返回的先后顺序形成一个规则序列。使用所述规则序列用来修正机器译文的译词错误,将有效的纠正机器译文中重复出现的错误译词,显著提高机器翻译的译文质量,减少人工后编辑所需要的人力和时间成本。将本方法应用于机器翻译系统中,将从源头减少机器翻译的译词错误,提高机器翻译的译词准确性,提高机器翻译的可靠性,使得不同语言之间的交流更加自然顺畅,促进使用不同语言的人们之间的沟通,促进社会和经济进一步向前发展。进一步的,所述当前词可以为空值,即相当于对机器译文出现翻译缺词的情况,添加词汇,使机器翻译的结果更加准确。进一步的,所述替换词也可以为空值,即相当于将机器翻译中相比于人工翻译中出现多词的情况;通过替换为空值的情况,将多余的词语删除,使机器翻译的结果更加正确。进一步的,所述当前词和或替换词也可以为短语,通过短语的增加,删除和替换修正,可以发现更多的机器翻译的错词情况,使得机器翻译的结果准确率大幅度的提升。进一步的,所述第一待调序词和第二待调序词的获取过程包括:通过将机器译文和标准译文对齐,建立起机器译文与标准译文词语的映射关系;当发现机器译文与标准译文的映射中,存在位置交叉的词对时,认为该词对为第二待调序词对,将第二待调序词对中前一个词定义为第一待调序词,将后一个词定义为第二待调序词。进一步的,所述步骤(3)包含以下实现步骤:(3-1)准备训练集,所述训练集包括待翻译源文和对应的标准译文;(3-2)将上述待翻译源文输入机器翻译系统中获取对应的机器译文;(3-3)将所述训练样本集与机器译文输入到具有译词调序规则模板的学习机中;(3-4)所述学习机对比机器译文与标准译文和源文的差异,根据译词调序规则模板提取机器译文中的语序调整的第一规则,形成对应的第一规则集合;(3-5)利用第一规则集的每条规则来调整开发集机器译文;并将调整后的开发集机器译文与开发集标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第一调序规则;(3-6)应用所述第一调序规则来调整机器译文,形成第一调整译文;(3-7)将第一调整译文输入学习机中;所述学习机对比第一调整译文与标准译文和源文的差异,根据译词调序规则模板提取第二规则,形成第二规则集;(3-8)利用第二规则集的每条规则来调整开发集中机器译文;并将调整后的译文与开发集的标准译文进行比较,计算调整前后BLEU的增益值;从规则集中选出BLEU的增益值最大的调序规则,将其定义为:第二调序规则;依次迭代,直到BLEU的增益值小于设定的阈值,停止计算。进一步的,在规则提取的过程中,将每次从规则集中选出BLEU的增益值最大的调序规则提取出来;按提取的先后顺序形成规则序列。进一步的,应用所述规则序列来调整经过步骤(2)修正后的机器译文中的语序错误。实施例1根据不同语言之间的翻译,应该结合语境和前后文内容的特点,构建如图4所示的译词错误的修正规则模板:wd:A>B....wd:C[-2]&wd:D[-1]&wd:E[1]&wd:F[2]......srcwd:G[-2]&srcwd:H[-1]&srcwd:I[1]&srcwd:J[2]...其中第一行中的wd:A>B为修正规则,表示将当前词A修正为替换词B,第二、第三行为规则条件,wd:C[-2]表示为当前词后面的第二个词,wd:D[-1]表示当前词后面的第一个词,wd:E[1]表示当前词前面的第一个词,wd:F[2]表示当前词前面的第二个词,srcwd:G[-2]表示原文中替换词B后面第二个词,srcwd:H[-1]表示原文中替换词B后面第一个词,srcwd:I[1]表示原文中替换词B前面第一个词,srcwd:J[2]表示原文中替换词B前面第二个词。上述规则模板的描述为:当出现符合上述规则条件时的,触发修正动作,将当前词A修正为对应的替换词。将上述规则模板加载到学习机中,将训练集(包括原文和对应标准译文),和训练集原文对应机器译文输入到学习机中,通过学习机对齐机器译文与源文和标准译文,根据规则模板找出其中的修正规如图5所示,语序调整规则如下:其中前四行为第一待调序词的相关信息,后四行为第二待调序词的相关信息,Words_1:[X表示第一待调序词X,wd:B1[-2]表示为第一待调序词前面的第二个词B1,wd:C1[-1]表示第一待调序词前面的第一个词C1,wd:D1[1]表示第一待调序词后面的第一个词D1,wd:E1[2]表示第一待调序词后面的第二个词E1,pos_1:F1[-2]为第一待调序词的前面的第二词的词性为F1,pos_1:H1[-1]第一待调序词的前面的第一词的词性为H1,pos_1:I1[1]第一待调序词的后面的第一词的词性为I1,pos_1:J1[2]第一待调序词的后面的第二词的词性为J1。cwd_1:B2[-2]表示第一待调序词对应原词的前面第二个词为B2,srcwd_1:C2[-1]表示第一待调序词对应原词的前面第一个词为C2,srcwd_1:D2[1]表示第一待调序词对应原词的后面第一个词为D2,srcwd_1:E2[2表示第一待调序词对应原词的后面第二个词为E2。第四至第七行的为第二待调序词的信息,其中Words_2:[a]表示第二待调序词为a,word_2:b[-2]表示第二待调序词的前面第二个词为b,word_2:c[-1]表示第二待调序词的前面第一个词为c,word_2:d[1]表示第二待调序词的后面第一个词为d,word_2:e[2]表示第二待调序词的后面第二个词为e,pos_2:f[-2]表示第二待调序词的前面的第二个词的词性为f,pos_2:h[-1]表示第二待调序词的前面第一个词的词性为h,pos_2:i[1]表示第二待调序词的后面的第一个词的词性为i,pos_2:j[2]表示第二待调序词的后面第二个词的词性为j,srcwd_2:b1[-2]表示第二待调序词对应原词的前面第二个词为b1,srcwd_2:c1[-1]表示第二待调序词对应原词的前面第一个词为c1,srcwd_2:d1[1]表示第二待调序词对应原词的后面第一个词为d1,srcwd_2:d1[1]表示第二待调序词对应原词的后面第一个词为d1,rcwd_2:e1[2]表示第二待调序词对应原词的后面第二个词为e1。应用上述的规则模板来抽取规则并使用对应的规则来进行错词修正和进行语序调整可以获得很好的机器译文的修改效果,如图6、图7、图8、图9、图10、图11以及图12所示。比如说:“源文为:去电影院应该坐哪路车?;机器译文为:机器译文:gotocinemawhichbusshoulditake?;标准译文:whichbusshoulditaketogotothecinema?”通过对齐上述源文、机器译文和标准译文,并应用上述规则模板先后将机器译文修正为:“gotothecinemawhichbusshoulditake?”“togotothecinemawhichbusshoulditake?”和“whichbusshoulditaketogotothecinema?”。可以看出经过上述修改和调整机器翻译的翻译效果显著提升。应该理解本发明实施例中的训练集中包含的样本数量远大于1条,比如为20000条,通过这样数量的训练样本来提取规则,最终产生的规则序列对机器译文中错词的修正效果更佳。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1