具有错误自诊断和自纠错功能的统计机器翻译方法

文档序号:6570516阅读:505来源:国知局
专利名称:具有错误自诊断和自纠错功能的统计机器翻译方法
技术领域
本发明属于统计机器翻译方法技术领域,具体涉及一种具有错误自诊断和自纠错功能的统计机器翻译方法。
背景技术
软件本地化是指当软件在不同文化和语言背景的地区与国家移植时,需要融合与特定区域设置有关的信息和信息翻译有关的过程,以适应本地的文化与使用习惯。而翻译在本地化过程中扮演着至关重要的角色,对当地文化与语言适应的好坏直接影响该软件在该地区或国家的推广。在软件本地化行业,传统的做法是首先使用翻译记忆库(Translation Memory, TM)对软件界面、术语、手册或者技术文档等按模糊匹配值(fuzzymatch)进行翻译实例查找并输出,然后再由后编辑人员(post-editor)参照源语言输入句子对翻译结果进行修正。因此,这种方式又被称为计算机辅助翻译(computer-assistedtranslation, CAT)。统计机器翻译服务于软件本地化的关键技术研究是统计机器翻译研究的热点方向之一。随着统计机器翻译技术的不断成熟,越来越多的研究机构和国际大公司逐步开始将统计机器翻译系统引入其产品服务之中。自从20世纪90年代初IBM的研究人员PeterBrown等提出IBM模型以来,基于统计的机器翻译方法逐渐成为机器翻译研究的主流。基于统计方法的思想大大推动了机器翻译技术的发展,并涌现出了多种类型的统计机器翻译模型,如基于短语的翻译模型、层次短语的翻译模型及基于句法的翻译模型等等,其翻译质量也在日益提高。2002年之后,伴随着翻译质量自动评估方法BLEU的出现,统计机器翻译技术不仅在系统性能上获得了长足的进步,并且有效地降低了人工评价的成本。近些年来,随着统计机器翻译尤其是基于短语的机器翻译在技术上的日趋成熟与鲁棒,统计机器翻译技术不断地向实用化和商业化迈出有力的步伐。但是,目前面向工业界应用的统计机器翻译系统因翻译准确度仍然无法真正满足翻译要求,所以大多作为人工翻译的辅助工具,而无法独立提供具有高置信度的翻译结果,主要表现在两个方面I、翻译错误的预测能力不足难以准确地对翻译结果中潜在的翻译错误进行诊断和预报,而这种功能对于后编辑人员进行高效率、低消耗的查找、判断和更正该错误具有重要的意义。对于错误预测,目前主要有两种解决方案。第一种是反向翻译的方法。该方法利用反向的机器翻译系统对翻译结果(目标句子)重新翻成源语言句子S’,然后把原始源语言句子S与S’以某种方式(如TER)进行对齐,根据对齐信息如插入、删除、替换等编辑操作的多少来判定源语言端哪些片段存在问题,然后通过重定向映射到目标端,从而获得对于潜在翻译错误的判定。这种方法的缺点是正向的翻译错误和反向的翻译错误叠加后,某些原文所表达的意思全部丢失,从而翻译错误诊断精度较低。第二种方案是基于置信度估计的方法,通常作为分类问题来解决。该方案通过对译文进行置信度估计,综合判断错误发生的位置。目前该方法的置信估计准确率有待进一步提高。
2、翻译错误自校正能力差对于系统自动诊断出的翻译错误,目前有两种方案可以提供自校正功能。第一种是以目标端为对象,通过利用一些特征建立校正模型,对错误部分进行重新生成或替换。该方法的缺点是缺少有效的源语言知识,并且没有考虑源端的翻译难度。第二种是以源端为对象,通过使用外部资源以降低源端的翻译难度,例如使用复述(paraphrase)、同义词(synonym)或者词干(stem)等对源端进行扩展或替换。但是,这些方法的效果都不尽如人意。因此,设计和开发具有一定自诊断与自纠错功能的统计机器翻译系统,不仅能够促进机器翻译在社会经济发展中的应用,而且能够进一步增强人们对机器翻译的信心,这对于该学科乃至该行业的进步起着关键性的作用。

发明内容
本发明的目的是提供一种具有错误自诊断和自纠错功能的统计机器翻译方法,与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性能。本发明所采用的技术方案是,一种具有错误自诊断和自纠错功能的统计机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。进一步地,具体实现步骤如下步骤I、定义翻译错误类别具体包括五种翻译错误类别正确、一般错误、词序错误、集外词错误、其他错误;步骤2、训练错误分类器步骤2. I、采用基于动态概率潜变量模型的分类器,计算公式如下
权利要求
1.一种具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。
2.按照权利要求I所述的具有错误自诊断和自纠错功能的统计机器翻译方法,其特征在于,具体实现步骤如下 步骤I、定义翻译错误类别 具体包括五种翻译错误类别正确、一般错误、词序错误、集外词错误、其他错误; 步骤2、训练错误分类器 步骤2. I、采用基于动态概率潜变量模型的分类器,计算公式如下
全文摘要
本发明公开了一种具有错误自诊断和自纠错功能的统计机器翻译方法,首先定义翻译错误类别,训练错误分类器,对测试集进行翻译错误分类,然后目标语言端翻译错误映射到源语言端并构建复述词图网络,源语言复述词图网络优化,最后进行词图解码,得到自校正结果。本发明与现有统计机器翻译方法相比,有效降低翻译错误率,提高翻译性能。
文档编号G06F17/28GK102799579SQ20121024922
公开日2012年11月28日 申请日期2012年7月18日 优先权日2012年7月18日
发明者杜金华, 王莎, 郭华, 张萌 申请人:西安理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1