计算机辅助翻译的方法及系统的制作方法

文档序号:6425047阅读:229来源:国知局
专利名称:计算机辅助翻译的方法及系统的制作方法
技术领域
本发明属于计算机辅助翻译领域,尤其涉及一种给机器翻译结果提供辅助翻译修改功能的方法。
背景技术
随着科学技术和互联网的快速发展,计算机和网络技术已经深入我们工作、生活的方方面面。在翻译领域,最令人激动的莫过于计算机辅助翻译技术CAT (Computer Aided Translation)。在计算机辅助翻译系统的设计中存在着两种不同思路一种是机器翻译 (Machine Translation), ^一禾中是番羽译记忆(Translation Memory)。近些年机器翻译技术取得了巨大的进步,但是由于自然语言的复杂性,机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户一个最佳译文,并没有提供帮助用户修改翻译结果的辅助信息,这使得对于外语水平较低的用户很难对译文做出修改,阻碍了机器翻译的普及应用。而采用翻译记忆所设计的计算机辅助翻译系统在辅助信息推荐方面功能强大,但是其所面临的困境主要是该软件主要靠用户翻译历史的积累自动构建翻译记忆库,从而给出相似短语的提示信息。在没有大量翻译记忆的前提下,该软件就很难给用户提供有用的帮助信息,特别的是该软件对用户的英语水平要求过高,使得只有专业的翻译人员才适合使用。利用机器翻译过程中的中间信息和其他辅助信息来对自动翻译的结果进行高效的修改和完善,提高翻译的质量和效率,已成为相关研究者的关注焦点。已有的方法基本上可以分为两类一类是在给出机器自动翻译结果的基础之上,再给出若干短语的候选翻译, 供用户选择;另一类是给出机器自动翻译结果仅供参考,同时给出源语言句子的相关候选短语,由用户点击构成目标语言句子。例如,参考文献 1 (Philipp Koehn, Interactive assistance to human translators using statistical machine translation methods, Machine Translation Summit XII, 2009)提出的Caitra系统,其采用机器自动翻译和人工翻译结合的方法,翻译系统使用的是摩西解码器(Moses),采用web的方式由用户来对翻译结果进行修改,并且用户每一次对翻译结果做出修改后,该系统都会重新给出候选短语。但是,Caitra系统所提供给用户的候选短语表仅来源于统计机器翻译中的短语表,并没有引入更加丰富的候选短语来源,而且其所给出的用户可编辑的区域仅仅是一个文本框,用户对候选短语表的选取操作只是在文本框的末尾追加上新选取的单词。另外,Google在线翻译在2010年开始也提供了辅助翻译功能,当用户提交翻译源文后,该系统在给出最佳翻译结果的基础上,对翻译结果的呈现也选择了短语的形式,并且提供了目标短语的若干个候选,用户可以用鼠标点击选择修改翻译结果,这些候选翻译的信息方便了用户对翻译结果进行简单地修改,但是对于短语语序的调整还不太方便,并且如果用户对当前的短语划分不满意的话,系统也没有给出其他划分方法的提示。

发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种计算机辅助翻译的方法及系统,利用更丰富的辅助翻译信息(例如,机器翻译解码过程的中间结果、记忆库、 词典等)来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供更灵活的交互方式。本发明的目的是通过以下技术方案实现的一方面,本发明提供了一种计算机辅助翻译的方法,包括步骤1,通过机器翻译对源语言文档,进行自动翻译并生成中间结果数据;步骤2,利用机器翻译解码过程的中间结果,以及记忆库、词典等信息生成辅助翻译信息;步骤3,用户借助辅助翻译信息,通过辅助翻译调整方法对自动翻译的结果进行修改,生成最终目标语言文档。根据本发明实施例的计算机辅助翻译的方法,所述步骤1中包括以下步骤生成一个最佳候选译文,用于翻译结果的呈现;生成多个候选短语并为每个候选短语生成多个候选译文;所述候选短语的候选译文具有概率并按照从大到小排序。根据本发明实施例的计算机辅助翻译的方法,所述步骤2中包括以下步骤针对不同用户推荐和用户最为相关的候选信息;根据用户的历史行为,动态调整候选信息的推荐内容。根据本发明实施例的计算机辅助翻译的方法,所述步骤3中包括以下步骤自动翻译的结果以短语为单位分块显示;所述辅助翻译调整方法包括以下操作对短语进行拖动改变其位置,所述拖动的操作包括拖动单一短语和拖动多个短语;对短语块的内容进行编辑修改;在任意的短语块后面添加新的短语;删除不需要的短语;通过选择源语言句子任意片段的候选短语,来改变翻译结果的短语组合方式;对翻译结果修改结果提供预存和保存功能,其中预存和保存过的句子采用不同的颜色来标识不同编辑状态的句子。根据本发明实施例的计算机辅助翻译的方法,其特征在于包括
基于AC自动机来查询候选信息;基于卡尔曼滤波来对候选信息进行排序。又一个方面,本发明提供了一种计算机辅助翻译的系统,包括自动翻译模块,采用机器翻译对源语言文档进行自动翻译;辅助翻译模块,用于查看和调整自动翻译的结果,所述调整包括对候选短语对齐关系的高亮显示、候选短语提示帮助、对短语的拖动、增加、删除和修改操作、对译文的查看、句子的选择、对翻译结果修改结果提供预存和保存操作;
候选短语生成模块,通过对候选短语的查询和排序为辅助翻译模块提供辅助翻译 fn息;用户模型更新模块,其通过分析用户的历史行为记录来动态的改变用户模型的参数。与现有技术相比,本发明的优点在于在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等一些其他方面的信息并结合灵活的人机交互方式,来对自动翻译的结果进行提示下的修改和完善,这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。


以下参照附图对本发明实施例作进一步说明,其中图1为根据本发明一个实施例的计算机辅助翻译系统的结构示意图;图2为根据本发明一个实施例的机器翻译流程图;图3为根据本发明一个实施例的候选短语示意图;图4为根据本发明一个实施例的字典树Trie示意5为根据本发明一个实施例的字典树Trie的失败指针转移图;图6为根据本发明一个实施例的候选短语与源文对齐高亮显示的效果示意图;图7为根据本发明一个实施例的候选短语自动提示效果的示意图;图8为根据本发明一个实施例的候选短语自动拆分效果的示意图;图9和图10为为根据本发明一个实施例的候选短语拖动前后的效果示意图。
具体实施例方式为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明, 并不用于限定本发明。计算辅助翻译的效率和质量关键取决于辅助翻译信息的质量和人机交互方式。这是由于准确高质量的辅助翻译信息能够提高翻译的质量,同时也能减少翻译过程的编辑次数,而简单方便的人机交互方式能够大量减少翻译过程中的操作次数,从而加快翻译的速度,提高翻译效率。这两个方面相互结合可以最终提高整个辅助翻译系统的性能和质量。因此本发明提供了一种计算机辅助翻译系统,其将记忆库,机器翻译的中间结果、词典等信息融合在一起来对机器自动翻译结果进行修改和完善,同时给用户提供了更灵活的界面,更丰富的手段来调整翻译结果。图1描述了根据本发明的一个实施例的计算机辅助翻译系统的结构示意图。该系统首先对源文件进行自动翻译,在自动翻译解码过程中,生成最佳译文以及解码的中间信息,给辅助翻译提供数据支持。然后,对自动翻译结果进行的辅助翻译。在自动翻译结果的基础上,用户通过解码过程中的中间信息,以及来自记忆库、词典等其他辅助翻译信息,在 web界面上对翻译结果进行修改。在这一过程中,自动翻译的译文以短语形式呈现,用户可以在短语级别的译文基础上,对译文短语进行修改、增删和移动等操作,提高译文修改的效率。下面将对上述步骤进行更详细的介绍。
首先,将用户所提交的源语言文档由机器翻译进行自动翻译并将自动翻译的译文以短语的形式展现给用户。在本发明的实施例中的自动翻译方法,并不限定于某一特定的统计机器翻译方法,而是可以采用本领域普通技术人员所熟知的任何现有的机器翻译方法。在一个实施例中,所使用的机器翻译引擎是基于最大熵括号转录语法翻译系统 (Maximum Entropy Based Bracketing Transduction Grammars,以下简禾尔为 MEBTG)。此模型在已取得巨大成功的基于短语的翻译模型之上引入形式句法信息,并加入调序模型,使最终的译文更为流畅,从而构造了一种兼具短语模型优点和支持远距离调序的性能更好的模型。其翻译流程如图2所示,从图2中可以看出,解码器需要的输入数据,除了源语言句子之外,还包括(1)短语表机器翻译解码器中用到的短语表也被称为通用候选短语,其是在大规模双语平行语料库中统计得到的,代表了公共的翻译行为。相对于通用候选短语,用户候选短语则是和用户个人的翻译习惯相关的,可以包含用户的翻译历史,用户个人词典等等。 二者统称为候选短语。(2)语言模型统计语言模型是描述语言内在规律的数学模型。(3)最大熵重排序模型重排序模型主要是解决机器翻译解码过程中,相邻两个连续片段在译文里的顺序问题。接着生成候选信息,利用如机器翻译解码过程的中间结果,记忆库、词典等信息, 针对不同用户推荐与用户最为相关的候选信息,以及自动学习用户的历史行为,动态调整候选信息的推荐内容,从而使用户可以通过选择合适的候选信息来修改机器自动翻译生产的译文。在本发明的实施例中,所述的候选信息包括候选短语,候选短语不局限于某一特定的来源,而是可以有丰富的组合形式。图3为根据本发明实施例的候选短语的组成示意图。如图3所示,将候选短语分为如上文所述的通用候选短语和用户候选短语。用户候选短语的来源主要包含以下几个方面用户TMX(Translation Memory eXchange)记忆库,其是一种厂商中立的、开放式XML标准,用于交换计算机辅助翻译(CAT)和本地化工具创建的翻译存储(TM)数据;用户个人词典,其包括普通词典和领域词典这两类,普通词典注重于通用词语的用户翻译习惯,领域词典则注重于专业领域词汇的正规翻译规则,用户可以在用户个人词典任意添加词条,这些词条将会出现在辅助翻译信息的候选短语列表当中;以及用户翻译历史。通常,候选短语的数量越多,质量越高,对用户的帮助就越大。但是随着系统语料的日益增长和用户历史行为的累计,候选短语的数量会快速的增长。如何快速的查询和用户输入的源语言句子相关的所有候选短语,并将之推荐给用户是问题的关键。如果将所有的候选短语都看作是模式串,用户输入的源语言句子看作是待匹配的串,这样问题就抽象成为在待匹配串中查找所有出现的模式串,即字符串多模式匹配问题。目前通常的做法是枚举源语言句子中所有的子片段,对每一个子片段进行查询, 判断是否存在于短语集合中,这样算法的时间复杂度比较高。在本发明的一个实施例中提出了基于AC自动机(Aho-Corasick automation)的候选短语查询模型,把字符串匹配的问题转化为状态的转移,在线性复杂度之内解决了候选短语的查询问题,大大提高了系统的效率。在这个实施例中,基于AC自动机的候选短语查询主要分为三个步骤字典树Trie的构造、状态转移的构造(构造失败指针)和模式匹配的过程。下面分别对这三个步骤进行阐释。步骤1)字典树Trie的构造Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是最大限度地减少无谓的字符串比较,查询效率比哈希表高。假如用户个人词典中有she,shr, he, say, her这五个单词,其所构成的Trie树如图4所示,则上述单词的匹配路径如表1所示表 权利要求
1.一种计算机辅助翻译的方法,所述方法包括以下步骤步骤1,通过机器翻译对源语言文档,进行自动翻译并生成中间结果数据;步骤2,利用机器翻译解码过程的中间结果,以及记忆库、词典等信息生成辅助翻译信息;步骤3,用户借助辅助翻译信息,通过辅助翻译调整方法对自动翻译的结果进行修改, 生成最终目标语言文档。
2.根据权利要求1所述的计算机辅助翻译的方法,所述步骤1中包括以下步骤 生成一个最佳候选译文,用于翻译结果的呈现;生成多个候选短语并为每个候选短语生成多个候选译文;所述候选短语的候选译文具有概率并按照从大到小排序。
3.根据权利要求1所述的计算机辅助翻译的方法,所述步骤2中包括以下步骤 针对不同用户推荐和用户最为相关的候选信息;根据用户的历史行为,动态调整候选信息的推荐内容。
4.根据权利要求1所述的计算机辅助翻译的方法,所述步骤3中包括以下步骤 自动翻译的结果以短语为单位分块显示;所述辅助翻译调整方法包括以下操作对短语进行拖动改变其位置,所述拖动的操作包括拖动单一短语和拖动多个短语; 对短语块的内容进行编辑修改; 在任意的短语块后面添加新的短语; 删除不需要的短语;通过选择源语言句子任意片段的候选短语,来改变翻译结果的短语组合方式; 对翻译结果修改结果提供预存和保存功能,其中预存和保存过的句子采用不同的颜色来标识不同编辑状态的句子。
5.根据权利要求3所述的计算机辅助翻译的方法,其特征在于包括 基于AC自动机来查询候选信息;基于卡尔曼滤波来对候选信息进行排序。
6.一种计算机辅助翻译的系统,包括自动翻译模块,采用机器翻译对源语言文档进行自动翻译;辅助翻译模块,用于查看和调整自动翻译的结果,所述调整包括对候选短语对齐关系的高亮显示、候选短语提示帮助、对短语的拖动、增加、删除和修改操作、对译文的查看、句子的选择、对翻译结果修改结果提供预存和保存操作;候选短语生成模块,通过对候选短语的查询和排序为辅助翻译模块提供辅助翻译信息;用户模型更新模块,其通过分析用户的历史行为记录来动态的改变用户模型的参数。
全文摘要
本发明提供一种计算机辅助翻译的方法及系统,在自动翻译结果的基础上,利用机器翻译解码器的中间结果、记忆库、词典等其他方面的信息来修改和完善机器自动翻译的结果,并为用户编辑和修改翻译结果提供了更灵活的交互方式。这样使得机器翻译和人工翻译得到了结合,提升用户体验,并最终提高了翻译的质量和效率。
文档编号G06F17/28GK102193914SQ20111013918
公开日2011年9月21日 申请日期2011年5月26日 优先权日2011年5月26日
发明者刘洋, 刘群, 吕雅娟, 王洋, 骆卫华 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1