用于计算机辅助翻译的候选短语查询方法及辅助翻译系统的制作方法

文档序号：6370284阅读：205来源：国知局

专利名称：用于计算机辅助翻译的候选短语查询方法及辅助翻译系统的制作方法
技术领域：
本发明属于计算机辅助翻译领域，尤其涉及计算机辅助翻译过程中的候选短语的推荐方法。
背景技术：
随着科学技术和互联网的快速发展，计算机和网络技术已经深入我们工作、生活的方方面面。在翻译领域，最令人激动的莫过于计算机辅助翻译技术CAT (Computer AidedTranslation)。在计算机辅助翻译系统的设计中存在着两种不同思路一种是机器翻译(Machine Translation),另一种是翻译记忆(Translation Memory) 近些年机器翻译技术取得了巨大的进步，但是由于自然语言的复杂性，机器翻译的译文难以做到完满的程度。同时传统机器翻译的结果只提供给用户ー个最佳译文，并没有提供帮助用户修改翻译结果的辅助信息，这使得对于外语水平较低的用户很难对译文做出修改，阻碍了机器翻译的普及应用。而采用翻译记忆所设计的计算机辅助翻译系统在辅助信息推荐方面功能強大，但是其所面临的困境主要是该软件主要靠用户翻译历史的积累自动构建翻译记忆库，从而给出相似短语的提示信息。在没有大量翻译记忆的前提下，该软件就很难给用户提供有用的帮助信息，特别的是该软件对用户的英语水平要求过高，使得只有专业的翻译人员才适合使用。利用机器翻译过程中的中间信息和其他辅助信息来对自动翻译的结果进行高效的修改和完菩，提闻翻译的质量和效率，已成为相关研究者的关注焦点。已有的方法基本上可以分为两类一类是在给出机器自动翻译结果的基础之上，再给出若干短语的候选翻译(即候选短语)，供用户选择；另一类是给出机器自动翻译结果仅供參考，同时给出与源语言句子的相关候选短语，由用户点击构成目标语言句子。一般来说，候选短语的数量越多，质量越高，对用户的帮助就越大。但随着系统语料的日益增长和用户历史行为的累计，候选短语的数量会快速的增长。如何针对用户输入的源语言语句快速地从翻译历史等各种辅助信息中查找出与源文本相关的候选短语是其中必须要解决的关键问题。目前通常的做法是枚举源语言句子中所有的子片段，对每ー个子片段进行查询，判断是否存在于短语集合中。这种算法的时间复杂度高，随着源语言句子长度的增加以及候选短语数量的增长，其查询的时间会快速增长。据发明人实验统计，当源语言句子长度在400个字符时，其查询时间就达到了 4秒左右，这样的速度显然是机器翻译系统不能承受的，而且用户体验较差。

发明内容
因此，本发明的目的在于克服上述现有技术的缺陷，提供一种用于计算机辅助翻译的候选短语查询方法，快速地查询与源语言句子相关的候选短语，提高计算机辅助翻译的效率。本发明的目的是通过以下技术方案实现的
一方面，本发明提供了ー种用于计算机辅助翻译的候选短语查询方法，包括接收源语言句子；然后从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语；其中，所述Trie树的每个节点都具有失败指针，所述失败指针是通过以下的步骤构造的步骤(I)将所述Trie树的根节点和第一层节点的失败指针都指向根节点；步骤(2)对整棵Trie树进行广度优先遍历，对于任意ー个当前节点，如果通过某一条件使得当前节点及其某一子节点，以及当前节点的失败指针所指向的节点及其子节点都有相同的状态转移，则当前节点的子节点的失败指针指向所述当前节点的失败指针所指向的节点的子节点，否则指向根节点。上述方法中，所述从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语可以包括从源语言句子中第一个字符和所述Trie树根节点开始执行以下操作步骤I)将当前字符与当前节点的子节点进行匹配,如果匹配不成功，当前节点转向其失败指针所指向的节点继续匹配；如果当前字符与当前节点的子节点匹配成功，则直接转向该匹配成功的子节点；步骤II)如果该匹配成功的子节点带有单词结束标志，则输出该节点对应短语和以该短语结尾的所有后缀中出现的短语，否则转到源语言句子的下一个字符，重复步骤I)和II)，直到源语言句子结束为止。又一方面，本发明提供了ー种计算机辅助翻译方法，包括

步骤I，对源语言文档进行机器翻译，生成译文；步骤2，采用上述的候选短语查询方法，基于辅助翻译信息，为用户生成与源语言文档相关的候选短语；步骤3，由用户基于所生成的与源语言文档相关的候选短语，对所述译文进行调整，并生成最終的目标语言文档。上述技术方案中，所述辅助翻译信息可以包括通用候选短语和用户候选短语，所述通用候选短语来自机器翻译过程中用到的短语表，所述用户候选短语来自用户TMX记忆库、用户个人词典和用户翻译历史。上述技术方案中，在步骤2还可以包括对所生成的与源语言文档相关的候选短语进行排序的步骤，所述排序步骤包括计算姆个候选短语的。。抑”其中,Pij为候选短语集合i中第j个短语，I彡i彡η, η表示候选短语的来源有η个集合,各个集合分别包含Iii1, m2,. . . , mnf候选短语，I ^ j ^ Hii,W1, w2, ... ,wn分别为这η个集合的权重；根据每个候选短语的pu*Wi，从大到小对候选短语进行排序。上述技术方案中，还可以包括通过用户翻译历史记录的分析，不断优化各候选短语集合的权重W1, W2, ... ,Wn的步骤,所述步骤包括(a),初始化 W1, W2, ···, wn, ks, k0 ；(b)，每隔时间段T，统计用户对于不同类别短语的点击次数Cl，C2，…，cn;(c),归ー化C1, C2, ···，Cn并将其分别作为W1, W2,…，wn的当前状态的观测值OiU);(d),更新 WiU) :Ι( )=1νΙ^(1-1)+1 ο*0“1:),其中，W“t)为ル的当前状态的估计值，WiU-D为Wi的上一状态的估计值，Oi (t)为Wi的当前状态的观测值，ks代表上ー状态估计值Wi(t-l)的权重，k。代表当前状态观测值Oi (t)的权重。又一方面，本发明提供了一种计算机辅助翻译系统，包括自动翻译模块，用于对源语言文档进行机器翻译，生成译文；候选短语生成模块，用于采用上述的候选短语查询方法，基于辅助翻译信息为用户生成与源语言文档相关的候选短语；辅助翻译模块，用于提供用户接ロ，以使用户基于所生成的与源语言文档相关的候选短语，对所述译文进行调整，并生成最終的目标语言文档。

上述系统中，所述辅助翻译信息可以包括通用候选短语和用户候选短语，所述通用候选短语来自机器翻译过程中用到的短语表，所述用户候选短语来自用户TMX记忆库、用户个人词典和用户翻译历史。上述系统中，还可以包括用户模型更新模块，用于统计用户对于不同类别短语的点击次数以及更新各候选短语集合的权重，所述候选短语生成模块还可以用于对所生成的与源语言文档相关的候选短语进行排序。与现有技术相比，本发明的优点在于能够从机器翻译解码器的中间结果、记忆库、词典等辅助翻译信息中快速地查找到与源语言句子相关的候选短语，降低了候选短语查询算法的时间复杂度，以及根据用户的翻译历史记录不断地调整对候选短语的排序，提升了用户体验，并最终提高了翻译的质量和效率。

以下參照附图对本发明实施例作进ー步说明，其中图I为根据本发明ー个实施例的计算机辅助翻译方法的流程示意图；图2为根据本发明ー个实施例的机器翻译流程图；图3为根据本发明ー个实施例的辅助翻译信息的组成示意图；图4为根据本发明ー个实施例的Trie树的示意5为根据本发明ー个实施例的Trie树的失败指针转移图；图6为根据本发明ー个实施例的候选短语与源文对齐高亮显示的效果示意图；图7为根据本发明ー个实施例的候选短语自动提示效果的示意图；图8为根据本发明ー个实施例的候选短语自动拆分效果的示意图；图9和图10为根据本发明ー个实施例的候选短语拖动前后的效果示意图。
具体实施例方式为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进ー步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。计算辅助翻译的效率和质量关键取决于辅助翻译信息的质量和人机交互方式。这是由于准确高质量的辅助翻译信息能够提高翻译的质量，同时也能減少翻译过程的编辑次数，而简单方便的人机交互方式能够大量減少翻译过程中的操作次数，从而加快翻译的速度，提高翻译效率。这两个方面相互结合可以最终提高整个辅助翻译的性能和质量。
图I描述了根据本发明的一个实施例的计算机辅助翻译方法的流程示意图。该方法首先对源文件进行机器翻译，生成初始目标语言文档(例如可以是机器翻译的最佳译文)，以及提供机器翻译过程中的中间结果数据(例如，机器翻译过程中使用的短语表)，以给辅助翻译提供数据支持。然后，通过机器翻译过程中的中间信息，以及来自记忆库、词典等其他辅助翻译信息为用户生成与源语言文档相关的候选短语，最后，用户可以例如在web界面上基于所生成的候选短语对机器翻译的结果(初始目标语言文档)进行调整并产生最终的目标语言文档。在这ー过程中，自动翻译的译文可以以短语形式呈现，用户可以在短语级别的译文基础上，对译文短语进行修改、增删和移动等操作，提高译文修改的效率。下面将对该方法进行更详细的介绍，该方法主要包括以下步骤步骤1，将用户所提交的源语言文档进行机器翻译并将机器翻译的译文以短语的形式展现给用户。其中，所采用的对源语言文档进行机器翻译的方法，并不限定于某ー特定的统计机器翻译方法，而是可以采用本领域普通技术人员所熟知的任何现有的机器翻译方法。例如，可以使用基于最大熵括号转录语法翻译(Maximum Entropy Based Bracketing Transduction Grammars,以下简称为MEBTG)模型，此模型在基于短语的翻译模型之上引入形式句法信息，并加入调序模型，其翻译流程如图2所示。如图2所示，在采用上述模型进行机器翻译时需要的输入数据，除了源语言句子之外，还包括(I)短语表机器翻译解码器中用到的短语表也被称为通用候选短语，其是在大规模双语平行语料库中统计得到的，代表了公共的翻译行为。相对于通用候选短语，用户候选短语则是和用户个人的翻译习惯相关的，可以包含用户的翻译历史，用户个人词典等等。(2)语言模型统计语言模型是描述语言内在规律的数学模型。(3)最大熵重排序模型重排序模型主要是解决机器翻译解码过程中，相邻两个连续片段在译文里的顺序问题。步骤2，基于辅助翻译信息，为用户生成与源语言文档相关的候选短语。也就是从例如机器翻译解码过程的中间结果(短语表)，记忆库、词典等辅助翻译信息，查询与源语言文档相关的候选短语，从而使用户可以通过选择合适的候选短语来修改机器自动翻译生产的译文。步骤3，基于所生成的与源语言文档相关的候选短语来对所述译文进行调整，以产生相对于源语言文档的最終的目标语言文档。在本发明的实施例中，所述的辅助翻译信息不局限于某ー特定的来源，而是可以有丰富的组合形式。图3为根据本发明实施例的辅助翻译信息的组成示意图。如图3所示，所述辅助翻译信息包括通用候选短语和用户候选短语。其中，通用候选短语是在不区分用户的情况下推荐给用户的候选短语，这些候选短语对于相同的源语言短语，会推荐相同的候选短语，体现了辅助翻译中的通用特性。通用候选短语的来源主要是机器翻译过程中用到的短语表。在机器翻译过程中用到的短语表是在大規模双语平行语料库上，通过翻译模型的训练工具如Giza++等训练得到的。用户候选短语是在区分用户的情况下推荐给用户的候选短语，这些候选短语对于相同的源语言短语，根据不同的用户会推荐不同的候选短语，体现了辅助翻译的个性化特性。用户候选短语的来源主要包含以下几个方面，下面分别加以阐释。
(I)用户TMX记忆库TMX(Translation Memory eXchange)即翻译存储交换，是一种厂商中立的、开放式XML标准，用于交换计算机辅助翻译(CAT)和本地化工具创建的翻译存储(TM)数据，以促进工具和/或翻译厂商之间的翻译存储数据交換。目前辅助翻译软件都兼容TMX格式的记忆库，不同的用户有自己不同的TMX文档，代表着每个用户不同的翻译历史和翻译习惯。用户通过导入TMX记忆库可以保持用户自身的翻译习惯。(2)用户个人词典用户个人词典包括普通词典和领域词典这两类，普通词典注重于通用词语的用户翻译习惯，领域词典则注重于专业领域词汇的正规翻译规则。用户可以在用户个人词典任意添加词条，这些词条将会出现在辅助翻译信息的候选短语列表当中。

(3)用户翻译历史用户的翻译历史是辅助翻译最为重要的组成部分。同一个用户往往拥有固定的翻译习惯，所以记录用户的翻译历史，对于提高候选短语推荐的准确度有重要的意义。通常，候选短语的数量越多，质量越高，对用户的帮助就越大。但是随着系统语料的日益增长和用户历史行为的累计，候选短语的数量会快速的增长。如何快速地查询与用户输入的源语言句子相关的所有候选短语，并将之以适当的顺序推荐给用户是为用户生成候选信息所必须解决的问题。在现有的方法中将所有的候选短语都看作是模式串，用户输入的源语言句子看作是待匹配的串，这样问题就抽象成为在待匹配串中查找所有出现的模式串，即字符串多模式匹配问题。目前通常的做法是枚举源语言句子中所有的子片段，对每ー个子片段进行查询，判断是否存在于短语集合中，这样算法的时间复杂度比较高。在本发明的一个实施例中，在所述步骤2采用了一种基于AC (Aho-Corasickautomation)自动机的候选短语查询方法,在线性复杂度之内解决了候选短语的查询问题，可以提高翻译的效率。在该实施例中，基于AC自动机的候选短语查询主要包括三个步骤字典树Trie (简称Trie树)的构造、状态转移的构造(构造失败指针)和模式匹配的过程。下面分别对上述三个步骤进行阐释。步骤21)基于候选短语集合,构造Trie树Trie树，又称单词查找树或键树，是ー种哈希树的变种。其有3个基本特性a)根节点不包含字符，除根节点外每ー个节点都只包含ー个字符。b)从根节点到某ー节点，路径上经过的字符连接起来，为该节点对应的字符串。c)每个节点的所有子节点包含的字符都不相同。Trie 树的构造方法可參见 http://en. wikipedia. org/wiki/Trie。假如在用户个人词典中有she, shr, he, say, her这五个单词,其所构成的Trie树如图4所示，五个单词所对应的节点分别以阴影填充的节点表示，这些阴影填充的节点带有单词结束标志，上述单词的匹配路径如表I所示表I
单词匹配路径
sayroot—>s—ノa—>y
权利要求
1.ー种用于计算机辅助翻译的候选短语查询方法，所述方法包括接收源语言句子；然后从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语；其中，所述Trie树的每个节点都具有失败指针，所述失败指针是通过以下的步骤构造的步骤(I)将所述Trie树的根节点和第一层节点的失败指针都指向根节点；步骤(2)对整棵Trie树进行广度优先遍历，对于任意ー个当前节点，如果通过某一条件使得当前节点及其某一子节点，以及当前节点的失败指针所指向的节点及其子节点都有相同的状态转移，则当前节点的子节点的失败指针指向所述当前节点的失败指针所指向的节点的子节点，否则指向根节点。
2.根据权利要求I所述的方法，所述从候选短语集合的Trie树查找出所有与源语言句子相关的候选短语包括从源语言句子中第一个字符和所述Trie树根节点开始执行以下操作步骤I)将当前字符与当前节点的子节点进行匹配，如果匹配不成功，当前节点转向其失败指针所指向的节点继续匹配；如果当前字符与当前节点的子节点匹配成功，则直接转向该匹配成功的子节点；步骤II)如果该匹配成功的子节点带有单词结束标志，则输出该节点对应短语和以该短语结尾的所有后缀中出现的短语，否则转到源语言句子的下一个字符，重复步骤I)和II )，直到源语言句子结束为止。
3.一种计算机辅助翻译的方法，所述方法包括以下步骤步骤I，对源语言文档进行机器翻译，生成译文；步骤2，采用根据权利要求2所述的候选短语查询方法，基于辅助翻译信息，为用户生成与源语言文档相关的候选短语；步骤3，由用户基于所生成的与源语言文档相关的候选短语，对所述译文进行调整，并生成最終的目标语言文档。
4.根据权利要求3所述的方法，其中所述辅助翻译信息包括通用候选短语和用户候选短语，所述通用候选短语来自机器翻译过程中用到的短语表，所述用户候选短语来自用户TMX记忆库、用户个人词典和用户翻译历史。
5.根据权利要求4所述的计算机辅助翻译的方法，在步骤2还包括对所生成的与源语言文档相关的候选短语进行排序的步骤，所述排序步骤包括计算姆个候选短语的Pij*Wi，其中，Pij为候选短语集合i中第j个短语，I彡i彡η, η表示候选短语的来源有η个集合,各个集合分别包含Hi1, m2,. . .，mnf候选短语，I彡j彡Hii,W1, w2, ... ,Wn分别为这η个集合的权重；根据每个候选短语的Pu*Wi，从大到小对候选短语进行排序。
6.根据权利要求5所述的方法，还包括通过用户翻译历史记录的分析，不断优化各候选短语集合的权重W1, W2, . . .，Wn的步骤,所述步骤包括(a),初始化W1, W2, ···，wn, ks, k。； (b)，每隔时间段T，统计用户对于不同类别短语的点击次数Cl，C2,-,cn; (C),归ー化C1, C2, ···，Cn并将其分别作为W1, W2, .'Wn的当前状态的观测值Oi (t);(d),更新Wi(t) jJthlvWjt-D+lviOiU),其中,Wi (t)为Wi的当前状态的估计值，Wi(t-l)为Wi的上一状态的估计值，Oi (t)为Wi的当前状态的观测值，ks代表上一状态估计值1(卜1)的权重，k。代表当前状态观测值Oi (t)的权重。
7.ー种计算机辅助翻译的系统，包括自动翻译模块，用于对源语言文档进行机器翻译，生成译文；候选短语生成模块，用于采用根据权利要求I所述的候选短语查询方法，基于辅助翻译信息为用户生成与源语言文档相关的候选短语；辅助翻译模块，用于提供用户接ロ，以使用户基于所生成的与源语言文档相关的候选短语，对所述译文进行调整，并生成最終的目标语言文档。
8.根据权利要求7所述的系统，所述辅助翻译信息包括通用候选短语和用户候选短语，所述通用候选短语来自机器翻译过程中用到的短语表，所述用户候选短语来自用户TMX记忆库、用户个人词典和用户翻译历史。
9.根据权利要求8所述的系统，还包括用户模型更新模块，用于统计用户对于不同类别短语的点击次数以及更新各候选短语集合的权重。
10.根据权利要求9所述的系统，其中所述候选短语生成模块还用于对所生成的与源语言文档相关的候选短语进行排序。
全文摘要
本发明提供了计算机辅助翻译的方法及系统，在机器翻译结果的基础上，利用机器翻译中的中间信息、用户记忆库、词典等其他方面的辅助翻译信息来修改和完善机器自动翻译的结果。其中，采用基于AC自动机的候选短语查询方法，在线性复杂度之内解决了候选短语的查询问题，大大提高了辅助翻译的效率；采用基于卡尔曼滤波的候选短语排序方法解决了不同集合的短语之间的排序问题，通过用户翻译历史记录的分析，不断优化各候选短语集合的权重，从而提高候选短语推荐的精准度。
文档编号G06F17/28GK102693309SQ20121016693
公开日2012年9月26日申请日期2012年5月25日优先权日2011年5月26日
发明者刘洋, 刘群, 吕雅娟, 王洋, 骆卫华申请人:中国科学院计算技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘群;王洋;刘洋;骆卫华;吕雅娟
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。