基于实例短语的机器翻译方法

文档序号:6480280阅读:307来源:国知局
专利名称:基于实例短语的机器翻译方法
技术领域
本发明涉及机器翻译领域,具体来说是基于语料库的机器翻译,描述的是一种利
用实例短语进行翻译的方法。
背景技术
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。机器翻译系统的类型很多,包括基于实例的机器翻译(EBMT)系统和基于短语的机器翻译(PBMT)系统。 EBMT系统的基本思想是不通过深层的句子结构和语义的分析,仅仅通过已有的经验知识,通过类比原理进行翻译。这一思想的基本实现原理系统的主要知识源是双语对照的翻译实例库,每当输入一个源语言句子S时,系统找出和S最为相似的句子S',并模仿S'的译文T',将S和S'不匹配的地方进行翻译,替换掉T'中对应的部分,最终构成S的译文T然后输出。其特点是只要存在相似度很高甚至一样的例句,就能产生高质量的译文。EBMT方法需要一个很大的实例库作为支撑。 PBMT系统的基本思想是以短语作为翻译的基本单位。在翻译过程中,系统不是孤立地翻译每个词,而是将连续的多个词一起翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。 一般地,在基于短语的方法中,短语可以是任意连续的字符串,没有语法上的限制,这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语抽取,也就是抽取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。
然而,EBMT的缺陷在于如果相似度阈值过高,则匹配成功率低;反之,如果相似度阈值过低,则模糊匹配时产生译文质量较差。要在保证译文质量的前提下提高匹配的成功率,只有建立大规模的实例库,但这需要大量的时间、人力和物力。PBMT的缺陷在于在对句子进行翻译时,需要考虑所有可能的短语(只要是连续的词串就可以被认作是短语),及这些短语的组合情况,这大大的降低了翻译的速度;同时,对于较长的句子或短语,翻译时需要处理大量的歧义,导致翻译的效果不佳。另外,纯粹的EBMT方法和PBMT方法没有考虑对语料库中没有出现的未知词的处理,尤其是大量的专业词汇。 一个处理方法是扩充实例库或者双语对齐语料库,扩大其词汇量的覆盖范围,但一方面实例库和双语对齐语料库的建设需要大量的时间、人力和物力;另一方面,每当有新词汇出现时,扩充语料库之后都需要重新对系统进行训练。

发明内容
根据本发明的一方面,将基于短语的机器翻译方法和基于实例的思想相结合,在
3对现有的PBMT系统不作修改的前提下,引入基于实例的方法,充分利用已有的短语对齐数据,快速、高质量地对匹配的句子进行翻译的优点,从而达到翻译速度和翻译质量的同步提高;同时,使用一个双语词典,结合利用已有的目标语言的语言模型,对翻译结果中的未知词进行翻译,双语词典的构造难度大大低于双语句对的构造难度,同时只需对词典进行扩充即可翻译新词汇,而现有系统无需重新训练。 根据本发明的一方面,提供了一种基于实例短语的机器翻译方法,所述方法包括根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。 根据本发明的一方面,所述方法还可包括利用双语词典和目标语言的语言模型对未知词进行翻译。 根据本发明的一方面,对源语言句子进行切分的步骤所基于的原则是使得切分后的短语覆盖率最高,其中,覆盖率是指源语言句子中短语被覆盖的总字数除以源语言句子的总字数,覆盖是指切分出的短语存在于短语对齐表中。 根据本发明的一方面,在对源语言句子进行切分的步骤中使得切分后的短语覆盖率最高的前提下,使源语言句子的短语数最少。 根据本发明的一方面,在使切分后的短语覆盖率最高并使源语言句子的短语数最少的前提下,使切分出的短语最长。 根据本发明的一方面,可根据图论中的求两定点之间的最短路径来将源语言句子切分为若干短语。 根据本发明的一方面,通过根据图论中的求两定点之间的最短路径来切分源语言
句子的步骤可包括定义源语言句子中每两个字之间为一个顶点,在句子的第一个字之前
以及句子的最后一个字之后各设置一个顶点;连接图中两个顶点的边的权重被设置为相同
的值;利用A*算法或者Di jkstra算法求解首尾两个顶点之间最短路径。 根据本发明的一方面,对未知词进行翻译的步骤可包括从双语词典中检索源语
言句子中的每个未知词的可能翻译;在对经过切分后的短语进行基于短语的统计机器翻译
之后获得的结果中,用未知词的每个可能翻译替换未知词;利用目标语言的语言模型来计算替换后的句子的概率值;选择概率值最高的替换作为最终的翻译结果。


下面结合附图和具体实施方式
对本发明作进一步详细说明。 图1是根据本发明实施例的基于实例短语的机器翻译方法的流程图; 图2是根据现有技术的构造短语对齐表的示意图; 图3是根据本发明实施例的短语切分方法的实例; 图4是根据现有技术的基于短语的统计机器翻译的实例; 图5是根据本发明实施例的对未知词进行翻译的流程图。
具体实施例方式本发明所述系统和方法,由以下几个核心部分组成构造短语对齐表、实例短语切
4分、基于短语的翻译和未知词的翻译。 图1示出了根据本发明实施例的基于实例短语的机器翻译方法的流程图,具体包 含如下步骤 在步骤S100,构造短语对齐表。在构造短语对齐表的过程中,利用GIZA++从双语 对齐文本中获得词对齐信息,然后根据词对齐信息进行短语抽取,获得短语对齐表。其中短 语对齐表由以下三个部分组成源语言短语、目标语言短语和概率值。图2是构造短语对齐 表的一个实例,用来说明构造短语对齐表模块的输入输出形式,其中概率值会有多个,它们 被用来综合衡量短语对齐的概率。 在步骤S200,进行实例短语切分。实例短语切分的输入是一个源语言句子,该句子 可以预先经过分词,即对文本进行词语的切分,像英文那样使得句子中的词之间有空格以 标识,举例来说,将句子"机器翻译系统和方法"分成如"机器翻译系统和方法"这样用空格 将词语分隔开的形式,这样做的一个好处是,分词之后,可以以词为单位代替以字为单位进 行后续的短语切分,从而明显提高翻译的效率。另外,作为实例短语切分的输入的源语言句 子也可以没有进行任何预处理,以一个连续的字串形式输入。 在步骤S200中,根据短语对齐表,将源语言句子切分为若干源语言短语,每一个 短语之间用空格隔开,切分要遵循以下原则 首先,切分后的句子短语被覆盖率最高(覆盖率=句子中短语被覆盖的总字数/ 句子总字数),其中,如果切分出的短语存在于短语对齐表中,则称该短语被覆盖。其次, 在上述前提下,对句子的切分数最少,即切分后,句子中被空格隔开的短语数最少,如句子 "机器翻译系统和方法"被切分后变成"机器翻译系统和方法",因为句子中有两个空格,这 两个空格即是因为切分生成的,那么,我们说其切分数为2。再次,在上面所述的两个前提 下,考虑切分出的短语最长的情况,即在多种切分方式中考虑其中的某个短语最长的一种 方式,因为短语越长,其在原对齐文本中出现的次数就越少,出现的情况复杂程度越小,与 目标语言的对齐唯一性和准确性越高。最极端的情况下,整个句子都在对齐文本中出现过, 且在短语对齐表中存在,那么这个句子就不用作任何切分,直接翻译出来就可以了 。
下面是一个短语切分的实例。当输入句子为"机器翻译系统和方法"时,假设短 语对齐表中含有以下短语a.机器、b.翻译、c.系统、d.方法、e.机器翻译、f.翻译系统、 g.机器翻译系统、h.系统和方法,则可能的切分及其覆盖率、切分数和最长短语的统计数 据如下(未全部列举) (1)机器翻译系统和方法(覆盖率8/9,切分数2,最长短语6) (2)机器翻译系统和方法(覆盖率9/9,切分数2,最长短语5) (3)机器翻译系统和方法(覆盖率8/9,切分数3,最长短语4) (4)机器翻译系统和方法(覆盖率9/9,切分数l,最长短语5) 根据上述的短语切分原则,我们最终将选择"机器翻译系统和方法"的切分方式,
该方式的短语覆盖率最高,并在此前提下对句子的切分数最少。 在步骤S300,对在执行了步骤S200后获得的经过切分的输入句子进行基于短语 的统计机器翻译,基于短语的统计机器翻译系统主要由四个部分组成翻译模型、目标语言 的语言模型、调序模型、解码器。翻译模型提供源语言和目标语言短语之间的对应翻译关 系,并用一个概率值表示这种对应翻译关系的程度,概率值越高,表明翻译对应的越准确,用于为源语言句子提供可能的目标语言翻译。目标语言的语言模型存储了大量的概率值, 这些概率值给出了每个词与其前后词或短语的概率关系信息,其作用是判断一句句子St符 合目标语言语法、习惯的程度,用于对翻译结果进行选择,一般用一个概率值P^(St)来衡量
这个程度,P^M(St)值越高表示句子越符合目标语言。调序模型的作用是调整翻译出来的目
标语言结果中词或者短语的位置顺序。解码器的作用就是协调上述几个模型,综合考虑翻
译模型、目标语言的语言模型和调序模型的概率值计算,对源语言句子进行翻译。步骤S300 的输出是初步翻译的目标语言句子,其中可能包含没有翻译出来的未知词,这些词依然保 持着源语言的形式。 另外,本发明还可包括步骤S400,在步骤S400中进行未知词的翻译以获得翻译结 果。未知词翻译由两个重要的部分组成一个词汇量较大的双语词典和一个目标语言的语 言模型。其中双语词典用于为未知词提供可能的翻译项,目标语言的语言模型用于从多个 可能的翻译项中选择最合适的作为翻译。最基本的双语词典的组成包括两个部分一个源 语言(SL)的词语(WJ和一组对应的目标语言(TL)的翻译(WTU)。双语词典也可以根据需 要添加其他信息,如词性的信息,给对应的一组目标语言的翻译中的每一种翻译WTU都赋 予一个概率值,用于表示W^翻译为Wm的可能性。目标语言的语言模型在步骤S300的基 于短语的翻译中也是必需组成成分,其作用是判断一句句子St符合目标语言语法、习惯的 程度,用于对翻译结果进行选择,一般用一2个概率值P^(St)来衡量这个程度,P^(St)值越 高表示句子越符合目标语言,而P^(St)值最高的翻译项被选择为最后的翻译结果。
图3示出了一种较优的短语切分方法的一个实例,该方法遵循上述的切分原则 该方法将短语切分问题转化为求两定点之间最短路径的图论问题。首先定义句子中每两个 字(在英语等语言中,这里所指的字即一个由空格隔开的词)之间为一个顶点,另外在句子 的第一个字之前以及句子的最后一个字之后各设置一个顶点;图中的一条边代表这条边所 覆盖的字所组成的短语可以在短语对齐表中检索到;图中所有边的权重为l,这里权重均 设置为1是代表这条边所覆盖的字将会作为一个整体,以短语的形式进行处理,权重也可 以设置为其他值,只要所有权重相同即可;利用AA算法或者Dijkstra算法求解首尾两个顶 点之间最短路径。另外,如果句子中存在未知词,也即最短路径为无穷大时,图被分解为若 干个连通子图,则我们只需对每一个子图应用A*算法或者Di jkstra算法即可。最后在所 有最短路径相同的结果中,选择存在最大跨度的结果(跨度即一条边所覆盖的字数,跨度 越大,其对应的切分后的短语也就越长)。如果存在多个子图,则分别对每个子图进行选择。
在图3中,边a、b、c、d、e、f、g和h覆盖的短语(分别对应于机器、翻译、系统、方 法、机器翻译、翻译系统、机器翻译系统、系统和方法)可以在短语对齐表中检索到。然后从 路径(a、b、h)和(e、h)选择边e和h组成的路径,从而获得经过切分的输入句子。
图4示出了一个基于短语的统计机器翻译的例子。"会议将在五月举行"的三个 番羽i華结果,艮卩"The meeting will be held in May,,、"The meeting will holdin May,,禾口 "The meeting will in may be held",分别具有语言模型概率值O. 9、0. 7和0. 2,从而选取 语言模型概率值最高的翻译结果"The meeting will be heldin May"。
图5示出了对未知词进行翻译的基本流程。在步骤S510,对基于短语的机器翻译 得到的初步翻译结果中的每一个未翻译的未知词Wmkn。TO,到双语词典中检索该未知词可能 的翻译。然后在步骤S520,对该未知词的每一个可能翻译Ti,进行如下操作首先用1\替换
6W皿kn。wn,然后利用目标语言的语言模型为替换后的句子打分,即由目标语言的语言模型为替 换后的句子计算出其概率值,最后选择概率值最高的替换,作为最终的翻译结果。其中,通 过目标语言文本而生成目标语言的语言模型,其中,目标语言文本存储的是一个目标语言 句子的集合,是生成目标语言的语言模型的原材料。在句子中存在多个未知词的情况下,可 以每次只针对一个未知词进行翻译,但本发明并不限于此。 下面将介绍一个未知词翻译的实例。在该实例中,翻译源语言是中文,目标语言是 英文。假设输入的源语言是"请告诉我支付条件。",其中,假设"支付"一词是未知词。则
在进行了基于短语的翻译步骤之后获得的初步结果是"Would you please tell me the terms of支付."。在双语词典中,"支付" 一词具有以下翻译项defray、disburse、pay和 payment。然后将双语词典中相应的每个可能的翻译项替换未知词,可以得到以下中间结 果 a. Would you please tell me the terms of defray.
b. Would you please tell me the terms of disburse.
c. Would you please tell me the terms of pay.
d. Would you please tell me the terms of payment. 然后用英语的语言模型对这四个中间结果进行打分,由于"支付条件"有其常用说 法"terms of payment ,,,且"Would you please tell me the terms of payment.,,更符合 英语的语法规则及使用习惯,因此,英语语言模型会为该结果给出一个较高的分值从对中
间结果a、b、 c和d进行打分之后分别获得的分值0. 4、0. 4、0. 7和0. 9中,选择分值最高的 作为最终结果Would you pleasetell me the terms of payment. 在利用本专利的翻译方法进行了中韩翻译的过程中,在一个封闭测试(测试语句 在训练集中选择)和开放测试(测试语句不属于训练集)各占一半的测试集中,中韩翻译 和韩中翻译速度相对于基于短语的机器模型(比如开源翻译模型Moses)分别提高了 80% 和90%,并且在翻译结果中,语句流利度明显改善的句子增加了 30%,如
例子1 韩语OI W暨W今豆詈智^2呈Uh刊孕人I^合U刀[ 中文您可以帮我把这个旅行支票换成现金吗? 基于短语的模型翻译结果这能把旅行支票换成现金吗? 根据本发明的翻译结果请帮我把旅行支票换成现金可以吗? 例子2 韩语尝§1 t卜m^己H2
中文要喝点酒吗? 基于短语的模型翻译结果酒喝酒吗? 根据本发明的模型翻译结果能请你喝杯酒吗? 本发明在速度和准确性上对现有的基于短语的机器翻译模型进行提高。由于将句 子从原来的以字符或者词为单元的解码过程简化为以短语为单元的解码过程,縮小了解码 的搜索空间,提高了解码速度,同时以短语为单位进行解码减少了短语内词语之间的歧义, 提高了翻译的准确性。另外,本发明对未知词的翻译也提高了翻译的质量。
权利要求
一种基于实例短语的机器翻译方法,所述方法包括根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。
2. 如权利要求1所述的方法,其特征在于所述方法还包括利用双语词典和目标语言的语言模型对未知词进行翻译。
3. 如权利要求1或2所述的方法,其特征在于对源语言句子进行切分的步骤所基于的原则是使得切分后的短语覆盖率最高,其中,覆盖率是指源语言句子中短语被覆盖的总字数除以源语言句子的总字数,覆盖是指切分出的短语存在于短语对齐表中。
4. 如权利要求3所述的方法,其特征在于在对源语言句子进行切分的步骤中使得切分后的短语覆盖率最高的前提下,使源语言句子的短语数最少。
5. 如权利要求4所述的方法,其特征在于在使切分后的短语覆盖率最高并使源语言句子的短语数最少的前提下,使切分出的短语最长。
6. 如权利要求1或2所述的方法,其特征在于根据图论中的求两定点之间的最短路径来将源语言句子切分为若干短语。
7. 如权利要求6所述的方法,其特征在于通过根据图论中的求两定点之间的最短路径来切分源语言句子的步骤包括定义源语言句子中每两个字之间为一个顶点,在句子的第一个字之前以及句子的最后一个字之后各设置一个顶点;连接图中两个顶点的边的权重被设置为相同的值;利用A*算法或者Di jkstra算法求解首尾两个顶点之间最短路径。
8. 如权利要求2所述的方法,其特征在于对未知词进行翻译的步骤包括从双语词典中检索源语言句子中的每个未知词的可能翻译;在对经过切分后的短语进行基于短语的统计机器翻译之后获得的结果中,用未知词的每个可能翻译替换未知词;利用目标语言的语言模型来计算替换后的句子的概率值;选择概率值最高的替换作为最终的翻译结果。
全文摘要
本发明提供一种基于实例短语的机器翻译方法,所述方法包括根据从双语对齐文本中获得的词对齐信息进行短语抽取,并获得短语对齐表;根据短语对齐表,基于预定原则将源语言句子切分为若干短语;对经过切分后的短语进行基于短语的统计机器翻译。本发明提高了翻译速度和翻译质量;同时,使用一个双语词典,结合利用已有的目标语言的语言模型,对翻译结果中的未知词进行翻译,提高了翻译的质量。
文档编号G06F17/28GK101770458SQ20091000233
公开日2010年7月7日 申请日期2009年1月7日 优先权日2009年1月7日
发明者万磊, 何亮, 王进 申请人:三星电子(中国)研发中心;三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1