基于依存树的统计机器翻译方法及系统的制作方法

文档序号:6622966阅读:209来源:国知局
基于依存树的统计机器翻译方法及系统的制作方法
【专利摘要】本发明提供一种基于依存边转换的统计机器翻译方法,根据从双语语料库中抽取的转换规则,将源语言句子的依存树中每条依存边转换为对应的目标语言短语依存边,并对所得到的目标语言短语依存边进行拼接,以生成目标语言端译文。该方法结合依存句法模型的优势,但采用分析-转换-生成的模式将翻译过程拆解成了三个阶段,可以对三个过程分别独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。该采用基于依存边的转换保留了更多的知识,可以容忍更高程度的句法非同构现象,而且取得超过当前主流的基于短语模型翻译的方法的性能。
【专利说明】基于依存树的统计机器翻译方法及系统

【技术领域】
[0001]本发明属于自然语言处理【技术领域】,尤其涉及基于依存树的统计机器翻译方法。

【背景技术】
[0002]统计机器翻译是近年来的热点。伴随其发展历程,大致可以分为三大类:基于词的翻译、基于短语的翻译和基于句法的翻译。虽然当前主流的翻译系统大部分仍采用基于短语的翻译模型,但是基于句法的翻译模型近年来受到越来越多的关注。相比基于词或短语的翻译模型,基于句法的翻译模型兼具语法和语义信息,表现出了较好的长距离调序的能力,并且可用更好的泛化能力对语言的层次化结构进行建模。但大多数基于句法的翻译模型(例如,依存句法分析模型)使用同步过程直接对两个语言间的结构对应进行建模。例如,现有的依存树的统计机器翻译方法通常先将源语言端句子进行依存句法分析得到源语言句子的依存树;接着遍历源语言依存树的各个节点,在遍历的同时基于从双语语料度抽取的翻译规则进行翻译,当遍历完源语言句子依存树时即得到对应的目标语言端句子。基于多个可选的翻译规则可得到多个不同的目标语言端句子,选取具有最高分数的目标语言端句子作为源语言端句子对应的最终译文。这类方法直接将源语言依存树映射到目标语言串,不能对所生成的目标语言端句子的各个片段进行重新调序。与基于短语的翻译模型相t匕,其翻译的准确率以及灵活性仍有待提高。


【发明内容】

[0003]因此,本发明的一个目的在于提供一种新的基于依存树的转换规则抽取方法。
[0004]本发明的另一个目的在于提供一种新的基于依存树的统计机器翻译方法及系统。
[0005]本发明的目的是通过以下技术方案实现的:
[0006]—方面,本发明提供了一种基于依存树的转换规则抽取方法,包括:
[0007]步骤1,对于由源语言依存树、目标语言串和源语言与目标语言之间的词语对齐关系构成的三元组中所述源语言依存树的每个节点,利用所述对齐关系标记该节点的节点域和子树域,其中所述节点域是与该节点对齐的所有目标词在所述目标语言串中的位置的集合,所述子树域是指以该节点为根的依存子树中所有节点的节点域的并集;
[0008]步骤2,从所述源语言依存树中提取可接受的依存边,并从每条可接受的依存边抽取转换规则;
[0009]其中,所述可接受的依存边是指满足下列条件的依存边:(i)该依存边的头节点的节点域和该依存边的依存节点的子树域没有交集;(ii)该依存边的头节点的节点域与所述源语言依存树中任何其他节点的节点域没有交集;(iii)该依存边的依存节点的子树域与所述源语言依存树中在以该依存节点为根的子树之外的任何其他节点的节点域没有交集;以及
[0010]所述转换规则包括源端依存边和目标端短语依存边,所述源端依存边为一条可接受的依存边,所述目标端短语依存边包括与所述源端依存边的头结点对应的目标语言短语片、以所述源端依存边的依存结点为根节点的依存子树对应的目标语言短语片以及这两个目标语言短语片在所述目标语言串中的左右位置关系和是否相邻的位置关系。
[0011]上述抽取方法中,所述步骤I还可以包括为所述源语言依存树中每个节点标记对应词的词性。
[0012]上述抽取方法中,还可以包括对所抽取的转换规则进行泛化,以获取泛化后的转换规则。
[0013]上述抽取方法中,所述转换规则的目标端的两个目标语言短语片在目标语言串中的左右位置关系和是否相邻的位置关系是基于所述转化规则的源端依存边的头结点的节点域和其依存节点的子树域来获取的。
[0014]上述抽取方法中,如果所述转化规则的源端依存边的头结点的节点域的开始位置大于其依存节点的子树域的结束位置,则该依存边的头结点对应的目标语言短语片在以该依存边的依存结点为根节点的依存子树对应的目标语言短语片的左边位置,反之则在右边;
[0015]如果所述转化规则的源端依存边的头结点的节点域的开始位置或结束位置中的一个与其依存节点的子树域的开始位置或结束位置的其中一个相邻,则该依存边的头结点对应的目标语言短语片与以该依存边的依存结点为根节点的依存子树对应的目标语言短语片是相邻的,反之则不相邻。
[0016]上述抽取方法中,在所述步骤2,对于每条可接受的依存边可以执行下列操作:
[0017](a)以该可接受的依存边构成转换规则的源端依存边;
[0018](b)获取该可接受的依存边的头结点对应的目标语言片和以该可接受的依存边的依存结点为根节点的依存子树对应的目标语言短语片,并且根据该可接受的依存边的头结点的节点域和依存节点的子树域,获取这两个目标短语片在目标语言串中的左右位置关系和是否相邻的位置关系,以此构成转换规则的目标端短语依存边。
[0019]另一方面,本发明提供了一种基于依存树的统计机器翻译方法,所述方法包括:
[0020]步骤I)获取待翻译的源语言句子的依存树;
[0021]步骤2)基于根据上文的基于依存树的转换规则抽取方法从双语语料库中抽取的转换规则,获取所述依存树中每条依存边对应的目标端短语依存边,并对所得到的目标端短语依存边进行拼接,以生成与源语言句子对应的一个或多个候选译文;
[0022]步骤3)对每个候选译文进行评分,选取最高分数的候选译文作为与源语言句子对应的最终译文。
[0023]上述翻译方法中,所述步骤2)可以包括:后序遍历所述源语言句子的依存树的每个节点并在每个节点处执行下列操作,直到根节点为止:
[0024]步骤2-1)获取该节点与该节点的每个依存节点之间的依存边;
[0025]步骤2-2)对于每条依存边,从所抽取的转换规则中查找其源端依存边与该依存边相同的一个或多个转换规则,并基于每个匹配的转换规则,获取该依存边对应的目标端短语依存边;
[0026]步骤2-3)将所得到的目标端短语依存边进行拼接,以获取该节点覆盖的依存子树对应的译文片段。
[0027]上述翻译方法中,所述步骤2-2)还可以包括对于每条依存边,将该依存边的头结点或依存节点替换成变量和该节点对应词的词性标记,从所抽取的转换规则中选择其源端依存边与该经修改后的依存边相同的转换规则。
[0028]上述翻译方法中,所述步骤2-3)可以包括:
[0029]a)选取其中包含相邻位置关系的目标端短语依存边作为扩展点;
[0030]b)基于所有目标端短语依存边包含的位置关系,在该扩展点对应的译文片段的左右方向枚举所有可能与其余各个目标端短语依存边对应译文片段。
[0031]又一方面,本发明提供了一种基于依存树的统计机器翻译系统,包括:
[0032]分析模块,用于获取待翻译的源语言句子的依存树;
[0033]转换模块,用于基于根据上文的基于依存树的转换规则抽取方法从双语语料库中抽取的转换规则,获取所述依存树中每条依存边对应的目标端短语依存边,并对所得到的目标端短语依存边进行拼接,以生成与源语言句子对应的一个或多个候选译文;
[0034]输出模块,用于对每个候选译文进行评分,选取最高分数的候选译文作为与源语言句子对应的最终译文。
[0035]与现有技术相比,本发明的优点在于:
[0036]结合依存句法模型并采用分析-转换-生成的模式将翻译过程拆解成了三个阶段,可以对三个过程分别独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。基于依存边的转换保留了更多的知识,并且可以容忍更高程度的句法非同构现象。而且,通过在125万平行双语语料数据集上进行实验,根据本发明实施例的翻译方法的性能较主流的基于短语的翻译方法提高1.34个BLEU点。

【专利附图】

【附图说明】
[0037]以下参照附图对本发明实施例作进一步说明,其中:
[0038]图1为根据本发明实施例的标记节点域和子树域的源语言依存树的示意图;
[0039]图2为根据本发明实施例的转换规则的示意图;
[0040]图3为根据本发明实施例的泛化转换规则的过程示意图;
[0041]图4为根据本发明实施例的基于依存树的统计机器翻译方法的流程图;
[0042]图5为根据本发明实施例的基于依存树的统计机器翻译方法操作过程示意图。

【具体实施方式】
[0043]为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0044]为了更好地理解本发明,首先简单介绍一下依存树及现有的基于依存树的统计机器翻译方法的基本过程。一个句子的依存树中的每个节点对应于句子中的一个单词,依存树中的每条有向边代表一对单词之间的关系,方向是从中心节点(也可称为头节点)指向修饰节点(也可称为依存节点)。除了根节点之外,每个节点有且只有一条有向边指向它。依存树中每个节点的左右孩子节点可表示修饰词与中心词之间的左右位置关系。现有的基于依存树的统计机器翻译方法通常先将要翻译的源语言端句子进行依存句法分析得到源语言句子依存树;接着遍历该依存树的各个节点,在遍历的同时按照一定的规则及对齐关系进行翻译,当遍历完源语言句子的依存树时就会得到对应的目标语言端句子。基于多个可选的规则可得到多个不同的翻译候选译文,通常利用对数线性模型,对每个翻译候选译文选取翻译特征进行评分和排序,取分数最高的翻译候选译文作为最终译文。其中所述规则是从包含三元组的双语语料库中抽取的,所述三元组为源语言依存句法树(也可以称为依存树),目标语言串,以及源语言与目标语言之间的词语对齐关系,即(源语言依存树,目标语言串,对齐)。现有的基于依存树的规则抽取方法是以依存子树为单位进行抽取的,每个依存子树代表的是短语或句子片段。将依存子树实际上是一组依存边的集合,因为其依存边较多,发生对齐错误的可能性也很高,而在抽取翻译规则时一旦发现对齐错误,就放弃对整棵依存子树所对应的翻译规则的抽取,所以损失了很多信息和学习机会。
[0045]在本发明的一个实施例中,提供了一种基于依存边的转换规则抽取方法。该方法用于从双语语料库中抽取转换规则(也可以称为翻译规则)。对于双语语料库中每对源语言句子和目标语言句子,都可以利用现有的依存句法分析器以及对齐工具得到相应的三元组,其中每个三元组包括源语言依存句法树,目标语言串,以及源语言与目标语言之间的词语对齐关系,可记为(源语言依存树,目标语言串,对齐关系)。该方法对于每个三元组执行下列操作:
[0046]I)对于源语言依存句法树中每个节点n,利用对齐关系标记该节点η的节点域和子树域。其中所述节点域是与η对齐的所有目标词在所述目标语言串中的位置的集合,所述子树域是指以η为根的依存子树中所有节点的节点域的并集。此外,还可以为每个节点η标记对应词的词性。
[0047]以图1所示的源语言依存句法树为例,其代表的源语言句子为“奥巴马今天将发布安全战略声明”,其对应的目标语言句子为“obama today will issue a statementof security strategy”,由此可确定每个目标词在该目标语言句子中的位置序号。例如“obama”的位置为l,“iSSue”的位置为4,以此类推。为了便于下文中对规则抽取方法的说明,对图1中的依存树的每个节点标记了对应词的词性。采用的词性标记为美国宾州大学中文语言处理计划定义的标记(可参见Fei Xia.2000.The Part-of-Speech TaggingGuidelines for the Penn Chinese Treebank(3.0).http://www.cis.upenn.edu/ ?chinese/posguide.3rd.ch.pdf.)。例如,节点“发布/VV”指“发布”的词性为动词将/AD”指“将”的词性为副词,“声明/NN”指“声明”的词性为名词,等等。如图1所示,对于该源语言依存句法树中每个节点,分别利用对齐关系标记该节点的节点域和子树域。例如,以节点“战略”为例,其对齐到目标语言句子中的第9个词“strategy”上,因此其节点域为{9},开始和结束位置都为9,也可以记为{9-9},由于该节点为叶子节点,不包括孩子节点,因此,其子树域与该节点的节点域相同,为{9-9}。以节点“安全”为例,其与“of security”对齐,即对齐到目标语言句子的第7和8个词上,因此其节点域为{7,8},也可以记为{7-8},该节点也是叶子节点,其子树域也为{7-8}。又以节点“声明”为例,其对齐到目标语言句子的“a statement of ”上,这三个词分别为第5、6、7个词,因此其节点域为{5,67},开始位置为5,结束位置为7,也可以将节点域记为{5-7};以节点“声明”为根的子树中所有节点的节点域的并集为{5,6,7,8,9},因此该节点的子树域为{5,6,7,8,9},也可记为{5-9},该节点覆盖的整个子树的所有节点域恰好可以组成一个连续的句子片段或短语片“a statement ofsecurity strategy,,。
[0048]2)遍历源语言依存树的除根结点之外的各个节点,在当前节点与其父节点之间的边中,抽取可接受的依存边。从上文对依存树的介绍可知,当前节点与其父节点之间的边是单向的修饰关系,每条依存边包括头节点和依存节点。对于当前节点与其父节点之间的边而言,当前节点可称为这条边的修饰节点或依存节点,而其父节点可称为这条边的头节点。如果一条依存边满足下列条件时,可称为可接受的依存边:
[0049](i)头节点的节点域和依存节点的子树域没有交集;
[0050](ii)头节点的节点域与依存树任何其他节点的节点域没有交集;
[0051](iii)依存节点的子树域与依存树中在以依存节点为根的子树之外的任何其他节点的节点域没有交集。
[0052]仍以图1为例,节点“安全”和“声明”之间的依存边不是一条可接受的依存边,这是因为“声明”的节点域{5,6,7}和“安全”的子树域{7,8}有交集,从图1可以看出“安全”和“声明”同时对齐到位置7。而图1中的其他边都是可接受的依存边。
[0053]步骤3)从每条可接受的依存边中抽取转换规则
[0054]所述转换规则包括源语言端(也可简称为源端)和目标语言端(也可简称为目标端)两个部分,源语言端为源语言依存树中一条可接受的依存边,源语言端的依存边(也可简称为源端依存边)包含下列信息:该边的头结点、该边的依存节点、头结点与依存节点的左右位置关系和/或头结点与依存节点的语法依存关系。在基于句法的统计翻译方法中,头结点与依存节点的语法依存关系通常可以采用“nn、punct、nsubj、conj、dobj、advmod、prep、pobj、neg、comod、amod、tmod”等来进行标记。所述转换规则的目标语言端是一条短语依存边,该目标语言端的短语依存边(也可简称为目标端依存边)的头结点为源端依存边的头结点对应的目标语言短语片、该短语依存边的依存结点为以源端依存边的依存结点为根节点的依存子树对应的目标语言短语片以及这两个目标短语片在目标语言串中的位置关系。其中这两个目标短语片在目标语言串中的位置关系包括二者在所述目标语言串中所处的左右位置关系以及是否相邻的位置关系。短语片实际上也可以理解为一个连续的句子片段。图2给出了根据本发明实施例的部分转换规则的示意图。以图2中编号为①的转换规则为例:上半部分是源语言端的一条依存边,包括该边的头结点“发布”、该边的依存节点“奥巴马”、“奥巴马”在“发布”的左边,并且可以将这条边标记为nsubj来表示头结点与依存节点的语法依存关系,表示依存节点为修改头结点的名词性主语;下半部分是该转换规则的目标语言端的短语依存边,其包括头结点“发布”对应的目标语言片“issue”、以依存节点“奥巴马”为根的依存子树对应的目标语言片“obama”、“obama”在“issue”的左边且“ issue” 与 “obama” 不相邻,在图 2 中标记为 “non-adjacent”。
[0055]在一个实施例中,从每条可接受的依存边中抽取转换规则可包括以下步骤:
[0056](a)由可接受的依存边构成转换规则的源语言端。
[0057](b)获取可接受的依存边的头结点对应的目标语言片和以该依存边的依存结点为根节点的依存子树对应的目标语言短语片,并且根据该可接受的依存边的头结点的节点域和依存节点的子树域,获取这两个目标语言短语片的位置关系,包括是否相邻,左右位置关系,以此构成转换规则的目标端。如果该可接受的依存边的头结点的节点域的开始位置大于依存节点的子树域的结束位置,则该依存边的头结点对应的目标语言片在以该依存边的依存结点为根节点的依存子树对应的目标语言短语片的左边位置,反之则在右边。如果该可接受的依存边的头结点的节点域的开始位置或结束位置中的一个与依存节点的子树域的开始位置或结束位置的其中一个相邻,则该依存边的头结点对应的目标语言片与以该依存边的依存结点为根节点的依存子树对应的目标语言短语片是相邻的,反之则不相邻。
[0058]例如,以图1中“发布”和“声明”之间的依存边为例,所抽取的转换规则的源语言端为“发布”和“声明”之间的依存边,“发布”对应的目标语言片为“issue”,“声明”对应的整棵子树所覆盖的目标语言片为“a statement of security strategy”。然后基于该可接受的依存边的头结点的节点域{4}和依存节点的子树域{5-7}可知,“a statement ofsecurity strategy”在“issue”的右边,且与“issue”相邻,该依存边标记为“adjacent”。这些信息组成所抽取的转换规则的目标语言端。
[0059]又例如以图2中编号为⑤的转换规则为例:上半部分是源语言端的一条边,包括该边的头结点“声明”,该边的依存节点“战略”,“战略”在“声明”的左边;下半部分是该转换规则的目标语言端,其包括头结点“声明”对应的目标语言片“a statement of”,以依存节点“战略”为根的依存字数对应的目标语言片“strategy”,基于该可接受的依存边的头结点的节点域{5-7}和依存节点的子树域{9}可知,“strategy”在“a statement of”的右边(图 2 中 “strategy” 为 “a statement of” 的右孩子节点),且 “a statement of”与“strategy”不相邻,因此该依存边标记为“non-adjacent”。
[0060]在又一个实施例中,在抽取规则时,如果可接受的依存边的头节点或依存节点是内部节点,可以将其标记为一个变量,表示该节点是可替换的。例如图2中编号为④的转换规则,“声明”是内部节点,可以对其进行标记,例如记为“*:声明”,并且将在该转换规则的目标语言端的短语依存边的依存节点相应地设置为一个变量,例如以表示。其中,内部节点指源语言依存树中除叶节点和根结点之外的所有节点。
[0061]在又一个实施例中,还可以对所抽取的转换规则进行泛化,得到泛化后的非词汇化的转换规则。例如,可以将转换规则的源端依存边的头结点替换成为一个变量和词性标记限定,并将转换规则的目标端依存边的头节点也设置为变量,例如标记为*。或者,可以将转换规则的源端依存边的依存节点替换成为一个变量和词性标记限定,并将转换规则的目标端依存边的依存节点也设置为变量,例如标记为*。但不能同时替换头结点和依存节点。图3给出了根据本发明一个示例的泛化转换规则的示意图。如图3所示,可以将头结点“发布”替换成一个变量,同时标记为“W”,表示一个动词性的词都可以替换到这里。也可以将依存节点“奥巴马”替换成一个变量,同时标记为“NN”,表示一个名词都可以替换到这里。这样,从“发布”与“奥巴马”之间的依存边又可以抽取出两条转换规则。可见,通过对所抽取的规则进行泛化,可以获取更多的语义信息,而且还可以尽量避免在双语语料受限的情况下,抽取的转换规则过于稀疏的情况。
[0062]与现有的基于依存树的翻译规则抽取方法相比,根据本发明实施例的基于依存边的转换规则抽取方法,在抽取形式上极为简单,是以每条依存边为单位来抽取转换规则,其对源语言知识的表达形式上更为灵活,它能够精确的刻划一条依存边中的头结点和依存节点之间的关系,并且可以提取到词与词、词语与短语之间的左右位置关系及相邻与否的位置关系。这样抽取的转换规则可以给后续的翻译准确性以及目标译文的重新调序提供了有力的支持。而且,由于本发明以依存边为单位来抽取转换规则,相比以依存子树为单位抽取规则的方法,能够找到更多满足抽取要求的依存边,能更多地抽取并学习到转换规则,因而,对翻译过程中所用到的知识学习的更为充分。
[0063]图4给出了根据本发明一个实施例的基于依存边转换的统计机器翻译方法的流程图。该方法主要包括获取待翻译的源语言句子的依存句法树(也可简称为源语言依存树);基于采用上文所讨论的抽取方法从双语语料库中抽取的转换规则,获取该源语言依存树中每条依存边对应的目标端依存边,并对所得到的目标端依存边进行拼接,以生成候选的目标语言译文;以及对每个候选译文进行评分,选取最高分数的候选译文作为翻译结果O
[0064]更具体地,首先,可以利用现有的各种句法分析器对待翻译的源语言句子或源语言串进行句法分析,以获取其对应的依存句法树。例如,可以采用如MSTParser、MaltParser等的依存句法分析器分析源语言句子,以得到依存句法树。又例如,也可以采用成分句法分析器 Stanford parser (可参见 Dan Klein and Christopher D.Manning.2003.AccurateUnlexicalized Parsing.Proceedings of the 41st Meeting of the Associat1n forComputat1nal Linguistics, pp.423-430)。Stanford parser 工具包中已经集成相应的转换工具,通过在输入命令中设置-outputFormat选项的值为typedDependencies,可以直接得到所输入的源语言串的依存句法树。
[0065]为了说明的方便,源语言句子仍以中文句子“奥巴马今天将发表安全战略声明”为例进行说明,经过依存句法分析得到依存句法树(如图1所示)。
[0066]在得到待翻译的源语言句子的依存树之后,可以后序遍历该依存树的每个节点并执行下列操作,直到根节点为止:
[0067](I)抽取该节点与该节点的每个依存节点之间的依存边。
[0068](2)对于每条依存边,将其作为源语言端依存边,从如上文抽取到的转换规则中查找与该依存边匹配的一个或多个转换规则。其中,在匹配的过程中,如果该依存边与某个转换规则的源端依存边完全相同,则可以将该转换规则确定为与该依存边匹配的转换规则。在又一个实施例中,还可以按照上述所述的对转换规则进行泛化的方法,对该依存边进行泛化,可以将该依存边的头结点或依存节点替换成一个变量,同时为其标记词性,表示一个相同词性的词都可以替换到这里。这样,将泛化后的依存边作为源语言端依存边,将其与上文从语料库中抽取到的转换规则进行匹配,以找到与该依存边匹配的、泛化后的转换规则。
[0069](3)基于每个匹配的转换规则,获取该依存边对应的目标端依存边。其中,对于每个泛化后的转换规则,在获取目标端依存边时,要补齐泛化的变量,也就是选择与该变量具有相同词性的目标词来代替该变量。
[0070](4)将所得到的目标端依存边进行拼接,以获取当前节点覆盖的依存子树的译文片段。例如,首先选取其中包含相邻位置关系的目标端依存边作为扩展点;接着根据所有目标端依存边包含的位置关系,在该扩展点对应的译文片段的左右方向枚举所有可能与其余的各个目标端依存边对应的译文片段。
[0071]例如,参考图5,后序遍历源语言依存句法树,在图5中假设当前已经访问到根节点“发布”,其他各内部节点都已经访问完毕且翻译完成,其中“声明”所对应的子树已经被翻译(该子树对应的译文片段可以有多个,暂时都以表示)。这时,抽取“发布”和其对应的四个依存节点之间的四条依存边。假设从上文抽取的转换规则中与这四条依存边匹配的转换规则为如图2所示的前四个转换规则,则基于这些转换规则可以获得每个依存边对应的目标端依存边。然后对这些目标端依存边进行拼接。
[0072]如图5最下方的框所示,在进行拼接时,首先可以选取一个其位置关系被标记为“相邻(adjacent) ”的目标端依存边作为扩展点。例如,在图5中选择了“issue”和“will”之间的边。接着,基于所有目标端依存边包含的位置关系来向左右进行扩展。如图5所示,向左扩展时,根据目标端依存边的位置关系,“Obama”与“issue”之间的依存边和“today”与“issue”之间的依存边的位置关系中指示这两个依存节点“Obama”和“today”在“issue”的左边,并且与“issue”不相邻,因而,可基于这两个目标词与“issue”的位置关系进行枚举,得到译文“obama today will issue”和“today Obama will issue”。向右扩展时,将所有目标端依存边依照其本身携带的位置信息向右扩展,并进行枚举。如图5所示,向右扩展时遇到一个已经翻译好的内部节点,该内部节点的所对应的其中一个译文片段为“a statementof security strategy”,将其拼接到前面两个已经生成的句子片段上,这样就得到了两个番羽译候选译文“obama today will issue a statement of security strategy”和“todayobama will issue a statement of security strategy”,也就是得到节点“发布”所覆盖的整棵子树的译文。由于一个源端依存边可能会匹配多个目标端依存边,每个翻译好的内部节点也可能会有多个候选译文片段,因此需要全部进行枚举,最终会得到多个候选译文。当然,上述枚举的过程可能会增加时间复杂度,为了降低其时间复杂度,还可以采用很多现有的改进的枚举算法,例如Beam-search算法来进行枚举。
[0073]其中,对于多个候选译文进行评分并排序,当翻译完成时,选取最高分数的候选译文作为最终的翻译结果。对于多个候选译文的评分和排序的方法,与现有的统计机器翻译方法一样,采用对数线性模型框架提供的13个特征进行评分,这些特征包括转换规则正向和反向翻译概率、正向和反向词汇化翻译概率、fixed结构双语短语正向和反向翻译概率及其正向和反向词汇化翻译概率、规则惩罚、双语短语规则惩罚、伪翻译规则惩罚、目标端词数惩罚和语言模型。
[0074]现有的基于依存树的翻译方法通常基于上下文无关同步文法,其翻译规则形式上表现为源端和目标端同步结构。这种同步结构制约其在翻译过程中不能够对目标语言句子的生成进行独立建模,而必须依赖并同步于源端的同步文法分析过程。对于从依存树到目标端依存树的模型,同步文法甚至还会由于源端的依存树与目标端的依存树结构差异较大,导致非同构问题难以解决。而根据本发明实施例的方法打破了同步文法的约束,采用了分析-转换-生成的模式将翻译过程拆解为三个阶段,先对源语言端的句子进行依存句法分析,接着基于上文所讨论的抽取的转换规则,以依存边为单位,投射到目标语言端短语依存边,并再进行目标语言端句子的生成。这种方法对翻译过程的三个阶段可以独立建模,使得对目标语言端句子的生成过程进行更为精确的控制成为可能。而且,由于上文规则抽取方法,以依存边为单位,能从语料库中抽取并学习到更多的转换规则,对翻译的准确性提供了有力的支持。
[0075]在本发明的又一个实施例中,还提供了一种基于依存树的统计机器翻译系统,所述系统包括分析模块、转换模块、输出模块。其中,分析模块,用于获取待翻译的源语言句子的依存树。转换模块用于基于上文所述的抽取方法从双语语料库中抽取的转换规则,获取所述依存树中每条依存边对应的目标端短语依存边,并对所得到的目标端短语依存边进行拼接,以生成与源语言句子对应的一个或多个候选译文。输出模块用于对每个候选译文进行评分,选取最高分数的候选译文作为与源语言句子对应的最终译文。所述系统还可以包括抽取模块,其用于基于上文所述的抽取方法从双语语料库中抽取转换规则。
[0076]为了更好地说明本发明的效果,发明人采用最常用的机器翻译自动评测指标BLEU,在125万平行双语语料数据集上,对根据本发明实施例的统计机器翻译方法和主流的基于短语的翻译方法的性能进行了对比。根据实验结果,本发明实施例中的翻译方法与当前主流的基于短语的翻译方法相比,在性能上提高1.34个BLEU点。
[0077]虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
【权利要求】
1.一种基于依存树的转换规则抽取方法,该方法包括: 步骤1,对于由源语言依存树、目标语言串和源语言与目标语言之间的词语对齐关系构成的三元组中所述源语言依存树的每个节点,利用所述对齐关系标记该节点的节点域和子树域,其中所述节点域是与该节点对齐的所有目标词在所述目标语言串中的位置的集合,所述子树域是指以该节点为根的依存子树中所有节点的节点域的并集; 步骤2,从所述源语言依存树中提取可接受的依存边,并从每条可接受的依存边抽取转换规则; 其中,所述可接受的依存边是指满足下列条件的依存边:(i)该依存边的头节点的节点域和该依存边的依存节点的子树域没有交集;(ii)该依存边的头节点的节点域与所述源语言依存树中任何其他节点的节点域没有交集;(iii)该依存边的依存节点的子树域与所述源语言依存树中在以该依存节点为根的子树之外的任何其他节点的节点域没有交集;以及 所述转换规则包括源端依存边和目标端短语依存边,所述源端依存边为一条可接受的依存边,所述目标端短语依存边包括与所述源端依存边的头结点对应的目标语言短语片、以所述源端依存边的依存结点为根节点的依存子树对应的目标语言短语片以及这两个目标语言短语片在所述目标语言串中的左右位置关系和是否相邻的位置关系。
2.根据权利要求1所述的方法,所述步骤I还包括为所述源语言依存树中每个节点标记对应词的词性。
3.根据权利要求2所述的方法,还包括对所抽取的转换规则进行泛化,以获取泛化后的转换规则。
4.根据权利要求1所述的方法,其中,所述转换规则的目标端的两个目标语言短语片在目标语言串中的左右位置关系和是否相邻的位置关系是基于所述转化规则的源端依存边的头结点的节点域和其依存节点的子树域来获取的。
5.根据权利要求4所述的方法,其中,如果所述转化规则的源端依存边的头结点的节点域的开始位置大于其依存节点的子树域的结束位置,则该依存边的头结点对应的目标语言短语片在以该依存边的依存结点为根节点的依存子树对应的目标语言短语片的左边位置,反之则在右边; 如果所述转化规则的源端依存边的头结点的节点域的开始位置或结束位置中的一个与其依存节点的子树域的开始位置或结束位置的其中一个相邻,则该依存边的头结点对应的目标语言短语片与以该依存边的依存结点为根节点的依存子树对应的目标语言短语片是相邻的,反之则不相邻。
6.根据权利要求1-5之一所述的方法,在所述步骤2,对于每条可接受的依存边执行下列操作: (a)以该可接受的依存边构成转换规则的源端依存边; (b)获取该可接受的依存边的头结点对应的目标语言片和以该可接受的依存边的依存结点为根节点的依存子树对应的目标语言短语片,并且根据该可接受的依存边的头结点的节点域和依存节点的子树域,获取这两个目标短语片在目标语言串中的左右位置关系和是否相邻的位置关系,以此构成转换规则的目标端短语依存边。
7.一种基于依存树的统计机器翻译方法,所述方法包括: 步骤I)获取待翻译的源语言句子的依存树; 步骤2)基于根据权利要求1-6之一所述的方法从双语语料库中抽取的转换规则,获取所述依存树中每条依存边对应的目标端短语依存边,并对所得到的目标端短语依存边进行拼接,以生成与源语言句子对应的一个或多个候选译文; 步骤3)对每个候选译文进行评分,选取最高分数的候选译文作为与源语言句子对应的最终译文。
8.根据权利要求7所述的方法,所述步骤2)包括:后序遍历所述源语言句子的依存树的每个节点并在每个节点处执行下列操作,直到根节点为止: 步骤2-1)获取该节点与该节点的每个依存节点之间的依存边; 步骤2-2)对于每条依存边,从所抽取的转换规则中查找其源端依存边与该依存边相同的一个或多个转换规则,并基于每个匹配的转换规则,获取该依存边对应的目标端短语依存边; 步骤2-3)将所得到的目标端短语依存边进行拼接,以获取该节点覆盖的依存子树对应的译文片段。
9.根据权利要求8所述的方法,所述步骤2-2)还包括对于每条依存边,将该依存边的头结点或依存节点替换成变量和该节点对应词的词性标记,从所抽取的转换规则中选择其源端依存边与该经修改后的依存边相同的转换规则。
10.根据权利要求8所述的方法,所述步骤2-3)包括: a)选取其中包含相邻位置关系的目标端短语依存边作为扩展点; b)基于所有目标端短语依存边包含的位置关系,在该扩展点对应的译文片段的左右方向枚举所有可能与其余各个目标端短语依存边对应译文片段。
11.一种基于依存树的统计机器翻译系统,所述系统包括: 分析模块,用于获取待翻译的源语言句子的依存树; 转换模块,用于基于根据权利要求1-6之一所述的方法从双语语料库中抽取的转换规贝U,获取所述依存树中每条依存边对应的目标端短语依存边,并对所得到的目标端短语依存边进行拼接,以生成与源语言句子对应的一个或多个候选译文; 输出模块,用于对每个候选译文进行评分,选取最高分数的候选译文作为与源语言句子对应的最终译文。
【文档编号】G06F17/28GK104239290SQ201410389422
【公开日】2014年12月24日 申请日期:2014年8月8日 优先权日:2014年8月8日
【发明者】陈宏申, 谢军, 孟凡东, 姜文斌, 刘群 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1