一种基于依存句法树的翻译规则抽取方法和翻译方法

文档序号:6429184阅读:175来源:国知局
专利名称:一种基于依存句法树的翻译规则抽取方法和翻译方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于依存句法树的统计机器翻译方法。
背景技术
依存文法是自然语言处理中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点依存结构具有最好的短语结合性质(phrasal cohesion properties);依存边给出了语义信息。因此,依存文法是机器翻译领域中非常具有吸引力的资源。但是现有的依存句法树到串模型(参考文献1 :Deyi Xiong,Qun Liu,and Shouxun Lin. A Dependency Treelet String Correspondence Model for Statistical Machine Translation. In Proceedings of Second Workshop on Statistical Machine Translation. 2007.)以源语言依存句法树中的任意连通子图作为翻译规则的基本结构, 这种翻译规则没有明确的语言学意义,更重要的是这种翻译规则不能表达全部的调序关系,需要借助启发式或调序模型来约束翻译得到的串的词序以完成整个翻译过程。此外, 即使引入启发式或调序模型来约束翻译结果的词序,现有依存句法树到串模型的性能依然落后于主流的成分树到串模型(参考文献2 =Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree—to—String Alignment Template for Statistical Machine Translation. In Proceedings of C0LING/ACL 2006, pages 609-616, Sydney, Australia,July.)。

发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于依存句法树的翻译方法,通过将调序关系直接表示于翻译规则中来提高翻译的性能。本发明的目的是通过下述技术方案实现的一方面,本发明提供了一种基于依存句法树的翻译规则抽取方法,包括以下步骤步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点η标记中心词跨度和依存跨度,所述中心词跨度是与η对齐的所有目标词的位置的集合;所述依存跨度指以η为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空;步骤2)对源语言依存树中对齐一致的节点,生成中心词规则;步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;其中所述中心词-修饰词片段为以中心(head)词为根节点,以修饰(d印endent) 词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词(head-dependent)片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。根据本发明实施例的翻译规则抽取方法,其中步骤;3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括(i)中心词节点的中心词跨度对齐一致,(ii)所有修饰词的依存跨度不为空,(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交;根据本发明实施例的翻译规则抽取方法,步骤幻包括以下步骤(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。根据本发明实施例的翻译规则抽取方法,步骤幻还包括以下步骤(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否则,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。又一方面,本发明还提供了一种基于依存句法树的翻译方法,包括以下步骤步骤5-1)通过分析源语言串得到源语言串的依存句法树;步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。根据本发明实施例的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。根据本发明实施例的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。根据本发明实施例的翻译方法,所述步骤5- 中所述的翻译规则是根据上面的实施例的翻译规则抽取方法得到的规则。根据本发明实施例的翻译方法,所述步骤5- 包括以下步骤后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节占不变·步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;重复步骤5-2-1) ,5-2-2)和5_2_;3)直到访问了源语言串依存句法树的所有节点为止。与现有技术相比,本发明的优点在于直接将翻译调序信息表示于源端为中心(head)节点及其所有修饰(d印endent) 节点组成的树片段、目标端为串的翻译规则中,更好的利用了依存句法树包含的语法和语义知识,从而使翻译规则可以明确地指导翻译过程。在1 万平行双语语料数据集上,本发明实施例中的依存句法树到串翻译模型的性能较成分树到串模型提高1. 68个BLEU点。


以下参照附图对本发明实施例作进一步说明,其中图1为依存句法树的一个示例;图2(a)、图2(b)和图2(c)为图1所示的依存句法树所包含的三个中心词-修饰词片段的示意图;图3 (a)为根据本发明实施例的兼具翻译和调序两种功能的中心词-修饰词规则的示意图;图3(b)为根据本发明实施例的中心词规则的示意图;图4为根据本发明实施例的为每个节点标记了中心词跨度和依存跨度的依存句法树的示意图;图5为根据本发明实施例的词汇化中心词-修饰词规则生成过程的示意图;图6为根据本发明实施例的具有一个非词汇化节点的非词汇化中心词-修饰词规则生成过程的示意图;图7为根据本发明实施例提供的基于依存句法树的翻译方法的流程示意图;图8为根据本发明实施例提供的翻译方法中规则匹配的示意图。
具体实施例方式为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明, 并不用于限定本发明。在本发明的一个实施例中,提供了一种基于依存句法树的翻译规则抽取方法。 该方法从包含三元组的语料库中抽取翻译规则,所述三元组为源语言依存句法树、目标语言串以及源语言与目标语言间的词语对齐关系,即(源语言依存句法树,目标语言串,对齐)。在本实施例中,源语言和目标语言间的对齐关系通过对齐工具GIZA++(参考文献 3 :Franz Josef Och, Hermann Ney. “ A Systematic Comparison of Various Statistical Alignment Models" , Computational Linguistics, volume 29, number 1, pp. 19-51March2003.)自动获得。本领域普通技术人员应理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关系。下面以图1为例来具体说明本实施例的基于依存句法树抽取翻译规则的方法。图1给出了一个中文句子“2010年FIFA世界杯在南非成功举行”的依存句法树 (也可简称为依存树)。为了便于下文中对抽取翻译规则方法的说明,对图1所示的依存句法树的每个节点标记了对应词的词性。所述词性标记为美国宾州大学中文语言处理计划定义的标记(参考文献4 :Xia,Fei. 2000. The Part-of-Speech Tagging Guidelines for the Penn Chinese Treebank(3. 0). http://www. cis. upenn. edu/ chinese/posguide. 3rd. ch. pdf.)。例如,节点“举行/W”指“举行”的词性为动词,“成功/AD”指“成功”的词性为副词,“2010年/NT”指“2010年”的词性为表示时间的名词,“世界杯/NR”指“世界杯”为专有名词等。在本实施例中要抽取的翻译规则包括中心词-修饰词规则和中心词规则两种类型的规则。其中,中心词规则的源语言端为中心词,目标语言端为串,用于翻译词语。中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,其给出了源语言端和目标语言之间的调序关系,同时兼有翻译和调序的功能。所述中心词-修饰词片段为中心词节点与其孩子节点组成的依存句法树片段(如图2所示)。图2给出了图1所示的依存句法树中包含的三个中心词-修饰词片段。其中, 图2(a)是以“举行”为中心词,“世界杯”、“在”和“成功”为修饰词组成的中心词-修饰词片段,其中“*”指明节点为依存句法树的内部节点。该中心词-修饰词片段对应一个句子模式,由依存边及各节点的词性确定。例如,该中心词-修饰词片段对应由一个“专有名词短语”、一个“介词短语”、一个“副词”及一个“动词”组成的句子模式,说明如下修饰关系动词被一个名词短语(做为主语),一个介词短语和一个副词修饰;图2(b)是以“世界杯”为中心词,"2010年”和‘‘FIFA”为修饰词组成的中心词-修饰词片段。该中心词-修饰词对应一个短语模式。即由两个“专有名词”和一个“表示时间的名词”组成的名词短语模式,说明如下修饰关系一个“专有名词”可以被一个“表示时间的名词”和另一个“专有名词”修饰组成名词短语。图2(c)是以“在”为中心词,“南非”为修饰词组成的中心词-修饰词片段。该中心词-修饰词对应一个短语模式。即由一个“介词”和一个“专有名词”组成的介词短语模式,说明如下修饰关系一个“介词”可以被一个“专有名词”修饰组成介词短语。图3 (a)为中心词-修饰词规则的示例。图3 (a)所示规则的源语言端(左端)对应的中心词节点与其孩子节点组成的依存句法树片段;其中,下划线表示该节点为叶子节点;“xl 世界杯”和“x2 在”为词汇化约束变量,表明节点可分别由以“世界杯”和“在”为根的子树替换;“x3 :AD”为词性约束变量,表明节点可以由词性为AD的词替换。图3(a) 所示规则的目标语言端(右端)为串“xlwas held x3x2”。该中心词-修饰词规则左右两端的变量的对应关系说明了源语言端和目标语言端之间的调序关系,其中源语言端的“xl 世界杯”,“x2 在”和“x3 :AD”分别与目标语言端的“xl”、“x2”和“x3”对应。该中心词-修饰词规则捕捉了这样的语言现象,汉语中介词短语和副词通常放在动词之前,而在英语中介词短语和副词通常放在动词之后。与现有工作将翻译规则表示在源语言依存句法树中任意连通子图的方法相比,中心词-修饰词规则具有以下优点1)语言学意义更加清晰明确,直接捕捉源语言的句式和短语模式,而这些模式已经被语言学家广泛接受;2)负责全部的调序工作,与中心词规则配合,不需要借助启发式或调序模型即可完成整个翻译过程。例如,图3(a)的中心词-修饰词规则捕捉到句式“名词短语+介词短语+副词+动词”的一个实例的翻译方式,其明确指明了动词为“举行”、名词短语为“世界杯”组成的名词短语、介词短语为“在”组成的介词短语时的翻译方法。图3(b)为中心词规则的示例,这类规则的源语言端为中心词,目标段为串,用于翻译词语。如图3(b)所示的规则指明“成功”可以翻译为“successfully”。现参考图4、图5和图6来说明基于依存树抽取翻译规则的方法,具体包括如下步骤步骤1),对于给定的三元组,利用源语言和目标语言间的词语对齐关系对源语言依存句法树的每个节点η标记如下两个属性中心词跨度与η对齐的所有目标词的位置的集合;依存跨度以η为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包。当以η为根的子树中不存在对齐一致的节点时,该节点的依存跨度为空。图4所示的是为每个节点标记了中心词跨度和依存跨度的依存句法树的一个实施例的示意图。其中,例如目标语言串为“2010FIFA World Cup was held successfully in South Africa”,为了说明的方便,对目标语言串中的每个词的位置分别编号为1_10,例
如2010对应位置1,FIFA对应位置2,World对应位置3,Cup对应位置4,......,Africa
对应位置10。源语言串为“2010年FIFA世界杯在南非成功举行”。那么对于这个源语言串的依存句法树的节点“世界杯”,与其对齐的目标词为“World Cup”,与其对齐的目标词的位置的集合为{3,4},因此该节点的中心词跨度为{3,4}。对于每个节点标记两个跨度,前一个跨度为中心词跨度,后一个跨度为依存跨度,例如以节点“举行/W”为例,{6}为中心词跨度,而12-10}为依存跨度。如上所述,对于每个节点的依存跨度是以该节点为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包。所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空。例如,由于GIZA++的对齐通常带有错误,如图4中“2010年”和“在”均被错误地对齐到目标语言中的“was”,这导致这两个节点的中心跨度交集不为空,因此这两个节点都不是对齐一致的。除这两个节点之外, 其他节点的中心词跨度均不与依存句法树中的除该节点外的其他节点的中心词跨度相交, 因此是对齐一致的。所述集合的闭包是包含该集合所有位置的、最小的连续位置组成的集合。现以图5中节点“世界杯”和“2010年”为例说明依存跨度。以“世界杯”为根的子树包含“2010年”、“FIFA”和“世界杯”三个节点,其中“2010年”对齐不一致,而节点“FIFA”和“世界杯”对齐一致,两个节点的中心词跨度分别为⑵和{3,4},因此节点“世界杯”的依存跨度为{2,3,4} 0为便于书写面,图4中将{2,3,4}记为{2-4} 0节点“2010年”是叶子节点,且不是对齐一致的,所以其依存跨度为空,图4中以{}表示。在本发明的实施例中的依存跨度不同于GHKM方法(参考文献5 :M. Galley, Μ. Hopkins, K. Knight, and D. Marcu. 2004. What' s in a translation rule ? In Proc. of HLT/NAACL-04)及短语系统(参考文献 6 :Philipp Koehn, Franz Josef Och,Daniel Marcu, Statistical phrase-based translation, Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, p. 48-54, May 27-June 01,2003, Edmonton, Canada.)中的跨度的概念。由于GHKM中的跨度和短语系统中的跨度本质上是相同的,此处仅比较本发明所提出的依存跨度和GHKM跨度的区别。首先,依存跨度和GHKM跨度基于不同的语言学直觉,依存跨度的直觉是“语义上近邻的词倾向于在不同的语言中保持近邻”,而GHKM跨度的直觉是“连续短语倾向于在不同语言中保持连续”。其次,使用GHKM跨度会失去一些捕捉有用语言学句式的机会。以图4的对齐关系为例,由于节点“2010年”和“在”的对齐错误,对于中心词“举行”和修饰词“世界杯”、“在”和“成功”组成的中心词-修饰词片段,节点“世界杯”和“在”的GHKM跨度将分别为{1-5}和{5-10},两个节点的GHKM跨度均与中心词节点“举行”中心词跨度{6}重叠,且节点“在”的GHKM跨度与节点“成功”的GHKM跨度(同中心词跨度){9,10}重叠,从而导致无法获得该中心词-修饰词片段相关的翻译规则。步骤2)对对齐一致的节点生成中心词规则,例如,对于“成功” “世界杯” “南非” 等节点采用与短语系统相同的方法(参考文献 :F. Och, H. Ney,The Alignment Template Approach to Statistical Machine Translation,Computational Linguistics,2004.)^ 生成翻译规则,例如“成功一successfully”; “世界杯一World Cup,x ‘南非一South Africa”寸。步骤3)对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成具有相同修饰关系的所有词汇化和非词汇化翻译规则i)中心词节点的中心词跨度对齐一致,ii)所有修饰词的依存跨度不为空,iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交。图4中用阴影标记了所有对齐一致的节点,方框标记了所有依存跨度不为空的节点。可以很容易的判断出,图4中仅有一个中心词-修饰词片段满足如上条件,即由节点 “世界杯”、“在”、“成功”和“举行”组成的中心词-修饰词片段。从该中心词-修饰词片段中,可以生成一系列词汇化和非词汇化中心词-修饰词规则,具体过程如下(1)词汇化中心词-修饰词规则生成提取中心词-修饰词片段对应的词汇化修饰关系,即完全由中心词-修饰词片段的依存边和各节点的词组成的修饰关系,将对应于源语言依存句法树中内部节点的节点标记为词汇化约束的变量,得到翻译规则的源语言端。所述修饰关系是指中心词-修饰词片段所对应的句子或短语模式实例。现以图5为例说明该过程,例如,提取出对应的修饰关系,例如,(世界杯)(在)(成功)举行,将对应于源语言依存句法树的内部节点的“世界杯”和“在”两个节点分别标记为词汇化约束的变量“xl 世界杯”和“x2 在”,从而得到中心词-修饰词规则的源语言端。按照如下过程生成词汇化中心词-修饰词规则的目标端。首先,按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点。对于上述修饰关系实例中的每个节点如果该节点是词汇化的,且该节点为中心词节点或者依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;如果该节点为依存句法树的内部节点,则用该节点对应的词汇化约束变量替换该节点。现以图5为例说明说明该过程。按照集合中最小元素从小到大排序对中心词“举行”的中心词跨度及修饰词“世界杯”、“在”和“成功”的依存跨度进行排序,排序得到的序列为{2-4}(世界杯)、{6}(举行)、{7}(成功)和{9,10}(在)。为了清晰起见,在图5中直接给出了排序后各跨度对应的英文串(见图5左下部的英文串)。虚线表明了英文串与中心词-修饰词片段中各节点的对应关系。由于节点“世界杯”和“在”为依存句法树的内部节点,对应部分替换为变量xl和x2,从而得到规则的目标端“xl held successfully x2”。(2)非词汇化中心词-修饰词规则生成由于完全使用词汇化规则会带来数据稀疏问题,为了缓解这一问题,从词汇化的中心词-修饰词规则中生成了一系列非词汇化中心词-修饰词规则,具体方法如下改变词汇化中心词-修饰词规则的源语言端,将一个或多个节点修改为非词汇化约束变量(例如词性约束变量、依存类型约束变量),得到非词汇化中心词-修饰词规则的源语言端;如果被改变的节点为依存句法树的内部节点,则目标端不变;否则,将该节点对应的目标端变为一个新的变量。对于包含m个节点的中心词-修饰词片段,通过这一过程可以得到2m_l个非词汇化中心词-修饰词规则。图6示例了将一个节点转变为非词汇化约束的变量得到四条非词汇化中心词-修饰词规则的过程。四条规则中,第一条通过将中心词“举行”转变为词性约束变量“x4 :VV”、 对应目标端转变为变量x4得到;第二条通过词汇化约束变量“xl 世界杯”转变为词性约束变量“xl :NR”得到;第三条通过词汇化约束变量“x2 在”转变为词性约束变量“x2 :P”得到;第四条通过将修饰词“成功”转变为词性约束变量“x4 :AD”得到,下划线表示该变量为叶子节点。同理,可以得到同时改变两个、三个和四个节点为词性约束变量的非词汇化中心词-修饰词规则。表1给出了通过上述步骤可以从图4所示的三元组(源语言依存句法树树,目标语言串,对齐)抽取的部分翻译规则实例。表 1
Rl:(xl:世界杯)(x2 在)(x3 :AD)举行一xl was held x3 x2R2:(xl:NR) (x2 :P) (x3 :AD)举行一xl washeld x3 x2R3:(xl:世界杯)(x2 在)(x3 :AD) x4 :VV --xl x4 x3 x2R4:(xl:NR) (x 2 :P) (x3 :AD)x 4 :W — xlx4 x3 x权利要求
1.一种基于依存句法树的翻译规则抽取方法,包括以下步骤步骤1)对于三元组(源语言依存句法树、目标语言串、源语言与目标语言间的词语对齐关系),利用所述对齐关系对源语言依存句法树的每个节点η标记中心词跨度和依存跨度,所述中心词跨度是与η对齐的所有目标词的位置的集合;所述依存跨度指以η为根的子树中,所有对齐一致节点的中心词跨度的并集的闭包,所述对齐一致节点是指该节点的中心词跨度与依存句法树中其他节点的中心词跨度的交集为空; 步骤2)对源语言依存树中对齐一致的节点,生成中心词规则; 步骤3)对所标记的源语言依存句法树中的中心词-修饰词片段生成中心词-修饰词规则;其中所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,其目标语言端为串,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
2.根据权利要求1所述的翻译规则抽取方法,其中步骤幻对所标记的源语言依存句法树中满足如下条件的中心词-修饰词片段生成中心词-修饰词规则,所述条件包括(i)中心词节点的中心词跨度对齐一致, ( )所有修饰词的依存跨度不为空,(iii)中心词节点的中心词跨度与所有修饰词的依存跨度不相交。
3.根据权利要求1或2所述的翻译规则抽取方法,步骤幻包括以下步骤(3-1)将中心词-修饰词片段中对应于依存句法树中内部节点的节点标记为词汇化约束的变量,得到词汇化中心词-修饰词片段规则的源语言端;(3-2)按照中心词节点的中心词跨度及修饰词的依存跨度排列中心词-修饰词片段中的所有节点,对于其中的每个节点,a)如果该节点是词汇化的,且该节点为中心词节点或者对应于依存句法树的叶子节点,则用该节点中心词跨度对应的目标语言串替换该节点;b)如果该节点为依存句法树的内部节点,则用该节点对应的变量替换该节点;从而得到词汇化中心词-修饰词片段规则的目标语言端。
4.根据权利要求3所述的翻译规则抽取方法,步骤幻还包括以下步骤(3-3)改变词汇化中心词-修饰词规则的源语言端的一个或多个节点为非词汇化约束变量,得到非词汇化中心词-修饰词规则的源语言端;(3-4)如果被改变的节点对应于依存句法树的内部节点,则目标语言端不变;否则,将该节点对应的目标语言端端变为一个新的变量,得到非词汇化中心词-修饰词片段规则的目标语言端。
5.一种基于依存句法树的翻译方法,包括以下步骤 步骤5-1)通过分析源语言串得到源语言串的依存句法树;步骤5-2)遍历源语言串的依存句法树,通过枚举中心词-修饰词片段所对应修饰关系的所有实例的来对翻译规则集合和依存句法树进行匹配,直到访问源语言串的依存句法树的所有节点为止;其中,所述的翻译规则集合包括中心词-修饰词规则,所述中心词-修饰词规则的源语言端为中心词-修饰词片段对应句子模式或短语模式的实例,目标语言端为串,所述中心词-修饰词片段为以中心词为根节点,以修饰词为孩子节点的依存句法树片段,所述中心词-修饰词规则源语言端和目标语言端的变量的对应关系代表了源语言端和目标语言端之间的调序关系,所述变量包括词汇化约束变量和词性约束变量,对应词汇化约束变量的节点可由以该节点为根的子树替换,对应词性约束变量的节点可由与该节点词性相同的词替换。
6.根据权利要求5所述的翻译方法,所述步骤5-1)中通过依存句法分析器对源语言串进行分析获得源语言串的依存句法树。
7.根据权利要求5所述的翻译方法,所述步骤5-1)中通过成分树句法分析器分析源语言串得到成分句法树并将其映射为源语言串依存句法树。
8.根据权利要求5所述的翻译方法,所述步骤5- 中所述的翻译规则是根据权利要求 1、2、3或4所述的翻译规则抽取方法得到的规则。
9.根据权利要求5所述的翻译方法,所述步骤5- 包括以下步骤后序遍历源语言依存句法树,对于访问到的每个源语言串依存句法树的节点,步骤5-2-1)若该节点为叶子节点,则在翻译规则集合中查找以该节点为源端的翻译规则,使用找到的翻译规则翻译该节点,如果翻译规则中没有匹配的规则,则保持该节点不变;步骤5-2-2)如果该节点为内部节点,则枚举以该节点为中心词的中心词-修饰词片段所对应修饰关系的所有词汇化与非词汇化实例,在翻译规则集合查找匹配的规则,使用找到的翻译规则进行翻译;步骤5-2-3)如果在步骤5-2-2)中没有找到匹配的翻译规则,则根据中心词-修饰词片段的词序进行顺序翻译;重复步骤5-2-1) ,5-2-2)和5-2- 直到访问了源语言串依存句法树的所有节点为止。
全文摘要
本发明提供基于依存句法树的翻译规则抽取方法及翻译方法,将翻译调序关系直接表示于源端为中心词及其所有修饰成分组成的依存句法树片段、目标端为串的翻译规则中,从而使翻译规则可以明确地指导翻译过程。通过这种方法抽取的翻译规则,可以提高了基于依存句法树的翻译方法的性能。在154万平行双语语料数据集上,本发明的依存句法树到串翻译模型的性能较成分树到串模型提高1.68个BLEU点。
文档编号G06F17/28GK102243626SQ201110207750
公开日2011年11月16日 申请日期2011年7月22日 优先权日2011年7月22日
发明者刘群, 米海涛 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1