一种面向增量式翻译的结构化语言模型构建方法及系统的制作方法

文档序号:6379196阅读:437来源:国知局
专利名称:一种面向增量式翻译的结构化语言模型构建方法及系统的制作方法
技术领域
本发明涉及自然语言处理技术领域,具体地说,本发明涉及一种面向增量式翻译模型的结构化语言模型。
背景技术
统计语言模型作为一种计算自然语言生成概率的统计模型,在自然语言处理的很多问题中都起着至关重要的作用。在机器翻译问题中,对于新生成的翻译片段,我们使用语言模型计算其生成概率,并保留概率较高的翻译,从而达到提高翻译质量的效果。n-gram语言模型,也称η-I阶马尔科夫模型,是统计语言模型中应用最广泛的模型,它基于有限历史假设第η个词出现的概率仅与前面η-I个词相关。这一假设大大降低了语言模型的复 杂度,并使各种统计方法能够得到应用。这种方法能够良好地捕捉短距离语言特征,如常用搭配,词组,但这种基于词的模型缺乏捕捉句法信息和长距离语言信息的能力,因此导致生成不符合语法约束的翻译。现有的结构化语言模型(Ciprian Chelba, Frederick JelinekStructured language modeling Computer Speech & Language, 2000)基于句法树建立模型,将句法信息融入语言模型,从而能够弥补传统语言模型的不足,使结果更加符合句法性。但其采用较为复杂的概率模型,且需要在一棵完整的句法树进行计算。无法满足机器翻译问题中增量式生成翻译并同时进行语言模型计算的需求。

发明内容
本发明的目的是提出一种面向增量式翻译的结构化语言模型构建方法及系统,弥补了传统语言模型在捕捉句法信息方面的不足,能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。为实现上述目的,本发明提出了一种面向增量式翻译的结构化语言模型构建方法,包括步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。其中所述步骤I中所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。所述步骤I中依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
进一步的,所述步骤2中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programmingfor Linear-Time Incremental Parsing, Proceedings of the 48st Meeting of theAssociation for Computational Linguistics)的方法,获得判别式特征实例。进一步的,所述步骤3中的构建剪枝过程如下a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
本发明还提供了一种面向增量式翻译的结构化语言模型构建系统,包括依存句法分析模块,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;特征分数计算模块,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。依存树片段优化模块,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;依存树构建模块,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。其中,所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。而所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。进一步的,所述特征分数计算模块中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and KenjiSagae, 2010, DynamicProgramming for Linear-Time Incremental Parsing, Proceedings of the 48st Meetingof the Association for Computational Linguistics,)的方法。获得判别式特征实例。进一步的,所述依存树片段优化模块包括处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。本发明具有如下技术效果本发明将结构化语言模型用于增量式机器翻译模型,弥补了传统语言模型在捕捉句法信息方面的不足。在150万汉英平行句对上,英语为目标语言,本发明较传统语言模型在测试集困惑度上下降了 2%,并在翻译质量上提高I. 12个BLEU点。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。


图I是本发明的结构化语言模型构建方法流程图;图2是本发明的结构化语言模型构建系统示意图;图3为本发明中分组剪枝策略和同等状态合并策略的实例;图4为图2中同等状态A, B的特征窗口。
具体实施例方式如图I所示,图I是本发明的结构化语言模型构建方法流程图,该方法包括以下步骤步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集
口 ο依存分析的主要任务是对输入的翻译片段进行依存分析得到相应的依存树片段集合。由于目前应用最广的机器翻译系统都是增量式生成翻译,所以必须使用解码顺序相同的依存分析算法,本实例中采用移进-规约算法,可参考增量式确定性依存句法分析,第三,四章(Joakim Nivre. 2004. Incrementality indeterministic dependencyparsing. In Proceedings of the ACL Workshop Incremental Parsing. Association forComputational Linguistics)其中包含以下两种操作I)移进从当前输入串移入一个词,将其移至句法分析栈顶端,并将其作为一个节点拼接至已有依存树片段上。2)规约如果句法分析栈中有两个以上节点,则取栈顶的两个节点,判断它们之前的依存关系,在依存树片段中将其中一个节点作为Head头节点生成一条指向另一节点Modifier的有向边。操作完成后Head节点存于栈顶继续参与其他节点的操作,Modifier节点作为Head节点的孩子从栈顶移除。对于一个N个词的翻译片段,共需进行N次移进操作,将所有词语移进句法分析栈,并进行若干次规约操作(最多N-I次),确定栈顶两个节点的依存关系,生成不同的依存树片段。上述技术方案中,所述步骤I中,所述依存树片段是指未完成的依存树子结构,并可以通过后续操作生成完整的依存树。它可以是依存树中任意联通子图,且所述增量式是指从左到右的顺序。步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。所述判别式特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。可参考基于感知机算法的增量式句法分析,第二章(Collins, M. and Roark, B.,2004,Incremental parsing with the perceptron algorithm,Proceedings of the 42ndAnnual Meeting on Association for Computational Linguistics)的方法。
在依存树片段中,依存关系以一条Head头结点指向Modifier修饰节点的有向边表示。其依存信息以判别式训练的依存特征实例的形式存储于结构化语言模型中。现有的判别式依存特征抽取方法,可参考基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae, 2010, Dynamic Programming for Linear-TimeIncremental Parsing, Proceedings of the 48st Meeting of the Association forComputational Linguistics,)的方法获得判别式特征实例。利用当前依存树片段的Head和Modifier,依存分析栈栈顶的词,输出串的第一个词以及它们的词性标注作为基础特征模板,并生成组合特征。其中对图3中的目标端依存树片段实例的特征实例表示为表I中形式。表I是图3中实例的判别式特征实例表示形式
权利要求
1.一种面向增量式翻译的结构化语言模型构建方法,其特征在于,包括 步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合; 步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合; 步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。
2.根据权利要求I所述的结构化语言模型构建方法,其特征在于,所述步骤I中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
3.根据权利要求I所述的结构化语言模型构建方法,其特征在于,所述步骤I中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
4.根据权利要求I所述的结构化语言模型构建方法,其特征在于,所述步骤2中是利用判别式依存特征抽取方法获得判别式特征实例。
5.根据权利要求I所述的结构化语言模型构建方法,其特征在于,所述步骤3中的构建剪枝过程如下 a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小; b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
6.一种面向增量式翻译的结构化语言模型构建系统,其特征在于,包括 依存句法分析模块,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合; 特征分数计算模块,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
依存树片段优化模块,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合; 依存树构建模块,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。
7.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
8.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
9.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述特征分数计算模块中利用判别式依存特征抽取方法获得判别式特征实例。
10.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存树构建模块包括 处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小; 选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
全文摘要
本发明公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。
文档编号G06F17/28GK102945231SQ201210401238
公开日2013年2月27日 申请日期2012年10月19日 优先权日2012年10月19日
发明者于恒, 米海涛, 刘群 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1