基于句法分析和层次模型的机器翻译系统和方法

文档序号:6600658阅读:542来源:国知局
专利名称:基于句法分析和层次模型的机器翻译系统和方法
技术领域
本发明涉及机器翻译,具体来讲,涉及一种基于句法分析和层次模型的机器翻译系统和方法。
背景技术
机器翻译是将一种自然语言翻译成另一种自然语言的自动翻译,机器翻译系统的类型很多,目前流行的是基于连续短语的机器翻译(PBMT)系统。机器翻译要解决的问题是利用计算机将源语言(SL)的句子或片段自动翻译成对应的目标语言(TL)的句子或片段。 基于语料库的机器翻译包含一个双语对齐语料库(即每一句源语言句子均有一句或多句对应的目标语言的翻译),计算机进行自动翻译所需要的数据和知识都从语料库中得到。PBMT系统以短语为翻译的基本单位。在翻译过程中,系统不是孤立地翻译每个词, 而是将连续的多个词一起进行翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖关系,能够很好地翻译习语和常用词搭配。一般的,在基于短语的方法中, 短语可以是任意连续的字符串,没有句法上的限制,这样可以方便地从词语对齐的双语语料库中自动提取双语短语翻译为指定的一个源语言句子。基于短语的方法需要对系统进行训练。训练的时候,先输入一个双语语料库,即一组互为翻译的句子。从词语对齐的结果中知道句子中哪些词是互为翻译的。接下来还需要进行短语提取,也就是提取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。PBMT具有如下缺陷(1)由于局部上下文依赖关系,PBMT不能很好地进行处理较长的句子或短语,尤其是非连续的固定搭配所带来的长距离调序问题;⑵由于PBMT完全依靠连续短语统计信息,忽略了语言的句法特征,未能充分利用语料库所包含的知识,从而限制了其翻译效果的进一步提高。

发明内容
针对以上提到的缺点,本发明的目的在于提供一种基于句法分析和层次模型的机器翻译系统和方法。根据本发明的一方面,提供了一种基于句法分析和层次模型的机器翻译系统,所述机器翻译系统可包括词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取,以获得短语对齐表;词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分, 并输出得分最高的翻译结果。所述机器翻译系统还可包括基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。基于句法的非连续短语提取模块可包括非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。所述概率分布信息可包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。所述短语对齐表可包括源语言短语、目标语言短语和概率值。根据本发明的另一方面,提供了一种基于句法分析和层次模型的机器翻译方法, 所述机器翻译方法包括以下步骤接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;利用词对齐信息进行短语提取,以获得短语对齐表;接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注, 产生句法标注语料库;基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率;接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。所述机器翻译方法还可包括以下步骤对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。产生基于句法的非连续短语规则库的步骤可包括以下步骤根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。根据本发明的机器翻译系统和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。


通过参照附图对本发明示例性实施例的详细描述,本发明的以上和其他特征和方面将变得更清楚,其中图1是示出根据本发明示例性实施例的基于句法分析和层次模型的机器翻译系统的框图2是示出构造句法标注语料库的示图;图3是示出根据本发明示例性实施例的图1中示出的基于句法的非连续短语提取模块的示图;图4是示出图3中的非连续短语提取模块操作的示例的示图;图5是示出非连续短语规则库的单语句法分析过滤的示例的示图;图6A和图6B是分别示出根据本发明示例性实施例和传统技术的机器翻译的示图;图7是示出根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译方法的流程图。
具体实施例方式以下,将参照附图详细描述本发明的示例性实施例。图1是示出根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统。如图1所示,根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统包括词对齐模块101、短语提取模块102、基于连续短语的翻译模块103、词性句法标注模块201、基于句法的非连续短语提取模块202、基于非连续短语的翻译模块301和评分输出模块302。词对齐模块101、短语提取模块102、基于连续短语的翻译模块103是采用传统的基于连续短语的翻译系统中所使用的模块,其与根据本发明示例性实施例的词性句法标注模块201、基于句法的非连续短语提取模块202共同构成根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统的预处理部分。而基于连续短语的翻译模块103 和根据本发明示例性实施例的基于非连续短语的翻译模块301和评分输出模块302可构成根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统的翻译引擎。参照图1,将双语句对齐文本输入到词对齐模块101,词对齐模块101利用工具 (例如,GIZA++)从输入的双语对齐文本中获得词对齐信息,并将该对词齐信息输入到短语提取模块102。短语提取模块102从词对齐模块101接收词对齐信息,利用接收的词对齐信息进行短语提取,从而获得短语对齐表(也被称为连续短语库),并将获得的短语对齐表发送到基于连续短语的翻译模块103和基于句法的非连续短语提取模块202。其中,所述短语对齐表包括以下三个部分(1)源语言短语;(2)目标语言短语;(3)概率值。在自然语言的计算机处理中,基于规则的句法剖析主要是使用Chomsky的上下文无关句法,但是其在处理自然语言的歧义时显得无能为力。近年来对上下文无关句法的改进主要体现在两个方面一方面是给上下文无关句法的规则加上概率,提出了概率上下文无关句法(PCFG),另一方面是除了给规则加概率之外,还考虑规则的中心词对于规则概率的影响,提出了概率词汇化上下文无关句法。这些研究把基于规则的理性主义方法与基于统计的经验主义方法巧妙地结合起来,取得了较好的成果,为解决句法歧义问题提供了有力的手段。概率句法给一个句子或者单词的符号串指派一个概率,从而捕捉比一般的上下文无关句法更加细致的句法信息。概率上下文无关句法也是一种上下文无关句法,其中的每一个规则都标上选择该规则的概率,处理每一个上下文无关规则时,都假定它们在条件上是独立的,一个句子的概率使用剖析该句子时每一个规则的概率的乘积来计算。下面将参照图2来以PCFG为例描述词性句法标注模块201构造句法标注语料库 (这里,语料库也被称为树库)的具体操作。首先,通过对语料库的标注处理(自动或人工进行),形成带有不同层次的标注信息的语料库,如标注了词类和句法树信息的宾州树库,其主要标注集如图2的(a)所示。将已标注语料库输入到词性句法标注模块201。词性句法标注模块201利用统计工具从已标注语料库中提取有用的语言知识及其概率分布信息,即有指导的训练(supervised training)方法。主要的概率分布信息包括某词语属于某词类的概率、某短语属于某类短语的概率以及上下文概率。词性句法标注模块201利用提取出的语言知识及其概率分布信息,对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库,并将产生的句法标注语料库发送到基于句法的非连续短语提取模块202。一个句子可能有多种标注结果,我们选取其中概率最大的作为输出结果,如图2的(a)和(b)所述,根据概率计算,图2的(a) 的概率为:P1 = 0. 2X0. 2X0. 2X0. 4X0. 45X1. OX 1. 0X0. 4X0. 05 = 2.88X10_5;而图 2 的(b)的概率为:P2 = 0. 8X0. 2X0. 05X0. 4X0. 4X0. 3X0. 4X0. 4X0. 4X0. 05 = 1.2288X 10—6,因此,选择图2的(a)的标注结果。图2的(C)和(d)分别示出了部分句法标注集和已标注的中文句子。基于句法的非连续短语提取模块202从词性句法标注模块201接收句法标注语料库,并基于句法标注语料库根据词对齐模块101产生的对齐信息或短语提取模块102产生的短语对齐表进行基于句法的非连续短语提取,以获得基于句法的非连续短语规则库。下面将参照图3至图5来详细描述基于句法的非连续短语提取模块202如何产生基于句法的非连续短语规则库。图3至图5示出了根据本发明的示例性实施例的非连续短语提取模块202具体构成和具体操作。如图3所示,基于句法的非连续短语提取模块202包括非连续短语提取模块212 和句法过滤模块222。下面参照图4详细描述非连续短语提取模块212如何构造非连续短语规则库。非连续短语提取模块212根据词对齐模块101产生的词对齐信息或短语提取模块 102产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用[X]、[Y]等非终结符代替,获得非连续短语规则库。图4示出了一个非连续短语规则提取实例。该实例的规则为带[X]的[Y] I I I [Y] with[X] I I Io. 10. 30. 6,其中,0. 1是源语言到目标语言的翻译概率,0. 3是目标语言到源语言的词翻译概率,0. 6是源语言到目标语言的词翻译概率。对非连续短语规则库的句法过滤的基本思想是保证句子中被提取的短语部分应该是一个具有相对独立性的句子成分短语,如名词短语(NP),数量词短语(QP)等,以保证后期的翻译质量。句法过滤模块222基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库;下面参照图5描述句法过滤模块222如何进行句法过滤。图5示出了一个非连续短语规则库的单语句法分析过滤实例。如图5所示,对输入的单语句子进行句法标注。考虑对标注后的句子,挖去非代词名词短语(NP-NN),以[X]代替的情况,此处为 “地铁路线图”,生成的非连续短语规则如图5中保留的第1条RULE。考虑数量词短语(QP)的情况,具体为标记为QP的短语,且包含两个子节点,分别是CD与CLP,如(QP (CD两)(CLP (M张))),对CD以[X]代替,此处为“两”,生成的非连续短语规则如图5中保留的第2条规则;由于不符合语法规则,被过滤掉的规则为图5中的“[X]给我地铁路线图吗? ”。以上参照附图详细描述了根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统的预处理部分,下面将参照图1和图6描述根据本发明示例性实施例的基于句法分析和层次短语模型的机器翻译系统的翻译引擎。根据本发明的基于句法分析和层次模型的机器翻译系统使用翻译模型、语言模型、调序模型和解码器。根据本发明的基于句法分析和层次模型的机器翻译与传统技术的基于连续短语的机器翻译主要差别在于翻译模型的扩展和调序模型的相对弱化。翻译模型提供源语言和目标语言短语之间的对应翻译关系,并用一个概率值表示这种对应翻译关系的程度,概率值越高,表明翻译对应的越准确,用于为源语言句子提供可能的目标语言翻译。基于层次短语的翻译模型将对应翻译关系由连续短语扩展至连续短语及基于句法的非连续短语。语言模型存储了大量的概率值,这些概率值给出了每个词与其前后词或短语的概率关系信息,其作用是判断一个短语M符合目标语言句法、习惯的程度,用于对翻译结果进行选择,一般用一个概率值PLM(St)来衡量这个程度,PLM (St)值越高表示短语越符合目标语言。调序模型用于调整翻译出来的目标语言结果中词或者短语的位置顺序,由于基于句法的非连续短语的存在,调序模型的功能部分被取代,其权重可相应较低。翻译引擎的作用在于协调上述几个模型来对源语言句子进行翻译。参照图1,基于连续短语的翻译模块103对从短语提取模块102输出的对经过词切分的待翻译的句子在短语对齐表中检索所有可能的短语、翻译及其概率。基于非连续短语的翻译模块301从非连续短语提取模块202接收基于句法的非连续短语规则库,并针对经过词切分的待翻译的句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率。图6A示出根据本发明示例性实施例的基于句法分析和层次短语模型将中文翻译成英文的示图。图6A中的标号(1)-(5)分别与下面的操作(1)-(5) —一对应。(1)输入待翻译的中文句子;(2)根据翻译模型,基于连续短语的翻译模块103在短语对齐表中搜索所有可能的短语、翻译及其概率;
(3)根据翻译模型,基于非连续短语的翻译模块301在非连续短语规则库中搜索所有可能的非连续短语、翻译及其概率;(4)根据短语、非连续短语对的翻译概率和三元语言模型概率等,解码器计算各种可能翻译结果的总概率;(5)解码器选取总概率最优的前N个句子作为N-best候选目标语言句。在图6A中,(4)-(5)表示汇总计算总概率,从而选出N个候选句子。另外,在图6A 中,|3,6|表示的范围均为[3,6),即包含3,但不包含6,范围是到6之前。图6B是与图6A相应的根据传统技术的将中文翻译成英文的示图。与根据本发明的图6A相比,主要区别在于,在传统技术翻译过程中仅利用连续短语进行翻译,而未利用句法分析过滤过的层次短语,例如X-> ([X]的[Y],[Y]of[X]),进行概率计算,生成翻译结果。例如,在本申请方法,“中国的上海”被翻译成“a^nghai of China”,而根据传统技术翻译的结果是“Chinese Sianghai”,故根据本发明的翻译结果明显好于根据传统技术的翻译结果。下面将描述评分输出模块302基于评估模型对翻译结果进行评分。输入到评分输出模块302的翻译输出是N个候选目标语言句子,N大于等于1。评分输出模块302基于输入的评估模型还对输入的N个候选目标语言句子进行评分。评估模型可以综合多个翻译特征,如语言模型特征、句子的词性序列模型特征、目标语言的句子长度等,来对这N个候选目标语言句子进行重新排序,选取总体最优的翻译作为翻译结果进行输出。考虑实现的简便性和处理效率,在本发明的示例性实施例中以目标语言的语言模型作为评估模型进行描述,其作用是判断一个句子^符合目标语言句法和习惯的程度,从而对翻译结果进行选择。一般用概率值PLM(St)来衡量所述程度,PLM(St)值越高表示句子越符合目标语言。考虑到处理效率和候选的目标语言句子的差异性,在本发明的当前示例性实施例中N = 2,即一个仅基于连续短语翻译的输出句和一个基于句法分析和层次模型的输出句。评分输出模块302基于以下基本流程进行评分1、接收N = 2的候选目标语言句子,一个为仅基于连续短语翻译的输出句和一个基于句法分析和层次模型的输出句;2、利用目标语言模型(即通过语言模型)对每一个可能的翻译计算其概率值;3、选择得分最优的输出。下面描述评分输出模块302进行评分的实例。翻译源语言是中文,目标语言是英文。输入的源语言是“请告诉我支付条件”。翻译后的结果是(N = 2)Dffould you please tell me the pay terms.(基于连续短语的翻译结果)2)Would you please tell me the terms of payment.(基于句法分析禾口层次模型的翻译结果)用英语的语言模型对这两个结果进行打分,由于“支付条件”有其常用说法“terms of payment”,且 “Would you please tell me the terms of payment.,,更符合英语的句法规则及使用习惯,因此,语言模型会为该结果给出一个较高的分值1)对中间结果1进行打分0. 72)对中间结果2进行打分0. 95.选择分值最高的作为最终结果Would you please tell me the terms ofpaymento下面将参照图7描述根据本发明示例性实施例的基于句法分析和层次模型的机器翻译方法。图7是示出根据本发明示例性实施例的基于句法分析和层次模型的机器翻译方法的流程图。如图7所示,在步骤S701和S702,分别输入已标注语料库和双语句对齐文本。在步骤S703,进行词性和句法标注。首先利用统计工具从输入的已标注语料库中提取有用的语言知识及其概率分布信息,然后,利用提取出的语言知识及其概率分布信息, 对输入的双语句对齐文本中的双语或者单语进行词性及句法标注,最终产生句法标注语料库(或称为句法标注树库)。在步骤S704,利用GIZA++工具从输入的双语句对齐文本获得词对齐信息。在步骤S705,利用在步骤S704获得的词对齐信息提取短语,从而获得短语对齐表,所述短语对齐表包括以下三个部分(1)源语言短语;(2)目标语言短语;(3)概率值。在步骤S706,基于在步骤S703中获得的句法标注语料库根据在步骤S704中产生的对齐信息或在步骤S705中获得的短语对齐表来进行非连续短语提取,以获得基于句法的非连续短语规则库。详细地讲,首先,基于在步骤S704中获得的对齐信息或在步骤S705中获得的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用[X],[Y]等非终结符代替, 获得非连续短语规则库;然后,基于在步骤S703中获得的句法标注语料库进行句法过滤, 以获得基于句法的非连续短语规则库;在步骤S707,根据翻译模型,在短语对齐表和基于句法的非连续短语规则库中搜索所有可能的短语、非连续短语、翻译及其概率,输出总概率最有的N个翻译作为候选目标
语曰句。在步骤S708,基于评估模型对候选目标语言句进行评分,并选择总体最优的作为最终输出。以上参照附图描述了根据本发明示例性实施例的基于句法分析和层次模型的机器翻译系统和方法,本领域技术人员应该理解的是,本发明不限于上述示例性实施例。例如,为了获得所有可能的翻译结果,在图1中包括了基于连续短语的翻译模块103,并在图 7的步骤S707中包括了在短语对齐表中搜索所有可能的短语、非连续短语、翻译及其概率, 但如果在图1中不包括基于连续短语的翻译模块103以及在图7的步骤S707中不包括了对短语对齐表的搜索也是可行的。另外,在本发明的示例性实施例中,评估模型不限于语言模型。在基于本专利的原型系统上进行了韩中翻译的实验。测试集类型封闭测试(在训练集中选择测试语句)为20%,开放测试(测试语句不属于训练集)为80%。
人工评测的结果与传统的基于连续短语的机器翻译系统相比,韩中语句流利度明显改善的句子增加了 10%以上,达到86. 5%人工评测良好率的实用程度。在相当于目前主流手机硬件配置的嵌入式系统中,平均翻译速度为2句/秒,实现了即时翻译。
权利要求
1.一种基于句法分析和层次模型的机器翻译系统,包括词对齐模块,从外部接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息;短语提取模块,从词对齐模块接收词对齐信息,利用接收的词对齐信息进行短语提取, 以获得短语对齐表;词性句法标注模块,从外部接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法的非连续短语提取模块,从词性句法标注模块接收句法标注语料库,并基于句法标注语料库根据词对齐模块产生的对齐信息或短语提取模块产生的短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;基于非连续短语的翻译模块,从非连续短语提取模块接收基于句法的非连续短语规则库,并对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率,并输出翻译结果;评分输出模块,从外部接收评估模型,基于评估模型对翻译结果进行评分,并输出得分最高的翻译结果。
2.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述机器翻译系统还包括基于连续短语的翻译模块,从短语提取模块接收短语对齐表,对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率,并将翻译结果输出到评分输出模块。
3.如权利要求1或2所述的基于句法分析和层次模型的机器翻译系统,其特征在于基于句法的非连续短语提取模块包括非连续短语提取模块,根据词对齐模块产生的词对齐信息或短语提取模块产生的短语对齐表,将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;句法过滤模块,基于句法标注语料库对非连续短语提取模块产生的非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
4.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
5.如权利要求1所述的基于句法分析和层次模型的机器翻译系统,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
6.一种基于句法分析和层次模型的机器翻译方法,包括以下步骤 接收双语句对齐文本,并从接收的双语对齐文本中获得词对齐信息; 利用词对齐信息进行短语提取,以获得短语对齐表;接收已标注语料库和双语句对齐文本,从已标注语料库中提取有用的语言知识及其概率分布信息,并利用提取出的语言知识及其概率分布信息对双语句对齐文本中的双语或者单语进行词性及句法标注,产生句法标注语料库;基于句法标注语料库根据对齐信息或短语对齐表进行基于句法的非连续短语提取,以产生基于句法的非连续短语规则库;对待翻译句子在所述基于句法的非连续短语规则库中检索所有可能的短语、翻译及其概率;接收评估模型,基于评估模型对所述翻译进行评分,并输出得分最高的翻译结果。
7.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述机器翻译方法还包括以下步骤对待翻译句子在短语对齐表中检索所有可能的短语、翻译及其概率。
8.如权利要求6或7所述的基于句法分析和层次模型的机器翻译方法,其特征在于产生基于句法的非连续短语规则库的步骤包括以下步骤根据词对齐信息或短语对齐表将双语句对齐文本的每句中双语对齐的连续短语采用非终结符代替,获得非连续短语规则库;基于句法标注语料库对非连续短语规则库进行过滤,以产生基于句法的非连续短语规则库。
9.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述概率分布信息包括特定词语属于特定词类的概率、特定短语属于特定类短语的概率以及上下文概率。
10.如权利要求6所述的基于句法分析和层次模型的机器翻译方法,其特征在于所述短语对齐表包括源语言短语、目标语言短语和概率值。
全文摘要
本发明公开了一种基于句法分析和层次模型的机器翻译系统和方法,所述机器翻译系统包括词对齐模块、短语提取模块、词性句法标注模块、基于句法的非连续短语提取模块、基于非连续短语的翻译模块和评分输出模块。所述机器翻译系统和方法在通用的基于连续短语的机器翻译模型基础上进行句法分析,从而从双语句对齐文本中提取基于句法的非连续短语规则库,解决全句上下文非连续固定搭配的问题,使其符合语言的句法特征;基于非连续短语规则库和短语对齐表进行翻译,对翻译结果基于评估模型进行评分,从而有效地改善了翻译效果。
文档编号G06F17/28GK102214166SQ20101014462
公开日2011年10月12日 申请日期2010年4月6日 优先权日2010年4月6日
发明者万磊, 何亮, 熊张亮 申请人:三星电子(中国)研发中心, 三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1