基于句法骨架的统计机器翻译系统的制作方法

文档序号:9810522阅读:447来源:国知局
基于句法骨架的统计机器翻译系统的制作方法
【技术领域】
[0001] 本发明涉及一种统计机器翻译中对源语句法进行建模的技术,具体的来说是一种 基于句法骨架的统计机器翻译系统。
【背景技术】
[0002] 统计机器翻译(Statistical Machine Translation,SMT)中,存在不同的翻译系 统,比如基于短语和基于层次短语的非句法翻译系统,树到串以及串到树等句法翻译系统。 在不同的翻译系统有着各自的优缺点,比如说,句法翻译系统在处理长距离以及各种成分 间复杂的调序问题上有明显的优势,但是当句法翻译统统的翻译规则比较稀疏或者覆盖率 比较低时,就会存在系统的鲁棒性问题,可能会导致翻译的效果比较差。并且已经证实了如 果对句法系统进行简单的实现,其翻译结果并没有基于短语和基于层次短语等非句法翻译 系统取得的效果好。另外,非句法翻译系统在翻译较短的句子片段时,准确率比较高,并且 对短片段的层次结构也有比较好的调控能力。可是非句法系统在处理长距离的词序时表现 能力比较差。
[0003] 目前,在处理目标语字符串的翻译(比如按照从句法分析数据中获得的树到串的 映射关系来替换目标语表面的串)过程中,一种比较流行的方法就是利用源语端句法及句 子结构上的信息来指导或者执行解码。这种方式和开始于90年代的基于字或基于词的翻译 系统不同,它的源语句法模型是依赖输入的源语端句子的句法解析树生成的。这样做的好 处是它可以加强模型处理长距离调动以及各种成分间复杂的调序问题的能力。
[0004] 另外,源语句法的使用在机器翻译中之所以可以有良好的表现是因为它具有呈现 句子骨架结构(句法结构)的能力。如果我们用机器翻译系统类比人的翻译行为,这种骨架 结构的翻译模式会表现得更为突出:在人为翻译过程中,对于一个给定的源语端输入句子, 人们会利用句法上的先验知识首先在意识中对句子产生一个高层次上大致的句子结构或 类型,然后根据这个句子结构或类型决定一些句子关键部分的翻译以及顺序,之后再完成 词汇的选择及局部的调序工作。既然源语的句子骨架结构可以用源语的句法来表示,那么 不免会产生以下问题:是否能够把源语的句法结构信息应用到它在翻译中作用效果最突出 的地方?比如说,既能按照源语的骨架结构信息进行翻译,同时又能够利用非句法翻译系统 完成良好短语翻译的优势?
[0005] 可是令人失望的是,尽管将句子骨架信息整合至机器翻译中的前景非常令人期 待,但能够实现基于句法骨架的统计机器翻译系统尚未见到报道,另外句法系统和非句法 系统有着不同的表示形式,在利用时也不尽相同。并且曾经有一些学者尝试利用人工标注 的句法骨架数据,效果不好,并且实现过程复杂。

【发明内容】

[0006] 针对现有技术中句法翻译系统里不能对句子的短片段进行良好的翻译和调序以 及规则稀疏而导致的系统鲁棒性问题,并且在非句法翻译系统中模型对长距离的句子成分 不能进行有效的调序问题,人工标注的骨架信息费时费力等问题,本发明要解决的技术问 题是提供一种基于句法骨架的统计机器翻译系统,对源语高层次的句法骨架进行建模,并 且对低层次的短语进行良好的翻译,同时提出一种句法骨架的新颖表示方式,以便机器翻 译系统使用。
[0007] 为解决上述技术问题,本发明采用的技术方案是:
[0008] 本发明一种基于句法骨架的统计机器翻译系统,包括以下步骤:
[0009] 1)概率SCFG层次规则抽取方法抽取非句法翻译规则,用于待翻译句子非骨架部分 的翻译:
[0010] 利用抽取层次规则的启发式限制的方法,在经过词对齐但未进行句法分析的平行 句对上抽取概率SCFG文法规则,利用层次短语规则即非句法翻译规则处理待翻译句子低层 次结构的翻译;
[0011] 2)GHKM规则方法抽取句法翻译规则,用于待翻译句子的骨架部分的翻译:
[0012] 利用GHKM规则抽取方法在经过词对齐的平行句对和源语言端的句法分析结果上 抽取GHKM规则,利用上述抽取的GHKM规则改写成句法翻译规则。利用句法翻译规则处理高 层次骨架结构的生成及翻译;
[0013] 3)非完全句法翻译规则生成:
[0014] 利用句法翻译规则生成非完全句法翻译规则,结合非句法翻译规则和句法翻译规 贝1J,实现非句法翻译系统和句法翻译系统两种翻译系统优点的整合;
[0015] 4)模型生成:
[0016] 根据上述的非完全句法翻译规则,依据不同的翻译任务对句法翻译系统和非句法 翻译系统的文法也就是翻译规则集合进行整合,生成非完全句法翻译推导,利用非句法翻 译规则处理待翻译句子低层次的词组或短语的翻译,利用句法翻译规则完成待翻译句子的 高层次句法骨架结构的翻译任务;利用非完全句法翻译规则指导骨架生成过程和翻译过 程;收集非句法翻译规则、句法翻译规则以及非完全句法翻译规则生成一个具有大覆盖度 的SCFG文法系统,并通过非完全句法翻译规则完成不同形式文法的结合。
[0017] 利用上述抽取的GHKM规则改写成句法翻译规则即句法翻译规则为:将抽取的GHKM 规则,规则形式如下:
[0018]源语短语句法标记〈以上述句法标记为根节点的源语句法子树片段 >-目标语串
[0019] 其中规则左部的"源语短语句法标记"为通过语言学句法知识所定义短语结构类 型标签,即句法非终结符;规则左部的"句法子树片段"为句子句法分析树的片段,是树结 构,其叶子节点可以为终结符词语或者非终结符,而这些非终结符必须属于源语句法分析 中某一类句法标记;规则右部的"目标语串"为目标语终结符词语和非终结符构成的串,其 非终结符标记与源语句法子树片段叶子节点的非终结符一一对应。
[0020] 通过保持句法子树片段边界的非终结符及舍弃内部的树结构可以将上述GHKM规 则改写为句法翻译规则
[0021] 源语短语句法标记-〈源语串,目标语串〉
[0022] 其中"源语串"表示源语终结符词语、非终结符构成和对应的"句法标记"构成的序 列,该序列为句法规则所对应GHKM规则中源语句法子树片段的叶子节点序列;"目标语串" 为由目标语终结符词语、非终结符和对应的"句法标记"构成的串,其非终结符标记与源语 句法子树片段叶子节点的非终结符一一对应。
[0023] 利用非句法翻译规则和句法翻译规则生成非完全句法翻译规则,非完全句法翻译 规则形式表述为:
[0024] 源语短语句法标记-〈源语串%目标语串5
[0025] 其中,左部的"源语短语句法标记"为一个非终结符,"源语串#为源语终结符词 语、非终结符和泛化标记X构成的串,"目标语串#为目标语终结符词语、非终结符和泛化标 记X构成的串,其非终结符标记与源语句法子树片段叶子节点的非终结符一一对应;
[0026] 非完全句法翻译规则与句法翻译规则的区别在于:非完全句法翻译规则并不要求 规则中所有的非终结符必须属于源语句法分析中某一类短语句法标记,而其中的部分非终 结符被归约为X,表示该非终结符并不属于任何句法分析类型。
[0027] 实现非句法翻译系统以及句法翻译系统两种翻译系统优点的结合为:
[0028] 通过源语端的句法翻译规则、非句法翻译规则和非完全句法翻译规则生成的大覆 盖度SCFG文法在解码过程中创建句法骨架;
[0029] 在上述句法骨架结构的生成过程中,捕获对源语言中句法结构中成分间的调序, 将待翻译句子高层次的翻译任务分配给句法翻译系统来处理。并且把待翻译句子低层次的 翻译任务分配给非句法翻译系统来完成;实现不同翻译系统的优点贡献到各自擅长的翻译 任务中。
[0030] 依据不同的翻译任务对非句法翻译系统和句法翻译系统的文法进行整合为:在 SCFG系统中,对每一个翻译规则推导进行权重计算,以便更准确的利用各种翻译规则推导, 利用下式来计算每个翻译规则推导d的得分:

[0032]其中,s(d)为翻译规则推导d的得分,t为目标语端的字符串,d的得分则定义为多 个因子的乘积,包括:
[0033 ]因子1: d中句法骨架(ds)所包含的所有规则的权重乘积 中的第i条规则,w(r*)是规则r*的权重;
[0034] 因子2: d中非骨架部分(dh)所包含的所有规则权重的乘积 为dh中的第j条规则,w(r*)是规则r*的权重;
[0035] 因子3:n元语言模型lm(t)的指数加权得分表示η元语言模型的权 重;
[0036] 因子4:词汇奖励exp
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1