一种调序模型建立方法、装置及翻译方法

文档序号:8258510阅读:365来源:国知局
一种调序模型建立方法、装置及翻译方法
【技术领域】
[0001] 本申请涉及统计机器翻译技术领域,更具体地说,涉及一种调序模型建立方法、装 置及翻译方法。
【背景技术】
[0002] 随着计算能力的提升和语言资源的不断丰富,统计机器翻译逐渐成为自然语言处 理领域最重要的研宄热点。在机器翻译中,由于源语言和目标语言词序的不一致,导致在对 源语言翻译为目标语言的过程中,需要对目标语言进行重排序,这就是统计机器翻译中的 调序问题。
[0003] 在经典的基于短语模型统计机器翻译中,首先根据一个最优的划分,将源语言句 子划分成为几个短语。然后,根据学习得到的双语短语表将划分出来的短语进行词汇化翻 译,相应的,源语言短语在词汇化翻译后生成目标语言短语。最后,根据学习得到的调序模 型,对目标语言短语进行重排序,得到最终的翻译结果。但是,不同的文档主题中对于相同 的源语言句子有着不同的调序现象。比如,在翻译英语"Igofirst"时,普通话中更偏向于 翻译为"我先走",然而在粵语表达中更喜欢翻译为"我走先"。在仅仅使用词汇化信息和语 法信息的情况下,现有的调序模型很难将上述调序现象进行捕捉,从而造成了错误的调序。

【发明内容】

[0004] 有鉴于此,本申请提供了一种调序模型建立方法、装置及翻译方法,用于解决现有 调序模型无法融合文档主题信息,从而在翻译时容易产生调序错误的问题。
[0005] 为了实现上述目的,现提出的方案如下:
[0006] -种调序模型建立方法,包括:
[0007] 对训练语料按照文档标记进行切分,并以文档为单位组织成若干份文档;
[0008] 对每份所述文档进行文档主题估计,获得每份文档的主题信息;
[0009] 从所述训练语料中抽取含有所述主题信息的语块,确定为调序实例;
[0010] 参考预置的规则模板,从所述调序实例中抽取调序特征,所述规则模板至少包括 调序实例所属文档的主题信息;
[0011] 利用开源的最大熵训练工具,对所述调序特征进行训练,获得调序模型。
[0012] 优选地,在所述对训练语料按照文档标记进行切分之前,还包括:
[0013] 对所述训练语料进行停用词和低频词过滤。
[0014] 优选地,所述规则模板为:
[0015] 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的 右边界词、所述调序实例所属文档的主题信息,所述主题信息包括所述调序实例所属文档 的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
[0016] 优选地,在对每份所述文档进行文档主题估计时,使用主题模型工具GibbsLDA++ 进行主题估计;
[0017] 所述最大熵训练工具为Maxent工具。
[0018] -种调序模型建立装置,包括:
[0019] 文档切分单元,用于对训练语料按照文档标记进行切分,并以文档为单位组织成 若干份文档;
[0020] 主题估计单元,用于对每份所述文档进行文档主题估计,获得每份文档的主题信 息;
[0021] 调序实例抽取单元,用于从所述训练语料中抽取含有所述主题信息的语块,确定 为调序实例;
[0022] 调序特征抽取单元,用于参考预置的规则模板,从所述调序实例中抽取调序特征, 所述规则模板至少包括调序实例所属文档的主题信息;
[0023] 调序特征训练单元,用于利用开源的最大熵训练工具,对所述调序特征进行训练, 获得调序模型。
[0024] 优选地,还包括:
[0025] 词过滤单元,用于在对训练语料按照文档标记进行切分之前,对所述训练语料进 行停用词和低频词过滤。
[0026] 优选地,所述规则模板为:
[0027] 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的 右边界词、所述调序实例所属文档的主题信息,所述主题信息包括所述调序实例所属文档 的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
[0028] 优选地,在对每份所述文档进行文档主题估计时,使用主题模型工具GibbsLDA++ 进行主题估计;
[0029] 所述最大熵训练工具为Maxent工具。
[0030] 一种翻译方法,基于上述所述的调序模型建立装置,该方法包括:
[0031] 对待翻译文本按照文档标记进行切分,并以文档为单位组织成若干份待翻译文 档;
[0032] 利用所述主题估计单元对每份所述待翻译文档进行文档主题估计,获得每份待翻 译文档的主题信息;
[0033] 按照所述预置的规则模板,提取所述待翻译文档的调序特征;
[0034] 利用所述调序模型,对所述调序特征进行顺序或者逆序概率估计。
[0035] 优选地,所述利用所述调序模型,对所述调序特征进行顺序或者逆序概率估计,具 体为:
[0036] 使用最大熵公式估计两个相邻调序特征A1和A2的顺序或者逆序概率:
[0037]
【主权项】
1. 一种调序模型建立方法,其特征在于,包括: 对训练语料按照文档标记进行切分,并以文档为单位组织成若干份文档; 对每份所述文档进行文档主题估计,获得每份文档的主题信息; 从所述训练语料中抽取含有所述主题信息的语块,确定为调序实例; 参考预置的规则模板,从所述调序实例中抽取调序特征,所述规则模板至少包括调序 实例所属文档的主题信息; 利用开源的最大熵训练工具,对所述调序特征进行训练,获得调序模型。
2. 根据权利要求1所述的方法,其特征在于,在所述对训练语料按照文档标记进行切 分之前,还包括: 对所述训练语料进行停用词和低频词过滤。
3. 根据权利要求1或2所述的方法,其特征在于,所述规则模板为: 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边 界词、所述调序实例所属文档的主题信息,所述主题信息包括所述调序实例所属文档的文 档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
4. 根据权利要求3所述的方法,其特征在于,在对每份所述文档进行文档主题估计时, 使用主题模型工具GibbsLDA++进行主题估计; 所述最大熵训练工具为Maxent工具。
5. -种调序模型建立装置,其特征在于,包括: 文档切分单元,用于对训练语料按照文档标记进行切分,并以文档为单位组织成若干 份文档; 主题估计单元,用于对每份所述文档进行文档主题估计,获得每份文档的主题信息; 调序实例抽取单元,用于从所述训练语料中抽取含有所述主题信息的语块,确定为调 序实例; 调序特征抽取单元,用于参考预置的规则模板,从所述调序实例中抽取调序特征,所述 规则模板至少包括调序实例所属文档的主题信息; 调序特征训练单元,用于利用开源的最大熵训练工具,对所述调序特征进行训练,获得 调序模型。
6. 根据权利要求5所述的装置,其特征在于,还包括: 词过滤单元,用于在对训练语料按照文档标记进行切分之前,对所述训练语料进行停 用词和低频词过滤。
7. 根据权利要求5或6所述的装置,其特征在于,所述规则模板为: 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边 界词、所述调序实例所属文档的主题信息,所述主题信息包括所述调序实例所属文档的文 档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
8. 根据权利要求7所述的装置,其特征在于,在对每份所述文档进行文档主题估计时, 使用主题模型工具GibbsLDA++进行主题估计; 所述最大熵训练工具为Maxent工具。
9. 一种翻译方法,其特征在于,基于权利要求5所述的调序模型建立装置,该方法包 括: 对待翻译文本按照文档标记进行切分,并以文档为单位组织成若干份待翻译文档; 利用所述主题估计单元对每份所述待翻译文档进行文档主题估计,获得每份待翻译文 档的主题信息; 按照所述预置的规则模板,提取所述待翻译文档的调序特征; 利用所述调序模型,对所述调序特征进行顺序或者逆序概率估计。
10.根据权利要求9所述的翻译方法,其特征在于,所述利用所述调序模型,对所述调 序特征进行顺序或者逆序概率估计,具体为: 使用最大熵公式估计两个相邻调序特征A1和A2的顺序或者逆序概率:
其中,C(A\A2)表示调序特征A1和调序特征A2的属性,为二元化特征,0 ,为相应的 特征权重。
【专利摘要】本申请公开了一种调序模型建立方法、装置及翻译方法,其中调序模型建立过程为:对训练语料按照文档标记进行切分,并以文档为单位组织成若干份文档,对每份文档进行文档主题估计,确定对应的主题信息,从训练语料中抽取含主题信息的语块,作为调序实例,并参考预置规则模板,从调序实例中抽取至少包含文档主题信息的调序特征,利用最大熵训练工具来训练调序特征,得到调序模型。申请所获取的调序模型融合了文档主题信息,在对译文进行调序时,能够很好的适应不同文档主题对译文顺序的影响,提高了翻译译文的质量。
【IPC分类】G06F17-28
【公开号】CN104572636
【申请号】CN201510057964
【发明人】熊德意, 王星, 张民
【申请人】苏州大学
【公开日】2015年4月29日
【申请日】2015年2月4日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1