一种调序模型建立方法、装置及翻译方法

文档序号：8258510阅读：365来源：国知局

一种调序模型建立方法、装置及翻译方法
【技术领域】
[0001] 本申请涉及统计机器翻译技术领域，更具体地说，涉及一种调序模型建立方法、装置及翻译方法。
【背景技术】
[0002] 随着计算能力的提升和语言资源的不断丰富，统计机器翻译逐渐成为自然语言处理领域最重要的研宄热点。在机器翻译中，由于源语言和目标语言词序的不一致，导致在对源语言翻译为目标语言的过程中，需要对目标语言进行重排序，这就是统计机器翻译中的调序问题。
[0003] 在经典的基于短语模型统计机器翻译中，首先根据一个最优的划分，将源语言句子划分成为几个短语。然后，根据学习得到的双语短语表将划分出来的短语进行词汇化翻译，相应的，源语言短语在词汇化翻译后生成目标语言短语。最后，根据学习得到的调序模型，对目标语言短语进行重排序，得到最终的翻译结果。但是，不同的文档主题中对于相同的源语言句子有着不同的调序现象。比如，在翻译英语"Igofirst"时，普通话中更偏向于翻译为"我先走"，然而在粵语表达中更喜欢翻译为"我走先"。在仅仅使用词汇化信息和语法信息的情况下，现有的调序模型很难将上述调序现象进行捕捉，从而造成了错误的调序。

【发明内容】

[0004] 有鉴于此，本申请提供了一种调序模型建立方法、装置及翻译方法，用于解决现有调序模型无法融合文档主题信息，从而在翻译时容易产生调序错误的问题。
[0005] 为了实现上述目的，现提出的方案如下：
[0006] -种调序模型建立方法，包括：
[0007] 对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；
[0008] 对每份所述文档进行文档主题估计，获得每份文档的主题信息；
[0009] 从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；
[0010] 参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；
[0011] 利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。
[0012] 优选地，在所述对训练语料按照文档标记进行切分之前，还包括：
[0013] 对所述训练语料进行停用词和低频词过滤。
[0014] 优选地，所述规则模板为：
[0015] 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
[0016] 优选地，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++ 进行主题估计；
[0017] 所述最大熵训练工具为Maxent工具。
[0018] -种调序模型建立装置，包括：
[0019] 文档切分单元，用于对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；
[0020] 主题估计单元，用于对每份所述文档进行文档主题估计，获得每份文档的主题信息；
[0021] 调序实例抽取单元，用于从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；
[0022] 调序特征抽取单元，用于参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；
[0023] 调序特征训练单元，用于利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。
[0024] 优选地，还包括：
[0025] 词过滤单元，用于在对训练语料按照文档标记进行切分之前，对所述训练语料进行停用词和低频词过滤。
[0026] 优选地，所述规则模板为：
[0027] 抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
[0028] 优选地，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++ 进行主题估计；
[0029] 所述最大熵训练工具为Maxent工具。
[0030] 一种翻译方法，基于上述所述的调序模型建立装置，该方法包括：
[0031] 对待翻译文本按照文档标记进行切分，并以文档为单位组织成若干份待翻译文档；
[0032] 利用所述主题估计单元对每份所述待翻译文档进行文档主题估计，获得每份待翻译文档的主题信息；
[0033] 按照所述预置的规则模板，提取所述待翻译文档的调序特征；
[0034] 利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计。
[0035] 优选地，所述利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计，具体为：
[0036] 使用最大熵公式估计两个相邻调序特征A1和A2的顺序或者逆序概率：
[0037]
【主权项】
1. 一种调序模型建立方法，其特征在于，包括：对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；对每份所述文档进行文档主题估计，获得每份文档的主题信息；从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。
2. 根据权利要求1所述的方法，其特征在于，在所述对训练语料按照文档标记进行切分之前，还包括：对所述训练语料进行停用词和低频词过滤。
3. 根据权利要求1或2所述的方法，其特征在于，所述规则模板为：抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
4. 根据权利要求3所述的方法，其特征在于，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计；所述最大熵训练工具为Maxent工具。
5. -种调序模型建立装置，其特征在于，包括：文档切分单元，用于对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；主题估计单元，用于对每份所述文档进行文档主题估计，获得每份文档的主题信息；调序实例抽取单元，用于从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；调序特征抽取单元，用于参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；调序特征训练单元，用于利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。
6. 根据权利要求5所述的装置，其特征在于，还包括：词过滤单元，用于在对训练语料按照文档标记进行切分之前，对所述训练语料进行停用词和低频词过滤。
7. 根据权利要求5或6所述的装置，其特征在于，所述规则模板为：抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。
8. 根据权利要求7所述的装置，其特征在于，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计；所述最大熵训练工具为Maxent工具。
9. 一种翻译方法，其特征在于，基于权利要求5所述的调序模型建立装置，该方法包括：对待翻译文本按照文档标记进行切分，并以文档为单位组织成若干份待翻译文档；利用所述主题估计单元对每份所述待翻译文档进行文档主题估计，获得每份待翻译文档的主题信息；按照所述预置的规则模板，提取所述待翻译文档的调序特征；利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计。
10.根据权利要求9所述的翻译方法，其特征在于，所述利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计，具体为：使用最大熵公式估计两个相邻调序特征A1和A2的顺序或者逆序概率：
其中，C(A\A2)表示调序特征A1和调序特征A2的属性，为二元化特征，0 ,为相应的特征权重。
【专利摘要】本申请公开了一种调序模型建立方法、装置及翻译方法，其中调序模型建立过程为：对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档，对每份文档进行文档主题估计，确定对应的主题信息，从训练语料中抽取含主题信息的语块，作为调序实例，并参考预置规则模板，从调序实例中抽取至少包含文档主题信息的调序特征，利用最大熵训练工具来训练调序特征，得到调序模型。申请所获取的调序模型融合了文档主题信息，在对译文进行调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。
【IPC分类】G06F17-28
【公开号】CN104572636
【申请号】CN201510057964
【发明人】熊德意, 王星, 张民
【申请人】苏州大学
【公开日】2015年4月29日
【申请日】2015年2月4日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：熊德意;王星;张民;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种表单审批方法及即时通讯装置的制造方法
上一篇：可穿戴翻译装置及其控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。