一种用于机器翻译的调序模型的生成方法和装置的制作方法

文档序号：6339429阅读：307来源：国知局

专利名称：一种用于机器翻译的调序模型的生成方法和装置的制作方法
技术领域：
本发明涉及机器翻译领域，特别涉及一种用于机器翻译的调序模型的生成方法和直O
背景技术：
近年来，基于短语的统计机器翻译(phrase-based statistical machine translation)相比于IBM公司当初提出的基于单词的统计机器翻译(word-based statistical machine translation)在译文质量上有了很大的进步，因而受到人们的广泛关注。简单地说，基于短语的统计机器翻译在训练时，首先将双语语料库中的双语例句进行双语词对齐，随后双语词对齐的基础上抽取出带概率的双语短语表。在翻译时，首先是将要翻译的源语言句子与短语表中的源语言短语进行匹配，得到与源语言短语对应的目标语言短语，然后对目标语言短语进行调序，进而得到目标语言句子。在基于短语的统计机器翻译系统中，存在三个比较重要的模型翻译模型、调序模型以及语言模型。其中，调序模型是为了解决翻译中存在的调序问题。现有的调序模型主要是基于相邻的短语。例如，在翻译“人们将来的发展与他们幼年时的发展息息相关”时，调序模型考虑的是“与他们幼年时的发展”与“息息相关”之间的调序问题。基于短语的调序模型存在以下两个缺陷一是不能对非连续性的短语进行调序，例如不能对“与...息息相关”和“他们幼年时的发展”进行调序；二是调序模型依赖于整个短语，使得估计参数时存在数据稀疏问题，导致估计不准。为了提高调序模型的调序能力，部分研究者采用功能词(function word)或者边界词(boundary word)等方式来解决数据稀疏问题，但上述解决方案的效果仍不理想，无法满足机器翻译需求。

发明内容
本发明所要解决的技术问题是提供一种用于机器翻译的调序模型的生成方法和装置，以通过词与词之间的搭配信息来提高调序模型的调序能力。本发明为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型的生成方法，包括a.获取双语语料库，所述双语语料库包括多个双语例句对，每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句；b.对所述源语言例句进行搭配抽取，以获取源语言搭配词对，每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词；c.对所述源语言例句以及所述目标语言例句进行双语词对齐，并根据双语词对齐结果确定所述源语言搭配词的对应译文；d.根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向；e.对所述调序方向进行统计，获取每一所述调序方向的调序概率，以形成调序模型。根据本发明之一优选实施例，所述步骤b进一步包括bl.对所述源语言例句进行复制，以形成包括两个所述源语言例句的源语言例句对；b2.对所述源语言例句对进行单语词对齐，并根据单语词对齐结果获得一组源语言对齐词对，每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词；b3.从所述源语言对齐词对中选择所述源语言搭配词对。根据本发明之一优选实施例，在所述步骤1^2中，利用单语词对齐模型对所述源语言例句对进行单语词对齐。根据本发明之一优选实施例，在所述步骤b3中，过滤掉对齐频率小于第一阈值的所述源语言对齐词对。根据本发明之一优选实施例，在所述步骤b3中，基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率，根据所述对齐概率计算所述源语言对齐词对的搭配概率，并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。根据本发明之一优选实施例，在所述步骤C中，利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。根据本发明之一优选实施例，所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。本发明为解决技术问题而采用的技术方案是提供一种用于机器翻译的调序模型的生成装置，包括双语语料获取单元，用于获取双语语料库，所述双语语料库包括多个双语例句对，每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句；搭配抽取单元，用于对所述源语言例句进行搭配抽取，以获取源语言搭配词对，每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词；双语词对齐单元，用于对所述源语言例句以及所述目标语言例句进行双语词对齐，并根据双语词对齐结果确定所述源语言搭配词的对应译文；调序方向确定单元，用于根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向；调序模型生成单元，用于对所述调序方向进行统计，获取每一所述调序方向的调序概率，以形成调序模型。根据本发明之一优选实施例，所述搭配抽取单元进一步包括源语言例句对形成单元，用于对所述源语言例句进行复制，以形成包括两个所述源语言例句的源语言例句对；单语词对齐单元，用于对所述源语言例句对进行单语词对齐，并根据单语词对齐结果获得一组源语言对齐词对，每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词；源语言搭配词对选择单元，从所述源语言对齐词对中选择所述源语言搭配词对。根据本发明之一优选实施例，所述单语词对齐单元利用单语词对齐模型对所述源语言例句对进行单语词对齐。根据本发明之一优选实施例，所述源语言搭配词对选择单元过滤掉对齐频率小于第一阈值的所述源语言对齐词对。根据本发明之一优选实施例，所述源语言搭配词对选择单元基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率，根据所述对齐概率计算所述源语言对齐词对的搭配概率，并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。根据本发明之一优选实施例，所述双语词对齐单元利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。根据本发明之一优选实施例，所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。由以上技术方案可以看出，本发明提供的调序模型的生成方法及装置基于源语言的词与词之间的搭配信息来建立调序模型，进而提高了调序模型的调序能力。

图1是本发明实施例中的调序模型生成方法的流程示意图；图2是本发明实施例中的搭配抽取结果的示意图；图3是本发明实施例中的双语词对齐结果的示意图；图4是本发明实施例中的搭配抽取方法的流程示意图；图5是本发明实施例中的调序模型生成装置的示意框图；图6是本发明实施例中的搭配抽取单元的示意框图。
具体实施例方式下面结合附图和实施例对本发明进行详细说明。本发明利用源语言句子中的词与词之间的搭配信息来提高调序模型的调序能力，例如在以上例句中，如果能够发现“与”和“息息相关”是一个搭配词对，那么在调序过程中，考虑采用这样的调序模型来约束二者的调序方向ρ (o I wi Wj) ο ^ (straight，inverted)在上述调序模型中，Wi和％表示在源语言句子中具有搭配关系的两个源语言搭配词，二者构成一源语言搭配词对，ο表示调序方向，其中，“straight”表示源语言搭配词Wi 和在源语言句子中的顺序与源语言搭配词Wi和的对应译文在目标语言句子中的顺序相同，“inverted”表示源语言搭配词Wi和Wj在源语言句子中的顺序与Wi和Wj的对应译文在目标语言句子中的顺序相反。请参阅图1，图1是本发明实施例中的调序模型生成方法的流程示意图。在本实施例中，通过训练的方式来生成上述模型，该调序模型生成方法主要包括以下几个步骤在步骤SlOl中，获取双语语料库。该双语语料库包括多个双语例句对，每一双语例句对包括源语言例句以及与源语言例句对应的目标语言例句。双语语料库在机器翻译领域中被普遍使用，并可通过各种方式获得，在此不再赘述。在步骤S102中，对源语言例句进行搭配抽取，以获取源语言搭配词对。如图2所示，在本步骤中，可通过单语词对齐的方式来获取源语言搭配词对。例如，在图2中，“人们” 与“发展”、“将来”与“发展”以及“与”与“息息相关”均为两个具有搭配关系的源语言搭配词，进而分别构成一源语言搭配词对。下文将详细描述通过单语词对齐方式来获取源语言搭配词对的搭配抽取方法。在步骤S103中，对双语例句对中的源语言例句以及目标语言例句进行双语词对齐，并根据双语词对齐结果确定源语言搭配词的对应译文。如图3所示，源语言搭配词“人们”的对应译文为“People”、“将来”的对应译文为“future”、“发展”的对应译文为“development”、“与”的对应译文为“to”以及“息息相关”的对应译文为“is closely related”。在本步骤中，双语词对齐可通过训练好的双语词对齐模型来实现。双语词对齐模型及其训练方法为本领域公知常识，在此不再赘述。在步骤S104中，根据源语言搭配词在源语言例句中的顺序以及源语言搭配词的对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向。具体来说，如图2-3所示，在源语言例句中，源语言搭配词“人们”位于“发展”的前面，同时在目标语言例句中，“人们”的对应译文“People”同样位于“发展”的对应译文“development”的前面。此时，认为源语言搭配词对“人们”与“发展”的调序方向为“straight”，即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相同。同理，“将来”与“发展”的调序方向也是“straight”。进一步，在源语言例句中，源语言搭配词“与”位于“息息相关”的前面，而在目标语言例句中，“与”的对应译文“to”位于“息息相关”的对应译文“is closely related”的后面，则认为源语言搭配词对“与”与“息息相关”的调序方向是“inverted”，即源语言搭配词在源语言例句中的顺序与对应译文在目标语言例句中的顺序相反。在步骤S105中，对上述调序方向进行统计，获取每一调序方向的调序概率，以形成调序模型。具体来说，每一源语言搭配词对Wi和％的调序方向的调序概率为
权利要求
1.一种用于机器翻译的调序模型的生成方法，其特征在于，所述生成方法包括以下步骤a.获取双语语料库，所述双语语料库包括多个双语例句对，每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句；b.对所述源语言例句进行搭配抽取，以获取源语言搭配词对，每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词；c.对所述源语言例句以及所述目标语言例句进行双语词对齐，并根据双语词对齐结果确定所述源语言搭配词的对应译文；d.根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向；e.对所述调序方向进行统计，获取每一所述调序方向的调序概率，以形成调序模型。
2.如权利要求1所述的调序模型的生成方法，其特征在于，所述步骤b进一步包括 bl.对所述源语言例句进行复制，以形成包括两个所述源语言例句的源语言例句对； b2.对所述源语言例句对进行单语词对齐，并根据单语词对齐结果获得一组源语言对齐词对，每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词； b3.从所述源语言对齐词对中选择所述源语言搭配词对。
3.如权利要求2所述的调序模型的生成方法，其特征在于，在所述步骤1^2中，利用单语词对齐模型对所述源语言例句对进行单语词对齐。
4.如权利要求2所述的调序模型的生成方法，其特征在于，在所述步骤b3中，过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
5.如权利要求2所述的调序模型的生成方法，其特征在于，在所述步骤b3中，基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率，根据所述对齐概率计算所述源语言对齐词对的搭配概率，并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
6.如权利要求1所述的调序模型的生成方法，其特征在于，在所述步骤c中，利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
7.如权利要求1所述的调序模型的生成方法，其特征在于，所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
8.一种用于机器翻译的调序模型的生成装置，其特征在于，所述生成装置包括双语语料获取单元，用于获取双语语料库，所述双语语料库包括多个双语例句对，每一所述双语例句对包括源语言例句以及与所述源语言例句对应的目标语言例句；搭配抽取单元，用于对所述源语言例句进行搭配抽取，以获取源语言搭配词对，每一所述源语言搭配词对包括两个具有搭配关系的源语言搭配词；双语词对齐单元，用于对所述源语言例句以及所述目标语言例句进行双语词对齐，并根据双语词对齐结果确定所述源语言搭配词的对应译文；调序方向确定单元，用于根据所述源语言搭配词在所述源语言例句中的顺序以及所述对应译文在所述目标语言例句的顺序确定所述源语言搭配词对的调序方向；调序模型生成单元，用于对所述调序方向进行统计，获取每一所述调序方向的调序概率，以形成调序模型。
9.如权利要求8所述的调序模型的生成装置，其特征在于，所述搭配抽取单元进一步包括源语言例句对形成单元，用于对所述源语言例句进行复制，以形成包括两个所述源语言例句的源语言例句对；单语词对齐单元，用于对所述源语言例句对进行单语词对齐，并根据单语词对齐结果获得一组源语言对齐词对，每一所述源语言对齐词对包括两个具有对齐关系的源语言对齐词；源语言搭配词对选择单元，从所述源语言对齐词对中选择所述源语言搭配词对。
10.如权利要求9所述的调序模型的生成装置，其特征在于，所述单语词对齐单元利用单语词对齐模型对所述源语言例句对进行单语词对齐。
11.如权利要求9所述的调序模型的生成装置，其特征在于，所述源语言搭配词对选择单元过滤掉对齐频率小于第一阈值的所述源语言对齐词对。
12.如权利要求9所述的调序模型的生成装置，其特征在于，所述源语言搭配词对选择单元基于所述源语言对齐词对的对齐频率计算所述源语言对齐词对的对齐概率，根据所述对齐概率计算所述源语言对齐词对的搭配概率，并选择搭配概率大于第二阈值的所述源语言对齐词对作为所述源语言搭配词对。
13.如权利要求8所述的调序模型的生成装置，其特征在于，所述双语词对齐单元利用双语词对齐模型对所述源语言例句以及所述目标语言例句进行双语词对齐。
14.如权利要求8所述的调序模型的生成装置，其特征在于，所述调序方向包括所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相同以及所述源语言搭配词在所述源语言例句中的顺序与所述对应译文在所述目标语言例句中的顺序相反。
全文摘要
本发明提供了一种用于机器翻译的调序模型的生成方法，包括获取双语语料库；对双语语料库中的源语言例句进行搭配抽取，以获取源语言搭配词对；对源语言例句以及目标语言例句进行双语词对齐，并根据双语词对齐结果确定源语言搭配词的对应译文；根据源语言搭配词在源语言例句中的顺序以及对应译文在目标语言例句的顺序确定源语言搭配词对的调序方向；对调序方向进行统计，获取每一调序方向的调序概率，以形成调序模型。通过上述方式，基于源语言的词与词之间的搭配信息建立调序模型，进而提高调序模型的调序能力。
文档编号G06F17/28GK102053959SQ20101060003
公开日2011年5月11日申请日期2010年12月13日优先权日2010年12月13日
发明者吴华, 王海峰, 胡晓光申请人:百度在线网络技术(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴华;胡晓光;王海峰
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：三维模型的网页用户终端呈现方式的制作方法
上一篇：基于gprs无线网络的医药监管智能管理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。