构建树结构及基于树结构的机器翻译系统的方法

文档序号：6366413阅读：147来源：国知局

专利名称：构建树结构及基于树结构的机器翻译系统的方法
技术领域：
本发明涉及自然语言处理技术领域，具体涉及一种构建树结构及基于该树结构的机器翻译系统的方法，特别是利用双语语料进行无监督的树结构推导以构建树结构的方法，以及构建基于该树结构的机器翻译系统的方法。
背景技术：
统计机器翻译是一种从平行双语语料库中自动学习翻译规则，并有效利用这些翻译规则对待翻译语句进行自动翻译的技术。统计机器翻译主要包括基于词的模型、基于短语的模型和基于句法分析树结构的模型的翻译系统。其中，基于句法分析树(或称句法树)结构模型的翻译系统是当前机器翻译领域的研究热点。这类模型的翻译系统已经能够取得与短语模型的翻译系统相媲美的翻译质量，有些甚至已经显著地超过了短语模型的翻译系统的性能。构建基于句法树结构的翻译系统的一般方法是首先对双语语料进行自动词对齐；然后使用句法分析器对双语句子对的一端(树到串翻译模型、串到树翻译模型)或者两端(树到树翻译模型)进行句法分析，构建句法树；最后利用得到的双语词对齐和句法树，自动抽取翻译规则并用于最终的翻译解码。然而，在上述过程中，由于自动词对齐和句法分析是分开进行的，就使得双语词对齐和句法树之间产生了巨大的不协调性，即句法分析器只是专注于本身语言的结构合法性，而忽略了词对齐信息和另一端的句子信息；而且由于目前的句法分析器性能和准确度较低，使得大量的分析错误存在于句法树中，导致许多非常有用的翻译规则无法被当前的翻译模型所获取，从而大大降低了翻译规则的覆盖率和最终的翻译质量。另外，目前的句法分析器一般都需要大量句法树资源的支持，例如宾州树库。但是由于当前人工标注的树库资源十分有限，许多语言对仅仅拥有限定的几个领域的资源，而一旦涉及到其他领域的句子，句法分析器的准确率将大幅降低以至于无法使用。更为严重的是，目前大量的语言对，尤其是小语种，甚至没有对应的句法树资源，这就使得这些语言对根本无法使用这些先进的翻译模型，从而大大限制了这类基于句法树结构的统计机器翻译模型的适用性。因此,如果能够在不使用任何句法树资源的情况下获取双语句子的树结构，同时考虑双语句子间的对齐信息，用来替代传统的句法分析树结构，并构造一种基于该树结构(非句法分析树结构)的翻译系统，将完全打破句法分析器所带来的缺陷，是一个富有挑战且非常有意义的工作。

发明内容
(一 )要解决的技术问题本发明的解决的技术问题是针对如何有效利用双语语料，在没有任何句法树资源的情况下获取树结构的难题，提出一种利用双语语料进行无监督的树结构推导以构建树结构的方法，以及构建基于该树结构的机器翻译系统的方法，使得在仅仅使用词性标注资源的条件下，能够从双语语料中推导出树结构，并构造基于该树结构的机器翻译系统，提高机器翻译系统的翻译性能并大大扩展其适用性。( 二 )技术方案为了解决上述技术问题，本发明提供一种利用双语语料构建树结构的方法，并将所述树结构用于构建机器翻译系统，所述方法包括如下步骤对所述双语语料中的双语句子对进行分词、词性标注和词对齐；根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并为所述双语句子对构造压缩森林；从所述压缩森林中选择适合于机器翻译的树结构。根据本发明的优选实施例，当所述双语不包含汉语时，则不进行分词。根据本发明的优选实施例，对所述双语句子对进行双语切分的方法为根据本发明的优选实施例，根据所述词对齐的结果，配对子句必须满足如下规则A、每个子句的长度大于一个长度阈值；B、双语对齐的子句的长度比小于一个长度比阈值；C、每个子句中，最少有第一百分比的词汇能够对齐到与它配对的子句中；D、从每个子句发出的对齐线中，最多有第二百分比的对齐线(align link)无法对应到与它配对的子句中；E、只在用于断句的标点符号处寻找双语句子对的切分点。根据本发明的优选实施例，利用所述双语句子对构造压缩森林的步骤包括构造压缩森林的节点标签；削减与目标语言句子所对应的树结构；根据所述节点标签和与目标语言句子所对应的树结构构造压缩森林。根据本发明的优选实施例，构造压缩森林的节点标签的步骤包括把森林中的所有非叶子节点按照所控制的词汇的个数进行分类1、单词节点，控制句子中的一个词，节点标签即为这个词的词性标注；11、双词节点，控制句子中的两个词，节点标签是这两个词的词性标注的组合；III、多词节点，控制句子中的多个词，节点标签定义为开头和结尾两个词的词性标注的组合。根据本发明的优选实施例，所述削减与目标语言句子所对应的树结构的搜索空间的步骤包括只保留所述树结构中边界节点数目最多的路径。根据本发明的优选实施例，在利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林的步骤中，使用二叉结构构造压缩森林。根据本发明的优选实施例，从所述压缩森林中选择适合于机器翻译的树结构的步骤包括利用期望最大化算法并通过概率估计迭代地获取能够更好的解释所述双语语料的树结构。根据本发明的优选实施例，所述概率估计是通过内外向算法进行的。本发明还提供一种构建基于树结构的机器翻译系统的方法，其采用如前所述的构建树结构的方法来构建该机器翻译系统的树结构，并基于该树结构构建机器翻译系统。(三)有益效果本发明的有益效果是无需任何句法树资源，只要有词性标注资源的语言对，就可以构建基于树结构的翻译系统，大大扩展了翻译系统的适用性。而且，由于本发明构建的树结构是根据双语句子和词对齐信息构建的，这些树结构与双语词对齐之间有着更好的协调性，大大增加了翻译规则的覆盖率。

图I是根据本发明的利用双语语料进行无监督的树结构推导以构建基于该树结构的翻译系统的方法的流程图；图2是一个示例句子对的双语切分的结果示意图；图3 (a)是一个示例句子的基本树结构示意图，图3 (b)是与图3 (a)对应生成的最终的压缩森林示意图。图4是生成压缩森林的一个实例的流程示意图，其中灰色覆盖的节点为边界节点，变量L和F分别表示跨度的长度和当前二叉结构含有的边界节点的数目；
图5 (a)和图5 (b)分别是根据本发明构建的树结构与传统的句法树结构的一个实例的示意图；图5(c)和图5(d)分别是从图5(a)和图5(b)的句法树结构抽取的串到树翻译规则的示意图，其中灰色覆盖的节点为边界节点。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。本发明提出了一种利用双语语料进行无监督的树结构推导以构建基于该树结构的翻译系统的方法。图I是根据本发明的方法的流程图。如图I所示，本发明的最终结果是构建基于树结构的翻译系统。本发明首先对双语语料进行自动分词、自动词对齐和自动词性标注。然后，根据自动词对齐的结果，对双语语料进行双语切分，获得一一对齐的子句对，从而可以得到一个由子句组成的句子数目更多但句长更短的双语语料。为了保证后续建立的压缩森林与词对齐之间的协调性，本发明对这个子句双语语料重新进行自动词对齐，并把自动词对齐的结果进行合并得到原始的整句双语语料的最终词对齐结果。之后，通过利用目标语言句子自动词性标注的结果来标注森林节点，本发明根据边界节点假设建立压缩森林。最后，通过利用期望最大化(expectation maximization, EM)算法最大化整个双语语料的似然值，从压缩森林中选择最优的树结构并用于建立串到树翻译系统。下面我们就以汉-英平行句子对作为一个实施例来详细阐述本发明的原理与实现方法。I.对双语语料中的双语句子对进行分词、词性标注与词对齐。
具体实施方式
如下对双语句子对中的源语言句子和目标语言句子进行分词，得到源语言端和目标语言端的分词结果。如果源语言或目标语言中不包含汉语，则不需要进行分词。如果源语言或目标语言中包含汉语，则需要对汉语进行分词。对汉语进行分词的方法有很多种。在本发明的实施例中，以词法分析工具Urheen对汉语进行自动分词。Urheen词法分析工具可以在以下网址免费下载http://www. openpr. org. cn/index. php/NLP-Toolkit-for-Natural-Language-Processing/o得到所述的源语言端和目标语言端的分词结果之后，需要对目标语言端的句子进行词性标注，以便于用于标注压缩森林中的节点(这将在后文中描述)。同样地，本发明的实施例中使用词法分析工具Urheen对目标语言端(英语)句子进行自动词性标注。得到所述的源语言端和目标语言端的分词结果之后，需要对双语句子对进行词对齐。进行词对齐的方法有多种。在本发明的实施例中，使用GIZA++工具对汉-英句子对进行自动词对齐，得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可以在以下网址免费下载http://f joch. com/GIZA++. html。在使用GIZA++时要选择某个启发式策略来得到对称的词对齐结果，我们选择了 grow-diag-final-and策略，因为该启发式策略被许多研究工作证明在中英翻译中是最有效的启发式策略。2.根据词对齐的结果对双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的双语子句对重新进行自动词对齐。给定一个三元组(f，e, a)作为输入，其中f代表源语言句子，e代表目标语言句子，a代表词对齐信息。双语切分的目的是为了获取切分后的子句对BSP
权利要求
1.一种利用双语语料构建树结构的方法，所述树结构用于构建机器翻译系统，其特征在于，所述方法包括如下步骤对所述双语语料中的双语句子对进行分词、词性标注和词对齐；根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并为所述双语句子对构造压缩森林；从所述压缩森林中选择适合于机器翻译的树结构。
2.如权利要求I所述的利用双语语料构建树结构的方法，其特征在于，当所述语言对不包含汉语时，则不进行分词。
3.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，对所述双语句子对进行双语切分的方法为根据所述词对齐的结果，配对子句必须满足如下规则 A、每个子句的长度大于一个长度阈值； B、双语对齐的子句的长度比小于一个长度比阈值； C、每个子句中，最少有第一百分比的词汇能够对齐到与它配对的子句中； D、从每个子句发出的对齐线中，最多有第二百分比的对齐线(alignlink)无法对应到与它配对的子句中； E、只在用于断句的标点符号处寻找双语句子对的切分点。
4.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，利用所述双语句子对构造压缩森林的步骤包括构造压缩森林的节点标签；削减与目标语言句子所对应的树结构空间；利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林。
5.如权利要求4所述的利用双语语料构建树结构的方法，其特征在于，构造压缩森林的节点标签的步骤包括把森林中的非叶子节点按照所控制的词汇的个数进行分类 I、单词节点，控制句子中的一个词，节点标签即为这个词的词性标注； II、双词节点，控制句子中的两个词，节点标签是这两个词的词性标注的组合； III、多词节点，控制句子中的多个词，节点标签定义为开头和结尾两个词的词性标注的组合。
6.如权利要求4所述的利用双语语料构建树结构的方法，其特征在于，所述削减与目标语言句子所对应的树结构的搜索空间的步骤包括只保留边界节点数目最多的树结构。
7.如权利要求4所述的利用双语语料构建树结构的方法，其特征在于，在利用所述节点标签构造方法和树结构空间的削减方法构造压缩森林的步骤中，使用二叉结构构造压缩森林。
8.如权利要求2所述的利用双语语料构建树结构的方法，其特征在于，从所述压缩森林中选择适合于机器翻译的树结构的步骤包括利用期望最大化算法并获取能够更好的解释所述双语语料的树结构。
9.如权利要求8所述的利用双语语料构建树结构的方法，其特征在于，在期望最大化算法中，概率估计是通过内外向算法进行的。
10.一种构建基于树结构的机器翻译系统的方法，其特征在于，采用如权利要求I至9中任一项所述的构建树结构的方法来构建该机器翻译系统的树结构，并基于该树结构构建基于树结构的机器翻译系统。
全文摘要
本发明涉及一种构建树结构及基于相应树结构的机器翻译系统的方法，所述方法包括如下步骤对所述双语语料中的双语句子对进行分词、词性标注和词对齐；根据所述词对齐的结果，对所述双语句子对进行双语切分，生成比双语句子对长度更短的双语子句对，并对生成的所述双语子句对重新进行词对齐；根据所述双语子句对词对齐的结果，进行子句合并以获得所述双语句子对的词对齐，并为所述双语句子对构造压缩森林；从所述压缩森林中选择适合于机器翻译的树结构。本发明无需任何句法树资源，只要有词性标注资源的语言对，就可以构建基于树结构的翻译系统。
文档编号G06F17/28GK102662932SQ20121006878
公开日2012年9月12日申请日期2012年3月15日优先权日2012年3月15日
发明者宗成庆, 翟飞飞申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宗成庆;翟飞飞
技术所有人：中国科学院自动化研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。