本发明涉及机器翻译技术领域,特别涉及一种平行短语学习方法及装置。
背景技术:
随着互联网的发展和国际交流的日益深入,人们的语言翻译需求日益增长。据Google翻译团队披露,Google翻译每天提供翻译服务达十亿次,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。然而,机器翻译的质量还无法达到人们的需求,尤其是对于语料资源较少的语言和领域,目前的商用机器翻译系统还很难很好地进行翻译。目前主流的机器翻译技术是基于统计的机器翻译。平行语料库在统计机器翻译中起到了重要作用,是统计机器翻译系统用于抽取翻译规则、计算模型参数所不可或缺的数据资源。
平行语料库是指的是源语言文本及其平行对应的目标语言的译文文本构成的双语或多语语料库。对齐的粒度分为词级、短语级、句子级、段落级、篇章级等。统计机器翻译系统通常使用句子级对齐的平行语料库作为训练数据。统计机器翻译技术依赖于大规模的平行语料库,系统通过训练算法来使用平行语料库训练翻译模型。
但是,如何获取大规模的平行语料库仍然是一个巨大的挑战。目前平行语料库远远无法满足互联网的时代下人们对机器翻译服务的需要。平行语料库通常从多语言的政府文档、新闻网站等获取,只覆盖较少的语言和有限的领域,如法律、政治、文学等,并不足以支持多语言、多领域的机器翻译;对于小语种和特定领域(如航空领域、旅游领域等),平行语料库非常稀缺,从中抽取出的平行短语的质量和翻译模型的性能较低,受非平行语料中噪音数据的影响程度较高。
技术实现要素:
本发明要解决的技术问题是:如何基于非平行的源语言及目标语言的单语语料库,提供一种平行短语学习方法及装置。
基于上述目的,本发明提出如下技术方案:
一种平行短语的学习方法,包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
可选地,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
可选地,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1。
可选地,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
可选地,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en;
S32:根据P(ft|e;θ1),计算最佳匹配得到短语对
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
可选地,所述S3中利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及m*计算得到,计算时考虑双向模型的一致性约束:
类似地,根据m*更新计算目标语言到源语言的短语翻译模型参数θ2,即p(I|J)及p(e|f)。
可选地,所述S3中在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮优化抽取出的所有平行短语对输出,作为抽取出的平行语料库。
一种平行短语的学习装置,包括:
语料库构建单元,用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元,用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元,用于使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
可选地,所述语料库构建单元,进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
可选地,所述语料库构建单元,还用于:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1。
本发明的平行短语学习方法及装置,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更为廉价,且覆盖的语言、领域更为全面,能极大地补充当前平行语料库不足的情况。同时,通过使用模型一致性约束,很好地解决了实际环境中存在噪音(大量没有译文的文本)的问题,大大提升了抽取出的平行语料的精度和质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例的平行短语的学习方法的流程示意图;
图2为本发明一个实施例的平行短语的学习装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一个实施例的平行短语的学习方法的流程示意图;如图1所示,该方法包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
需要说明的是,步骤S3中从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以及,利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型的过程是一个多轮迭代优化的过程。即不断重复上述抽取平行短语对以优化上述的两个短语翻译模型,直到无法抽取出新的短语对为止。
本实施例的平行短语的学习方法,可以实现从非平行的单语语料中,抽取平行语料,相比于平行语料而言,单语语料的获取更为廉价,且覆盖的语言、领域更为全面,能极大地补充当前平行语料库不足的情况。同时,通过使用模型一致性约束,很好地解决了实际环境中存在噪音(大量没有译文的文本)的问题,大大提升了抽取出的平行语料的精度和质量。
作为本实施例的优选,步骤S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,可包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
在上述实施例的基础上,步骤S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,还可进一步包括:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1。
作为另一种优选的实施方式,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,可进一步包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
作为本实施例的优选,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en;
S32:根据P(ft|e;θ1),计算最佳匹配得到短语对
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
作为本实施例的优选,步骤S3中利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及m*计算得到,计算时考虑双向模型的一致性约束:
类似地,根据m*更新计算目标语言到源语言的短语翻译模型参数θ2,即p(I|J)及p(e|f)。
进一步地,在上述实施例的基础上,步骤S3中利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮迭代抽取出的所有平行短语对输出,作为抽取出的平行语料库。
图2为本发明一个实施例的平行短语的学习装置的结构示意图。如图2所示,该装置,包括语料库构建单元10、模型初始化单元20以及翻译模型优化单元30;
其中,语料库构建单元10用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元20用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元30用于使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
作为上述实施例的优选,语料库构建单元10可进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
在此基础上,语料库构建单元10还可以进一步用于:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含S个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,
本实施例所述的装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
需要说明的是,对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。