短语表过滤效率的评估方法及系统与流程

文档序号:12123938阅读:286来源:国知局
短语表过滤效率的评估方法及系统与流程

本发明实施例涉及机器翻译技术领域,尤其涉及一种短语表过滤效率的评估方法及系统。



背景技术:

目前机器翻译(SMT)领域中表现最好的翻译系统,是基于短语的翻译模型。构成基于短语的翻译模型的基本数据是一个带有表示概率分布的短语对表。目前,已存在几种从平行语料之间抽取短语对表的方法,如:概率模型,模式挖掘模型,矩阵分解方法,启发式方法,MBR法和基于模型的算法等。然而在这些方法中,最常见的表构建方式还是从词对齐的语料中抽取,这种方式需要穷举所有的词语表以达到和对齐一致的固定长度。

在讨论机器翻译质量和词对齐或短语表之间的联系时,一般从两个独立的方面入手:(1)致力于干扰词对齐的研究以达到更好的翻译效果。一些研究表明,机器翻译质量取决于词对齐的质量(2)一些研究指出,机器翻译的质量,还是取决于机器翻译系统的性能和使用的语料库的类型。

在系统效率方面,短语表过滤技术被用于改善系统的效率而不丢失整体翻译质量,因此,如何定量评估系统的短语表过滤效率,对系统效率方面的评估具有重要意义。



技术实现要素:

本发明实施例提供一种短语表过滤效率的评估方法及系统,用以实现对机器翻译系统的短语表过滤效率的定量评估。

本发明实施例第一方面提供一种短语表过滤效率的评估方法,该方法包括:

获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果;

确定所述目标语言和源语言之间与所述全对齐的词对齐结果一致的短语对的第一数量,以及与所述单一词对齐的词对齐结果一致的短语对的第二数量;

根据所述第一数量和所述第二数量,确定短语表的过滤效率。

本发明实施例第二方面提供一种短语表过滤效率的评估系统,该系统包括:

获取模块,用于获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果;

第一确定模块,用于确定所述目标语言和源语言之间与所述全对齐的词对齐结果一致的短语对的第一数量,以及与所述单一词对齐的词对齐结果一致的短语对的第二数量;

第二确定模块,用于根据所述第一数量和所述第二数量,确定短语表的过滤效率。

本发明实施例,通过获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果,并根据目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果,确定目标语言和源语言之间与全对齐的词对齐结果一致的短语对的第一数量,以及与单一词对齐的词对齐结果一致的短语对的第二数量,从而根据第一数量和第二数量,确定短语表的过滤效率,实现了对机器翻译系统的短语表过滤效率的定量评估,为机器翻译系统的性能评估和性能提升,提供了依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的短语表过滤效率的评估方法的流程示意图;

图2为本发明一实施例提供的一种全对齐的词对齐结果示意图;

图3为本发明实施例提供的又一种全对齐的词对齐结果示意图;

图4为本发明实施例提供的又一种全对齐的词对齐结果示意图;

图5为本发明实施例提供的又一种全对齐的词对齐结果示意图;

图6为本发明实施例提供的一种单一词对齐的词对齐结果示意图;

图7为本发明一实施例提供的短语表过滤效率的评估系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。

图1为本发明一实施例提供的短语表过滤效率的评估方法的流程示意图,该方法可以由一短语表过滤效率的评估系统来执行。如图1所示,本实施例提供的方法包括如下步骤:

步骤S101、获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果。

本发明实施例中所涉及的目标语言指的是待翻译的语言,源语言指的是待翻译成的语言。

实际应用中,目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果可以采用现有的词对齐方法来获得,例如可以采用现有的GIZA++方法来获得词对齐结果,在这里不再赘述。

步骤S102、确定所述目标语言和源语言之间与所述全对齐的词对齐结果一致的短语对的第一数量,以及与所述单一词对齐的词对齐结果一致的短语对的第二数量。

实际应用中,确定目标语言和源语言之间与全对齐的词对齐结果一致的短语对的第一数量的方法如下:

图2为本发明一实施例提供的一种全对齐的词对齐结果示意图,如图2所示,目标语言e=e1e2e3e4…ei…eI被翻译成的源语言为f=f1f2f3f4…fj…fJ,并且在一个语言对中间,一个单词允许被对齐到一个或多个单词上。在这里J和I分别代表源语言和目标语言的句子长度。i及j代表每个词在句子中的位置信息。

在目标语言端,每一个单词ei都至少有一个对齐点,并且没有任何交叉词对齐。这也就是说,单词都是单一对齐的。从第一个单词e1起,所有可能的短语表都被抽取出来。例如:(e1|f1),(e1e2|f1f2f3),(e1e2…ei|f1f2f3…fj),(e1e2…ei…eI|f1f2f3…fj…fJ),总计I个短语对。从第二个单词e2起,则有I-1个短语对可被抽取,例如:(e2|f2f3),(e2…ei|f2f3…fj),(e2…ei…eI|f2f3…fj…fJ),以此类推。由此,从全对齐句子中抽取的短语对数量可以被定义如下:

但是,这个方法的缺陷在于,并没有考虑交叉对齐的问题,而在实际翻译过程中是存在交叉对其的情况的。图3为本发明实施例提供的又一种全对齐的词对齐结果示意图,如图3所示,在中文端,第四个词和第五个词在对齐英文时有交叉。如果根据公式(1),应该有21个语言对,但根据传统的短语提取法只有18对,针对这个情况,本实施例可以采用如下方法抽取短语对:

图4为本发明实施例提供的又一种全对齐的词对齐结果示意图,由图4可知,交叉发生在相邻的单词和之间,也就是说,iend=ibegin+1。任何落在交叉边界之间的短语都不能通过公式(1)进行抽取。那么,(ibegin-1)+(I-iend)之间的短语应该被剔除:

Nca=(ibegin-1)+(I-iend). (2)

如果将被过滤的短语定义为Nca(交叉对齐的数量),则可以使用一个更加实用的方程:

如果一句话中有不止一个的交叉对齐点,则可以通过公式(4)得到提取短语的总量:

由公式(4)可得,被过滤的短语对由交叉对齐的点ibegin和iend决定,m代表交叉对齐的短语对的总数。

但是上述公式(4)只针对交叉对齐的词是连续的,中间没有任何单独的词的存在。但是通常情况下,在交叉对齐的词之间还有很多单词的存在,例如,如图5的词对齐结果所示。针对这种情况,本实施例可以通过公式(5)来计算目标语言和源语言之间交叉对齐的短语对之间的短语对的数量Nr

其中,m为所述目标语言和所述源语言之间交叉对齐的短语对的总数,k为1到m之间的正整数,ibegin为目标语言中第一个交叉对其的单词在所述目标语言中的位置,iend为所述目标语言中最后一个交叉对其的单词在所述目标语言中的位置,α为所述目标语言中第一个交叉对齐的单词之后的任意位置,β为所述目标语言中最后一个交叉对齐的单词之后的任意位置,且α、β位于所述第一个交叉对齐的单词和所述最后一个交叉对齐的单词之间的位置。

最后,可以通过公式(6)计算出目标语言和源语言之间与全对齐的词对齐结果一致的短语对的第一数量:

本实施例中,确定与所述单一词对齐的词对齐结果一致的短语对的第二数量的方法如下:

图6为本发明实施例提供的一种单一词对齐的词对齐结果示意图,如图6所示,在源语言中,只有一个词fj对齐到目标语言的单词ei

值得注意的是,在fj前后,或是目标语言ei未对齐的词中,极有可能组成一个词组。也就是说,如果知道每个目标语言和源语言中的短语的提取情况,就可以分别从两边抽取叠加得到短语的总数。具体算法如下:

如果有一个包含i个单词的句子(e1,e2,e3,...,ei),i可能为奇/偶数,在不同位置下的短语对f(i)可以通过以下公式得到:

f(i)=i(I-i+1)=i(I-i)+i. (7)

同样的,也可以得到源语言端的短语对:

g(j)=j(J-j+1)=j(J-j)+j. (8)

所以,根据公式(7)、(8),可以得到总短语对的数量Nmax(即第二数量):

Nmax=[i(I-i)+i][j(J-j)+j], (9)

其中,0≤i≤I-1并且0≤j≤J-1。

步骤S103、根据所述第一数量和所述第二数量,确定短语表的过滤效率。

具体的,本实施例中,可以根据公式:

确定短语表的过滤效率Rpruned

本实施例,通过获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果,并根据目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果,确定目标语言和源语言之间与全对齐的词对齐结果一致的短语对的第一数量,以及与单一词对齐的词对齐结果一致的短语对的第二数量,从而根据第一数量和第二数量,确定短语表的过滤效率,实现了对机器翻译系统的短语表过滤效率的定量评估,为机器翻译系统的性能评估和性能提升,提供了依据。

图7为本发明一实施例提供的短语表过滤效率的评估系统的结构示意图,如图7所示,本实施例提供的系统包括:

获取模块11,用于获取目标语言和源语言之间的全对齐的词对齐结果和单一词对齐的词对齐结果;

第一确定模块12,用于确定所述目标语言和源语言之间与所述全对齐的词对齐结果一致的短语对的第一数量,以及与所述单一词对齐的词对齐结果一致的短语对的第二数量;

第二确定模块13,用于根据所述第一数量和所述第二数量,确定短语表的过滤效率。

其中,所述第一确定模块12包括:

第一确定子模块121,用于根据公式

确定所述第一数量;

其中,Nmin-t为所述第一数量的计算值,I为目标语言的长度,Nr为所述目标语言和所述源语言之间交叉对齐的短语对之间的短语对的数量。

所述第一确定子模块121,还用于:

根据公式

确定所述Nr的值;

其中,m为所述目标语言和所述源语言之间交叉对齐的短语对的总数,k为1到m之间的正整数,ibegin为目标语言中第一个交叉对其的单词在所述目标语言中的位置,iend为所述目标语言中最后一个交叉对其的单词在所述目标语言中的位置,α为所述目标语言中第一个交叉对齐的单词之后的任意位置,β为所述目标语言中最后一个交叉对齐的单词之后的任意位置,且α、β位于所述第一个交叉对齐的单词和所述最后一个交叉对齐的单词之间的位置。

所述第一确定模块12,还包括:

第二确定子模块122,用于根据公式

Nmax=[i(I-i)+i][j(J-j)+j],

确定第二数量Nmax

其中,i为所述目标语言中第i个单词在所述目标语言中的位置,j表示所述源语言中第j个单词在所述源语言中的位置,I和J分别为所述目标语言和所述源语言的长度。

所述第二确定模块13,用于:根据公式

确定短语表的过滤效率Rpruned

本发明实施例提供的系统能够用于图1所示实施例的方法,其执行方式和有益效果类似,在这里不再赘述。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1