评价、选择例句对,构建通用例句库,机器翻译的方法及装置的制作方法

文档序号:6467028阅读:203来源:国知局
专利名称:评价、选择例句对,构建通用例句库,机器翻译的方法及装置的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及对进行了对齐的双语语料库中的例句对
进行评价,从进行了对齐的双语语料库中选择例句对,利用进行了对齐的双语语料库构建 通用例句库,以及机器翻译的技术。
背景技术
基于实例的机器翻译(Example-based Machine Translation, EBMT)技术的基本 思想是通过修改与输入句子相似的例句对来生成译文。该技术首先搜索进行了对齐的双 语语料库,以查找与输入句子相似的匹配例句对,然后识别出输入句子和匹配例句对之间 的不同之处,最后EBMT模型消除例句对中的不同从而生成译文。EBMT技术的具体细节可 以参见Harold Somers, Review Article :Example_based Machine Translation, Machine Translation, v. 14n. 2, p. 113-157, June 1999,在此通过参考引入其整个内容。
从EBMT技术的基本思想可以看出,译文主要来源于匹配例句对,因此,用于EBMT 模型的例句对质量会在很大程度上影响EBMT模型的性能。 然而,在现有的双语语料库中,存在大量的不规范例句对,例如,习惯用语,意译例 句对等等,这些例句对包含了大量的不正式的语法信息。从EBMT技术的基本思想来看,这 些例句对不适合被EBMT模型修改来生成输入句子的译文。 此外,EBMT技术受到硬件条件的限制(例如内存、处理器速度等),用于EBMT模型 的例句库的规模不能太大。 因此,需要一种为EBMT模型选择通用、可靠的例句对的方法。

发明内容
为了解决上述现有技术中存在的问题,本发明提供了对进行了对齐的双语语料库 中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行 了对齐的双语语料库构建通用例句库的方法,机器翻译的方法,对进行了对齐的双语语料 库中的例句对进行评价的装置,从进行了对齐的双语语料库中选择例句对的装置,利用进 行了对齐的双语语料库构建通用例句库的装置和机器翻译的装置。 根据本发明的一个方面,提供了 一种对进行了对齐的双语语料库中的例句对进行 评价的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句 之间的对齐信息,上述方法包括以下步骤根据给定的例句对中的第一语种的例句在上述 双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的 例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述计算出的得分,对上述 给定的例句对进行评价。 根据本发明的另一个方面,提供了一种从进行了对齐的双语语料库中选择例句对 的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤根据上述对进行了对齐的双语语料库中的例句对进 行评价的方法,计算给定的例句对的得分;以及将上述计算出的得分与给定的阈值进行比 较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。 根据本发明的另一个方面,提供了一种利用进行了对齐的双语语料库构建通用例 句库的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句 之间的对齐信息,上述方法包括步骤1 :根据上述对进行了对齐的双语语料库中的例句对 进行评价的方法,计算上述双语语料库中的每一个例句对的得分;步骤2 :根据上述得分的 降序对上述双语语料库中的例句对进行排序;以及步骤3 :确定上述步骤2排序后的第l个 例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈 值,则将上述第1个例句对加入上述通用例句库。 根据本发明的另一个方面,提供了一种机器翻译的方法,包括以下步骤为待翻译 的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句对的方法选择出的 例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的方法构建的通用例句 库中查找相似的第一语种的例句;为上述待翻译的第一语种的句子与上述相似的第一语种 的例句之间的区别部分准备相应的译文;以及将与上述相似的第一语种的例句相对应的第 二语种的例句以及上述区别部分的译文组合,生成参考译文。 根据本发明的另一个方面,提供了一种对进行了对齐的双语语料库中的例句对进 行评价的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例 句之间的对齐信息,上述装置包括得分计算单元,根据给定的例句对中的第一语种的例句 在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二 语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述得分计算单元计 算出的得分,对上述给定的例句对进行评价。 根据本发明的另一个方面,提供了一种从进行了对齐的双语语料库中选择例句对 的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间 的对齐信息,上述装置包括上述对进行了对齐的双语语料库中的例句对进行评价的装置, 用于计算给定的例句对的得分;以及比较单元,用于将上述计算出的得分与给定的阈值进 行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
根据本发明的另一个方面,提供了一种利用进行了对齐的双语语料库构建通用例 句库的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句 之间的对齐信息,上述装置包括上述对进行了对齐的双语语料库中的例句对进行评价的 装置,用于执行步骤1 :计算上述双语语料库中的每一个例句对的得分;排序单元,用于执 行步骤2 :根据上述得分的降序对上述双语语料库中的例句对进行排序;以及确定单元,用 于执行步骤3 :确定上述排序单元排序后的第l个例句对的得分是否大于给定的阈值,其中 如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用 例句库。 根据本发明的另一个方面,提供了一种机器翻译的装置,包括相似例句查找单 元,用于为待翻译的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句 对的装置选择出的例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的装 置构建的通用例句库中查找相似的第一语种的例句;区别部分译文准备单元,用于为上述
10待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文; 以及参考译文生成单元,用于将与上述相似的第一语种的例句相对应的第二语种的例句以 及上述区别部分的译文组合,生成参考译文。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本 发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的对进行了对齐的双语语料库中的例句对进行 评价的方法的流程图;
图2是根据本发明的另
的方法的流程图;
图3是根据本发明的另
句库的方法的流程-个实施例的机器翻译的方法的流程图; ,一个实施例的对进行了对齐的双语语料库中的例句对进
个实施例的从进行了对齐的双语语料库中选择例句对 个实施例的利用进行了对齐的双语语料库构建通用例 图4是根据本发明的另
图5是根据本发明的另
行评价的装置的方框图;
图6是根据本发明的另
的装置的方框图;
图7是根据本发明的另
句库的装置的方框图;以及
图8是根据本发明的另一
一个实施例的从进行了对齐的双语语料库中选择例句对 一个实施例的利用进行了对齐的双语语料库构建通用例 个实施例的机器翻译的装置的方框图。
具体实施例方式
下面就结合附图对本发明的各个实施例进行详细的说明。
对讲行了对齐的双语i吾料库中的例句对讲行评价的方法 本实施例的对进行了对齐的双语语料库中的例句对进行评价的方法通过使用"覆 盖率"和"一致性"来综合评价每个例句对的质量,其中,覆盖率描述了例句对的通用性,而
一致性描述了例句对被EBMT模型使用时的可靠性。 图1是根据本发明的一个实施例的对进行了对齐的双语语料库中的例句对进行 评价的方法的流程图。如图1所示,首先,在步骤101,对于进行了对齐的双语语料库中的一 个给定的例句对,计算给定的例句对中的第一语种的例句在双语语料库中的覆盖率。
在本实施例中,进行了对齐的双语语料库是由专业人员(例如,翻译人员)手工或 计算机自动进行了词对齐的双语语料库,其包括多对互为译文的相对应的第一语种和第二 语种的例句以及每对例句之间的对齐信息。 具体地,在步骤l,首先计算给定的例句对中的第一语种的例句与双语语料库中的 任一例句对中的第一语种的例句之间的相似度。在本领域中,有许多方法来计算两个例句 之间的相似度。在本实施例中,仅以两个例句之间的编辑距离为例来说明计算相似度的具 体细节,但是应该理解,本发明并不限于此,可以利用本领域的技术人员公知的任何方法来 计算两个例句之间的相似度。
11
在本实施例中,所谓"编辑距离"是指"从原串转换到目标串所需要的最少的插入、删除和替换的数目",或者说"让字符串l和字符串2变成相同字符串需要的最小的操作(插入、删除和替换)次数"。该定义最早出现在V.Levenshtein, "Binary codesc即able of correctingspurious insertions and deletions of ones,,, Problems ofInformationTransmission, 1 :8-17, 1965,在此通过参考引入其整个内容。现在,编辑距离广泛地应用于计算机领域,已经成为了一个经典算法。 具体地,例如,可以利用以下公式(1)计算两个例句之间的相似度 <formula>formula see original document page 12</formula>(1) 其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|eJ为上述例句ei中的词的个数,S(ei, e)为上述例句e与上述例句ei之间的相似度,以及ED(ei, e)为上述例句e与上述例句ei之间的编辑距离。 在利用上述公式(1)计算得到给定的例句对中的第一语种的例句与双语语料库
中的任一例句对中的第一语种的例句之间的相似度之后,计算上述相似度的平均值,作为
上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。 在本实施例中,在计算上述相似度的平均值的过程中,可以使用任何平均值,例如
加权平均值、算术平均值、几何平均值或其任意组合。 可选地,为了减少计算量,也可以首先根据上述相似度的降序对上述双语语料库中的例句对进行排序,然后计算上述排序后的前N个例句对的相似度的平均值作为上述平均值。 具体地,例如,可以利用以下公式(2)计算上述平均值,即覆盖率
其中,Cov(e)为在步骤101中所要计算的上述给定的例句对中的第一语种的例句
在双语语料库中的覆盖率,以及EN为上述排序后的前N个例句对组成的集合。 返回图l,下面,本实施例的方法在步骤105中计算给定的例句对中的第一语种的
例句和第二语种的例句之间的一致性。具体地,在本实施例中,计算一致性的算法包括三个部分。 第一部分,根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率。对于一个确定的语言对来说,目标语句子的长度和源语言句子的长度有一个大致的对应关系,也就是说,如果给定源语言句子的长度,那么可以估计出目标语句子的长度。同样,利用目标语句子的长度和源语言句子的长度的对应关系,可以估计出目标语句子匹配源语言句子的程度,该匹配程度可以部分地反映双语例句对的质量。
具体地,例如,可以利用以下公式(3)计算上述概率
L(e, f) = logp(llJ) (3) 其中,e为上述给定的例句对中的上述第一语种的例句,f为上述给定的例句对中的上述第二语种的例句,I为上述例句e的长度,J为上述例句f的长度,以及L(e, f)为上述概率。 第二部分,根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述
第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率。 具体地,例如,可以利用以下公式(4)计算上述比率
餘,/)二log(^---)
(4) 其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e, f)为上述比率。 第三部分,根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述
第一语种的例句和上述第二语种的例句之间的词对齐概率。 具体地,例如,可以利用以下公式(5)计算上述词对齐概率
》0g(; O,1,》)尸0,/)二^^- (5)
a 其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,p (tWi I SWj)为上述例句e中的第i个词tWi与上述例句f中的第j个词SWj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e, f)为上述词对齐概率。 在利用上述公式(3)至公式(5)分别计算得到上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e, f)之后,计算上述概率L(e, f)、上述比率R(e, f)和上述词对齐概率P(e, f)的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。 在本实施例中,在计算上述平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。 具体地,例如,可以利用以下公式(6)计算上述一致性
Con(e, f) = ML(e, f) + A2*R(e, f) + A3*P(e, f) (6)p A 2和A 3分别为上述概率L(e, f)、上述比率R(e, f)和上述词对齐概率P(e,f)的权重,以及Con(e,f)为在步骤105中所要计算的给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。 返回图I,最后,在步骤IIO,根据在步骤IOI中计算得到的给定的例句对中的第一语种的例句e在上述双语语料库中的覆盖率Cov(e)和/或在步骤105中计算得到的给定的例句对中的第一语种的例句e和第二语种的例句f之间的一致性Con(e,f),计算上述给定的例句对(e,f)的得分。 在本实施例中,既可以将上述覆盖率Cov(e)作为上述给定的例句对(e, f)的得分,也可以将上述一致性Con(e,f)作为上述给定的例句对(e,f)的得分,还可以将上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值作为上述给定的例句对(e, f)的得分,本发明对此没有任何限制。 在本实施例中,在计算上述覆盖率Cov(e)和上述一致性Con(e, f)的平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
具体地,例如,可以利用以下公式(7)计算上述得分
Sore(e, f) = P ^Coy(e) + e^Con(e, f) (7) 其中,|3工和|3 2分别为上述覆盖率Cov(e)和上述一致性Con(e, f)的权重,以及Sore(e, f)为在步骤110中所要计算给定的例句对的得分。 在本实施例中,虽然参考图1描述了在步骤101中计算覆盖率,而在步骤105中计算一致性,但是本发明对计算覆盖率和一致性的顺序没有任何限制,可以将步骤101和步骤105的顺序颠倒。 此外,在本实施例中,虽然描述了在步骤101中计算覆盖率并在步骤105中计算一致性,但是如果在覆盖率和一致性已知的情况下,本发明的方法可以直接根据覆盖率和/或一致性来计算给定的例句对的得分,从而对给定的例句对进行评价。 通过本实施例的对进行了对齐的双语语料库中的例句对进行评价的方法,可以利用覆盖率和一致性对双语语料库中的例句对进行评价,从而可以知道那些例句对是通用、可靠的例句对,进而可以为EBMT模型提供有效的信息。
从讲行了对齐的双语i吾料库中诜择例句对的方法 在同一发明构思下,图2是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。 如图2所示,首先,在步骤201,利用上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法,具体地,利用上述步骤101、步骤105和步骤IIO,计算双语语料库中的一个给定的例句对的得分。 接着,在步骤205,确定在步骤201中计算的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。 如果在步骤205中确定给定的例句对的得分小于给定的阈值,则本实施例的方法在步骤215中结束。另一方面,如果给定的例句对的得分大于给定的阈值,则在步骤210中将给定的例句对选出。
14
通过本实施例的从进行了对齐的双语语料库中选择例句对的方法,可以利用上述 参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法计算例句对 的得分,并将得分较高的例句对从双语语料库中选出,从而可以为EBMT模型提供通用、可 靠的例句对,进而可以提高EBMT模型的准确率和效率。
利用讲行了对齐的双语i吾料库构建通用例句库的方法 在同一发明构思下,图3是根据本发明的另一个实施例的利用进行了对齐的双语 语料库构建通用例句库的方法的流程图。下面就结合该图,对本实施例进行描述。对于那 些与前面实施例相同的部分,适当省略其说明。 如图3所示,首先,在步骤301,利用上述参考图1的实施例的对进行了对齐的双语 语料库中的例句对进行评价的方法,具体地,利用上述步骤101、步骤105和步骤IIO,计算 双语语料库10中的每一个例句对的得分。 接着,在步骤305,根据在步骤301中计算出的得分的降序对双语语料库10中的例 句对进行排序。 接着,在步骤310,确定排序后的第1个例句对的得分是否大于一个给定的阈值。 这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将 阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。 如果在步骤310中确定排序后的第1个例句对的得分小于给定的阈值,则本实施 例的方法在步骤320中结束。 另一方面,如果排序后的第1个例句对的得分大于给定的阈值,则在步骤315中将 第1个例句对加入通用例句库20。同时,在步骤315中,将第1例句对从双语语料库10中 删除,或者给第1例句对赋予一个小权重。 然后,本发明的方法返回步骤301,重新计算双语语料库10中的每个例句对的得 分,直到排序后的第1个例句对的得分小于给定的阈值。 在本实施例中,虽然每次将排序后的第1个例句对的得分与给定阈值进行比较, 但是也可以将排序后的前N个例句对的得分与给定的阈值进行比较,并将大于给定的阈值 的例句对加入通用例句库20中,本发明对此没有任何限制。 通过本实施例的利用进行了对齐的双语语料库构建通用例句库的方法,可以利用 上述参考图1的实施例的对进行了对齐的双语语料库中的例句对进行评价的方法将双语 语料库中的通用、可靠的例句对构建为通用例句库20,从而可以利用通用例句库20进行 EBMT,提高了 EBMT模型的准确率和效率。
机器翻译的方法 在同一发明构思下,图4是根据本发明的另一个实施例的机器翻译的方法的流程 图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略 其说明。 如图4所示,首先,在步骤401,为待翻译的第一语种的句子,在根据上述参考图2
的实施例的从进行了对齐的双语语料库中选择例句对的方法选择出的例句对或根据上述
参考图3的实施例的利用进行了对齐的双语语料库构建通用例句库的方法构建的通用例
句库20中查找相似的第一语种的例句。 例如,对于待翻译的第一语种的句子
15This is a pencil.
在上述选出的例句对或通用例句库中查找到的相似的例句对为
This is a pen .

这是 一支钢笔' 接着,在步骤405,为上述待翻译的第一语种的句子与上述相似的第一语种的例句 之间的区别部分准备相应的译文。也就是说,为上述区别部分"pencil"准备相应的译文。 在本实施例中,可以利用上述双语语料库10为上述区别部分"pencil"准备译文"铅笔"。
接着,在步骤410,将与上述相似的第一语种的例句相对应的第二语种的例句以及 上述区别部分的译文组合,生成参考译文。也就是说,将上述相似的例句对中的"钢笔"替 换为"铅笔"即可得到待翻译的句子的参考译文
这是一支铅笔。 通过本实施例的机器翻译的方法,可以利用上述参考图2的实施例的从进行了对 齐的双语语料库中选择例句对的方法选择出的例句对或上述参考图3的实施例的利用进 行了对齐的双语语料库构建通用例句库的方法构建的通用例句库20,进行翻译,从而可以 提高EBMT的准确率和效率。 对讲行了对齐的双语语料库中的例句对讲行评价的装置 在同一发明构思下,图5是根据本发明的另一个实施例的对进行了对齐的双语语 料库中的例句对进行评价的装置的方框图。下面就结合该图,对本实施例进行描述。对于 那些与前面实施例相同的部分,适当省略其说明。 本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置通过使用"覆 盖率"和"一致性"来综合评价每个例句对的质量,其中,覆盖率描述了例句对的通用性,而
一致性描述了例句对被EBMT模型使用时的可靠性。 如图5所示,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置 500包括覆盖率计算单元501,用于对于进行了对齐的双语语料库中的一个给定的例句 对,计算给定的例句对中的第一语种的例句在双语语料库中的覆盖率。 在本实施例中,进行了对齐的双语语料库是由专业人员(例如,翻译人员)手工或 计算机自动进行了词对齐的双语语料库,其包括多对互为译文的相对应的第一语种和第二 语种的例句以及每对例句之间的对齐信息。 具体地,本实施例的覆盖率计算单元501包括相似度计算单元,用于计算给定的 例句对中的第一语种的例句与双语语料库中的任一例句对中的第一语种的例句之间的相 似度。在本领域中,有许多方法来计算两个例句之间的相似度。在本实施例中,仅以两个例 句之间的编辑距离为例来说明计算相似度的具体细节,但是应该理解,本发明并不限于此, 可以利用本领域的技术人员公知的任何方法来计算两个例句之间的相似度。
在本实施例中,所谓"编辑距离"是指"从原串转换到目标串所需要的最少的插 入、删除和替换的数目",或者说"让字符串l和字符串2变成相同字符串需要的最小的 操作(插入、删除和替换)次数"。该定义最早出现在V.Levenshtein, "Binary codescapable of correctingspurious insertions and deletions of ones,,, Problems of InformationTransmission, 1 :8-17, 1965,在此通过参考引入其整个内容。现在,编辑距离 广泛地应用于计算机领域,已经成为了一个经典算法。 具体地,例如,可以通过相似度计算单元利用以下公式(1)计算两个例句之间的 相似度 SO,.,e)二log(l--7T^"r^) m
max(|^|,|e|) 山 其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i 个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|eJ为上述例句ei中的 词的个数,S(ei, e)为上述例句e与上述例句ei之间的相似度,以及ED(ei, e)为上述例句 e与上述例句ei之间的编辑距离。 此外,本实施例的覆盖率计算单元501还包括平均值计算单元,其用于在通过相
似度计算单元利用上述公式(1)计算得到给定的例句对中的第一语种的例句与双语语料
库中的任一例句对中的第一语种的例句之间的相似度之后,计算上述相似度的平均值,作
为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。 在本实施例中,在通过平均值计算单元计算上述相似度的平均值的过程中,可以
使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。 可选地,为了减少计算量,本实施例的覆盖率计算单元501还可以包括排序单元,
其根据上述相似度的降序对上述双语语料库中的例句对进行排序,然后平均值计算单元计
算上述排序单元排序后的前N个例句对的相似度的平均值作为上述平均值。 具体地,例如,可以通过平均值计算单元利用以下公式(2)计算上述平均值,即覆
盖率
c一)二一;』 (2) 其中,Cov(e)为覆盖率计算单元501所要计算的上述给定的例句对中的第一语种 的例句在双语语料库中的覆盖率,以及EN为上述排序后的前N个例句对组成的集合。
返回图5,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置 500还包括一致性计算单元505,用于计算给定的例句对中的第一语种的例句和第二语种 的例句之间的一致性。具体地,在本实施例中,一致性计算单元505包括三个部分。
第一部分为长度概率计算单元,其根据上述给定的例句对中的上述第一语种的例 句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率。对于一个确定 的语言对来说,目标语句子的长度和源语言句子的长度有一个大致的对应关系,也就是说, 如果给定源语言句子的长度,那么可以估计出目标语句子的长度。同样,利用目标语句子的 长度和源语言句子的长度的对应关系,可以估计出目标语句子匹配源语言句子的程度,该 匹配程度可以部分地反映双语例句对的质量。
具体地,例如,可以通过长度概率计算单元利用以下公式(3)计算上述概率
L(e, f) = logp(llJ) (3) 其中,e为上述给定的例句对中的上述第一语种的例句,f为上述给定的例句对中的上述第二语种的例句,I为上述例句e的长度,J为上述例句f的长度,以及L(e, f)为上述概率。 第二部分为比率计算单元,其根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率。
具体地,例如,可以通过比率计算单元利用以下公式(4)计算上述比率
, /) = !og(^--) 其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e, f)为上述比率。 第三部分为词对齐概率计算单元,其根据上述双语语料库中的对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率。
具体地,例如,可以通过词对齐概率计算单元利用以下公式(5)计算上述词对齐概率
尸(")^——;- (5)
- 其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,p (tWi I SWj)为上述例句e中的第i个词tWi与上述例句f中的第j个词SWj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e, f)为上述词对齐概率。 此外,本实施例的一致性计算单元505还包括平均值计算单元,其在上述长度概率计算单元、上述比率计算单元和上述词对齐概率计算单元分别计算上述概率L(e, f)、上述比率R(e,f)和上述词对齐概率P(e,f)之后,计算上述概率L(e,f)、上述比率R(e,f)和上述词对齐概率P(e, f)的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。 在本实施例中,在平均值计算单元计算上述平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。
18
具体地,例如,可以通过平均值计算单元利用以下公式(6)计算上述一致性
Con(e, f) = A^L(e, f) + A2*R(e, f) + A3*P(e, f) (6) 其中,A p A 2和A 3分别为上述概率L(e, f)、上述比率R(e, f)和上述词对齐概率P(e,f)的权重,以及Con(e,f)为一致性计算单元505所要计算的给定的例句对中的第一语种的例句和第二语种的例句之间的一致性。 返回图5,本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500还包括得分计算单元510,其根据覆盖率计算单元501计算得到的给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率Cov(e)和/或一致性计算单元505计算得到的上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性Con (e,f),计算上述给定的例句对的得分;其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价。 在本实施例中,既可以将上述覆盖率Cov(e)作为上述给定的例句对(e, f)的得分,也可以将上述一致性Con(e,f)作为上述给定的例句对(e,f)的得分,还可以将上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值作为上述给定的例句对(e, f)的得分,本发明对此没有任何限制。 在本实施例中,得分计算单元510包括平均值计算单元,用于计算上述覆盖率Cov(e)和上述一致性Con(e,f)的平均值。在计算平均值的过程中,可以使用任何平均值,例如加权平均值、算术平均值、几何平均值或其任意组合。 具体地,例如,可以通过平均值计算单元利用以下公式(7)计算上述得分
Sore(e, f) = P ^Cov(e) + e^Con(e, f) (7) 其中,|3工和|3 2分别为上述覆盖率Cov(e)和上述一致性Con(e, f)的权重,以及Sore(e, f)为得分计算单元510所要计算给定的例句对的得分。 在本实施例中,虽然利用覆盖率计算单元501计算覆盖率,并利用一致性计算单
元505计算一致性,但是本发明对计算覆盖率和一致性的顺序没有任何限制。 此外,在本实施例中,虽然描述了装置500包括用于计算覆盖率的覆盖率计算单
元501以及用于计算一致性的一致性计算单元505,但是如果在覆盖率和一致性已知的情
况下,本发明的装置500可以在没有覆盖率计算单元501以及一致性计算单元505的情况
下,直接根据覆盖率和/或一致性来计算给定的例句对的得分,从而对给定的例句对进行评价。 通过本实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500,可以利用覆盖率和一致性对双语语料库中的例句对进行评价,从而可以知道那些例句对是通用、可靠的例句对,进而可以为EBMT模型提供有效的信息。
从讲行了对齐的双语i吾料库中诜择例句对的装置 在同一发明构思下,图6是根据本发明的另一个实施例的从进行了对齐的双语语料库中选择例句对的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。 如图6所示,本实施例的从进行了对齐的双语语料库中选择例句对的装置600包括上述对进行了对齐的双语语料库中的例句对进行评价的装置500,用于计算给定的例句对的得分;以及比较单元605,用于将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。 具体地,本实施例的装置600利用上述覆盖率计算单元501、一致性计算单元505和得分计算单元510,计算双语语料库中的一个给定的例句对的得分。 在本实施例中,利用比较单元605确定得分计算单元510计算的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。
如果比较单元605确定给定的例句对的得分小于给定的阈值,则本实施例的装置600结束运行。 另一方面,如果给定的例句对的得分大于给定的阈值,则本实施例的装置600将给定的例句对选出。 通过本实施例的从进行了对齐的双语语料库中选择例句对的装置600,可以利用上述参考图5的实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500计算例句对的得分,并将得分较高的例句对从双语语料库中选出,从而可以为EBMT模型提供通用、可靠的例句对,进而可以提高EBMT模型的准确率和效率。
利用讲行了对齐的双语i吾料库构建通用例句库的装置 在同一发明构思下,图7是根据本发明的另一个实施例的利用进行了对齐的双语语料库构建通用例句库的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。 如图7所示,本实施例的利用进行了对齐的双语语料库构建通用例句库的装置700包括上述对进行了对齐的双语语料库中的例句对进行评价的装置500,用于执行步骤1 :计算上述双语语料库中的每一个例句对的得分;排序单元705,用于执行步骤2 :根据上述得分的降序对上述双语语料库中的例句对进行排序;以及确定单元710,用于执行步骤3 :确定上述排序单元排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
具体地,本实施例的装置700利用上述覆盖率计算单元501、一致性计算单元505和得分计算单元510,计算双语语料库中的每一个例句对的得分。 排序单元705根据得分计算单元510计算出的得分的降序对双语语料库10中的例句对进行排序。 确定单元710确定排序后的第1个例句对的得分是否大于一个给定的阈值。这里的阈值可以根据实际需要进行设定。例如,如果要求选出质量很好的例句对,则可以将阈值设得较高,否则,可以将阈值设得较低,本发明对此没有任何限制。 如果确定单元710确定排序后的第l个例句对的得分小于给定的阈值,则本实施例的装置700结束运行。 此外,本实施例的装置700还包括添加单元715,如果排序单元705排序后的第1个例句对的得分大于给定的阈值,则添加单元715将第1个例句对加入通用例句库20。同时,添加单元715将第1例句对从双语语料库10中删除,或者给第1例句对赋予一个小权重。 此外,本实施例的装置700可以利用对例句进行评价的装置500、排序单元705、确定单元710以及添加单元715,重新计算双语语料库10中的每个例句对的得分,直到排序后
20的第1个例句对的得分小于给定的阈值。 在本实施例中,虽然每次将排序后的第1个例句对的得分与给定阈值进行比较,但是也可以将排序后的前N个例句对的得分与给定的阈值进行比较,并将大于给定的阈值的例句对加入通用例句库20中,本发明对此没有任何限制。 通过本实施例的利用进行了对齐的双语语料库构建通用例句库的装置700,可以利用上述参考图5的实施例的对进行了对齐的双语语料库中的例句对进行评价的装置500将双语语料库中的通用、可靠的例句对构建为通用例句库20,从而可以利用通用例句库20进行EBMT,提高了 EBMT模型的准确率和效率。
机器翻译的装置 在同一发明构思下,图8是根据本发明的另一个实施例的机器翻译的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。 如图8所示,本实施例的机器翻译的装置800包括相似例句查找单元801,用于为待翻译的第一语种的句子,在根据上述从进行了对齐的双语语料库中选择例句对的装置600选择出的例句对或根据上述利用进行了对齐的双语语料库构建通用例句库的装置700构建的通用例句库中查找相似的第一语种的例句;区别部分译文准备单元805,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及参考译文生成单元810,用于将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文组合,生成参考译文。
例如,对于待翻译的第一语种的句子
This is a pencil. 相似例句查找单元801在上述选出的例句对或通用例句库中查找到的相似的例
句对为
This is a pen .
这是 一支钢笔 区别部分译文准备单元805为上述区别部分"pencil"准备相应的译文。在本实
施例中,可以利用上述双语语料库10为上述区别部分"pencil"准备译文"铅笔"。 参考译文生成单元810将上述相似的例句对中的"钢笔"替换为"铅笔"即可得到
待翻译的句子的参考译文
这是一支铅笔。 通过本实施例的机器翻译的装置800,可以利用上述参考图6的实施例的从进行了对齐的双语语料库中选择例句对的装置600选择出的例句对或上述参考图7的实施例的利用进行了对齐的双语语料库构建通用例句库的装置700构建的通用例句库20,进行翻译,从而可以提高EBMT的准确率和效率。 以上虽然通过一些示例性的实施例详细地描述了本发明的对进行了对齐的双语语料库中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行了对齐的双语语料库构建通用例句库的方法,机器翻译的方法,对进行了对齐的双语语料库中的例句对进行评价的装置,从进行了对齐的双语语料库中选择例句对的装置,利用进行了对齐的双语语料库构建通用例句库的装置和机器翻译的装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
一种对进行了对齐的双语语料库中的例句对进行评价的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述计算出的得分,对上述给定的例句对进行评价。
2. 根据权利要求1所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,在上述根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率计算上述给定的例句对的得分的步骤之前,还包括以下步骤计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;其中,将上述计算出的覆盖率作为上述给定的例句对的得分。
3. 根据权利要求1所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,在上述根据上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性计算上述给定的例句对的得分的步骤之前,还包括以下步骤计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;其中,将上述计算出的一致性作为上述给定的例句对的得分。
4. 根据权利要求1所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,在上述根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分的步骤之前,还包括以下步骤计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率;计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性;以及计算上述覆盖率和上述一致性的平均值,作为上述给定的例句对的得分。
5. 根据权利要求2或4所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述计算上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率的步骤包括以下步骤计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度;以及计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。
6. 根据权利要求5所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述计算上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的相似度的步骤包括以下步骤根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的编辑距离计算上述相似度。
7. 根据权利要求6所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的第一语种的例句之间的编辑距离计算上述相似度的步骤包括以下步骤利用以下公式计算上述相似度<formula>formula see original document page 3</formula>其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例句对中的第一语种的例句,|e|为上述例句e中的词的个数,|eJ为上述例句ei中的词的个数,S(ei, e)为上述例句e与上述例句ei之间的相似度,以及ED(ei, e)为上述例句e与上述例句ei之间的编辑距离。
8. 根据权利要求5所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述计算上述相似度的平均值的步骤包括以下步骤根据上述相似度的降序对上述双语语料库中的例句对进行排序;以及计算上述排序后的前N个例句对的相似度的平均值作为上述平均值。
9. 根据权利要求3或4所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性的步骤包括以下步骤根据上述给定的例句对中的上述第一语种的例句的长度,计算上述给定的例句对中的上述第二语种的例句的长度的概率;根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率;以及计算上述概率、上述比率和上述词对齐概率的平均值,作为上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
10. 根据权利要求9所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率的步骤包括以下步骤利用以下公式计算上述比率<formula>formula see original document page 3</formula>其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,x为上述例句e中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e, f)为上述比率。
11.根据权利要求9所述的对进行了对齐的双语语料库中的例句对进行评价的方法,其中,上述根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的词对齐概率的步骤包括以下步骤 利用以下公式计算上述词对齐概率其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,p (tWi I SWj)为 上述例句e中的第i个词tWi与上述例句f中的第j个词sWj之间的对齐概率,a为上述对 齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词 对的个数,以及P(e, f)为上述词对齐概率。
12. —种从进行了对齐的双语语料库中选择例句对的方法,上述双语语料库包括多对 相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步 骤根据权利要求1-11中任何一项所述的对进行了对齐的双语语料库中的例句对进行评 价的方法,计算给定的例句对的得分;以及将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
13. —种利用进行了对齐的双语语料库构建通用例句库的方法,上述双语语料库包括 多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括步骤1 :根据权利要求1-11中任何一项所述的对进行了对齐的双语语料库中的例句对进行评价的方法,计算上述双语语料库中的每一个例句对的得分;步骤2 :根据上述得分的降序对上述双语语料库中的例句对进行排序;以及步骤3 :确定上述步骤2排序后的第1个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
14. 根据权利要求13所述的利用进行了对齐的双语语料库构建通用例句库的方法,其 中在上述步骤3之后还包括步骤4 :将上述第1个例句对加入上述通用例句库,并将上述第1个例句对从上述双语 语料库中删除或给上述第1个例句对赋予一个小权重;以及针对上述双语语料库中的除了上述第1个例句对之外的其它例句对,重复执行上述步 骤1-步骤4,直到在上述步骤3中确定上述步骤2排序后的第1个例句对的得分小于上述 给定的阈值。
15. —种机器翻译的方法,包括以下步骤为待翻译的第一语种的句子,在根据权利要求12所述的从进行了对齐的双语语料库 中选择例句对的方法选择出的例句对或根据权利要求13或14所述的利用进行了对齐的双 语语料库构建通用例句库的方法构建的通用例句库中查找相似的第一语种的例句;为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备 相应的译文;以及将与上述相似的第一语种的例句相对应的第二语种的例句以及上述区别部分的译文 组合,生成参考译文。
16. —种对进行了对齐的双语语料库中的例句对进行评价的装置,上述双语语料库包 括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包 括得分计算单元,根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率 和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算 上述给定的例句对的得分;其中,基于上述得分计算单元计算出的得分,对上述给定的例句对进行评价。
17. 根据权利要求16所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 还包括覆盖率计算单元,用于计算上述给定的例句对中的第一语种的例句在上述双语语料库 中的覆盖率;其中,将上述覆盖率计算单元计算出的覆盖率作为上述给定的例句对的得分。
18. 根据权利要求16所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 还包括一致性计算单元,用于计算上述给定的例句对中的上述第一语种的例句和上述第二语 种的例句之间的一致性;其中,将上述一致性计算单元计算出的一致性作为上述给定的例句对的得分。
19. 根据权利要求16所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 还包括覆盖率计算单元,用于计算上述给定的例句对中的第一语种的例句在上述双语语料库 中的覆盖率;以及一致性计算单元,用于计算上述给定的例句对中的上述第一语种的例句和上述第二语 种的例句之间的一致性;其中,上述得分计算单元包括第一平均值计算单元,用于计算上述覆盖率和上述一致 性的平均值,作为上述给定的例句对的得分。
20. 根据权利要求17或19所述的对进行了对齐的双语语料库中的例句对进行评价的 装置,其中,上述覆盖率计算单元包括相似度计算单元,用于计算上述给定的例句对中的第一语种的例句与上述双语语料库 中的任一例句对中的第一语种的例句之间的相似度;以及第二平均值计算单元,用于计算上述相似度的平均值,作为上述给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率。
21. 根据权利要求20所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 其中,上述相似度计算单元用于根据上述给定的例句对中的第一语种的例句与上述双语语料库中的任一例句对中的 第一语种的例句之间的编辑距离计算上述相似度。
22. 根据权利要求21所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 其中,上述相似度计算单元用于利用以下公式计算上述相似度S(e,, 二 log(l--其中,e为上述给定的例句对中的第一语种的例句,ei为上述双语语料库中的第i个例 句对中的第一语种的例句,|e|为上述例句e中的词的个数,|eJ为上述例句ei中的词的 个数,S(ei, e)为上述例句e与上述例句ei之间的相似度,以及ED(ei, e)为上述例句e与 上述例句ei之间的编辑距离。
23. 根据权利要求20所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 其中,上述第二平均值计算单元包括排序单元,用于根据上述相似度的降序对上述双语语料库中的例句对进行排序; 其中,上述第二平均值计算单元用于计算上述排序单元排序后的前N个例句对的相似 度的平均值作为上述平均值。
24. 根据权利要求18或19所述的对进行了对齐的双语语料库中的例句对进行评价的 装置,其中,上述一致性计算单元包括长度概率计算单元,根据上述给定的例句对中的上述第一语种的例句的长度,计算上 述给定的例句对中的上述第二语种的例句的长度的概率;比率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种的例句和上述第二语种的例句中被对齐的词占所有词的比率;词对齐概率计算单元,根据上述对齐信息,计算上述给定的例句对中的上述第一语种 的例句和上述第二语种的例句之间的词对齐概率;以及第三平均值计算单元,用于计算上述概率、上述比率和上述词对齐概率的平均值,作为 上述给定的例句对中的上述第一语种的例句和上述第二语种的例句之间的一致性。
25. 根据权利要求24所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 其中,上述比率计算单元用于利用以下公式计算上述比率<formula>formula see original document page 6</formula>其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,x为上述例句e 中的任意词,y为上述例句f中的任意词,I为上述例句e的长度,J为上述例句f的长度,a 为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,以及R(e, f)为上述比率。
26.根据权利要求24所述的对进行了对齐的双语语料库中的例句对进行评价的装置, 其中,上述词对齐概率计算单元用于利用以下公式计算上述词对齐概率<formula>formula see original document page 7</formula>其中,e为上述给定的例句对中的第一语种的例句,f为上述给定的例句对中的第二语种的例句,tWi为上述例句e中的第i个词,SWj为上述例句f中的第j个词,p (tWi I SWj)为上述例句e中的第i个词tWi与上述例句f中的第j个词sWj之间的对齐概率,a为上述对齐信息中的上述例句e与上述例句f之间的对齐信息,|a|为上述对齐信息a中对齐的词对的个数,以及P(e, f)为上述词对齐概率。
27. —种从进行了对齐的双语语料库中选择例句对的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包括根据权利要求16-26中任何一项所述的对进行了对齐的双语语料库中的例句对进行评价的装置,用于计算给定的例句对的得分;以及比较单元,用于将上述计算出的得分与给定的阈值进行比较;其中,如果上述得分大于上述阈值,则将上述给定的例句对选出。
28. —种利用进行了对齐的双语语料库构建通用例句库的装置,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述装置包括根据权利要求16-26中任何一项所述的对进行了对齐的双语语料库中的例句对进行评价的装置,用于执行步骤1 :计算上述双语语料库中的每一个例句对的得分;排序单元,用于执行步骤2 :根据上述得分的降序对上述双语语料库中的例句对进行排序;以及确定单元,用于执行步骤3 :确定上述排序单元排序后的第l个例句对的得分是否大于给定的阈值,其中如果上述第1个例句对的得分大于上述给定的阈值,则将上述第1个例句对加入上述通用例句库。
29. 根据权利要求28所述的利用进行了对齐的双语语料库构建通用例句库的装置,还包括添加单元,用于执行步骤4 :将上述第1个例句对加入上述通用例句库,并将上述第1个例句对从上述双语语料库中删除或给上述第1个例句对赋予一个小权重;其中,上述构建通用例句库的装置利用上述对例句对进行评价的装置、上述排序单元、上述确定单元以及上述添加单元,针对上述双语语料库中的除了上述第1个例句对之外的其它例句对,重复执行上述步骤1-步骤4,直到在上述步骤3中确定上述排序单元排序后的第1个例句对的得分小于上述给定的阈值。
30. —种机器翻译的装置,包括相似例句查找单元,用于为待翻译的第一语种的句子,在根据权利要求27所述的从进行了对齐的双语语料库中选择例句对的装置选择出的例句对或根据权利要求28或29所述的利用进行了对齐的双语语料库构建通用例句库的装置构建的通用例句库中查找相似的第一语种的例句;区别部分译文准备单元,用于为上述待翻译的第一语种的句子与上述相似的第一语种的例句之间的区别部分准备相应的译文;以及参考译文生成单元,用于将与上述相似的第一语种的例句相对应的第二语种的例句以 及上述区别部分的译文组合,生成参考译文。
全文摘要
本发明提供了对进行了对齐的双语语料库中的例句对进行评价的方法,从进行了对齐的双语语料库中选择例句对的方法,利用进行了对齐的双语语料库构建通用例句库的方法,机器翻译的方法及装置。根据本发明的一个方面,提供了一种对进行了对齐的双语语料库中的例句对进行评价的方法,上述双语语料库包括多对相对应的第一语种和第二语种的例句以及每对例句之间的对齐信息,上述方法包括以下步骤根据给定的例句对中的第一语种的例句在上述双语语料库中的覆盖率和/或上述给定的例句对中的上述第一语种的例句和第二语种的例句之间的一致性,计算上述给定的例句对的得分;其中,基于上述计算出的得分,对上述给定的例句对进行评价。
文档编号G06F17/28GK101714137SQ20081016598
公开日2010年5月26日 申请日期2008年10月6日 优先权日2008年10月6日
发明者刘占一, 吴华, 王海峰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1