一种机器翻译的方法及其设备的制造方法_2

文档序号:9375581阅读:来源:国知局
>[0062] 当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的 规则信息;
[0063] 所述第一获取单元还用于将所述根节点到子节点的规则信息设置为第一标准推 导集。
[0064] 本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所 述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述 语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准 推导集进行过滤,获得第二标准推导集;根据所述第二标准推导集和所述待翻译数据获取 翻译结果,从而仅占用少量的计算资源实现语言翻译,替用户节约获取翻译的成本,提高移 动终端的用户体验。
【附图说明】
[0065] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。
[0066] 图1是本发明实施例提供的一种机器翻译的方法流程图;
[0067] 图2至图4是本发明实施例提供的一种推导树的结构图;
[0068] 图5是本发明实施例提供的一种基于强制解码的低频规则过滤的方法示意图;
[0069] 图6是本发明实施例提供的一种规则压缩的方法示意图;
[0070] 图7是本发明实施例提供的一种机器翻译的装置结构图;
[0071] 图8是本发明实施例提供的一种机器翻译的装置结构图;
[0072] 图9是本发明实施例提供的一种机器翻译的装置结构图;
[0073] 图10是本发明实施例提供的一种机器翻译的装置结构图。
【具体实施方式】
[0074] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0075] 参考图1,图1是本发明实施例提供的一种机器翻译的方法流程图。如图1所示, 所述方法包括以下步骤:
[0076] 步骤101,确定待翻译数据中的每个语句;
[0077] 步骤102,获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第 一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次 数;
[0078] 可选地,所述获取所述语句的第一标准推导集,包括:
[0079] 根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个 翻译规则和所述翻译规则的频度信息;
[0080] 根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
[0081] 将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
[0082] 所述根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之 后,还包括:
[0083] 获取强制解码的结果;
[0084] 当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K 为正整数;
[0085] 所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
[0086] 将所述K个推导树对应的规则信息设置为第一标准推导集。
[0087] 所述获取强制解码的结果之后,还包括:
[0088] 当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的 规则信息;
[0089] 将所述根节点到子节点的规则信息设置为第一标准推导集。
[0090] 其中,所述统计的机器翻译的方法(statistical machine translation)是现有 技术中常用的一种翻译方法。
[0091] 具体的,假定第一标准推导集中的规则如表1所示,并且给定训练预料中的一个 对齐的双语句对的源语言f为"电脑和手机是上个世纪的发明",目标语言e为"Computers and cell phones are the invention of the last century"。所述规则的源语言和目标 语言如下表1所示:
[0092]
[0094] 表1
[0095] 对于一条规则"〈XI是X2,Xlis X2>",其中"XI是X2"称为规则的源语言,"Xlis X2"称为规则的目标语言,X表示泛化的变量,下标表示变量替换时的对应关系。
[0096] 参考图2-图4的推导树,结点S表示一颗推导树的起点,X表示推导所用的规则, 为了统计方便,所有用到的规则,均以用规则的编号作好了标注。各个规则在前3个标准推 导中的频度统计信息如下表2所示,根据表2可以从Ta生成Tb。
[0097]

[0098] 表 2
[0099] 根据规则表Ta对所述训练语料的每个句对进行强制解码生成K-best标准推导 集,其中,K最小为1,最大可以为无穷大。
[0100] 具体的,对于每一个句子,我们可以参考第一标准推导集,得到相应的翻译结果。 在产生翻译结果的过程中,有很多不同的规则组合,可以产生相同的翻译结果。根据概率的 不同,可以将这些规则组合排序。所谓的k-best推导集就是选取前k个最好的翻译规则组 合。
[0101] 可选地,在上述实施案例的基础上,通过融入标准推导集上的规则概率特征,进行 重新训练。以源语言短语f到目标语言e为例,翻译概率P(e|f)的最大似然估计为:
[0102]
[0103] 这种评估方式考虑了语料库上的e和f的所有互译次数,并且考虑语料库中所有 跟f互译的短语e'。本实例中在原始的计算上加入两个新的概率特征,这些概率特征只在 强制解码所得到的标准推导集中统计,标准推导集中的翻译概率P gd(e|f)的计算公式为:
[0104]
[0105] 从目标语言e到f的翻译概率Pgd(f |e)的计算方式与之类似。
[0106] 步骤103,根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获 得第二标准推导集;
[0107] 具体的,参考表2,例如将过滤的频度的阈值设置为1 (包括频度1),剩下的规则为 尺1、1?2、1?4、1?5、1?6,过滤掉的规则为1?3、1?7、1?8、1?9、1?10。1?8是一条错误的规则,没有被使用 上,所以被过滤。R9和RlO虽然是正确的规则,但是不符合本句话翻译的语义,也被过滤掉 了。R7虽然是正确且语义相符合的规则,但是由于不符合强制解码的条件,所以被过滤掉 了。R3虽然正确、符合语义也满足强制解码的条件,但是由于出现的频度较低,所以也被过 滤了。R3和R7被过滤,并不会影响翻译的质量,源语言f仍然能够正确地被翻译到e,翻译 的推导仍然能够正常进行。
[0108] 具体的,参考图5,图5是本发明实施例提供的一种基于强制解码的低频规则过滤 的方法示意图。对于给定的初始规则表Ta、翻译模型参数和训练语料,首先判断一个规则是 不是能出现在强制推导的标准集中,如果不满足这个条件,那么该规则对应的频度就设为 〇,如表2的例子所示,有些频度为0的规则就是不满足条件的规则。对于满足条件的所有规 贝1J,通过翻译模型的解码算法,不考虑语言模型的得分,生成前k个较好的标准推导集。如 果由于剪枝等原因,造成了强制解码失败,那么此时须采用回退策略,回退倒能够覆盖源语 言词数最多的部分标准推导。强制解码完后,对规则的频度进行统计,依次判断每一条规则 是否在标准推导集中常见。对于不常见的规则,那么就过滤掉。而剩下的规则则被保留下 来。
[0109] 可选地,所述第二标准推导集包括第二翻译规则,所述获得第二标准推导集之后, 还包括:
[0110] 确定所述第二翻译规则对应的概率数值;
[0111] 根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三 翻译规则;
[0112] 所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
[0113] 根据所述第三翻译规则和所述语句获得翻译结果。
[0114] 可选地,所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压 缩,包括:
[0115] 所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、 正向词汇翻译概率和反向词汇翻译概率;
[0116] 将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻 译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率 对应的分数、正向词汇翻译概率对应的分数乘和反向词汇翻译概率对应的分数相乘,将相 乘获得的积累加为第一概率值;
[0117] 根据所述第一概率值和预设的聚类方法获取第一码表,所述第一码表包括但不限 于65536码表;
[0118] 所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
[0119] 根据所述第一码表和所述语句获得翻译结果。
[0120] 其中,所述压缩是指对词语进行数字化的表示,使得占用的空间更小。
[0121] 例如,假设对于规则Rl〈手机,cell phones〉其翻译模型的分值分别为 0、-10. 824、-10. 2205、-0· 847298,翻译模型的权重为 0· 186212、0· 0568202、0· 144704、 0· 0193515,那么预合并的结果为 score(Rl) =0*0· 186212-10. 824*0. 0568202-10. 2205*0 ? 144704-0. 847298*0. 193515 = -2. 58。得到预合并的分值之后,原始的4个翻译模型的分
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1