一种机器翻译的方法及其设备的制造方法_3

文档序号:9375581阅读:来源:国知局
值就不用再存储了,在评估规则的翻译模型分数时,仅使用预合并后的结果即可。
[0122] 首先将所有的分数都放在一起,做一次聚类。聚类的数目为2的16次方(2个字 节能放得下),也就是聚成65536个类,每个类有一个中心值,将这65536个值做成一个码 表。每个概率存储的时候只存储这个码表的索引,然后从码表中取值。
[0123] 例如,假设有四条规则RU R2、R3和R4,其对应的得分为0. 1、0. 2、0. 7和0. 8,聚 类的数目为2。那么很容易可以得到两个聚类的中心点C1 = 0.15,C2 = 0.75。因此Rl和 R2对应的类别索引为1,分值为0. 15, R3和R4对应的类别索引为2,分值为0. 75。
[0124] 预设的聚类方法可采用k-means。由于规则表中的分数值数目量十分庞大,直接 的k-means方法在数亿级别的数据中聚类较慢。由于数据是一维的,因此在k-means之前 对数据先做了一遍排序。经过预排序后的数据,k-means聚类速度较快。
[0125] 具体的,参考图6,图6是本发明实施例提供的一种规则压缩的方法示意图。如图 6所示,首先利用源语言和目标语言的压缩方法对初始的规则表进行词级的压缩。然后对于 规则表中剩余的分数项,首先根据解码过程中的需要判断该分数项是否可以提前跟其他的 分数合并,如果可以合并,则将这些分数合并为一个分数。如果不可以合并,则先将该数值 项对应的所有分数排序,并进行k-means聚类,聚成65535个类别。根据聚类的信息,将每 个数值项对应的类别索引和中心点的分数值记录成码表。生成完码表后,即可利用该码表 将对应的数值项转换成对应类别的索引。到此结束压缩的过程。
[0126] 在解码阶段,对于压缩后的规则表,解码器首先获得的是规则的分数项所在的类 别的索引,需要根据该索引获取对应类别的中心点的值,这一点与普通的解码器有所不同。
[0127] 步骤104,根据所述第二标准推导集和所述待翻译数据获取翻译结果。
[0128] 本发明结合规则过滤中强制解码方法和频度过滤方法的优点,具体说来指的是根 据强制推导所生成的标准推导集上的规则频度进行过滤。其基本原理是假设规则的频度分 布在整个训练集的标准推导集上符合长尾定律。少量的规则在标准推导中被反复使用,而 且大量的规则在标准推导中被少量使用。标准推导代表了最准确的翻译过程,在标准推导 中很难用到的规则,在翻译搜索的空间中也应该很难搜索到。因此将这类翻译模型很难搜 索到的规则去掉,既能减少规则表的大小,又对翻译模型的质量影响不大。
[0129] 同时针对强制解码失败的句对,本发明并不会直接忽略,而是提出一种回退策略 进行处理。当强制解码失败的时候,我们将保留其中成功强制解码的最大跨度片段所对应 的部分标准推导(Partial Gold Derivation)。
[0130] 本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所 述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述 语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准 推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则 的频度信息;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量 的计算资源实现语言翻译,节约计算成本;能轻便地与电话系统、会议系统、手机操作系统、 嵌入式操作系统等系统深度集成,为各个系统组件提供智能翻译服务,实现系统级别的 "所见即所译"。
[0131] 参考图7,图7是本发明实施例提供的一种机器翻译的装置结构图。如图7所示, 所述装置包括:
[0132] 第一确定单元701,用于确定待翻译数据中的每个语句;
[0133] 第一获取单元702,用于获取所述语句的第一标准推导集,所述第一标准推导集至 少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一 翻译规则的次数;
[0134] 可选地,所述第一获取单元702,具体用于:
[0135] 根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个 翻译规则和所述翻译规则的频度信息;
[0136] 根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
[0137] 将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
[0138] 可选地,所述装置还包括:
[0139] 第四获取单元801,用于获取强制解码的结果;当强制解码成功时,根据所述强制 解码的结果获取K个推导树对应的规则信息,K为正整数;
[0140] 所述第一获取单元702还用于将所述K个推导树对应的规则信息设置为第一标准 推导集。
[0141] 可选地,第四获取单元801还用于:
[0142] 当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的 规则信息;
[0143] 所述第一获取单元702还用于:
[0144] 将所述根节点到子节点的规则信息设置为第一标准推导集。
[0145] 具体的,参考表1和表2、图2-图4的描述,在此不再赘述。
[0146] 过滤单元703,用于根据所述第一翻译规则的频度信息对所述第一标准推导集进 行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则的频度信 息;
[0147] 具体的,参考图5的描述,在此不再赘述。
[0148] 可选地,所述装置还包括:
[0149] 第二确定单元901,用于确定所述第二翻译规则对应的概率数值;
[0150] 第三获取单元902,用于根据所述第二翻译规则对应的概率数值对所述第二翻译 规则进行压缩,获取第三翻译规则;
[0151] 所述第二获取单元704,用于:
[0152] 根据所述第三翻译规则和所述语句获得翻译结果。
[0153] 可选地,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻 译概率、正向词汇翻译概率和反向词汇翻译概率;
[0154] 所述第三获取单元902具体用于:
[0155] 将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻 译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率 对应的分数、正向词汇翻译概率对应的分数乘和反向词汇翻译概率对应的分数相乘,将相 乘获得的积累加为第一概率值;
[0156] 根据所述第一概率值和聚类的方法获取第一码表,所述第一码表包括但不限于 65536码表;
[0157] 所述第二获取单元704具体用于:
[0158] 根据所述第一码表和所述语句获得翻译结果。
[0159] 第二获取单元704,用于根据所述第二标准推导集和所述待翻译数据获取翻译结 果。
[0160] 具体的,参考图6的描述,在此不再赘述。
[0161] 本发明通过确定待翻译数据中的每个语句;获取所述语句的第一标准推导集,所 述第一标准推导集至少包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述 语句时使用所述第一翻译规则的次数;根据所述第一翻译规则的频度信息对所述第一标准 推导集进行过滤,获得第二标准推导集,所述第二标准推导集至少包括所述第二翻译规则 的频度信息;根据所述第二标准推导集和所述待翻译数据获取翻译结果,从而仅占用少量 的计算资源实现语言翻译,节约计算成本;能轻便地与电话系统、会议系统、手机操作系统、 嵌入式操作系统等系统深度集成,为各个系统组件提供智能翻译服务,实现系统级别的 "所见即所译"。
[0162] 图10是本发明实施例提供的一种机器翻译的装置结构图。参考图10,图10是本 发明实施例提供的一种机器翻译的装置1000,本发明具体实施例并不对所述机器翻译的装 置的具体实现做限定。所述机器翻译的装置1000包括:
[0163] 处理器(processor) 1001,通信接口(Communications Interface) 1002,存储器 (memory) 1003,总线 1004。
[0164] 处理器1001,通信接口 1002,存储器1003通过总线1004完成相互间的通信。
[0165] 通信接口 1002,用于与其他设备进行通信;
[0166] 处理器1001,用于执行程序。
[0167] 具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。
[0168] 处理器1001可能是一个中央处理器(central processing unit,CPU),或者是特 定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本 发明实施例的一个或多个集成电路。
[0169] 存储器1003,用于存储程序。存储器1003可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM),或者非易失性存储器 (non-volatile memory),例如只读存储器(read-only memory, ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)。处理器 1001根据存储器1003存储的程序指令,执行以下方法:
[0170] 确定待翻译数据中的每个语句;
[0171] 获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规 则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
[0172] 根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标 准推导集;
[0173] 根据所述第二标准推导集
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1