一种机器翻译的方法及其设备的制造方法

文档序号:9375581阅读:175来源:国知局
一种机器翻译的方法及其设备的制造方法
【技术领域】
[0001] 本发明涉及机器翻译领域,尤其涉及到一种机器翻译的方法及设备。
【背景技术】
[0002] 随着经济全球化的发展,不同国家之间的信息交流和交换变得越来越频繁。同时, 蓬勃发展的互联网为获取诸如英语、汉语、法语、德语、日语等各种语言形式的信息提供了 极大的便利。公众对于不同语言之间的翻译需求也变得日益强烈。人工翻译耗时较长,成 本较高,已经满足不了人们对多语言信息日益增长的需求。机器翻译能够将一种自然语言 自动地翻译为另一种自然语言。利用机器翻译快速获取多语言的信息和资源已成为必然趋 势。这使得能提供多语言、高质量、易获取的翻译服务的机器翻译系统和设备也变得越来越 重要。近年来在一些国际组织机构(如欧洲联盟)、新闻媒体、全球性的网络平台、跨国贸易 与旅游等政治、网络、文化、教育以及商务环境中,机器翻译已逐渐成为了一种获取信息和 传播信息的重要基础手段。
[0003] 统计机器翻译是目前主流的机器翻译技术。它能够根据数学模型和算法自动地从 平行语料库中学习到翻译知识。统计机器翻译并不需要相关的语言学家参与,并且与具体 的语言相对独立。另外,统计机器翻译系统开发部署周期较短,翻译速度较快,翻译质量较 为鲁棒。
[0004] 统计机器翻译模型学习到的翻译知识通常用规则表表示。规则表的质量对翻译质 量起到了关键性的作用。根据规则的不同,统计机器翻译模型通常可以分为短语模型、句法 模型、语义模型等。在实际应用中,短语模型和层次短语模型较为成熟,被广泛使用。一个 可实用的统计机器翻译模型通常需要在千万级别的双语句对语料上训练。这使得经由自动 学习算法得到的规则表十分庞大。一方面,庞大的规则表会占用较多的资源,如存储时需要 较大硬盘空间,加载时需要较多的内存;另一方面过大的规则表也会增加翻译解码过程搜 索空间,降低翻译速度。
[0005] 现有技术采用基于强制解码的方法对规则表进行过滤。强制解码技术指的是将训 练预料中一个句对的源语言端f作为输入提供给解码器,用对应的目标语言端e硬性约束 翻译解码过程的推导d,其中要求d(f) = e。d(f)表示f的一个翻译推导d对应的目标语 言输出,满足这样条件的推导d,我们称为标准推导。强制解码采用期望最大化算法在压缩 标准推导森林(standard derivative forest compression)中估计每个规则的概率,根据 设置的阈值过滤掉概率较低的规则,从而减少搜索空间。
[0006] 从上可知,由于规则表中规则数量庞大,强制解码采用期望最大化算法在压缩标 准推导森林中估计每个规则的概率会使得计算代价较大,并且降低用户体验。

【发明内容】

[0007] 本发明实施例提供了一种机器翻译的方法及设备,旨在解决如何过滤规则使得使 用过滤后的规则可以提高机器翻译的质量。
[0008] 第一方面,一种机器翻译的方法,所述方法包括:
[0009] 确定待翻译数据中的每个语句;
[0010] 获取所述语句的第一标准推导集,所述第一标准推导集至少包括所述第一翻译规 则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻译规则的次数;
[0011] 根据所述第一翻译规则的频度信息对所述第一标准推导集进行过滤,获得第二标 准推导集;
[0012] 根据所述第二标准推导集和所述待翻译数据获取翻译结果。
[0013] 结合第一方面,在第一方面的第一种可能的实现方式中,所述第二标准推导集包 括第二翻译规则,所述获得第二标准推导集之后,还包括:
[0014] 确定所述第二翻译规则对应的概率数值;
[0015] 根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取第三 翻译规则;
[0016] 所述根据所述第二标准推导集和所述待翻译数据获取翻译结果包括:
[0017] 根据所述第三翻译规则和所述语句获得翻译结果。
[0018] 结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式 中,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词 汇翻译概率和反向词汇翻译概率;
[0019] 所述根据所述第二翻译规则对应的概率数值对所述第二翻译规则进行压缩,获取 第三翻译规则包括:
[0020] 将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻 译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率 对应的分数、正向词汇翻译概率对应的分数乘和反向词汇翻译概率对应的分数相乘,将相 乘获得的积累加为第一概率值;
[0021] 根据所述第一概率值和预设的聚类方法获取第一码表,所述第一码表包括但不限 于65536码表;所述方法还包括:
[0022] 所述根据所述第三翻译规则和所述语句获得翻译结果,包括:
[0023] 根据所述第一码表和所述语句获得翻译结果。
[0024] 结合第一方面或者第一方面的第一种可能的实现方式或第一方面的第二种可能 的实现方式,在第一方面的第三种可能的实现方式中,所述获取所述语句的第一标准推导 集,包括:
[0025] 根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个 翻译规则和所述翻译规则的频度信息;
[0026] 根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
[0027] 将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
[0028] 结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式 中,所述根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码之后,还 包括:
[0029] 获取强制解码的结果;
[0030] 当强制解码成功时,根据所述强制解码的结果获取K个推导树对应的规则信息,K 为正整数;
[0031] 所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
[0032] 将所述K个推导树对应的规则信息设置为第一标准推导集。
[0033] 结合第一方面的第四可能的实现方式,在第一方面的第五种可能的实现方式中, 所述获取强制解码的结果后,还包括:
[0034] 当强制解码失败时,则获取强制解码失败时生成的推导树中的根节点到子节点的 规则信息;
[0035] 所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
[0036] 将所述根节点到子节点的规则信息设置为第一标准推导集。
[0037] 第二方面,一种机器翻译的装置,所述装置包括:
[0038] 第一确定单元,用于确定待翻译数据中的每个语句;
[0039] 第一获取单元,用于获取所述语句的第一标准推导集,所述第一标准推导集至少 包括所述第一翻译规则的频度信息,所述频度信息为强制解码所述语句时使用所述第一翻 译规则的次数;
[0040] 过滤单元,用于根据所述第一翻译规则的频度信息对所述第一标准推导集进行过 滤,获得第二标准推导集;
[0041] 第二获取单元,用于根据所述第二标准推导集和所述待翻译数据获取翻译结果。
[0042] 结合第二方面,在第二方面的第一种可能的实现方式中,所述第二标准推导集包 括第二翻译规则,所述装置还包括:
[0043] 第二确定单元,用于确定所述第二翻译规则对应的概率数值;
[0044] 第三获取单元,用于根据所述第二翻译规则对应的概率数值对所述第二翻译规则 进行压缩,获取第三翻译规则;
[0045] 所述第二获取单元,具体用于:
[0046] 根据所述第三翻译规则和所述语句获得翻译结果。
[0047] 结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式 中,所述第二翻译规则对应的概率数值包括正向短语翻译概率、反向短语翻译概率、正向词 汇翻译概率和反向词汇翻译概率;
[0048] 所述第三获取单元具体用于:
[0049] 将所述第二翻译规则对应的正向短语翻译概率、反向短语翻译概率、正向词汇翻 译概率和反向词汇翻译概率分别和所述正向短语翻译概率对应的分数、反向短语翻译概率 对应的分数、正向词汇翻译概率对应的分数乘和反向词汇翻译概率对应的分数相乘,将相 乘获得的积累加为第一概率值;
[0050] 根据所述第一概率值和预设的聚类方法获取第一码表,所述第一码表包括但不限 于65536码表;
[0051] 所述第二获取单元具体用于:
[0052] 根据所述第一码表和所述语句获得翻译结果。
[0053] 结合第二方面或者第二方面的第一种可能的实现方式或第二方面的第二种可能 的实现方式,在第二方面的第三种可能的实现方式中,所述第一获取单元,具体用于:
[0054] 根据统计的机器翻译的方法和所述语句获取规则表Ta,所述规则表Ta包括各个 翻译规则和所述翻译规则的频度信息;
[0055] 根据所述翻译规则和所述翻译规则的频度信息对所述语句进行强制解码;
[0056] 将强制解码所述语句时使用到的翻译规则组合为第一标准推导集。
[0057] 结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式 中,所述装置还包括第四获取单元,
[0058] 所述第四获取单元,用于获取强制解码的结果;当强制解码成功时,根据所述强制 解码的结果获取K个推导树对应的规则信息,K为正整数;
[0059] 所述将强制解码所述语句时使用到的翻译规则组合为第一标准推导集包括:
[0060] 将所述K个推导树对应的规则信息设置为第一标准推导集。
[0061] 结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式 中,所述第四获取单元还用于:
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1