优化用于机器翻译的参数的制作方法

文档序号:6408308阅读:371来源:国知局
专利名称:优化用于机器翻译的参数的制作方法
技术领域
本说明书涉及统计机器翻译。
背景技术
由人类操作员进行的对文本的人工翻译可能费时且费钱。机器翻译的一个目标是 自动地将源语言的文本翻译成目标语言的对应文本。存在针对机器翻译的若干不同的方 法,包括基于示例的机器翻译和统计机器翻译。统计机器翻译试图识别对于源语言的特定 输入的目标语言的最可能翻译。例如,当将句子从法语翻译成英语时,统计机器翻译识别对 法语句子的最可能英语句子。该最大可能翻译可以被表示为
权利要求
1.一种计算机实现的方法,包括访问翻译格阵,其中所述翻译格阵表示多个候选翻译;执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译 假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
2.根据权利要求1所述的方法,进一步包括生成所述翻译格阵,包括将源语言的源样 本提供给解码器。
3.根据权利要求1所述的方法,其中执行对所述格阵的解码包括执行最小贝叶斯风险 (MBR)解码。
4.根据权利要求3所述的方法,其中执行MBR解码包括计算语料库BLEU增益的逼近。
5.根据权利要求4所述的方法,其中所述语料库BLEU增益的所述逼近被表示为 G(五,五’)=氏|五’|+ Σθ^ΛΕ')·δΛΕ),wsN其中w是单词,θ ¥是常量,E是候选翻译,E'是自动翻译,#W(E')是w在E'中出现 的次数,以及如果w e E,则δψ(Ε)为1,否则为0。
6.根据权利要求3所述的方法,其中执行MBR解码包括计算E = argmaxk|£:'|'K (E') P(w \ ψ)[,Ε'βΨ LweNJ其中w是单词,θ¥是常量,E'是自动翻译,#W(E')是w在E'中出现的次数,Ψ表 示所述翻译格阵,以及P (w I Ψ)是w在所述翻译格阵中的后验概率。
7.根据权利要求6所述的方法,其中/^叫平)=;^…^^…)=^^^,其中Ww={E e Ψ 5w(E) >0}表示所述翻译格阵的包含w至少一次的路径,Z (Ψψ)表示Ψψ中路径 的权重的总和,以及Ζ(Ψ)表示Ψ中路径的权重的总和。
8.一种计算机实现的方法,包括访问假设空间,其中所述假设空间表示多个候选翻译;执行对所述假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的 翻译假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
9.根据权利要求8所述的方法,其中所述假设空间被表示为格阵。
10.根据权利要求9所述的方法,其中所述证据空间被表示为N-最佳列表。
11.一种编码在有形的程序载体上、可操作来促使数据处理装置执行操作的计算机程 序产品,所述操作包括访问翻译格阵,其中所述翻译格阵表示多个候选翻译;执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译 假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
12.根据权利要求11所述的程序产品,其中所述操作进一步包括生成所述翻译格阵, 包括将源语言的源样本提供给解码器。
13.根据权利要求11所述的程序产品,其中所述操作进一步包括执行对所述格阵的 解码包括执行最小贝叶斯风险(MBR)解码。
14.根据权利要求13所述的程序产品,其中执行MBR解码包括计算语料库BLEU增益的 逼近。
15.根据权利要求14所述的程序产品,其中所述语料库BLEU增益的所述逼近被表示为
16.根据权利要求13所述的程序产品,其中执行MBR解码包括计算
17.根据权利要求比所述的程序产品,其中
18. —种编码在有形的程序载体上、可操作来促使数据处理装置执行操作的计算机程 序产品,所述操作包括访问假设空间,其中所述假设空间表示多个候选翻译;执行对所述假设空间的解码以获得使相对于证据空间计算的预期分类误差最小化的 翻译假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
19.根据权利要求18所述的程序产品,其中所述假设空间被表示为格阵。
20.根据权利要求19所述的程序产品,其中所述证据空间被表示为N-最佳列表。
21.—种系统,包括机器可读存储设备,所述机器可读存储设备包括程序产品;以及 一个或多个处理器,所述一个或多个处理器可操作来执行所述程序产品并且执行操 作,所述操作包括访问翻译格阵,其中所述翻译格阵表示多个候选翻译;执行对所述翻译格阵的解码以获得使所述翻译格阵中的预期分类误差最小化的翻译 假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
22.根据权利要求21所述的系统,其中执行对所述格阵的解码包括执行最小贝叶斯风 险(MBR)解码。
23.—种系统,包括机器可读存储设备,所述机器可读存储设备包括程序产品;以及一个或多个处理器,所述一个或多个处理器可操作来执行所述程序产品并且执行操 作,所述操作包括访问假设空间,其中所述假设空间表示多个候选翻译;执行对所述假设空间的解码以获得使相对于证据空间计算的预期误差最小化的翻译 假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
24.根据权利要求23所述的系统,其中所述假设空间被表示为格阵。
25.一种计算机实现的方法,包括对于翻译格阵中的多个特征函数,确定在所述翻译格阵中表示的一个或多个候选翻译 中的每一个的相应多个误差表面;通过遍历训练集中的短语的所述多个误差表面的组合来调整所述特征函数的权重; 选择使有关所遍历的组合的误差计数最小化的权重值;以及 应用所选择的权重值来将文本样本从第一语言转换成第二语言。
26.根据权利要求25所述的方法,其中所述翻译格阵包括短语格阵。
27.根据权利要求26所述的方法,其中所述短语格阵中的弧线表示短语假设并且所述 短语格阵中的节点表示部分翻译假设被重组所处的状态。
28.根据权利要求25所述的方法,其中所述误差表面使用线形最优化技术来确定并且 遍历。
29.根据权利要求28所述的方法,其中所述线形最优化技术对于组中的每一个特征函 数和句子,确定并且遍历有关候选翻译集的误差表面。
30.根据权利要求29所述的方法,其中所述线形最优化技术从参数空间中的随机点开 始确定并且遍历所述误差表面。
31.根据权利要求29所述的方法,其中所述线形最优化技术使用随机方向来确定并且 遍历所述误差表面以调整所述权重。
32.根据权利要求25所述的方法,其中所述权重由约束限制。
33.根据权利要求25所述的方法,其中所述权重使用权重先验来调整。
34.根据权利要求25所述的方法,其中所述权重在句子组中的所有句子上调整。
35.根据权利要求25所述的方法,进一步包括从多个候选翻译选择使所述翻译格阵 的后验概率最大化的目标翻译。
36.根据权利要求25所述的方法,其中所述翻译格阵表示多于十亿的候选翻译。
37.根据权利要求25所述的方法,其中所述短语包括句子。
38.根据权利要求25所述的方法,其中所述短语均包括句子。
39.一种编码在有形的程序载体上、可操作来促使数据处理装置执行操作的计算机程 序产品,所述操作包括对于翻译格阵中的多个特征函数,确定在所述翻译格阵中表示的一个或多个候选翻译 中的每一个的相应多个误差表面;通过遍历训练集中的短语的所述多个误差表面的组合来调整所述特征函数的权重; 选择使有关所遍历的组合的误差计数最小化的权重值;以及 应用所选择的权重值来将文本样本从第一语言转换成第二语言。
40.根据权利要求39所述的程序产品,其中所述翻译格阵包括短语格阵。
41.根据权利要求40所述的程序产品,其中所述短语格阵中的弧线表示短语假设以及 所述短语格阵中的节点表示部分翻译假设被重组所处的状态。
42.根据权利要求39所述的程序产品,其中所述误差表面使用线形最优化技术来确定 并且遍历。
43.根据权利要求42所述的程序产品,其中所述线形最优化技术对于组中的每一个特 征函数和句子,确定并且遍历有关候选翻译集的误差表面。
44.根据权利要求43所述的程序产品,其中所述线形最优化技术从参数空间中的随机 点开始确定并且遍历所述误差表面。
45.根据权利要求43所述的程序产品,其中所述线形最优化技术使用随机方向来确定 并且遍历所述误差表面以调整所述权重。
46.根据权利要求39所述的程序产品,其中所述权重由约束限制。
47.根据权利要求39所述的程序产品,其中所述权重使用权重先验来调整。
48.根据权利要求39所述的程序产品,其中所述权重在句子组中的所有句子上调整。
49.根据权利要求39所述的程序产品,进一步包括从多个候选翻译选择使所述翻译 格阵的后验概率最大化的目标翻译。
50.根据权利要求39所述的程序产品,其中所述翻译格阵表示多于十亿的候选翻译。
51.根据权利要求39所述的程序产品,其中所述短语包括句子。
52.根据权利要求39所述的程序产品,其中所述短语均包括句子
53.一种系统,包括机器可读存储设备,所述机器可读存储设备包括程序产品;以及一个或多个计算机,所述一个或多个计算机可操作来执行所述程序产品并且执行操 作,所述操作包括对于翻译格阵中的多个特征函数,确定在所述翻译格阵中表示的一个或多个候选翻译 中的每一个的相应多个误差表面;通过遍历训练集中的短语的所述多个误差表面的组合来调整所述特征函数的权重;选择使有关所遍历的组合的误差计数最小化的权重值;以及应用所选择的权重值来将文本样本从第一语言转换成第二语言。
54.一种计算机实现的系统,包括语言模型,所述语言模型包括翻译格阵中的特征函数集合;跨所述特征函数的用于候选语言翻译集的多个误差表面;以及被选择为使遍历所述误差表面的误差最小化的用于特征函数的权重值。
全文摘要
公开了用于语言翻译的方法、系统和装置,包括计算机程序产品。在一个实施方式中,提供了一种方法。该方法包括访问假设空间;执行对翻译格阵的解码以获得使相对于证据空间计算的预期分类误差最小化的翻译假设;以及提供所获得的翻译假设以供用户在目标翻译中作为建议翻译使用。
文档编号G06F17/20GK102150156SQ200980133134
公开日2011年8月10日 申请日期2009年7月2日 优先权日2008年7月3日
发明者伊格纳西奥·E·塞耶, 尚卡尔·库马尔, 弗朗茨·约瑟夫·欧池, 沃尔夫冈·马赫赖, 罗伊·W·特朗布利, 雅各布·乌兹科瑞特 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1