短语划分模型建立方法、统计机器翻译方法以及解码器的制作方法

文档序号:6419430阅读:377来源:国知局
专利名称:短语划分模型建立方法、统计机器翻译方法以及解码器的制作方法
技术领域
本发明涉及统计机器翻译领域,具体而言,涉及一种短语划分模型建立方法、统计机器翻译方法以及解码器。
背景技术
基于层次化短语的统计机器翻译方法是近年来统计机器翻译领域的一种主流方法。在层次化短语模型中,允许短语中包含子短语,并使用变量X来代替子短语,从而使模型具有泛化能力。也就是说,从一个短语中学习到的翻译知识,可以用来翻译具有相同模式的其他短语。例如,对于以下短语对短语对1 于四月访问中国visit China in April‘‘四月,April”和“中国,China” 可以看作2个子短语。分别用\和\2代替这两个子短语,则可以得到一条翻译规则规贝丨J1 =X-X 于 X1 访问 X2, visit X2in X1)其中X是变量,下标表示变量之间的对应关系。例如,在规则1中,变量&在汉语端处于第二个位置,而当翻译为英语后,X1处于英语端的第四个位置。规则1具有泛化能力,能够用来翻译其他短语或句子。例如,当用它来翻译“于6 月访问美国华盛顿”时,如果令& =“6月”,“美国华盛顿”,则可以得到翻译结果于^C1 {6 月}访问 X2 {美国华盛顿} visit U. S. Washingtonin June然而,基于层次化短语的统计机器翻译方法面临的一个问题是,在规则匹配过程中,难以确定短语边界,因而造成翻译的不准确。例如,以下是一个由汉语句子及其英语译文组成的双语句对的例子
权利要求
1.一种基于最大熵模型的短语划分模型建立方法,包括 从双语语料库中获取训练样本;将所获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练,得到最大熵模型的权重参数;以及将所述权重参数代入最大熵模型中,生成所述短语划分模型。
2.如权利要求1所述的方法,其中,所述获取训练样本的步骤包括针对所述双语语料库中的每个双语句对中的源语言句子或目标语言句子执行以下步骤对所述句子进行短语划分;为所划分出的短语中的每个词标注边界标签,所述边界标签指示该词是所述短语的开始、中间、结束部分还是所述短语本身;以及确定所述句子中的每个词的上下文特征的值,其中所述句子中的每个词及其边界标签、上下文特征值组成一个训练样本。
3.如权利要求2所述的方法,其中所述短语划分步骤包括 将所述句子划分为多个最大单调短语,其中如果源语言短语中的词的顺序与目标语言短语中的对应词的顺序一致,则所述源语言短语和所述目标语言短语均称为单调短语,并且如果通过所述单调短语在其所在的句子中的扩展所生成的任何新短语都不是单调短语,则所述单调短语是最大单调短语。
4.如权利要求2所述的方法,其中所述上下文特征包括上下文单词特征和上下文词性特征中的至少一种。
5.一种统计机器翻译方法,用于将输入的源语言句子翻译成目标语言句子,所述方法包括通过查询翻译规则表来获得用于翻译所述源语言句子的规则; 组合所述规则以得到中间翻译结果;以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子, 其中,所述方法还包括将短语划分模型作为一种特征函数结合到统计机器翻译模型中, 其中所述短语划分模型是根据权利要求1-4中任意一项所述的方法建立的短语划分模型。
6.如权利要求5所述的方法,其中,所述结合步骤包括对于用于翻译所述源语言句子的每个规则,为所述规则中的每个源语言词标注初始边界标签;在组合所述规则之后,更新所述中间翻译结果中的源语言词的边界标签,以保证所述边界标签所形成的标签序列的合理性;以及基于所述短语划分模型和所述中间翻译结果中的源语言词的边界标签来计算对应于所述中间翻译结果的短语划分分数,作为所述统计机器翻译模型的特征函数值。
7.如权利要求6所述的方法,其中所述结合步骤还包括在标注初始边界标签的步骤之前,对所述输入的源语言句子中的每个词,利用所述短语划分模型来计算它对应于每种边界标签的概率以形成单词-标签矩阵;以及在组合所述规则的步骤之前,基于所述初始边界标签和所述单词-标签矩阵来计算每个规则的短语划分分数,并且其中,所述计算对应于所述中间翻译结果的短语划分分数的步骤包括 合计每个规则的短语划分分数以及所述边界标签更新所导致的短语划分分数变化量, 以得到所述翻译结果所对应的短语划分分数。
8.一种解码器,用于将输入的源语言句子翻译成目标语言句子,所述解码器包括 解码单元,配置用于通过查询翻译规则表来获得用于翻译所述源语言句子的规则;组合所述规则以得到中间翻译结果;以及利用统计机器翻译模型来从多个中间翻译结果中确定目标语言句子;以及短语划分模型单元,配置用于将短语划分模型作为一种特征函数结合到统计机器翻译模型中,其中所述短语划分模型是根据权利要求1-4中任意一项所述的方法建立的短语划分模型。
9.如权利要求8所述的解码器,其中所述短语划分模型单元包括边界标签标注单元,配置用于对于用于翻译所述源语言句子的每个规则,为所述规则中的每个源语言词标注初始边界标签;以及更新所述解码单元得到的所述中间翻译结果中的源语言词的边界标签,以保证所述边界标签所形成的标签序列的合理性;以及短语划分分数计算单元,配置用于基于所述短语划分模型和所述中间翻译结果中的源语言词的边界标签来计算对应于所述中间翻译结果的短语划分分数,作为所述统计机器翻译模型的特征函数值。
10.如权利要求9所述的解码器,其中所述边界标签标注单元进一步配置用于对所述输入的源语言句子中的每个词,利用所述短语划分模型来计算它对应于每种边界标签的概率以形成单词-标签矩阵;并且所述短语划分分数计算单元进一步配置用于基于所述初始边界标签和所述单词-标签矩阵来计算每个规则的短语划分分数;以及合计每个规则的短语划分分数以及所述边界标签更新所导致的短语划分分数变化量,以得到所述翻译结果所对应的短语划分分数。
全文摘要
本发明公开了一种短语划分模型建立方法、统计机器翻译方法以及解码器。所述短语模型建立方法包括从双语语料库中获取训练样本;将所获取的训练样本输入到最大熵模型的参数训练工具中进行参数训练,得到最大熵模型的权重参数;以及将权重参数代入最大熵模型中,生成短语划分模型。
文档编号G06F17/27GK102193912SQ201010124870
公开日2011年9月21日 申请日期2010年3月12日 优先权日2010年3月12日
发明者于浩, 何中军, 孟遥 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1