面向统计机器翻译的训练语料质量评价及选取方法

文档序号:6617063阅读:349来源:国知局
专利名称:面向统计机器翻译的训练语料质量评价及选取方法
技术领域
本发明涉及一种统计机器翻译技术,具体的说是一种面向统计机器翻译的训练语料质量评价及选取方法。
背景技术
统计机器翻译(Statistical Machine Translation, SMT)系统的训练需要大规模的双语平行语料的支持,语料的质量和数量会对机器翻译系统的性能带来很大的影响。一般来说,训练语料规模的增加有助于获得稳定的模型参数并提高SMT系统的翻译性能。但是语料规模越大,系统的执行代价就越高,训练和解码需要的时间也越长。另外,更大规模的语料也就意味着可能存在更多的噪声数据,会在一定程度上影响到系统训练的可靠性。
姚树杰等人(2010)曾提出了一种基于句对质量和覆盖度的统计机器翻译训练语料选取的方法,他们通过综合考虑覆盖度和句对质量两方面的因素,从已有的平行语料中获取高质量小规模训练子集,以达到同使用全部训练语料相当的翻译性能。在姚树杰等人提出的模型中,有五个质量评价特征,各个特征的权重采用人工设定经验值的方法得到。人工的方法需要大量的实验支撑,耗时耗力,并且在特征数量增加的时候,变得非常不可用。

发明内容
针对基于句对质量和覆盖度的统计机器翻译技术中的质量评价特征采用人工设定经验值的方法得到,耗时耗力,并且在特征数量增加时变得非常不可用等不足之处,本发明要解决的技术问题是提供一种可自动生成特征权重,能够提供更丰富的句对质量评价特征的面向统计机器翻译的训练语料质量评价及选取方法。为解决上述技术问题,本发明采用的技术方案是本发明面向统计机器翻译的训练语料质量评价及选取方法包括以下步骤权重自动获取采用小规模语料对权重自动获取模型进行训练,以得到特征的权重和分类临界值;句对质量评价将上述权重和分类临界值与原始大规模平行语料一起做为输入,由句对质量评价线性模型对大规模平行语料进行分类,生成各个语料子集;高质量语料子集选取在上述各个语料子集的基础上,考虑覆盖度的影响,选取高质量语料做为统计机器翻译系统的训练数据。所述句对质量评价线性模型为
权利要求
1.一种面向统计机器翻译的训练语料质量评价及选取方法,其特征在于包括以下步骤 权重自动获取 采用小规模语料对权重自动获取模型进行训练,以得到特征的权重和分类临界值;句对质量评价将上述权重和分类临界值与原始大规模平行语料一起做为输入,由句对质量评价线性模型对大规模平行语料进行分类,生成各个语料子集; 高质量语料子集选取在上述各个语料子集的基础上,考虑覆盖度的影响,选取高质量语料做为统计机器翻译系统的训练数据。
2.按权利要求I所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于所述句对质量评价线性模型为
3.按权利要求I所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于所述高质量句对为 句对中源语句和目标语句都是流畅的句子,且源语句和目标语句的互译程度高。
4.按权利要求I所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于句对质量评价特征包括高质量翻译短语特征和基于实词的质量评价特征,其中 高质量翻译短语 在高质量短语翻译表中,查找提取的短语对是否存在,其特征公式如下
5.按权利要求4所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于所述句对质量评价特征还包括基于IBM model I的翻译概率的质量评价特征、基于IBM model I的最大化翻译概率(MTP)的质量评价特征、基于词汇化翻译概率(LexicalWeighting,LW)的质量评价特征、基于词典的质量评价特征、基于短语表染色机制的质量评价特征和基于语言模型的质量评价特征,其中 基于IBM model I的最大化翻译概率(MTP)的质量评价特征通过以下公式实现
6.按权利要求5所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于词Wi在N元语言模型下的概率P (Wi I &__,..., <)通过以下公式得到
7.按权利要求I所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于 在权重自动获取步骤中,采用小规模语料对权重自动获取模型进行训练通过Pranking算法实现,通过训练数据自动调整各个特征的权重,训练集中的每组数据执行调整过程后,得到新的权重向量与临界值向量,做为下一组数据计算的初始值;当多组训练数据全部执行完成后,所得的权重向量与临界值向量即为最终结果。
8.按权利要求I所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于所述考虑基于句对质量和覆盖度的语料选取包括以下步骤 使用句对质量评价模型将训练语料分为质量高低不同的k个等级,k为Pranking算法训练数据标注的等级数; 采用翻译短语对作为覆盖度的度量标准,一个句子对覆盖度的贡献,是其中包含的不同的未知翻译短语对的个数; 选取数据首先从质量等级最高的数据中选取句对,当全部剩余句对已经无法增加训练子集的覆盖度时,再从质量次之的等级中选取;当高质量句对的覆盖度贡献值小于设定的阈值a时,优先考虑从质量较低集合中选取覆盖度贡献大的句对,同时,将高质量的未被选取句对的覆盖度加上一个常数b,与质量较低的数据一同参选; 在选取数据时,从包含词对齐信息的句对中抽取出翻译短语对,以句子包含的翻译短语对的数量作为各个句子的初始覆盖度贡献值; 训练语料子集对应的短语对集合每增加一个新的短语对,则相应的所有包含该短语对的句子的覆盖度贡献减I ; 每次从语料中选取覆盖度贡献最大的句子加入语料子集中,然后更新所有未被选取的句子的覆盖度贡献值; 迭代进行此过程,直至选取的子集达到目标规模。
9.按权利要求8所述的面向统计机器翻译的训练语料质量评价及选取方法,其特征在于所述考虑覆盖度的影响选取高质量语料还包括特征评价结果缩放步骤 对基于IBM model I的最大化翻译概率的质量评价特征fMTP、基于IBMmodel I翻译概率的质量评价特征,BM、基于语言模型的质量评价特征φ!Λ!以及基于语言模型的质量评价特征fLW的结果进行缩放,采用公式(14)将[O,-⑴]区间缩放至[O,I]区间
全文摘要
本发明涉及一种面向统计机器翻译的训练语料质量评价及选取方法,步骤为权重自动获取采用小规模语料对权重自动获取模型进行训练,以得到特征的权重和分类临界值;句对质量评价将上述权重和分类临界值与原始大规模平行语料一起做为输入,由句对质量评价线性模型对大规模平行语料进行分类,生成各个语料子集;高质量语料子集选取在上述各个语料子集的基础上,考虑覆盖度的影响,选取高质量语料做为统计机器翻译系统的训练数据。本发明提出更丰富的句对质量评价特征,实现了特征权重的自动学习,当子集规模达到30%时性能可能够达到100%甚至更好;可以对任意输入的句对划分其所属的等级,可以为高质量语料数据选取等任务提供帮助。
文档编号G06F17/28GK102945232SQ20121046917
公开日2013年2月27日 申请日期2012年11月16日 优先权日2012年11月16日
发明者朱靖波, 张 浩, 肖桐, 李强 申请人:沈阳雅译网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1