基于领域相似性度量方法的统计机器翻译方法

文档序号:6523991阅读:275来源:国知局
基于领域相似性度量方法的统计机器翻译方法
【专利摘要】基于领域相似性度量方法的统计机器翻译方法,涉及机器翻译【技术领域】。它解决了现机器翻译技术中选取平行语料的方法中,采用余弦函数与词频来作为领域间相似性的度工具并不能反应实际的相似程度以及忽略了文字背后的语义关联,而导致选取的平行语不能反映实际含义、最终影响翻译结果准确性的问题。本发明是在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料,其中判断相似性的方法为:用相对词频或主题模型作为特征代表,采用余弦距离数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行档相似性度量。本发明的翻译结果更接近于人工翻译的结果。
【专利说明】基于领域相似性度量方法的统计机器翻译方法
【技术领域】
[0001]本申请涉及机器翻译【技术领域】,具体涉及到机器翻译领域中平行语料选取技术。【背景技术】
[0002]在全球化趋势下,世界各国、各民族之间的交往越来越频繁。而要进行畅通无阻的交流,语言是一大障碍。于是,机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。
[0003]相对于基于规则的机器翻译方法,近年来,统计机器翻译研究得到了迅猛的发展,提出了很多新的模型和方法并取得了很好的效果。
[0004]统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从语料中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含在大规模的双语语料库上的翻译模型训练、在目标语言的单语语料库上的语言模型训练、参数训练三个主要部分。如果抛开翻译系统模型的好坏而纯从训练语料的角度来看,训练语料与待翻译文本的领域相似性与统计机器翻译系统的质量有着重要关系。领域相似性越高,翻译系统的效果越好。训练得到的模型在翻译同一领域的文本时通常会得到质量较高的译文,但翻译其他领域文本时,翻译质量明显下降。如,在商务领域语料上训练出来的模型无法较好地应用在餐饮领域的翻译上。然而,就翻译模型的训练,对于某些领域而言,获取大规模的平行语料是非常困难的。研究有效的领域自适应策略是一个可行办法。
[0005]一般来说,某个特定领域的双语平行语料难以获得,但领域混杂的平行语料较易获得。若能从这样的混杂语料中选取出与待翻译文本领域相似的语料在训练时加以利用,则可想而知,翻译效果应能有所提升。很多相关研究都根据这种思路,利用信息检索工具等学习方法进行了领域自适应地探索。
[0006]然而,研究者们大多都直接用余弦函数与词频来作为领域间相似性的度量工具。但是计算相似度的余弦函数实际是计算两向量的夹角,它不考虑向量的绝对长度,着重从方向上考虑它们之间的关系。通常来说,如果两篇文本所有的特征词都相同,则两篇文本的相似度为I ;如果没有一个特征词是相同的,则其相似度为O。一般情况下,这种方法能够判断出文本间的相似程度,但是由于该方法没有对文本间相同的特征词进行统计,有时可能导致计算值并不能反应实际的领域相似度。另一方面,两篇文档是否相关往往不只取决于字面上的词语重复(即词频),还取决于文字背后的语义关联。

【发明内容】

[0007]本发明的目的是解决现有机器翻译的领域自适应技术中选取平行语料的方法中,采用余弦函数与词频来作为领域间相似性的度量工具、忽略了文字背后的语义关联,而导致获得的平行语料不能够反映实际的领域相似度,最终影响翻译结果准确性的问题。
[0008]本发明提出的基于领域相似性度量方法的统计机器翻译方法,是在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为平行语料选取对象。
[0009]在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为平行语料选取对象的过程为:将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量,然后对所有度量结果进行排序,选取度量结果最佳的若干篇文档作为平行语料选取对象。
[0010]将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法有两种:
[0011]方法一:采用相对词频作为特征代表,采用偏斜距离函数、余弦距离函数、变分距离函数、欧式距离函数或者JS距离函数作为相似度函数进行文档相似性度量。
[0012]词频分为绝对词频和相对词频两种,其中,绝对词频是指词在文本中出现的频率;相对词频是规范化的词频,即要求所有向量分量的平方和为I。本发明中采用相对词频作为特征代表。
[0013]所述相对词频的获得方法为采用TF-1DF公式计算相对词频,所述TF-1DF公式为:
[0014]TF-1DF=词频(TF) X逆文档频率(IDF),其中:
[0015]
【权利要求】
1.基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述统计机器翻译方法为在现有统计机器翻译方法中,在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料。
2.根据权利要求1所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为训练语料的过程为:将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量,然后对所有度量结果进行排序,选取度量结果最佳的若干篇文档作为训练语料。
3.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为: 采用相对词频作为特征代表,采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。
4.根据权利要求3所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述相对词频的获得方法为采用TF-1DF公式计算相对词频(TF),所述TF-1DF公式为:TF-1DF=词频(TF) X逆文档频率(IDF),其中:词频(TF):某个词在文章中的出现次数’
文章的总词数
, f语料库的文档总数)逆又档频率(IDF) = 1g ,.,加,就^ ο

'包含该词的又档数+ 1J
5.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为: 采用主题模型作为特征代表,采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。
6.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述偏斜距离函数为:
Sa (q, r, a ) =D (q (y) I I a r (y) + (1- a ) q (y)), a e [0, I), 所述函数中,q(y)和r(y)表示表示两个文档中的特征代表的分布,D (q | r)表示KL距离,a表示q(y)和r (y)这两个分布在进行KL距离计算时的混合程度。它是非负的、累加的、非对称的距离函数,所述非对称是指D (q I |r)古D (r I I q),其中:
Ik) = Σ.6/(>’)丨08^4。
' r{y)
7.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述所述余弦距离函数为:
cos (q (y), r(y))=q(y) Xr(y)/ q(y) | | | r (y) | 所述余弦距离函数中:q(y)和r(y)表示两文档中的特征代表概率分布。
8.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述变分距离函数为:Var(q,r)= Σ y I q (y) ~r (y) , q(y)和r(y)表示表示两个文档中的特征代表的分布。
9.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述欧式距离函数(Euclidean distance function)为:
10.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法,其特征在于,所述 JS距离函数为:JS(q, r)=l/2[D(q avg(q, r) +D(r avg(q, r)) ], q(y)和r(y)表示表示两个文档中的特征代表的分布。
【文档编号】G06F17/28GK103631773SQ201310689351
【公开日】2014年3月12日 申请日期:2013年12月16日 优先权日:2013年12月16日
【发明者】曹海龙, 刘淋, 赵铁军, 郑德权, 杨沐昀, 徐冰, 朱聪慧 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1