1.一种平行短语的学习方法,其特征在于,包括:
S1:根据句子级的单语语料库中的句子构建短语级的单语语料库;
S2:通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
S3:使用所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
3.根据权利要求2所述的方法,其特征在于,所述S1中根据句子级的单语语料库中的句子构建短语级的单语语料库,包括:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含s个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1。
4.根据权利要求3所述的方法,其特征在于,所述S2中通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化,包括:
将P(J|I)初始化为均匀分布,即对任意J,P(J|I)具有相同的概率,同时将p(f|e)根据所述种子词典进行初始化:
其中,count(f,e)表示词典中(f,e)作为互译词出现的次数,所述次数为0或者1;
同理,根据相同的方法定义和初始化所述目标语言到源语言的短语翻译模型P(e|f;θ2)。
5.根据权利要求3所述的方法,其特征在于,所述S3中使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,包括:
S31:通过跨语言检索,为所述目标语言的短语级别单语语料库F中的一个短语ft,选取可能是该短语对应的n个所述源语言的短语级别单语语料库E中的翻译短语e1,e2,e3…en;
S32:根据P(ft|e;θ1),计算最佳匹配得到短语对
S33:重复步骤S31和S32,为F中的每一个短语构建一个短语对,得到短语对集合
S34:类似地,为E中的每一个短语构建一个短语对,得到短语对集合
S35:根据模型一致性约束,取m1和m2的交集m*作为这一轮抽取出的平行短语对。
6.根据权利要求5所述的方法,其特征在于,所述S3中利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
其中,c(f|e;m*)根据上一轮迭代中p(f|e)的值以及m*计算得到,计算时考虑双向模型的一致性约束:
类似地,根据m*更新计算目标语言到源语言的短语翻译模型参数θ2,即p(I|J)及p(e|f)。
7.根据权利要求1所述的方法,其特征在于,所述S3中在模型一致性约束下优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型,包括:
将最后一轮优化抽取出的所有平行短语对输出,作为抽取出的平行语料库。
8.一种平行短语的学习装置,其特征在于,包括:
语料库构建单元,用于根据句子级的单语语料库中的句子构建短语级的单语语料库;
模型初始化单元,用于通过种子词典分别对源语言到目标语言的短语翻译模型以及目标语言到源语言的短语翻译模型进行初始化;
翻译模型优化单元,用于使用两个短语翻译模型,在模型一致性约束下分别从所述句子级的单语语料库和所述短语级的单语语料库中抽取平行短语对,以利用抽取出的所述平行短语对,在模型一致性约束下进一步优化所述源语言到目标语言的短语翻译模型以及所述目标语言到源语言的短语翻译模型。
9.根据权利要求1所述的装置,其特征在于,所述语料库构建单元,进一步用于:
通过将所述句子中任意连续的若干个词作为短语,以构建短语级的单语语料库;或,
使用句法分析工具,将同一所述句子的句子成分下的词作为短语,以构建短语级的单语语料库;或,
基于网页的超链接或标点符号等自然分隔符来划分所述句子的短语,以构建短语级的单语语料库。
10.根据权利要求9所述的装置,其特征在于,所述语料库构建单元,还用于:
根据已获取的源语言的短语级别单语语料库和目标语言的短语级别单语语料库定义所述源语言到目标语言的短语翻译模型为:
其中a为源语言短语e到目标语言短语f的词对齐;所述源语言的短语级别单语语料库包含s个短语,所述目标语言的短语级别单语语料库包含T个短语;通过种子词典D={(e,f)}给出多个互为翻译的词对;
相应地,
其中I为源语言短语e的长度,J为目标语言短语f的长度,fj代表f的第j个词,代表e中与fj对齐的词。P(J|I)为长度模型,为词翻译模型,这两个模型参数共同构成了短语翻译模型的参数θ1。