基于深度语义关联的译文预测方法与流程

文档序号:13876406阅读:291来源:国知局

本发明涉及一种自然语言翻译技术,具体为一种基于深度语义关联的译文预测方法。



背景技术:

交互预测式机器翻译是一种以译文生成为目的的交互式机器翻译方法,它将数据驱动的机器翻译技术运用于交互式翻译环境,其中人类译员负责保证高质量译文输出,机器翻译负责提高生产率。先利用机器翻译系统产生一个或多个完整(或部分)翻译假设作为建议译文,再由译员确认(接受并修改)译文中的最长正确前缀。将该前缀片段作为额外信息,使机器翻译系统重新预测后缀。重复该过程,直至得到完整的正确译文。

交互预测式机器翻译的解码有一个约束条件:目标译文必须以译员确认的前缀起始。在现有方法中,前缀的作用主要是对候选路径进行字符匹配,以缩小搜索空间。然而,前缀是人类译员提供的重要启发信息,是经译员确保正确的译文片段,不应与译文其余部分等同看待,而可以作为额外信息指导后缀译文翻译概率的评价,应当加以更充分、深入的利用。

foster等和langlais等采用了一个简单的语言模型和翻译模型的线性组合来估计后缀的概率值p(ts,tp|s),其中s是源文本,tp是前缀,ts是系统预测的后缀。由于语言模型是任何一个统计机器翻译模型都有的基本特征,所以沿用现有统计机器翻译框架的交互预测式机器翻译方法也都使用了这一限制,但语言模型的本质决定了前缀只能对与之紧邻的下一个词产生影响,是一种有限的局部语义约束。

sanchis-trilles等将用户的鼠标行为信息加入交互预测式机器翻译系统,基本思想是,当用户在译文上点击鼠标时,隐含了一种假设:该位置是最长正确前缀的结尾,所预测后缀的下一个字符必须与当前译文不同。该方法挖掘了前缀中隐含的线索,是对前缀的进一步深入利用,但仍局限于字符层面的匹配。

nepveu等提出了基于缓存的自适应预测模型,增加了一个在当前文档的翻译历史上训练出来的特征。对于预测词w,一旦用户接受了这个词,则每个活动词a组成的(a,w)词对就被记录在缓存里,并在源文本含有a时赋予w更高的语言模型概率和翻译概率。该方法的缺点是认为同一篇文档内同一个词的翻译应该相同的假设较为主观,没有考虑具体语境对词义选择的影响。



技术实现要素:

针对现有技术中针对现有技术中存在的上述问题,本发明要解决的问题是提供一种可提高人机交互效率的基于深度语义关联的译文预测方法。

为解决上述技术问题,本发明采用的技术方案是:

本发明一种基于深度语义关联的译文预测方法,包括以下步骤:

1)生成词向量:利用wordtovec工具,使用skip-gram模型在训练语料上进行训练,把生成的词向量加载到模型中,以备使用;

2)语义相关度计算:利用词向量,对用户指定的前缀与待扩展的短语进行语义相关度计算;

3)将语义相关度作为特征之一,估计后缀的翻译概率;

4)采用多栈解码算法搜索最优后缀:对栈中的翻译假设进行排序,输出最优的n个译文。

步骤1)中,生成词向量,通过神经网络模型,建立词与词之间的深度语义关联,将词语转换为distributedrepresentation表示的低维实数向量进行语义相关度计算。

步骤2)中,语义相关度计算为:

假设用户指定的前缀为tp,当前待扩展的后缀短语为ph,为tp的倒数第i个词,phi为ph的第i个词,则前缀与该短语之间的语义相关度为:

其中为词语与phj之间的向量余弦值,使用前缀中的最后m个词对当前候选短语的前n个词进行启发。

对m的计数从前缀的倒数第2个词开始,禁用词不包含在计数范围内。

步骤3)中估计后缀的翻译概率,通过以下公式实现:

m为传统基于短语的统计机器翻译系统使用的特征数量,i为特征序号,λ为特征权重,p为翻译概率;前m个特征对应传统基于短语的统计机器翻译所用特征,用于描述源语句s和完整的目标译文t之间的各种关系,第m+1个特征描述前缀tp和后缀ts之间的语义相关度h。

步骤4)中采用多栈解码算法搜索最优后缀,具体为:

多栈解码算法根据覆盖源语句词语的个数设置多个大的翻译假设栈,每个大的翻译假设栈内部划分出覆盖源语句位置相同的多个小栈;

对翻译假设进行扩展时,按照覆盖源语句词语的个数遍历大的翻译假设栈,然后在每个小栈中选择分值最高的翻译假设扩展,新产生的翻译假设仍根据覆盖源语言词语的个数放到对应的栈中;

最后一个大的翻译假设栈不进行扩展,对该栈中的翻译假设进行排序,输出n-best译文。

翻译假设的概率得分计算模型加入新的前、后缀语义关联特征。

本发明具有以下有益效果及优点:

1.本发明提出通过挖掘前缀中隐含的深层约束信息来增强交互预测式机器翻译系统中候选路径筛选和翻译概率估计的准确性,利用深度学习方法,将词语表示为词向量,更有效地描述自然语言的语义信息,评价前缀与后缀之间的语义关联度,提高人机交互的效率。

具体实施方式

下面对本发明作进一步阐述。

本发明一种基于深度语义关联的译文预测方法,包括以下步骤:

1)生成词向量:利用wordtovec工具,使用skip-gram模型在训练语料上进行训练,把生成的词向量加载到模型中,以备使用;

2)语义相关度计算:利用词向量,对用户指定的前缀与待扩展的短语进行语义相关度计算;

3)将语义相关度作为特征之一,估计后缀的翻译概率:4)采用多栈解码算法搜索最优后缀:对栈中的翻译假设进行排序,输出最优的n个译文。

1)生成词向量:利用wordtovec工具,使用skip-gram模型在训练语料上进行训练,把生成的词向量加载到模型中,以备使用;

2)语义相关度计算:利用词向量,对用户指定的前缀与待扩展的短语进行语义相关度计算;

3)将语义相关度作为特征之一,估计后缀的翻译概率;

4)采用多栈解码算法搜索最优后缀:对栈中的翻译假设进行排序,输出最优的n个译文。

步骤1)中生成词向量,是利用wordtovec工具,使用skip-gram模型在训练语料上进行训练,将每个词语表示为200维的向量;

读取文件,把生成的词向量加载到模型中,以备使用。

本步骤通过神经网络模型,建立词与词之间的深度语义关联,将词语转换为distributedrepresentation表示的低维实数向量进行语义相关度计算,是一种文本语义深度表示模型。

步骤2)中,用户指定的前缀,是由用户人工确认后,输入系统的前缀。前缀是指用户在机器翻译系统给出的参考译文上确认的从第1个字符开始的最长正确片段,也就是说,从该片段的下1个字符开始,译文就是错误的了。

步骤2)中语义相关度计算过程如下:

假设用户指定的前缀为tp,当前待扩展的后缀短语为ph,为tp的倒数第i个词,phi为ph的第i个词,前缀与该短语之间的语义相关度为:

其中cos(di,dj)为词语di与dj之间的向量余弦值。

上式的含义是使用前缀中的最后m个词对当前候选短语的前n个词进行启发。由于不能保证前缀的最后一个词是完整的,所以对m的计数从前缀的倒数第2个词开始(禁用词不包含在计数范围内)。

步骤3)中,后缀指的是用户确认前缀后,系统根据该信息重新产生的译文中,该前缀后面的片段(重新产生的译文也必须以用户确认的前缀开头,但后面的片段是与原来的译文不同的,也就是重新预测后缀)。

步骤3)中估计后缀的翻译概率,具体如下:

公式(2)中,前m个特征对应传统基于短语的统计机器翻译所用特征(如短语翻译概率、调序概率、语言模型等),这些特征描述源语句s和完整的目标译文t之间的各种关系。第m+1个特征描述前缀tp和后缀ts之间的语义相关度h。

步骤4)中,采用多栈解码算法搜索最优后缀,具体为:

多栈解码算法根据覆盖源语句词语的个数设置多个大的翻译假设栈,每个栈内部又划分出覆盖源语句位置相同的多个小栈。对翻译假设进行扩展时,按照覆盖源语句词语的个数遍历大的翻译假设栈,然后在每个小栈中选择分值最高的翻译假设扩展,新产生的翻译假设仍根据覆盖源语言词语的个数放到对应的栈中。最后一个大的翻译假设栈不进行扩展,系统对该栈中的翻译假设进行排序,输出n-best译文。翻译假设的概率得分计算模型需加入新的前、后缀语义关联特征。

大的翻译假设栈由小栈组成,所以有“大”、“小”之分。

本实施例采用汉英平行语料hongkonglawsparalleltext(ldc2000t47)作为实验语料,该语料是来自香港的法律文本,其中20万平行句对作为训练语料,从其余部分随机抽取了不重叠的1000个平行句对作为开发集,1558个平行句对作为测试集。表1给出了所用语料的一些统计特性。

表1评价语料的统计特性

本实施例所用语料的中文部分采用ictclas工具进行了分词处理,英文部分都经过了词形还原和小写化处理。采用giza++对训练语料进行两个方向的对齐,然后采用“grow-diag-final”策略进行了双向词对齐的融合。基于训练集的英文句子,用srilm工具训练了一个3元的语言模型。采用开源工具moses来训练基于短语的统计机器翻译模型,该模型使用了moses默认的14个特征。在参数的学习过程中,使用最小错误率训练方法在开发集上进行训练,优化指标采用大小写不敏感的bleu-4指标。在解码过程中,系统的默认设置:翻译栈大小为30,每个源短语最多载入20个翻译选项。公式(1)中m的值设为3,n的值设为1。

对交互预测式机器翻译系统的性能评价采用了key-strokeratio(ksr)指标,其数值越小,表明系统的性能越好。基线系统(baseline)是基于短语的交互预测式机器翻译系统模型。

表2给出了加入语义关联特征的模拟实验结果(扭曲度的最大限制为10)。在不同的k-best列表上分别进行了测试。

表2加入不同语义关联度特征的ksr值

从表2以看出,在baseline系统中加入语义相关度特征,系统预测的准确性提升,表明前缀可以在语义层次对后缀译文选择起到有效的启发作用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1