利用外部信息的神经机器翻译系统及翻译系统的训练方法与流程

文档序号:15999274发布日期:2018-11-20 19:14阅读:来源:国知局

技术特征:

1.一种利用外部信息的神经机器翻译系统,包括:

源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;

外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;

目标端解码器神经网络,用于根据所述源端输入和所述外部信息输入,计算结合外部信息的翻译预测概率分布,根据所述结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。

2.根据权利要求1所述的神经机器翻译系统,其特征在于,

所述源端编码器神经网络,对所述源端输入进行编码,得到源端的神经网络隐层表示;

所述外部信息编码器神经网络,接收目标语言的单词、短语和句子中的至少一种作为外部信息输入,对所述外部信息输入进行编码,得到外部信息的神经网络隐层表示;

所述神经机器翻译系统还包括:噪音判别器神经网络,所述噪音判别器神经网络包括全局噪音判别器神经网络和/或局部噪音判别器神经网络,所述全局噪音判别器神经网络判别所述外部信息的神经网络隐层表示中的每个元素对本次翻译是否为噪音,被判别为噪音的元素与被判别不为噪音的元素获得不同的第一噪音判别结果;所述局部噪音判别器神经网络判别当前翻译时刻获得的所述外部信息的神经网络隐层表示中的元素对于当前时刻翻译是否为噪音,被判别为噪音的元素与被判别不为噪音的元素获得不同的第二噪音判别结果;

所述目标端解码器神经网络,根据所述源端的神经网络隐层表示、所述外部信息的神经网络隐层表示、所述第一噪音判别结果和/或所述第二噪音判别结果,得到结合外部信息的翻译预测概率分布,根据所述结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。

3.根据权利要求2所述的神经机器翻译系统,其特征在于,所述目标端解码器神经网络包括原始翻译概率分布输出层和带有注意力机制的外部信息读取层,

所述原始翻译概率分布输出层,在生成所述目标端输出的每个当前时刻,生成当前时刻的解码器隐层表示,根据所述当前时刻的解码器隐层表示,得到输出序列中的每个当前时刻的翻译预测原概率分布;

所述带有注意力机制的外部信息读取层,在生成所述目标端输出的每个当前时刻,首先获取来自所述外部信息编码器神经网络的注意力上下文向量,然后生成所述当前时刻的外部信息翻译概率分布。

4.根据权利要求2或3所述的神经机器翻译系统,其特征在于,所述目标端解码器神经网络中的原始翻译概率分布输出层的神经网络是循环神经网络、卷积神经网络或自注意力神经网络中的一种。

5.根据权利要求2或3所述的神经机器翻译系统,其特征在于,所述全局噪音判别器神经网络的外部信息文字序列中,包括一个空元素,所述空元素用来表示所述全局噪音判别器神经网络的外部信息文字序列中所有不存在的单词。

6.根据权利要求2或3所述的神经机器翻译系统,其特征在于,所述外部信息的神经网络隐层表示采用词向量表示。

7.根据权利要求2或3所述的神经机器翻译系统,其特征在于,所述源端编码器神经网络是循环神经网络、卷积神经网络或自注意力神经网络中的一种。

8.根据权利要求2或3所述的神经机器翻译系统,其特征在于,所述全局噪音判别器神经网络和所述局部噪音判别器神经网络是二值分类的多层感知机神经网络。

9.一种利用外部信息的神经机器翻译系统的训练方法,其特征在于,所述神经机器翻译系统进行参数训练的语料库包括:对齐的源端源语言文字序列、目标端目标语言文字序列和外部信息文字序列,所述神经机器翻译系统是权利要求1至8中任一项所述的神经机器翻译系统。

10.根据权利要求9所述的训练方法,其特征在于,训练的目标函数由翻译概率分布的交叉熵损失、全局噪音判别器的二元logistic损失以及局部噪音判别器的二元logistic损失三部分组成。

11.根据权利要求9或10所述的方法,其特征在于,所述语料库中的外部信息文字序列的获取方法包括:

在目标端目标语言参考译文中采样一定数量的单词,得到正样本;

在目标语言词汇表中不属于所述目标语言参考译文的单词中采样与所述正样本中的单词的数量相等的单词,得到负样本;

所述正样本和所述负样本组合形成所述语料库中的外部信息文字序列。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1