基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法与流程

文档序号:24073428发布日期:2021-02-26 16:16阅读:166来源:国知局
基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法与流程

[0001]
本发明属于机器翻译技术领域,特别涉及一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法。


背景技术:

[0002]
机器翻译作为人工智能的根本组成之一,为解决语言翻译问题提供了方法,机器翻译是利用计算机实现两种自然语言间快速转换的过程,机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随,从1949年翻译备忘录提出到现在,这期间,机器翻译经历了多个不同的发展阶段,也涌现出了很多方法。总结起来主要有三类,一开始是基于规则的方法,然后发展为基于统计的方法。一直到最近的基于神经网络的方法。
[0003]
基于规则的机器翻译技术本质上将专家的翻译知识采用规则形式写下来,采用软件的方式利用翻译规则来实现机器翻译过程。这种方法的优点是直接用语言学专家知识,准确率非常高。但因为其涉及到人工参与构建高质量知识库,导致系统构建代价高,灵活性比较差。此外,还面临规则冲突的问题。随着规则数量的增多,规则之间互相制约和影响。而为了解决这一系列问题,不得不引入更多的规则,形成恶性循环。针对新语言现象处理的能力弱,如果没有匹配上合适的翻译规则,可能会导致无法翻译,所谓鲁棒性不够强大。
[0004]
基于统计机器翻译最大的变化在于从人工书写翻译规则的方式,转换到数据驱动的机器学习方法。统计机器翻译方法的基本过程是,首先准备一定规模的双语句对,采用机器学习的方法,从该双语训练句对中自动训练学习翻译模型,同时采用大规模目标语单语数据自动训练学习语言模型,最后通过参数调优,可以构建一套完整的统计机器翻译系统。其最大的优点在于:任何句子都能够给出译文,但可能译文质量不好,这一点传统规则方法无法比拟,因为之前如果没有匹配成功合适的翻译规则,会导致翻译失败,无法生成译文。基于统计机器翻译对于词汇译文选择和短语译文选择的能力很强,但对译文语序的调序能力不够,特别是涉及到译文中需要远距离调序,这就导致统计机器翻译的译文不通顺,同时还会引入漏译问题。
[0005]
基于神经网络的机器翻译的通用框架为编码器-解码器结构。基于神经网络的机器翻译以其独特的优势迅速成为主流的翻译方法,翻译技术取得了巨大突破,相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它主要包含两个部分,一个是编码器,一个是解码器。编码器是把源语言经过一系列的神经网络的变换之后,表示成一个高维的向量;解码器负责把这个高维向量再重新解码(翻译)成目标语言。基于神经网络的机器翻译有不同的网络结构,如循环神经网络(recurrent neural networks,rnn)、卷积神经网络(convolutional neural network,cnn)和transformer,虽然翻译性能有了一定提升,但是由于使用自回归(autoregressive translation,at)进行解码,导致了翻译速度慢和并行性低的问题。
[0006]
为了解决自回归存在的问题,有很多非自回归模型,比如disco,可以显著减少推理时间的非自回归机器翻译模型,以及基于插入和删除的序列生成方法,然而,尽管有或多
或少的效率上的优势,但这些方法所展现出来的结果都没能超过自回归生成。
[0007]
除了以上问题,蒙语使用后加成分为词的派生和词型变化,粘合多个附加成分以表示多重语法意义;蒙语名词和代词有数、格等语法范畴,动词有态、时、式等语法范畴;蒙语动词在宾主之后,定语在被修饰词之前,蒙语的特点也给蒙汉翻译带来了极大的挑战。
[0008]
自回归模型指在生成文本时,需要用已生成的词来预测下一个位置的词,所以要生成长度为n的文本,需要经过模型解码器n次。自回归生成示例如图1所示,自回归可以表示为:
[0009][0010]
其中x是待翻译的句子,y是翻译后的句子,n是y的长度。如果要生成的句子很长,那么模型花在解码上的时间将是非常巨大,甚至是不可承受的,由于其自回归的特性,模型的推理过程非常缓慢。
[0011]
非自回归(non-autoregressive translation,nat)模型打破了生成时的串行顺序,一次能够解码出整个目标句子,从而解决自回归模型所带来的问题,和自回归相比,非自回归生成就是一次性生成多个字符,非自回归生成可以大大降低解码所需要的时间。
[0012]
自从非自回归的概念被提出后,相关的论文层出不穷。总得来说,可以分为以下三种方式:
[0013]
1.基于隐变量(latent variable)的非自回归,其主要问题在于怎么找到更好的隐变量能够充分表示非自回归模型所丢失的序列信息。
[0014]
2.基于迭代优化(iterative refinement)的非自回归,其主要做法是将上一轮迭代生成的翻译结果和源语作为下一次迭代的输入,不断的迭代精化,相当于是句子级上的自回归模型。
[0015]
3.基于知识蒸馏(knowledge distillation)的非自回归,由于自回归模型和非自回归模型的结构相差不大,因此完全可以将善于建模的自回归模型作为老师,非自回归模型可以逐块的学习前者的分布。这样,模型既可以获得非自回归的高速性能,又不会遭受相对较低的翻译性能的困扰。
[0016]
丢失了序列信息的非自回归模型如何取得与自回归模型相当的性能是目前研究的关键问题。引入额外信息的非自回归模型可能会提升性能,但势必会减慢推理速度。
[0017]
非自回归生成就是一次性生成多个字符。非自回归生成示例如图2所示。
[0018]
假设把目标字符集y分为若干子集{y}1,{y}2,

,{y}
p
,且满足
[0019][0020]
那么非自回归生成就可以表示为:
[0021][0022]
特别地,若p=1,就要一次性生成所有字符。非自回归生成可以降低解码所需要的时间,但是它的问题是模型学习联合概率p({y}
i
∣{y}
<i
,x)更加困难,这就导致其结果通常
不如自回归方法。
[0023]
非自回归假设生成的目标句子的每个词都是完全独立的,但由于单词之间存在着依赖关系,所以自回归模型在翻译质量上与自回归模型有差距,主要表现为模型在长句上的翻译效果较差,译文中通常包含较多的重复词和漏译错误。因为不同语言有各自不同的语序,所以蒙汉两种语言在形式、结构、特征、语法和构成上有很大的差异,这种差异也导致了翻译效果较差。蒙古语作为黏着语的独特之处在于,它是通过在词根的前面、中间和后面添加其他构词成分来创建新的单词。蒙古语的这种特点致使蒙古语词汇形态变化复杂,因此,未登录词现象非常普遍。
[0024]
而且现有的自回归和非自回归模型通常使用交叉熵损失进行训练,交叉熵是一个严格的损失函数,预测不在位置的单词都会受到惩罚,即使是编辑距离很小的输出序列。自回归模型会避免这种惩罚,因为单词是根据句子生成的,而非自回归模型无法获知这个信息。


技术实现要素:

[0025]
综上,由于自回归翻译模型每一步都依赖于之前的结果,这会导致并行性的降低,为了克服该缺点,本发明的目的在于提供一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,为了缓解非自回归独立性假设过强的问题,提出了环顾生成,即在生成字符的时候对每个位置,首先预测它周围可能会得到的字符,给出了一个在当前位置生成的先验,减少了重复生成的可能,并且在运行解码器的每一层,对每个位置都让它去关注整个词表,得到可能生成的字符,在解码的时候,采用动态双向解码,而不是取每个位置概率最大的那个字符,从而得到句子级别的更好的采样结果。在训练过程中,使用对齐交叉熵作为非自回归模型的损失函数,其使用一个可微的动态规划分配损失,寻找目标和预测词条之间可能的最佳单调对齐。通过以上方法,在解码速度加快的同时,提升了翻译质量。
[0026]
为了实现上述目的,本发明采用的技术方案是:一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,基于编码器-目标长度预测器-解码器的翻译模型,采用改进的非自回归方法提升蒙汉神经机器翻译的速度和并行性,并在训练过程中使用对齐交叉熵作为损失函数,其中所述改进的非自回归方法为:在解码时,首先使用位置嵌入,然后通过环顾解码和动态双向解码进行解码,并且在解码器的每一层均使用词汇注意力,通过上述进行改进的非自回归方法提升了蒙汉神经机器翻译的速度和并行性。
[0027]
优选地,在翻译之前,使用字节编码技术(bpe)进行预处理以提高神经网络的准确率,所述字节编码技术是切分蒙语语料,即,对不同粒度的蒙语语料进行切割分离,以改善蒙语语料的稀疏性问题,同时找出预处理后的蒙语语料的语言特征,在训练的时融入预处理后的蒙语语料的语言特征。由于蒙语的平行语料库小,字节编码技术可以有效缓解未登录词问题。
[0028]
优选地,所述解码器共六层,分别为:masked self-attention、multi-head attention、feed forward和三层add&norm。
[0029]
优选地,所述编码器遵循transformer架构,给定源语言x={x1,x2,

,x
i
,

,x
n
},得到目标语言y={y1,y2,

,y
i
,

y
m
},n和m分别为源语言的长度和目标语言的长度,x
i
是第i个位置的源语言词条,y
i
是第i个位置的目标语言词条。
[0030]
所述环顾解码是在正式生成词条之前,对每个位置先预测其附近的其他位置可能会生成哪些字符,得到先验信息,然后结合该先验信息去生成当前位置的词条。
[0031]
优选地,对于第i个位置,解码器首先通过公式(1)和(2)预测其左侧词条y
i,l
和右侧词条y
i,r

[0032]
p(y
i,r
∣x)=softmax(w
r
(z
i
+p
i+1
)+b
r
)
ꢀꢀꢀ
(1)
[0033]
p(y
i,l
∣x)=softmax(w
l
(z
i
+p
i-1
)+b
l
)
ꢀꢀꢀ
(2)
[0034]
然后,使用两个门控c
i,l
和c
i,r
将先验信息输入到第i个位置,所述两个门控在预测y
i
时考虑保存或者遗忘相邻词条的信息,输入门决定了有多少信息需要保存,遗忘门决定了有多少信息需要丢弃,即公式(3)和(4):
[0035]
c
i,l
=σ(w
l
(w
i,l
+p
i-1
)+b
l
)
ꢀꢀꢀ
(3)
[0036]
c
i,r
=σ(w
r
(w
i,r
+p
i+1
)+b
r
)
ꢀꢀꢀ
(4)
[0037]
接着,按照公式(5)进行向量拼接:
[0038][0039]
其中,w
r
为第i个位置右边词条的特征向量,w
l
为第i个位置左边词条的特征向量,z
i
是第i个位置的特征向量,b
l
为第i个位置左边词条的偏置,b
r
为第i个位置右边词条的偏置,p
i+1
为第i+1个位置的位置编码,p
i-1
为第i-1个位置的位置编码,p(y
i,r
∣x)为解码时得到y
i,r
的概率,p(y
i,l
∣x)为解码时得到y
i,l
的概率;σ是sigmoid激活函数,w
i,l
和w
i,r
为关于x
i,l
和x
i,r
的词嵌入表示,x
i,l
和x
i,r
分别为输入x在第i个位置左边和右边的词条;为拼接后的第i个位置的特征向量,表示串联操作,

表示逐元素乘法;
[0040]
最后,结合上述先验信息,生成第i个位置的词条。
[0041]
优选地,所述位置嵌入为相对位置嵌入和绝对位置嵌入,在解码时同时使用,相对位置嵌入针对自注意力机制中键和查询之间的不同偏移量学习不同的嵌入方式,绝对位置嵌入对第i个位置使用可学习的位置嵌入p
i

[0042]
优选地,所述词汇注意力是将自注意力机制扩展到期望生成的字符上,以实现任意距离字符间的交互,所述解码器的输入是v
(0)
,第i层产生的特征是v
(i)
,使解码器中的特征向量去关注词条的表示矩阵w,根据公式(6)计算第i层第j个位置上由词汇注意力加权得到的词汇表示
[0043][0044]
为第i层第j个位置上的特征向量,对所有词条进行该计算,得到词汇关注特征向量a
(i)
,然后将词汇关注特征向量a
(i)
与原来的解码器特征向量进行串联操作,拼接起来得到一组特征向量[v
(i)
;a
(i)
],将[v
(i)
;a
(i)
]送到下一层得到v
(i+1)

[0045]
优选地,所述动态双向解码是在每一轮中,对上一轮解码的词条左右的词重新预测,迭代r次得到最终的句子y
(r)
。基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法成功地对词条及其在解码序列中的顺序进行建模,从而大大减少了多模态问题的负面影响。
[0046]
优选地,所述目标长度预测器中,预测目标长度代表了解码器对输出的规划,在有
目标长度预测期的基础上进行解码可以得到更准确的目标语言y。
[0047]
与现有技术相比,本发明的有益效果是:
[0048]
1、本发明采用基于环顾解码和词汇关注的非自回归蒙汉神经机器翻译模型,但不再使用rnn或是cnn作为序列建模机制,而是使用了词汇注意力机制,从而更容易捕获“长距离依赖信息”。
[0049]
2、本发明采用非自回归模型打破了生成时的串行顺序,一次能够解码出整个目标句子,从而解决自回归模型所带来的问题,和自回归相比,非自回归生成就是一次性生成多个字符,非自回归生成可以大大降低解码所需要的时间。
[0050]
3、蒙古语属于黏着语,有限的词干和词缀有很多种结合的方法。本发明发明通过使用环顾生成,减少重复生成的可能。
[0051]
4、蒙汉结构和语法存在差异,蒙语大量词语调序问题,导致词语的位置频繁改变,本发明通过使用词汇注意力,在运行解码器的每一层,对每个位置都让它去关注整个词表,得到可能生成的字符,通过词汇注意力,解码器可以使得各个位置预期产生的字符交互,从而降低重复生成的可能,同时,这个方法也不需要引入额外的参数。
[0052]
5、在解码时,采用动态双向解码,从而得到蒙语句子级别的更好的采样结果。
[0053]
6、本发明使用字节编码技术(bpe)。蒙语可用于实验的平行语料库小,字节编码技术可以有效缓解未登录词问题。
[0054]
7、本发明用对齐交叉熵作为非自回归模型的损失函数,减轻了词序错误的惩罚,减少了多模态问题,并且在不修改模型或解码算法的情况下显著提高了性能。
附图说明
[0055]
图1是自回归生成的示例图。
[0056]
图2是非自回归生成的示例图。
[0057]
图3是本发明基于环顾解码和词汇关注的非自回归蒙汉神经机器翻译模型框架图。
[0058]
图4是模型结构图。
[0059]
图5是环顾解码的示例图。
具体实施方式
[0060]
下面结合附图和实施例详细说明本发明的实施方式。
[0061]
参考图3,本发明一种基于环顾解码和词汇注意力的非自回归蒙汉机器翻译方法,基于编码器-目标长度预测器-解码器的翻译模型,采用改进的非自回归方法提升蒙汉神经机器翻译的速度和并行性,并在训练过程中使用对齐交叉熵作为损失函数。改进的非自回归方法具体为:在解码时首先使用位置嵌入,然后通过环顾解码和动态双向解码进行解码,而且在运行解码器的每一层(解码器共六层,分别为:masked self-attention、multi-head attention、feed forward和三层add&norm),均使用了词汇注意力。通过以上方法,在蒙汉翻译过程中,加快解码速度的同时,也提升了翻译质量。
[0062]
本发明的具体流程中,在翻译之前,需先进行语料预处理以提高神经网络的准确率。
[0063]
蒙文语料预处理:蒙古语属于黏着语,有限的词干和词缀有很多种组合的办法,为了提高蒙汉翻译的准确性,需要进行分词预处理,本发明使用字节编码技术(bpe),通过切分蒙语语料,即,对不同粒度的蒙语语料进行切割分离,以改善蒙语语料的稀疏性问题,同时找出预处理后的蒙语语料的语言特征,在训练的时融入预处理后的蒙语语料的语言特征。bpe算法的主要目的是压缩数据,bpe算法被描述为一个迭代过程,用不出现在该字符中的字符替换字符串中最频繁的字符。由于蒙语的平行语料库小,bpe算法预处理蒙古语语料库仅分割语料库中的不常用词,从而增加不常用词的共现次数,这减轻了蒙汉翻译中未登录词的问题。
[0064]
汉语语料预处理:本发明利用jieba对中文进行分词,因为模型训练需要对汉语语料库进行预处理。
[0065]
本发明所述的环顾解码,是在正式生成词条之前,对每个位置先预测其附近的其他位置可能会生成哪些字符,得到先验信息,然后结合该先验信息去生成当前位置的词条。
[0066]
本发明编码器遵循transformer架构,由multi-head attention、add&norm、feed forward、add&norm构成,给定源语言x={x1,x2,

,x
i
,

,x
n
},得到目标语言y={y1,y2,

,y
i
,

y
m
},n和m分别为源语言的长度和目标语言的长度,x
i
是第i个位置的源语言词条,y
i
是第i个位置的目标语言词条。
[0067]
输入经过编码层之后,分别生成不同的语义编码,传送给右侧的目标长度预测器,预测的长度是在解码过程中通过预测生成eos符号隐式定义的,但在非自回归训练方式中目标序列长度需要事先确定,然后再并行地生成其中每一个单词,非自回归训练方式在解码时通过一个隐变量来生成每一时刻的结果,使得整个解码过程独立并行,隐变量是通过复制源序列来确定的,本发明定义一个fertility predictor来预测源序列中每个词在复制过程中被复制多少次,将源序列中每个词的表示映射到一个离散空间中,得到每个词将被复制的次数,将所有单词的复制次数相加即得到预测的目标长度。fertility predictor把无监督训练问题减少到两个有监督训练,减少了模式空间,并且fertility predictor提供了一种强大的方式来调节解码过程,允许模型通过在fertility predictor空间上进行采样来生成不同的翻译和完整的对齐统计。
[0068]
解码器由masked self-attention、multi-head attention、feed forward和三层add&norm构成,在解码时使用环顾解码、位置嵌入、词汇注意力和动态双向解码。
[0069]
解码时首先要解决的问题是解决位置词条不匹配。由于最终输出是在最后一个解码器层进行解码的,因此本发明提出了一种环顾解码方案,其中对于每个位置,要求解码器在生成词条之前首先其左侧和右侧预测词条,本发明一个实施例的模型结构如图4所示,源语言的词条“猫”对应的fertility的值是1,因此词条“猫”将会作为输入出现在解码器端一次,生成fertility值以后,解码器端的输入和句子的长度也就确定了,即所有fertility值的总和,在训练时,使用外部的对齐工具(fast align)来生成fertility信息,在有目标长度预测期的基础上进行解码可以得到更准确的目标语言相应的环顾解码如图5所示,对第一个位置,通过环顾解码得到的预测是“[bos]”和“很”,对第二个位置,通过环顾解码得到的预测是“猫”和“可爱”,对第三个位置,通过环顾解码得到的预测是“猫”和“可爱”“很”和“[eos]”,然后通过合并两侧词条来解码当前位置的词条,环顾解码会阻止预测与其相邻词条相同的词条,就得到了“猫很可爱”,因此对于词条位置关系至关重
要。
[0070]
在解码时正式生成词条之前,对每个位置先预测它附近的其他位置“可能”会生成哪些字符,然后再结合这种先验信息去生成自己位置的字符。对于对于第i个位置,解码器首先通过公式(1)和(2),预测其左侧词条y
i,l
和右侧词条y
i,r

[0071]
p(y
i,r
∣x)=softmax(w
r
(z
i
+p
i+1
)+b
r
)
ꢀꢀꢀ
(1)
[0072]
p(y
i,l
∣x)=softmax(w
l
(z
i
+p
i-1
)+b
l
)
ꢀꢀꢀ
(2)
[0073]
然后,使用两个门控c
i,l
和c
i,r
将先验信息输入到第i个位置,这两个门控在预测y
i
时应考虑相邻词条的哪些信息,输入门决定了有多少信息需要保存,遗忘门决定了有多少信息需要丢弃,即公式(3)和(4):
[0074]
c
i,l
=σ(w
l
(w
i,l
+p
i-1
)+b
l
)
ꢀꢀꢀ
(3)
[0075]
c
i,r
=σ(w
r
(w
i,r
+p
i+1
)+b
r
)
ꢀꢀꢀ
(4)
[0076]
接着,按照公式(5)进行向量拼接:
[0077][0078]
最后,结合上述先验信息,生成第i个位置的词条。
[0079]
其中,w
r
为第i个位置右边词条的特征向量,w
l
为第i个位置左边词条的特征向量,z
i
是第i个位置的特征向量,b
l
为第i个位置左边词条的偏置,b
r
为第i个位置右边词条的偏置,p
i+1
为第i+1个位置的位置编码,p
i-1
为第i-1个位置的位置编码,p(y
i,r
∣x)为解码时得到y
i,r
的概率,p(y
i,l
∣x)为解码时得到y
i,l
的概率;σ是sigmoid激活函数,w
i,l
和w
i,r
为关于x
i,l
和x
i,r
的词嵌入表示,x
i,l
和x
i,r
分别为输入x在第i个位置左边和右边的词条;为拼接后的第i个位置的特征向量,表示串联操作,

表示逐元素乘法;
[0080]
基于环顾解码生成的句子不一定就是最终要得到的句子,这是因为只选择了一种可能,只使用当前位置自身产生的字符,这被称为greedy解码。而实际上,每个位置其实有三个候选项:当前位置解码生成的、左边位置提前预测的、和右边位置提前预测的,在实际生成句子的时候,就可以在这几个候选项中选择。一个简单的方法是,考虑所有可能的组合,然后选择概率最大的那一个,这被称为link-rescore。然而link-rescore的复杂度较高,本发明转而考虑改进greedy,本发明对每一轮解码中概率比较低的的词条重新预测。最简单的方法就是在每一轮中,对上一轮解码的词条左右的词重新预测,迭代r次得到最终的句子y
(r)

[0081]
动态双向解码策略,可以高效地提高翻译质量,从而进一步提高翻译模型的性能。所提出的框架成功地对词条及其在解码序列中的顺序进行建模,从而大大减少了多模态问题的负面影响。
[0082]
vanilla transformer中的绝对位置嵌入可能会导致生成重复标记或丢失标记,因为这些位置未明确建模。因此,本发明在非自回归解码器中同时使用相对和绝对位置嵌入。相对位置嵌入针对自注意力机制中“键”和“查询”之间的不同偏移量学习不同的嵌入方式,绝对位置嵌入对第i个位置使用可学习的位置嵌入p
i
。上述位置嵌入的原则是如果两个词条的位置很大,则这两个词条之间准确的相对距离就没有意义。使边的信息传播到子层的公式为:
[0083][0084]
z
i
是线性变换输入元素x的加权和,α
ij
是权重系数,x
j
是第j个位置的输入,w
v
是自注意力机制中“值”的参数矩阵,是自注意力机制中“值”的权重系数,同时也要在确定兼容性时考虑边,边e
ij
的计算公式为:
[0085][0086]
x
i
是第i个位置的输入,w
q
是自注意力机制中“查询”的参数矩阵,w
k
是自注意力机制中“键”的参数矩阵,是自注意力机制中“键”的权重系数。
[0087]
尽管上述位置嵌入策略已集成到解码器中,但它们并未完全解决解码过程中丢失词条和重复词条的问题。这是因为:位置嵌入仅关心“位置”本身,而不关心“词条”本身;位置和词条之间的关系没有明确记录。在环顾解码中,每个字符只能预测它左右可能的字符,无法预测远处的字符,通过扩大距离预测远处字符会导致计算的指数增长。为了解决这个问题,仿照了自注意力机制。自注意力机制可以实现任意距离字符间的交互,把这个思想扩展到期望生成的字符上,同样可以实现,这种方法为词汇注意力。引入词汇注意力后,其中中间解码器层中的每个位置都关注词汇中的所有标记,以猜测哪些标记“已准备好”生成,然后汇总先验信息以在解码过程中对远处字符进行预测。
[0088]
词汇注意力是将自注意力机制扩展到期望生成的字符上,以实现任意距离字符间的交互,解码器的输入是v
(0)
,第i层产生的特征是v
(i)
,使解码器中的特征向量去关注词条的表示矩阵w,根据公式(6)计算第i层第j个位置上由词汇注意力加权得到的词汇表示
[0089][0090]
为第i层第j个位置上的特征向量,对所有词条进行该操作,得到词汇关注特征向量a
(i)
,然后将词汇关注特征向量a
(i)
和原来的解码器特征向量进行串联操作(即),拼接起来得到一组特征向量[v
(i)
;a
(i)
],将[v
(i)
;a
(i)
]送到下一层得到v
(i+1)
。通过词汇注意力,解码器可以使得各个位置预期产生的字符交互,从而降低重复生成的可能,同时这个方法不需要引入额外的参数。
[0091]
目标长度预测器中,预测目标长度代表了解码器对输出的规划,在有目标长度预测期的基础上进行解码可以得到更准确的目标语言y。
[0092]
本发明可成功地对词条及其在解码序列中的顺序进行建模,从而大大减少了多模态问题的负面影响。本发明在非自回归机器翻译中同时添加环顾解码、词汇注意力、位置嵌入和动态双向解码的方法,环顾解码主要解决非自回归独立性假设过强的问题,可是在环顾生成中,每个字符只能预测它左右可能的字符,无法预测远处的字符,通过扩大距离预测
远处字符会导致计算的指数增长,词汇注意力实现了任意距离词条间的交互,环顾解码和词汇注意力的结合提高了翻译质量;而且基于环顾生成的句子不一定就是最终要得到的句子,这是因为只选择了一种可能,动态双向解码迭代多次进行解码,不是取每个位置概率最大的那个字符,从而得到句子级别的更好的采样结果,动态双向解码对环顾解码存在的问题进行了改进;相对位置嵌入和绝对位置嵌入,更好的利用了词汇注意力机制中“键”和“查询”,根据“键”和“查询”之间的不同偏移量学习不同的嵌入方式;在上述方法改进了非自回归的翻译质量的基础上,训练时使用对齐交叉熵作为损失函数,减轻了词序错误的惩罚,并且在不修改模型和解码算法的情况下显著提高了性能。
[0093]
训练:在训练时,使用了对齐交叉熵作为非自回归模型的损失函数,其使用一个可微的动态规划分配损失,寻找目标和预测词条之间可能的最佳单调对齐,减轻了词序错误的惩罚,减少了多模态性,并且在不修改模型或解码算法的情况下显著提高了性能。通过忽略绝对位置、关注相对顺序和词法匹配,为非自回归模型提供更准确的训练。
[0094]
设y为含n个词条的目标序列,目标序列表示为y1,

,y
n
,p为含m个词条的预测序列,预测序列表示为p1,

,p
m
,目标是在y和p之间找到一个单调对齐以最小化交叉熵损失,从而将惩罚集中在词法错误上,而不是位置错误上。
[0095]
对齐函数α将目标位置映射到预测位置,即α:{1,

,n}

{1,

,m},假设这个对齐是单调的,当且仅当i≤j和α(i)≤α(j),定义对齐交叉熵损失函数为:
[0096][0097]
损失函数的第一项是y和p之间对齐部分的交叉熵,第二项是对未对齐部分预测的惩罚。ε是词汇表中特殊概率分布的词条,但不会出现在最终的输出字符串中。最后的对齐交叉熵损失是最小化所有可能的单调对齐的条件损失:
[0098][0099]
通过上述训练后,得到最优的模型参数。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1