一种基于离散傅里叶变换与跳过子层的神经机器翻译方法

文档序号:35134114发布日期:2023-08-16 16:28阅读:25来源:国知局
一种基于离散傅里叶变换与跳过子层的神经机器翻译方法

本发明属于自然语言处理,具体涉及一种基于离散傅里叶变换与跳过子层的神经机器翻译方法。


背景技术:

1、在神经机器翻译领域,研究人员试图探索更深入的transformer模型,通过创建从低级编码器到高级编码器的直接传递和适当的初始化策略来改善翻译性能,一些研究者尤其对transformer模型的自注意力子层进行了更深入探讨,对于中文语句“时间几乎会愈合所有伤口。”,transformer模型基于注意力机制,获取每个编码器隐藏状态的分数,接着通过归一化处理,最后总结对齐向量作为上下文向量送到解码器,生成翻译后的英文语句“time would heal almost all wounds.”。尽管在机器翻译任务中取得了可喜的进步,但翻译性能和速度上仍存在问题。由数十个编码器层堆叠的deep transformer总是有大量的参数,这些参数在计算上非常昂贵,而且内存密集,影响翻译速度。


技术实现思路

1、本发明的目的在于,提供一种神经机器翻译方法,其对中英文源句进行相对位置嵌入后,利用了离散傅里叶变换和跳过子层方法,在翻译过程中提供了词的准确位置信息和语义信息。

2、为实现上述目的,本申请提出一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,包括:

3、构建相对位置嵌入层,将位置编码嵌入到文本序列的词向量中;

4、利用离散傅里叶变换子层替代transformer模型编码层多头注意力机制中的自注意力子层,用来训练语料库中文本的特征向量;

5、在transformer模型编码层中引入跳过子层方法,使编码层输出结果、经解码层训练后的输出结果一起经线性层和softmax层处理,得到中英文文本相关的语义信息。

6、进一步的,相对位置编码公式如下所示:

7、

8、其中,表示语料库中第i个单词和第j个单词之间相对位置权重的键向量k和值向量v;表示单词间相对位置权重的可学习参数;clip(x,k)表示裁剪函数,用于对单词相对位置差进行截断,以限制相对位置差的取值范围,避免其过大或过小,x表示输入的单词,k表示截断区间的范围。

9、进一步的,所述离散傅里叶变换子层将二维离散傅里叶变换应用于词嵌入中,所述离散傅里叶变换子层包括一个沿序列的一维离散傅里叶变换维度fseq和一个沿隐藏的一维离散傅里叶变换维度fh,该层具体表达式为

10、进一步的,将经离散傅里叶变换子层后获得的变换系数矩阵输入到n层transformer模型编码层中进行训练,使其集中分布在变换系数短阵编码层中心附近。

11、进一步的,通过傅里叶变换方法得到不同单词之间的相对位置,其公式如下:

12、f(x)=w0sin(k0·x+d0)+w1sin(k1·x+d1)+…+wnsin(kn·x+dn)

13、其中,ki是根据输入中文或英文序列长度、嵌入维度计算得到的一组固定值,di是相位偏移值,在不同的位置上获得不同的单词相对位置嵌入;wi表示第i个正弦函数的权重。

14、进一步的,用跳过子层方法对编码层的训练数据进行正则化处理,再通过解码层的训练得到所需tf-ssl翻译模型。

15、更进一步的,所述跳过子层方法ssl的作用为从整个transformer模型中采样子网络:对于具有2n个子层的transformer模型,它编码22n个子网络,即每个子层省略的配置表示一个子网络;将所有子网络的行为看作集成模型。

16、更进一步的,对每个子网络的输出进行正则化处理:xl+1=(1-pl)·f(ln(xl))+xl,1≤l≤2l,其中xl表示输入文本的特征向量,xl+1表示通过残差连接和层归一化得到的输出翻译结果向量,pl表示省略第l个离散傅里叶变换子层和前馈神经网络层的概率,1-pl用于缩小离散傅里叶变换子层和前馈神经网络层的输出,ln表示预层正则化,φ是一个可调整的参数,用于控制省略离散傅里叶变换子层和前馈神经网络层的速率;2l是离散傅里叶变换子层和前馈神经网络层总层数;经处理后得到tf-ssl翻译模型,训练该模型至收敛;然后对来自22n个子网络的预测进行平均,得到最终翻译结果。

17、本发明采用的以上技术方案,与现有技术相比,具有的优点是:本发明首先使用基于相对位置编码的词嵌入机制,来提高模型对词位置信息的识别能力。然后,用离散傅里叶变换子层替换多头自注意力机制的子层,使变换系数矩阵频谱能量集中分布在变换系数短阵的中心附近,从而显著提升翻译效率。最后,通过跳过子层方法,随机省略子层以将扰动引入到训练中,对子层施加更大的约束效果,从而提高机器翻译的准确度和速度。



技术特征:

1.一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,包括:

2.根据权利要求1所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,相对位置编码公式如下所示:

3.根据权利要求1所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,所述离散傅里叶变换子层将二维离散傅里叶变换应用于词嵌入中,所述离散傅里叶变换子层包括一个沿序列的一维离散傅里叶变换维度fseq和一个沿隐藏的一维离散傅里叶变换维度fh,该层具体表达式为

4.根据权利要求3所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,将经离散傅里叶变换子层后获得的变换系数矩阵输入到n层transformer模型编码层中进行训练,使其集中分布在变换系数短阵编码层中心附近。

5.根据权利要求4所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,通过傅里叶变换方法得到不同单词之间的相对位置,其公式如下:

6.根据权利要求1所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,用跳过子层方法对编码层的训练数据进行正则化处理,再通过解码层的训练得到所需tf-ssl翻译模型。

7.根据权利要求6所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,所述跳过子层方法ssl的作用为从整个transformer模型中采样子网络:对于具有2n个子层的transformer模型,它编码22n个子网络,即每个子层省略的配置表示一个子网络;将所有子网络的行为看作集成模型。

8.根据权利要求7所述一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,其特征在于,对每个子网络的输出进行正则化处理:xl+1=(1-pl)·f(ln(xl))+xl,其中xl表示输入文本的特征向量,xl+1表示通过残差连接和层归一化得到的输出翻译结果向量,pl表示省略第l个离散傅里叶变换子层和前馈神经网络层的概率,1-pl用于缩小离散傅里叶变换子层和前馈神经网络层的输出,ln表示预层正则化,φ是一个可调整的参数,用于控制省略离散傅里叶变换子层和前馈神经网络层的速率;2l是离散傅里叶变换子层和前馈神经网络层总层数;经处理后得到tf-ssl翻译模型,训练该模型至收敛;然后对来自22n个子网络的预测进行平均,得到最终翻译结果。


技术总结
本发明公开了一种基于离散傅里叶变换与跳过子层的神经机器翻译方法,包括:构建相对位置嵌入层,将位置编码嵌入到文本序列的词向量中,来提高模型对词位置信息的识别能力;利用离散傅里叶变换子层替代Transformer模型编码层多头注意力机制中的自注意力子层,用来训练语料库中文本的特征向量,使变换系数矩阵频谱能量集中分布在变换系数短阵的中心附近,从而显著提升翻译效率;在Transformer模型编码层中引入跳过子层方法以防止过度参数化的问题,使编码层输出结果、经解码层训练后的输出结果一起经线性层和softmax层处理,最后输出得到中英文文本相关的语义信息。本发明能对文本做出了更精确高效的翻译,提高了机器翻译的准确度和速度。

技术研发人员:钟兆前,车超,李雨辰,陈姝旭
受保护的技术使用者:大连大学
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1