基于多策略原型生成的低资源神经机器翻译方法

文档序号：30582030发布日期：2022-06-29 12:49阅读：来源：国知局

技术特征：
1.基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述方法的具体步骤如下：step1、语料预处理：预处理不同规模的平行训练语料、验证语料和测试语料，用于模型训练、参数调优和效果测试；并构建多语言全局替换词典和关键词词典，用于伪原型生成；step2、原型生成：利用基于多种策略混合的原型生成方法进行原型生成，以保证原型序列的可用性；该步骤的具体思路为：首先结合使用模糊匹配和分布式表示匹配进行原型检索，如未检索到原型，则利用词替换操作对输入句子中的关键词进行替换，得到伪原型序列；step3、融入原型序列的翻译模型构建：改进传统基于注意力机制的神经机器翻译模型的编解码器结构，以更好的融入原型序列，使用步骤step1，step2的语料作为模型输入，产生最终译文。2.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述step1的具体步骤为：step1.1、使用机器翻译领域的通用数据集iwslt15进行模型训练，翻译任务为英-越、英-中和英-德；验证和测试方面，选择tst2012作为验证集进行参数优化和模型选择，选择tst2013作为测试集进行测试评估；step1.2、使用panlex、维基百科、实验室自建的英汉-东南亚语词典以及谷歌翻译接口来构建英-越-中-德全局替换词典；step1.3、在step1.2的基础上，通过标记筛选方式得到关键词典，筛选过程中保留全部实体；为避免替换过于集中于某些热点名词，对名词性词汇于语料中检索并按出现频率进行倒排。3.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述step2的具体步骤为：step2.1、结合使用模糊匹配和分布式表示匹配进行原型检索；具体实现如下：翻译记忆库是由l对平行句组成的集合{(s
l
，t
l
)：l＝1，...，l}，其中s
l
为源句，t
l
为目标句；对给定的输入句子x，首先使用关键词匹配于翻译记忆库中进行检索；采用模糊匹配作为关键词匹配方法，其定义为：其中ed(x，s
i
)是x，s
i
间的编辑距离，|x|为x的句长；与基于关键词的匹配方法不同，分布式表示匹配根据句子向量表征之间的距离进行检索，某种程度上是利用语义信息进行相似性检索的手段，也因此提供了与关键词匹配不同的检索视角；基于余弦相似度的分布式表示匹配定义为：其中h
x
和分别为x和s
i
的向量表征，||h
x
||为向量h
x
的度量；为实现快速计算，首先使用多语言预训练模型mbert得到句子x和s
i
的向量表征，随后依据表征，使用faiss工具进行相似性匹配；当模糊匹配能够得到最优匹配源句s
best
时，利用分布式表示匹配得到top-k个匹配结果
的集合s
′
＝{s1，s2，...，s
k
}，如s
best
∈s
′
，则选取s
best
对应的目标端句子t
best
作为原型序列；当模糊匹配未能检索到匹配源句或时，则通过分布式表示匹配检索出最优匹配源句s
best
；step2.2、若step2.1未检索到原型，则对输入的句子进行关键词替换，生成伪原型，称之为基于词替换的伪原型生成；具体包含以下两种替换策略；全局替换：当输入句子未能检索到匹配时，基于最大化原则，利用双语词典对输入句子中的词进行尽力替换，替换后的句子被称为伪原型序列；关键词替换：从双语词典中抽取重要名词和实体构建关键词词典；当输入句子未能检索到匹配时，利用该词典对输入句子中的关键词进行替换，生成伪原型序列，替换次数上限小于设定的阈值；期望在共享词表的基础上，该混合了源端和重要目标端词汇的伪原型序列能够为译文的生成提供指导。4.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述step3中包括：step3.1、编码端采用双编码器结构，能够同时接收句子输入和原型序列输入，然后将输入编码为相应的隐状态表示；句子编码器为标准的transformer编码器，由多层堆叠而成；其中每层又由2个子层构成：多头自注意力层和前馈神经网络层，均使用残差连接和层正则化机制；给定输入句子x＝(x1，x2，...，x
m
)，句子编码器将其编码为相应的隐状态序列h
x
＝(h
x1
，h
x2
，...，h
xm
)，其中h
xi
为x
i
对应的隐状态，原型编码器在神经网络结构上与句子编码器一致，给定原型序列t＝(t1，t2，...，t
n
)，原型编码器将其编码为相应的隐状态序列h
t
＝(h
t1
，h
t2
，...，h
tn
)，其中h
ti
为t
i
对应的隐状态。5.根据权利要求1所述的基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述step3中包括：解码端融入门控机制，利用神经网络自学习能力实现句子信息和原型信息间的比例优化，控制解码过程中的信息流动；改进后的解码器由三个子层构成：(1)自注意力层；(2)改进的编解码注意力层；(3)全连接前馈网络层；其中，改进的编解码注意力层由句子编解码注意力模块和原型编解码注意力模块构成；接收到i时刻多头自注意力层的输出s
self
和句子编码器的输出h
x
时，句子编解码注意力模块进行注意力计算。6.根据权利要求5所述的基于多策略原型生成的低资源神经机器翻译方法，其特征在于：所述step3中，句子编解码注意力模块进行注意力计算包括：s
x
＝multiheadatt(s
self
，h
x
，h
x
)其中multiheadatt(
·
)为基于多头的注意力计算，与此类似，原型编解码注意力的计算为：s
t
＝multiheadatt(s
self
，h
t
，h
t
)随后，句子编解码注意力输出s
x
和原型编解码注意力输出s
t
被连接，用于计算比例变量α：α＝sigmoid(w
α
[s
x
；s
t
]+b
α
)其中w
α
和b
α
为可训练参数，α随后被用于计算编解码注意力层的最终输出，计算公式为：s
enc_dec
＝α*s
x
+(1-α)*s
t
进而s
enc_dec
作为输入被填充到全连接前馈网络中：
s
ffn
＝f(s
enc_dec
)其中f(x)的定义为：f(x)＝max(0，xw1+b1)w2+b2，其中w1，w2，b1和b2均为参数，最终i时刻的译文yi计算如下：p(y
i
|y
＜i
；x；t，θ)＝softmax(σ(s
fin
))其中t为原型序列，σ(
·
)为线性变换函数。

技术总结
本发明涉及基于多策略原型生成的低资源神经机器翻译方法，属于自然语言处理技术领域。本发明包括步骤：首先结合利用关键词匹配和分布式表示匹配检索原型序列，如未能获得匹配，则利用伪原型生成方法产生可用的伪原型序列。其次，为有效地利用原型序列，对传统的编码器-解码器框架进行了改进。编码端使用额外的编码器接收原型序列输入；解码端在利用门控机制控制信息流动的同时，使用改进的损失函数减少低质量原型序列对模型的影响。本发明提出的方法能够基于少量平行语料有效地提升检索结果的数量和质量，适用于低资源环境下及相似性语言环境下的神经机器翻译。语言环境下的神经机器翻译。语言环境下的神经机器翻译。

技术研发人员：余正涛朱恩昌于志强
受保护的技术使用者：昆明理工大学
技术研发日：2022.03.24
技术公布日：2022/6/28

完整全部详细技术资料下载

当前第2页1 2