1.一种基于强化学习策略的翻译模型构建方法,其特征在于:包括以下步骤:
2.如权利要求1所述的基于强化学习策略的翻译模型构建方法,其特征在于:所述正样本包括垂直领域的平行数据;所述负样本包括使用通用领域翻译模型构建的翻译对、基于黄金平行语料进行术语替代生成的数据和基于伪平行语料进行术语替代生成的数据。
3.如权利要求1所述的基于强化学习策略的翻译模型构建方法,其特征在于:所述反馈模型通过语言模型层和线性打分层构成,所述语言模型层为预训练的m-bert模型。
4.如权利要求3所述的基于强化学习策略的翻译模型构建方法,其特征在于:基于排序样本数据对反馈模型进行训练,使反馈模型对正样本的打分高于对负样本的打分具体为:排序样本数据中的正样本和负样本均包括源端和目标端,分别将正样本与负样本的源端和目标端进行拼接得到翻译对,并将翻译对输入反馈模型,训练反馈模型对正样本的打分高于对负样本的打分。
5.如权利要求4所述的基于强化学习策略的翻译模型构建方法,其特征在于:训练反馈模型的损失函数为:
6.如权利要求1所述的基于强化学习策略的翻译模型构建方法,其特征在于:根据反馈模型对生成的翻译样本的打分,基于强化学习策略对基础翻译模型进行微调迭代,具体包括以下步骤:
7.如权利要求6所述的基于强化学习策略的翻译模型构建方法,其特征在于:预测初始句子生成目标句的概率分布并计算策略目标,具体计算公式为:
8.如权利要求6所述的基于强化学习策略的翻译模型构建方法,其特征在于:预测初始句子生成目标句的分数并计算价值损失,具体计算公式为:
9.如权利要求1所述的基于强化学习策略的翻译模型构建方法,其特征在于:所述预设条件为基础翻译模型收敛和/或达到最大迭代次数。
10.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于:计算机程序被执行时实现如权利要求1-9任一项所述的基于强化学习策略的翻译模型构建方法。