基于强化学习策略的翻译模型构建方法和存储介质与流程

文档序号：35490288发布日期：2023-09-17 01:02阅读：来源：国知局

技术特征：

1.一种基于强化学习策略的翻译模型构建方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于强化学习策略的翻译模型构建方法，其特征在于：所述正样本包括垂直领域的平行数据；所述负样本包括使用通用领域翻译模型构建的翻译对、基于黄金平行语料进行术语替代生成的数据和基于伪平行语料进行术语替代生成的数据。

3.如权利要求1所述的基于强化学习策略的翻译模型构建方法，其特征在于：所述反馈模型通过语言模型层和线性打分层构成，所述语言模型层为预训练的m-bert模型。

4.如权利要求3所述的基于强化学习策略的翻译模型构建方法，其特征在于：基于排序样本数据对反馈模型进行训练，使反馈模型对正样本的打分高于对负样本的打分具体为：排序样本数据中的正样本和负样本均包括源端和目标端，分别将正样本与负样本的源端和目标端进行拼接得到翻译对，并将翻译对输入反馈模型，训练反馈模型对正样本的打分高于对负样本的打分。

5.如权利要求4所述的基于强化学习策略的翻译模型构建方法，其特征在于：训练反馈模型的损失函数为：

6.如权利要求1所述的基于强化学习策略的翻译模型构建方法，其特征在于：根据反馈模型对生成的翻译样本的打分，基于强化学习策略对基础翻译模型进行微调迭代，具体包括以下步骤：

7.如权利要求6所述的基于强化学习策略的翻译模型构建方法，其特征在于：预测初始句子生成目标句的概率分布并计算策略目标，具体计算公式为：

8.如权利要求6所述的基于强化学习策略的翻译模型构建方法，其特征在于：预测初始句子生成目标句的分数并计算价值损失，具体计算公式为：

9.如权利要求1所述的基于强化学习策略的翻译模型构建方法，其特征在于：所述预设条件为基础翻译模型收敛和/或达到最大迭代次数。

10.一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，其特征在于：计算机程序被执行时实现如权利要求1-9任一项所述的基于强化学习策略的翻译模型构建方法。

技术总结
本发明涉及自然语言处理技术领域，特别涉及一种基于强化学习策略的翻译模型构建方法和存储介质，该基于强化学习策略的翻译模型构建方法包括以下步骤：获取翻译样本，翻译样本包括正样本和负样本，并基于正样本和负样本构建排序样本数据；基于排序样本数据对反馈模型进行训练，使反馈模型对正样本的打分高于对负样本的打分；根据反馈模型对生成的翻译样本的打分，基于强化学习策略对基础翻译模型进行微调迭代；判断对基础翻译模型进行微调迭代是否达到预设条件，若是，生成强化翻译模型；基于强化学习策略通过反馈模型打分，并引入术语翻译准确率信息，强化术语翻译准确率较高和领域风格较强的翻译，使模型生成更符合垂直领域特点和风格句子。

技术研发人员：刘明童,张红晓,韦松伟,周明
受保护的技术使用者：北京澜舟科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2