模型训练方法、装置、电子设备及存储介质与流程

文档序号：42646451发布日期：2025-08-05 18:31阅读：22来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开涉及计算机，特别是涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能技术的快速发展，各类深度学习模型被广泛应用于自然语言处理、图像识别以及语音处理等领域。

2、相关技术中，模型训练通常采用单一的训练阶段，使得模型泛化性能不足，导致模型在处理不同难度的任务时容易过拟合，尤其在面对难度较高的任务时，推理准确性较低。

技术实现思路

1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本公开实施例提供了一种模型训练方法、装置、电子设备及存储介质，能够提升模型推理准确性。

3、一方面，本公开实施例提供了一种模型训练方法，包括：

4、获取多个训练阶段的样本数据集，多个所述训练阶段按照所述样本数据集的训练难度由易到难进行排序；

5、在各个所述训练阶段，基于所述样本数据集对初始模型进行训练，得到训练模型；将所述样本数据集输入至所述训练模型进行多轮推理，得到所述训练模型在每轮推理中输出的多个推理结果，基于各个所述推理结果的正确性，在多个所述推理结果中确定正负样本，基于所述正负样本对所述训练模型进行优化；对优化后的所述训练模型进行强化学习，得到目标模型，所述目标模型用于作为下一个所述训练阶段的所述初始模型，直至结束多个所述训练阶段。

6、另一方面，本公开实施例还提供了一种模型训练装置，包括：

7、获取模块，用于获取多个训练阶段的样本数据集，多个所述训练阶段按照所述样本数据集的训练难度由易到难进行排序；

8、训练模块，用于在各个所述训练阶段，基于所述样本数据集对初始模型进行训练，得到训练模型；将所述样本数据集输入至所述训练模型进行多轮推理，得到所述训练模型在每轮推理中输出的多个推理结果，基于各个所述推理结果的正确性，在多个所述推理结果中确定正负样本，基于所述正负样本对所述训练模型进行优化；对优化后的所述训练模型进行强化学习，得到目标模型，所述目标模型用于作为下一个所述训练阶段的所述初始模型，直至结束多个所述训练阶段。

9、进一步，所述样本数据集包括候选样本数据以及所述候选样本数据的标签，在除了首个所述训练阶段以外的其他所述训练阶段，上述训练模块具体用于：

10、将当前所述训练阶段对应的所述候选样本数据输入至所述初始模型进行推理，得到输出结果；

11、根据所述输出结果与当前所述训练阶段对应的所述标签之间的差异，确定阶段损失；

12、根据上一个所述训练阶段对应的所述标签，确定所述初始模型在上一个所述训练阶段学到的知识，将所述知识、当前所述训练阶段对应的所述候选样本数据以及所述输出结果输入至因果影响预测函数进行运算，得到因果影响正则化项；

13、将所述阶段损失和所述因果影响正则化项进行加权求和，得到目标损失，基于所述目标损失对所述初始模型进行训练，得到训练模型。

14、进一步，上述训练模块具体用于：

15、将所述阶段损失的梯度绝对值进行归一化处理，得到归一化梯度；

16、获取当前所述训练阶段的遗忘强度系数，根据所述遗忘强度系数对所述归一化梯度进行加权，得到阶段遗忘正则化项；

17、将所述阶段损失、所述因果影响正则化项以及所述阶段遗忘正则化项进行加权求和，得到目标损失。

18、进一步，各个所述训练阶段分别包括多个有序的训练轮次，上述训练模块具体用于：

19、根据所述输出结果与当前所述训练阶段对应的所述标签之间的差异，确定初始损失；

20、根据当前所述训练轮次与各个所述训练阶段中首个所述训练轮次之间的轮次差值，确定各个所述训练阶段的阶段难度因子，阶段难度因子与所述轮次差值正相关；

21、获取各个所述训练阶段的阶段难度权重，基于所述阶段难度权重对各个所述阶段难度因子进行加权求和，得到任务难度系数，所述阶段难度权重与对应的所述训练难度正相关；

22、根据所述任务难度系数对所述初始损失进行调整，得到阶段损失。

23、进一步，上述训练模块具体用于：

24、根据当前所述训练轮次与各个所述训练阶段中首个所述训练轮次之间的轮次差值，得到各个所述训练阶段的第一距离项；

25、获取各个所述训练阶段的第一调节因子，根据各个所述第一调节因子分别调节对应的所述第一距离项，得到各个所述训练阶段的第二距离项；

26、分别对各个所述第二距离项进行归一化处理，得到各个所述训练阶段的阶段难度因子。

27、进一步，上述训练模块具体用于：

28、基于各个所述训练阶段对应的所述训练难度，分别确定各个所述训练阶段的推理次数，所述推理次数与对应的所述训练难度正相关；

29、将所述样本数据集输入至所述训练模型进行多轮推理，在每轮推理中所述训练模型基于所述样本数据集进行多次推理，直至达到所述推理次数时，得到多个推理结果。

30、进一步，上述模型训练装置还包括配置模块，配置模块具体用于：

31、基于各个所述训练阶段对应的所述训练难度，分别确定各个所述训练阶段的采样温度值，所述采样温度值与对应的所述训练难度正相关；

32、将所述训练模型的温度参数配置为对应的所述采样温度值，所述采样温度值用于指示所述推理结果的随机程度。

33、进一步，所述正负样本包括正面样本和负面样本，上述训练模块具体用于：

34、获取所述训练模型对所述正面样本的第一生成概率以及所述初始模型对所述正面样本的第二生成概率，根据所述第一生成概率和所述第二生成概率之间的比值，确定第一相对因子；

35、获取所述训练模型对所述负面样本的第三生成概率以及所述初始模型对所述负面样本的第四生成概率，根据所述第三生成概率和所述第四生成概率之间的比值，确定第二相对因子；

36、根据所述第一相对因子与所述第二相对因子之间的差异确定偏好对比损失，基于所述偏好对比损失对所述训练模型进行优化。

37、进一步，上述训练模块具体用于：

38、将优化后的所述训练模型作为初始策略模型和待更新策略模型，获取所述初始策略模型基于提示文本生成的多个预测文本，各个所述预测文本分别包括多个预测词元；

39、对各个所述预测文本进行分数预测，得到各个所述预测词元的初始奖励值；

40、对于各个所述预测文本，获取所述待更新策略模型对各个所述预测词元的第五生成概率，获取所述初始策略模型对所述预测词元的第六生成概率，根据各个所述第五生成概率与对应的所述第六生成概率之间的比值，确定各个所述预测词元的采样权重，基于各个所述采样权重对所述初始奖励值进行加权，得到所述预测文本的目标奖励值；

41、根据各个所述目标奖励值构建目标函数，以最大化所述目标函数为目标，对所述待更新策略模型进行强化学习，得到目标模型，将所述目标模型作为所述待更新策略模型再次进行强化学习，直至满足预设的结束条件。

42、进一步，上述训练模块具体用于：

43、基于各个所述采样权重对所述初始奖励值进行加权，得到各个所述预测词元的加权奖励值；

44、获取参考模型对各个所述预测词元的第七生成概率，根据各个所述第五生成概率与对应的所述第七生成概率之间的比值，确定各个所述预测词元的约束项；

45、获取当前所述训练阶段的第二调节因子，根据所述第二调节因子对所述约束项进行调节，所述第二调节因子与对应的所述训练难度负相关；

46、根据各个所述加权奖励值与调节后的所述约束项之间的差异，得到各个所述预测词元的目标项，根据各个所述目标项的均值，得到所述预测文本的目标奖励值。

47、进一步，上述训练模块具体用于：

48、将各个所述预测文本分别与所述提示文本进行拼接，得到各个预测文本对应的问答文本；

49、对各个所述问答文本进行分数预测，得到各个所述预测文本的奖励分数；

50、根据各个所述奖励分数的均值确定均值分数，根据各个所述奖励分数与所述均值分数之间的差异，得到各个所述预测文本的全局分数，根据所述全局分数确定各个所述预测词元的初始奖励值。

51、进一步，上述训练模块具体用于：

52、将各个所述全局分数分别作为对应的所述预测文本中各个所述预测词元的全局奖励值；

53、对各个所述预测词元进行分数预测，得到各个所述预测词元的局部奖励值；

54、将各个所述全局奖励值分别与对应的所述局部奖励值进行加权求和，得到各个所述预测词元的初始奖励值，所述全局奖励值的权重与对应的所述训练难度负相关，所述局部奖励值的权重与对应的所述训练难度正相关。

55、另一方面，本公开实施例还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的模型训练方法。

56、另一方面，本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行实现上述的模型训练方法。

57、另一方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行实现上述的模型训练方法。

58、本公开实施例至少包括以下有益效果：通过获取多个训练阶段的样本数据集，由于多个训练阶段按照样本数据集的训练难度由易到难进行排序，所以在各个所述训练阶段，基于所述样本数据集对初始模型进行训练，得到训练模型，使得模型能够在多阶段课程式训练过程中逐阶段地提升表达能力，进而适应不同难度的任务，有效缓解模型在处理不同难度的任务时的过拟合问题，实现模型在面对难度较高的任务时，能够提升模型推理准确性，此外，通过将所述样本数据集输入至所述训练模型进行多轮推理，得到所述训练模型在每轮推理中输出的多个推理结果，基于各个所述推理结果的正确性，在多个所述推理结果中确定正负样本，基于所述正负样本对所述训练模型进行优化，能够提升模型推理能力，然后对优化后的所述训练模型进行强化学习，得到目标模型，能够进一步提升模型推理能力，通过在各个训练阶段结合多轮推理优化和强化学习，能够显著提升模型的泛化性能，进一步提升模型推理准确性。

59、本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李楚
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种道路洒水车高压水枪支撑装置的制作方法
下一篇：一种膜材料电弱点在线检测机构的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！