模型优化方法、装置、计算机设备及计算机存储介质与流程

文档序号:36406032发布日期:2023-12-16 13:35阅读:46来源:国知局
模型优化方法、装置、计算机设备及计算机存储介质与流程

本技术涉及计算机科学技术及人工智能,尤其涉及一种模型优化方法、装置、计算机设备及计算机存储介质。


背景技术:

1、计算机技术领域中深度学习技术和机器学习技术的出现,使得业务提供方可以借助于神经网络模型实现互联网业务的开发及应用,而为了快速地生成符合预期应用效果的神经网络模型,传统的模型优化方法通常是采用训练样本对相应的预训练模型所包含模型参数进行优化,以将模型参数优化后的预训练模型作为符合预期应用效果的神经网络模型。

2、又随着计算机技术的发展,当前的预训练模型所包含的模型参数通常较多,有的甚至达到了数十亿的参数量,若采用传统的模型优化方法来对预训练模型进行优化,以得到目标模型,会由于需要优化的参数过多而导致优化效率低下。因此,如何高效地优化得到目标模型成了当下的研究热点。


技术实现思路

1、本技术实施例提供了一种模型优化方法、装置、计算机设备及计算机存储介质,可基于预训练模型高效地得到目标模型。

2、一方面,本技术实施例提供了一种模型优化方法,包括:

3、获取预训练模型及训练数据,所述训练数据包括训练文本对应的多个词向量,及所述训练文本在目标业务下的参考预测结果,所述多个词向量至少包括所述训练文本中每个文本词的词向量;

4、确定所述预训练模型中目标网络层的辅助训练参数,并将所述辅助训练参数添加至所述目标网络层,得到新增参数后的预训练模型,所述目标网络层包括自注意力层以及全连接层中的至少一个;

5、调用所述新增参数后的预训练模型,根据所述多个词向量及所述辅助训练参数,分别生成所述多个词向量中每个词向量对应的目标词向量;

6、基于生成的多个目标词向量执行所述目标业务,得到所述训练文本对应的模型预测结果;

7、向着减小所述模型预测结果与所述参考预测结果之间的差异的方向,对所述辅助训练参数进行优化处理,以得到目标模型,所述目标模型用于执行所述目标业务。

8、再一方面,本技术实施例提供了一种模型优化装置,包括:

9、获取单元,用于获取预训练模型及训练数据,所述训练数据包括训练文本对应的多个词向量,及所述训练文本在目标业务下的参考预测结果,所述多个词向量至少包括所述训练文本中每个文本词的词向量;

10、确定单元,用于确定所述预训练模型中目标网络层的辅助训练参数,并将所述辅助训练参数添加至所述目标网络层,得到新增参数后的预训练模型,所述目标网络层包括自注意力层以及全连接层中的至少一个;

11、生成单元,用于调用所述新增参数后的预训练模型,根据所述多个词向量及所述辅助训练参数,分别生成所述多个词向量中每个词向量对应的目标词向量;

12、执行单元,用于基于生成的多个目标词向量执行所述目标业务,得到所述训练文本对应的模型预测结果;

13、优化单元,用于向着减小所述模型预测结果与所述参考预测结果之间的差异的方向,对所述辅助训练参数进行优化处理,以得到目标模型,所述目标模型用于执行所述目标业务。

14、再一方面,本技术实施例提供了一种计算机设备,包括:

15、处理器,所述处理器用于实现一条或多条计算机程序;

16、计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并实现:

17、获取预训练模型及训练数据,所述训练数据包括训练文本对应的多个词向量,及所述训练文本在目标业务下的参考预测结果,所述多个词向量至少包括所述训练文本中每个文本词的词向量;

18、确定所述预训练模型中目标网络层的辅助训练参数,并将所述辅助训练参数添加至所述目标网络层,得到新增参数后的预训练模型,所述目标网络层包括自注意力层以及全连接层中的至少一个;

19、调用所述新增参数后的预训练模型,根据所述多个词向量及所述辅助训练参数,分别生成所述多个词向量中每个词向量对应的目标词向量;

20、基于生成的多个目标词向量执行所述目标业务,得到所述训练文本对应的模型预测结果;

21、向着减小所述模型预测结果与所述参考预测结果之间的差异的方向,对所述辅助训练参数进行优化处理,以得到目标模型,所述目标模型用于执行所述目标业务。

22、再一方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并实现:

23、获取预训练模型及训练数据,所述训练数据包括训练文本对应的多个词向量,及所述训练文本在目标业务下的参考预测结果,所述多个词向量至少包括所述训练文本中每个文本词的词向量;

24、确定所述预训练模型中目标网络层的辅助训练参数,并将所述辅助训练参数添加至所述目标网络层,得到新增参数后的预训练模型,所述目标网络层包括自注意力层以及全连接层中的至少一个;

25、调用所述新增参数后的预训练模型,根据所述多个词向量及所述辅助训练参数,分别生成所述多个词向量中每个词向量对应的目标词向量;

26、基于生成的多个目标词向量执行所述目标业务,得到所述训练文本对应的模型预测结果;

27、向着减小所述模型预测结果与所述参考预测结果之间的差异的方向,对所述辅助训练参数进行优化处理,以得到目标模型,所述目标模型用于执行所述目标业务。

28、再一方面,本技术实施例提供了一种程序产品,该程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行:

29、获取预训练模型及训练数据,所述训练数据包括训练文本对应的多个词向量,及所述训练文本在目标业务下的参考预测结果,所述多个词向量至少包括所述训练文本中每个文本词的词向量;

30、确定所述预训练模型中目标网络层的辅助训练参数,并将所述辅助训练参数添加至所述目标网络层,得到新增参数后的预训练模型,所述目标网络层包括自注意力层以及全连接层中的至少一个;

31、调用所述新增参数后的预训练模型,根据所述多个词向量及所述辅助训练参数,分别生成所述多个词向量中每个词向量对应的目标词向量;

32、基于生成的多个目标词向量执行所述目标业务,得到所述训练文本对应的模型预测结果;

33、向着减小所述模型预测结果与所述参考预测结果之间的差异的方向,对所述辅助训练参数进行优化处理,以得到目标模型,所述目标模型用于执行所述目标业务。

34、本技术实施例中,目标模型是通过在预训练模型中新增辅助训练参数,并对新增的辅助训练参数进行优化后得到的。可见,在得到目标模型的过程中,只对预训练模型中新增的辅助训练参数进行了优化,而预训练模型中原有的模型参数保持不变,使得模型优化过程中需要进行优化的模型参数的数量较少。因此,计算机设备对新增参数后的预训练模型进行优化时,所需的计算量也会大幅减少,这对于优化时间的缩短和存储空间的节省都是非常有利的,而优化时间的缩短体现出新增参数后的预训练模型可以较快地收敛,进而使得本技术实施例在得到目标模型时具备较高地速率。同时,需要优化的模型参数较少,使得模型将更少依赖训练数据中存在的噪声和特殊偏差,从而可以有效地改善模型过拟合的情况,进而使得得到的目标模型能够具备较好的泛化性能。此外,由于辅助训练参数是添加至自注意力层和/或全连接层中的,而自注意力层和全连接层所包含的参数通常较多且使用方式复杂,因而在利用新增参数后的预训练模型基于训练数据执行目标业务时,新增的辅助训练参数可以和预训练模型中已有参数进行较为复杂地交互,从而使得新增参数后的预训练模型可以利用辅助训练参数学习更多的新特征,也就能更好的泛化到新的数据,进而使得对新增参数后的预训练模型进行优化后得到的目标模型,也就能较好地适应目标业务,因此本技术实施例优化得到的目标模型,在执行目标业务时可以具备较高的准确度。综上可见,本技术实施例可以实现高效地优化得到适用于执行目标业务的目标模型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1