一种基于可学习温度调节的大模型训练方法与流程

文档序号:36715473发布日期:2024-01-16 12:13阅读:37来源:国知局
一种基于可学习温度调节的大模型训练方法与流程

本发明涉及大规模语言模型训练,特别是涉及一种基于可学习温度调节的大模型训练方法。


背景技术:

1、现有的大规模语言模型的训练离不开交叉熵损失函数,而且我们一般采用一个固定的温度参数调节训练过程,防止模型过拟合。但是这样一个固定的温度参数对于模型训练是不足够的。因此,设计一种基于可学习温度调节的大模型训练方法是十分有必要的。


技术实现思路

1、本发明的目的是提供一种基于可学习温度调节的大模型训练方法,有效改善大模型有监督学习时的过拟合,提升模型训练后的生成质量:

2、一种基于可学习温度调节的大模型训练方法,包括:包括如下步骤:

3、步骤1:搭建语言模型;

4、步骤2:对语言模型进行训练,通过训练学习人工标注的回复。

5、可选的,步骤2中,对语言模型进行训练,通过训练学习人工标注的回复,具体为:

6、以人工标注后的回复为金标准,进行训练,让此回复在语言模型的对数似然函数最大化,设此回复中的字为,则在给定句子的位置i钱,模型预测字具体为何字的概率为,则对数似然函数为:

7、

8、对数似然函数等价于在训练过程中对每个token的预测,计算交叉熵损失函数,其中,标准的交叉熵损失函数为:

9、

10、式中,取值0或者1,取1则表示真实标签等于i,为语言模型对标签i预测的概率;

11、对标准的交叉损失函数进行改进,增加温度参数,用于防止过拟合,得到改进后的交叉熵损失函数为

12、

13、可选的,对温度参数进行设置,为:

14、

15、式中,m及b为可学习的参数,随模型训练一起更新,为概率分布的多样性,多样性衡量表示为:

16、

17、式中,q设置为2。

18、根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于可学习温度调节的大模型训练方法,该方法包括搭建语言模型,对语言模型进行训练,通过训练学习人工标注的回复,其中,通过训练学习人工标注的回复,从而达到更好的生成效果,在训练过程中,设置可学习的温度参数,使得模型得到更好的训练,提高对话语义理解的表现。



技术特征:

1.一种基于可学习温度调节的大模型训练方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于可学习温度调节的大模型训练方法,其特征在于,步骤2中,对语言模型进行训练,通过训练学习人工标注的回复,具体为:

3.根据权利要求2所述的基于可学习温度调节的大模型训练方法,其特征在于,对温度参数进行设置,为:


技术总结
本发明提供了一种基于可学习温度调节的大模型训练方法,包括:搭建语言模型,对语言模型进行训练,通过训练学习人工标注的回复,在训练过程中,设置能够动态调节的温度参数对语言模型进行训练。本发明提供的基于可学习温度调节的大模型训练方法,有效改善大模型有监督学习时的过拟合,提升模型训练后的生成质量。

技术研发人员:游世学,郭锐,王丙栋,乔亚飞,徐峰
受保护的技术使用者:北京中科汇联科技股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1