本发明涉及大规模语言模型训练,特别是涉及一种基于可学习温度调节的大模型训练方法。
背景技术:
1、现有的大规模语言模型的训练离不开交叉熵损失函数,而且我们一般采用一个固定的温度参数调节训练过程,防止模型过拟合。但是这样一个固定的温度参数对于模型训练是不足够的。因此,设计一种基于可学习温度调节的大模型训练方法是十分有必要的。
技术实现思路
1、本发明的目的是提供一种基于可学习温度调节的大模型训练方法,有效改善大模型有监督学习时的过拟合,提升模型训练后的生成质量:
2、一种基于可学习温度调节的大模型训练方法,包括:包括如下步骤:
3、步骤1:搭建语言模型;
4、步骤2:对语言模型进行训练,通过训练学习人工标注的回复。
5、可选的,步骤2中,对语言模型进行训练,通过训练学习人工标注的回复,具体为:
6、以人工标注后的回复为金标准,进行训练,让此回复在语言模型的对数似然函数最大化,设此回复中的字为,则在给定句子的位置i钱,模型预测字具体为何字的概率为,则对数似然函数为:
7、
8、对数似然函数等价于在训练过程中对每个token的预测,计算交叉熵损失函数,其中,标准的交叉熵损失函数为:
9、
10、式中,取值0或者1,取1则表示真实标签等于i,为语言模型对标签i预测的概率;
11、对标准的交叉损失函数进行改进,增加温度参数,用于防止过拟合,得到改进后的交叉熵损失函数为
12、
13、可选的,对温度参数进行设置,为:
14、
15、式中,m及b为可学习的参数,随模型训练一起更新,为概率分布的多样性,多样性衡量表示为:
16、
17、式中,q设置为2。
18、根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于可学习温度调节的大模型训练方法,该方法包括搭建语言模型,对语言模型进行训练,通过训练学习人工标注的回复,其中,通过训练学习人工标注的回复,从而达到更好的生成效果,在训练过程中,设置可学习的温度参数,使得模型得到更好的训练,提高对话语义理解的表现。
1.一种基于可学习温度调节的大模型训练方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于可学习温度调节的大模型训练方法,其特征在于,步骤2中,对语言模型进行训练,通过训练学习人工标注的回复,具体为:
3.根据权利要求2所述的基于可学习温度调节的大模型训练方法,其特征在于,对温度参数进行设置,为: