一种基于可学习温度调节的大模型训练方法与流程

文档序号：36715473发布日期：2024-01-16 12:13阅读：37来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及大规模语言模型训练，特别是涉及一种基于可学习温度调节的大模型训练方法。

背景技术：

1、现有的大规模语言模型的训练离不开交叉熵损失函数，而且我们一般采用一个固定的温度参数调节训练过程，防止模型过拟合。但是这样一个固定的温度参数对于模型训练是不足够的。因此，设计一种基于可学习温度调节的大模型训练方法是十分有必要的。

技术实现思路

1、本发明的目的是提供一种基于可学习温度调节的大模型训练方法，有效改善大模型有监督学习时的过拟合，提升模型训练后的生成质量：

2、一种基于可学习温度调节的大模型训练方法，包括：包括如下步骤：

3、步骤1：搭建语言模型；

4、步骤2：对语言模型进行训练，通过训练学习人工标注的回复。

5、可选的，步骤2中，对语言模型进行训练，通过训练学习人工标注的回复，具体为：

6、以人工标注后的回复为金标准，进行训练，让此回复在语言模型的对数似然函数最大化，设此回复中的字为，则在给定句子的位置i钱，模型预测字具体为何字的概率为，则对数似然函数为：

7、

8、对数似然函数等价于在训练过程中对每个token的预测，计算交叉熵损失函数，其中，标准的交叉熵损失函数为：

9、

10、式中，取值0或者1，取1则表示真实标签等于i，为语言模型对标签i预测的概率；

11、对标准的交叉损失函数进行改进，增加温度参数，用于防止过拟合，得到改进后的交叉熵损失函数为

12、

13、可选的，对温度参数进行设置，为：

14、

15、式中，m及b为可学习的参数，随模型训练一起更新，为概率分布的多样性，多样性衡量表示为：

16、

17、式中，q设置为2。

18、根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的基于可学习温度调节的大模型训练方法，该方法包括搭建语言模型，对语言模型进行训练，通过训练学习人工标注的回复，其中，通过训练学习人工标注的回复，从而达到更好的生成效果，在训练过程中，设置可学习的温度参数，使得模型得到更好的训练，提高对话语义理解的表现。

技术特征：

1.一种基于可学习温度调节的大模型训练方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于可学习温度调节的大模型训练方法，其特征在于，步骤2中，对语言模型进行训练，通过训练学习人工标注的回复，具体为：

3.根据权利要求2所述的基于可学习温度调节的大模型训练方法，其特征在于，对温度参数进行设置，为：

技术总结
本发明提供了一种基于可学习温度调节的大模型训练方法，包括：搭建语言模型，对语言模型进行训练，通过训练学习人工标注的回复，在训练过程中，设置能够动态调节的温度参数对语言模型进行训练。本发明提供的基于可学习温度调节的大模型训练方法，有效改善大模型有监督学习时的过拟合，提升模型训练后的生成质量。

技术研发人员：游世学,郭锐,王丙栋,乔亚飞,徐峰
受保护的技术使用者：北京中科汇联科技股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：游世学,郭锐,王丙栋,乔亚飞,徐峰
技术所有人：北京中科汇联科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。