模型训练方法、数据处理方法、设备及存储介质与流程

文档序号：37006113发布日期：2024-02-09 12:52阅读：16来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及语言处理，尤其涉及一种模型训练方法、数据处理方法、设备及存储介质。

背景技术：

1、大语言模型通过在海量无标注文本数据上进行预训练，学习到了丰富的语言表示。为了使模型适应特定任务和领域的要求，人们开始探索基于大语言模型的微调技术。

2、常见的大语言模型的微调技术，当引入新数据进行微调时，模型可能会忘记先前学到的知识，导致在领域切换时性能下降，存在灾难性遗忘的问题。

3、可见，相关技术不能很好的兼顾模型性能和专业理解，从而无法在本地化的特定领域充分实现大语言模型的优势，降低了模型在特定任务上准确性和专业性，限制了语言处理技术在特定领域的应用和发展。

技术实现思路

1、本申请实施例提供了一种模型训练方法、数据处理方法、设备及存储介质，能够在本地化的特定领域充分实现大语言模型的优势，提升模型在特定任务上准确性和专业性，扩展了语言处理技术在特定领域的应用和发展。

2、本申请实施例的技术方案是这样实现的：

3、第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：

4、根据原始大语言模型数据集和目标领域对应的本地数据构建训练数据集；其中，所述训练数据集包括文本数据；

5、根据所述训练数据集对初始大语言模型进行增量学习和微调训练，确定微调后的大语言模型。

6、第二方面，本申请实施例提供了一种基于微调后的大语言模型的数据处理方法，所述方法包括：

7、基于微调后的大语言模型对目标领域对应的待处理文本数据进行数据处理，确定所述待处理文本数据对应的处理结果；其中，所述微调后的大语言模型是通过训练数据集对初始大语言模型进行增量学习和微调训练获得的，所述训练数据集是根据原始大语言模型数据集和目标领域对应的本地数据构建的；所述训练数据集包括文本数据。

8、第三方面，本申请实施例提供了一种模型训练设备，所述模型训练设备包括处理器、存储有所述处理器可执行指令的存储器，当所述指令被所述处理器执行时，实现如上述第一方面所述的方法。

9、第四方面，本申请实施例提供了一种数据处理设备，所述数据处理设备用于基于微调后的大语言模型的数据处理，所述数据处理设备包括：确定单元，

10、所述确定单元，用于基于微调后的大语言模型对目标领域对应的待处理文本数据进行数据处理，确定所述待处理文本数据对应的处理结果；其中，所述微调后的大语言模型是通过训练数据集对初始大语言模型进行增量学习和微调训练获得的，所述训练数据集是根据原始大语言模型数据集和目标领域对应的本地数据构建的；所述训练数据集包括文本数据。

11、第五方面，本申请实施例提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时，实现如上述第一方面或第二方面所述的方法。

12、本申请实施例提供了一种模型训练方法、数据处理方法、设备及存储介质，模型训练方法包括：根据原始大语言模型数据集和目标领域对应的本地数据构建训练数据集；其中，训练数据集包括文本数据；根据训练数据集对初始大语言模型进行增量学习和微调训练，确定微调后的大语言模型。数据处理方法包括：基于微调后的大语言模型对目标领域对应的待处理文本数据进行数据处理，确定待处理文本数据对应的处理结果；其中，微调后的大语言模型是通过训练数据集对初始大语言模型进行增量学习和微调训练获得的，训练数据集是根据原始大语言模型数据集和目标领域对应的本地数据构建的。由此可见，在本申请的实施例中，在进行模型的本地化微调过程中，可以使用原始大语言模型数据集和目标领域对应的本地数据进行训练数据集的构建，从而既能保留模型中的大部分知识和能力，同时可以确保模型能够更好地理解特定领域知识，相应地，使用该训练数据集进行增量学习和微调训练获得的微调后的大语言模型，能够在保持大语言模型强大的语言处理能力的基础上，融入本地化的特定领域知识，进一步地，使用该微调后的大语言模型进行数据处理，能够提升对特定任务的专业理解，从而提供更专业和准确的结果。也就是说，本申请实施例提出的模型训练方法和数据处理方法，能够在本地化的特定领域充分实现大语言模型的优势，提升模型在特定任务上准确性和专业性，扩展了语言处理技术在特定领域的应用和发展。

技术特征：

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据原始大语言模型数据集和目标领域对应的本地数据构建训练数据集，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述训练数据集对初始大语言模型进行增量学习和微调训练，确定微调后的大语言模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一数据集和所述第二数据集对所述增量后的大语言模型进行微调训练，确定所述微调后的大语言模型，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述训练数据集对初始大语言模型进行增量学习和微调训练，确定微调后的大语言模型，包括：

6.根据权利要求2-5中的任一项所述的方法，其特征在于，所述方法还包括：

7.一种基于微调后的大语言模型的数据处理方法，其特征在于，所述方法包括：

8.一种模型训练设备，其特征在于，所述模型训练装置包括处理器、存储有所述处理器可执行指令的存储器，当所述指令被所述处理器执行时，实现如权利要求1-6中的任一项所述的方法。

9.一种数据处理设备，其特征在于，所述数据处理设备用于基于微调后的大语言模型的数据处理，所述数据处理设备包括：确定单元，

10.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-6或7中的任一项所述的方法。

技术总结
本申请公开了一种模型训练方法、数据处理方法、设备及存储介质，模型训练方法包括：根据原始大语言模型数据集和目标领域对应的本地数据构建训练数据集；其中，训练数据集包括文本数据；根据训练数据集对初始大语言模型进行增量学习和微调训练，确定微调后的大语言模型。数据处理方法包括：基于微调后的大语言模型对目标领域对应的待处理文本数据进行数据处理，确定待处理文本数据对应的处理结果；其中，微调后的大语言模型是通过训练数据集对初始大语言模型进行增量学习和微调训练获得的，训练数据集是根据原始大语言模型数据集和目标领域对应的本地数据构建的。

技术研发人员：倪一鸣
受保护的技术使用者：深圳市与飞科技有限公司
技术研发日：
技术公布日：2024/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪一鸣
技术所有人：深圳市与飞科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。