一种提高大语言模型训练效果的方法、装置及介质与流程

文档序号:37356756发布日期:2024-03-18 18:42阅读:39来源:国知局
一种提高大语言模型训练效果的方法、装置及介质与流程

本技术涉及人工智能,尤其涉及一种提高大语言模型训练效果的方法、装置及介质。


背景技术:

1、大语言模型是在海量文本数据上经过预训练得到的天然适应各种自然语言处理任务。然而直接将预训练后的大语言模型用于特定领域问答任务上,效果往往不尽如人意。为了更好地适应特定领域的问答任务,需要对专业领域内的语料文本进行处理提取出高质量数据做标记,并利用标记好的数据对模型进行微调,以使其适应特定的任务或领域,进一步提升问答能力。

2、一款符合人类期望且在各方面性能表现优异的大语言,模型不仅需要保证其在通用领域的语义理解和常识推理能力表现出色,还要更好地适应特定领域的问答任务。但是,在大语言模型进行微调的过程中若对数据处理不当,容易使得训练好的大语言模型出现欠拟合或过拟合的现象,导致大语言模型没有学习到专业特定领域内的知识或者忘记其通用领域的语义理解和常识推理能力而过度适应目标领域、特定任务,进而导致大语言模型完成用户提起的问答任务的能力难以达到预期期望的效果。


技术实现思路

1、本技术的主要目的在于提供一种提高大语言模型训练效果的方法、装置及介质,旨在解决训练得到的大语言模型难以达到期望的效果的技术问题。

2、为实现上述目的,本技术提供一种提高大语言模型训练效果的方法,所述方法包括:

3、获取初始语料文本集合;其中,所述初始语料文本集合中包括多篇语料文本,每篇所述语料文本对应一个标签信息集合;所述标签信息集合中至少包括语料文本的下载地址标识和所属领域标识;

4、对所述初始语料文本集合中的所有所述语料文本进行预处理,得到目标语料文本集合;

5、对所述目标语料文本集合中的目标语料文本进行语义分割,得到多个分割词汇;

6、基于所述分割词汇对预设的词汇库进行更新,得到更新后的词汇库;

7、根据所述目标语料文本的目标标签信息集合,从多篇目标语料文本中确定出专业语料文本和通用语料文本;其中,所述专业语料文本的数量与所述通用语料文本的数量的比值为预设比值;

8、基于所述更新后的词汇库、所述专业语料文本以及所述通用语料文本对预先构建的大语言模型进行训练,得到训练后的大语言模型。

9、可选地,所述对所述初始语料文本集合中所有所述语料文本进行预处理,得到目标语料文本集合,包括:

10、基于每篇所述语料文本分别进行分隔符占比计算,确定每篇所述语料文本的分隔符占比;

11、将所述分隔符占比大于等于预设占比阈值的待删除语料文本从所述初始语料文本集合中删除,得到待处理语料文本集合;

12、对所述待处理语料文本集合中的语料文本进行去重操作,得到目标语料文本集合。

13、可选地,所述对所述初始语料文本集合中的一篇当前语料文本进行分隔符占比计算,确定所述当前语料文本的分隔符占比,包括:

14、对所述初始语料文本集合中的一篇当前语料文本进行字符识别,确定所述当前语料文本中包含的所有目标字符;其中,所述目标字符中包含文字字符和分隔符;

15、确定所述目标字符的字符总数量以及所述分隔符的分隔符数量;

16、计算所述分隔符数量与所述字符总数量之间的比值,确定所述当前语料文本的分隔符占比。

17、可选地,所述对所述待处理语料文本集合中的语料文本进行去重操作,得到目标语料文本集合,包括:

18、对所述待处理语料文本集合中的每篇语料文本进行处理转为二进制串;

19、根据所述每篇语料文本的二进制串确定所述待处理语料文本集合中的重复语料文本子集合;其中,所述重复语料文本子集合中的重复语料文本的数量大于1,且一个重复语料文本子集合中的任意两篇重复语料文本的二进制串的差异度小于差异阈值;

20、从所述重复语料文本子集合中确定待删除重复语料文本;其中,所述待删除重复语料文本的数量与所述待删除重复语料文本所在的重复语料文本子集合中的重复语料文本的数量之差的绝对值为1;

21、从所述待处理语料文本集合中删除所述待删除重复语料文本,得到目标语料文本集合。

22、可选的,确定重复语料文本的方法,包括:

23、从所述待处理语料文本集合中确定第一待对比语料文本和第二待对比语料文本;

24、获取所述第一待对比语料文本的第一二进制串以及所述第二待对比语料文本的第二二进制串;

25、将所述第一二进制串和所述第二二进制串进行逐位对比,同时判断对应同一位置的数字是否一致,不一致进行计数值加1操作,所述计数值初始值为零;

26、将所述计数值作为所述目标差异度,判断所述目标差异度是否小于所述差异阈值;

27、若是,则将所述第一待对比语料文本和所述第二待对比语料文本均确定为重复语料文本。

28、可选地,所述对所述目标语料文本集合中的所述目标语料文本进行语义分割,得到多个分割词汇,包括:

29、对所述目标语料文本集合中的每篇目标语料文本进行语义分割,得到每篇目标语料文本的分词集合;其中,一篇目标语料文本对应一个分词集合;所述分词集合中包含多个分词,所述分词集合中包含的分词的先后顺序与所述分词在所述分词集合对应的目标语料文本中出现的先后顺序相同;

30、将每篇目标语料文本的分词集合中任意相邻的两个分词进行组合,得到每篇目标语料文本对应的多个待处理分割词汇;

31、从所述多个待处理分割词汇中确定待删除分割词汇;

32、从所述多个待处理分割词汇中将所述待删除分割词汇删除,得到删除后的分割词汇。

33、可选地,所述基于所述分割词汇对预设的词汇库进行更新,得到更新后的词汇库,包括:

34、确定每个分割词汇在所述分割词汇对应的目标语料文本中的出现频次以及每个分割词汇所在的目标语料文本对应的目标标签信息集合;

35、根据每个分割词汇对应的所述出现频次和所述目标标签信息集合,确定每个分割词汇的关联值;

36、基于所述关联值对所述分割词汇进行排序,得到关联值序列;其中,所述关联值序列中所述分割词汇依据所述分割词汇对应的关联值由大至小进行排序;

37、从所述关联值序列中依次选取预设数量的目标关联词;

38、将所述目标关联词添加至预设的词汇库,得到更新后的词汇库。

39、可选地,所述根据所述目标语料文本的目标标签信息集合,从多篇目标语料文本中确定出专业语料文本和通用语料文本,包括:

40、将所述目标语料文本的每篇目标语料文本输入至预先构建的质量打分模型,得到每篇目标语料文本的困惑度;

41、从所述目标语料文本集合中删除所述困惑度大于等于预设困惑度阈值的目标语料文本,得到优质语料文本集合;其中,所述优质语料文本集合中包括多篇优质语料文本以及每篇优质语料文本对应的优质标签信息集合;所述优质标签信息集合中包括所述优质标签信息集合对应的优质语料文本的下载地址标识和所属领域标识;

42、根据所述优质标签信息集合中的所属领域标识,从所述优质语料文本集合中确定专业语料文本和通用语料文本。

43、此外,为实现上述目的,本技术还提供一种提高大语言模型训练效果的装置,所述装置包括:

44、获取单元,用于获取初始语料文本集合;其中,所述初始语料文本集合中包括多篇语料文本,每篇所述语料文本对应一个标签信息集合;所述标签信息集合中至少包括语料文本的下载地址标识和所属领域标识;

45、预处理单元,用于对所述初始语料文本集合中的所有所述语料文本进行预处理,得到目标语料文本集合;

46、分割单元,用于对所述目标语料文本集合中的所述目标语料文本进行语义分割,得到多个分割词汇;

47、更新单元,用于基于所述分割词汇对预设的词汇库进行更新,得到更新后的词汇库;

48、确定单元,用于根据所述目标语料文本的目标标签信息集合,从多篇目标语料文本中确定出专业语料文本和通用语料文本;其中,所述专业语料文本的数量与所述通用语料文本的数量的比值为预设比值;

49、训练单元,用于基于所述更新后的词汇库、所述专业语料文本以及所述通用语料文本对预先构建的大语言模型进行训练,得到训练后的大语言模型。

50、此外,本技术还提供了一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面中任一项所述的方法。

51、此外,本技术还提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。

52、本技术实施例提出的一种提高大语言模型训练效果的方法、装置及介质,通过对获取到的初始语料文本集合进行预处理,得到目标语料文本集合;并且可以对目标语料文本集合中的目标语料文本进行语义分割,得到多个分割词汇,根据得到的多个分割词汇可以对预设的词汇库进行更新;此外,还可以从目标语料文本集合中的多个目标语料文本中确定出专业语料文本和通用语料文本,进而基于更新后的词汇库、专业语料文本以及通用语料文本对预先构建的大语言模型进行训练。可见,通过高质量的训练数据,能够提升训练后大语言模型对于专业领域内的知识的语义理解和推理能力,提升大语言模型训练效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1