本发明涉及自然语言处理,尤其涉及大语言模型的训练和文档抽取方法、装置、设备及介质。
背景技术:
1、随着国内贸易的发展,各个公司之间的合同数量日益增多,合同内容也变得越来越复杂。
2、传统的手工合同管理方式为通过光学字符识别(optical characterrecognition,ocr)通用文字识别技术对合同内容进行抽取。
3、但是传统的手工合同管理方式已经无法满足企业的需求,因为其效率低下、容易出错且难以监控。
技术实现思路
1、本发明提供了一种大语言模型的训练和文档抽取方法、装置、设备及介质,本发明实施例的技术方案可以提高合同管理的准确性和效率。
2、第一方面,本发明实施例提供了一种文档抽取的大语言模型的训练方法,该方法包括:
3、获取目标场景的文档数据以及文档实体标注数据;
4、根据目标场景的文档数据以及文档实体标注数据生成样本数据集;
5、根据目标场景和样本数据集确定至少一个单次训练样本数量;
6、根据目标场景确定至少一个备选指令;
7、将各备选指令和各单次训练样本数据量进行组合,得到至少一个备选组合;
8、训练备选组合对应的大语言模型,得到备选组合对应的备选的大语言模型;
9、根据各备选的大语言模型的预测验证结果,在各备选的大语言模型中筛选出目标大语言模型,以及确定目标大语言模型对应的备选组合中备选指令为目标指令。
10、第二方面,本发明实施例提供了文档抽取方法,该方法包括:
11、获取用户输入的文档数据;
12、将文档数据和目标大语言模型对应的目标指令进行融合,得到文档处理指令;
13、将文档处理指令输入至目标大语言模型中,得到文档数据中的文档实体。
14、第三方面,本发明实施例还提供了一种文档抽取的大语言模型的训练装置,该装置包括:
15、数据标注模块,用于获取目标场景的文档数据以及文档实体标注数据;
16、样本生成模块,用于根据目标场景的文档数据以及文档实体标注数据生成样本数据集;
17、样本训练模块,用于根据目标场景和样本数据集确定至少一个单次训练样本数量;
18、指令确定模块,用于根据目标场景确定至少一个备选指令;
19、数据量组合模块,用于将各备选指令和各单次训练样本数据量进行组合,得到至少一个备选组合;
20、模型对应模块,用于训练备选组合对应的大语言模型,得到备选组合对应的备选的大语言模型;
21、结果预测模块,用于根据各备选的大语言模型的预测验证结果,在各备选的大语言模型中筛选出目标大语言模型,以及确定目标大语言模型对应的备选组合中备选指令为目标指令。
22、第四方面,本发明实施例还提供了一种文档抽取装置,该装置包括:
23、数据获取模块,用于获取用户输入的文档数据;
24、指令融合模块,用于将文档数据和目标大语言模型对应的目标指令进行融合,得到文档处理指令;
25、实体获取模块,用于将文档处理指令输入至目标大语言模型中,得到文档数据中的文档实体。
26、第五方面,本发明实施例还提供了一种大语言模型的训练和文档抽取设备,设备包括:
27、至少一个处理器;以及
28、与至少一个处理器通信连接的存储器;其中,
29、存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的文档抽取的大语言模型的训练方法或文档抽取方法。
30、根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的文档抽取的大语言模型的训练方法或文档抽取方法。
31、本发明实施例的技术方案,通过获取目标场景的文档数据以及文档实体标注数据,有利于获取文档数据信息;根据目标场景的文档数据以及文档实体标注数据生成样本数据集,有利于模型进行训练;根据目标场景和样本数据集确定至少一个单次训练样本数量,有利于样本数据集分批次训练;根据目标场景确定至少一个备选指令,有利于模型更好的理解目标场景的文档数据以及文档实体标注数据;将各备选指令和各单次训练样本数据量进行组合,得到至少一个备选组合,有利于提升训练的多维性;训练备选组合对应的大语言模型,得到备选组合对应的备选的大语言模型,有利于针对不同的备选组合构建备选组合对应的大语言模型;根据各备选的大语言模型的预测验证结果,在各备选的大语言模型中筛选出目标大语言模型,以及确定目标大语言模型对应的备选组合中备选指令为目标指令,有利于根据不同的备选组合选取文档抽取准确率最高的模型和适配的指令,提高了文档抽取的准确率和效率。
32、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种文档抽取的大语言模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述训练所述备选组合对应的大语言模型,得到所述备选组合对应的备选的大语言模型,包括:
3.根据权利要求1所述的方法,其特征在于,所述备选指令包括:大语言模型的角色信息、文档数据的槽位、输出的实体类型和实体格式。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述备选的大语言模型的预测验证结果,在各所述备选的大语言模型中筛选出目标大语言模型,包括:
5.一种文档抽取方法,其特征在于,包括:
6.根据权利要求5所述的方法,其特征在于,所述获取用户输入的文档数据,包括:
7.一种文档抽取的大语言模型的训练装置,其特征在于,所述装置包括:
8.一种文档抽取装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-4中任一项所述的文档抽取的大语言模型的训练方法或权利要求5-6中任一项所述的文档抽取方法。