大语言模型的训练和文档抽取方法、装置、设备及介质与流程

文档序号：36815897发布日期：2024-01-26 16:21阅读：20来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及自然语言处理，尤其涉及大语言模型的训练和文档抽取方法、装置、设备及介质。

背景技术：

1、随着国内贸易的发展，各个公司之间的合同数量日益增多，合同内容也变得越来越复杂。

2、传统的手工合同管理方式为通过光学字符识别(optical characterrecognition，ocr)通用文字识别技术对合同内容进行抽取。

3、但是传统的手工合同管理方式已经无法满足企业的需求，因为其效率低下、容易出错且难以监控。

技术实现思路

1、本发明提供了一种大语言模型的训练和文档抽取方法、装置、设备及介质，本发明实施例的技术方案可以提高合同管理的准确性和效率。

2、第一方面，本发明实施例提供了一种文档抽取的大语言模型的训练方法，该方法包括：

3、获取目标场景的文档数据以及文档实体标注数据；

4、根据目标场景的文档数据以及文档实体标注数据生成样本数据集；

5、根据目标场景和样本数据集确定至少一个单次训练样本数量；

6、根据目标场景确定至少一个备选指令；

7、将各备选指令和各单次训练样本数据量进行组合，得到至少一个备选组合；

8、训练备选组合对应的大语言模型，得到备选组合对应的备选的大语言模型；

9、根据各备选的大语言模型的预测验证结果，在各备选的大语言模型中筛选出目标大语言模型，以及确定目标大语言模型对应的备选组合中备选指令为目标指令。

10、第二方面，本发明实施例提供了文档抽取方法，该方法包括：

11、获取用户输入的文档数据；

12、将文档数据和目标大语言模型对应的目标指令进行融合，得到文档处理指令；

13、将文档处理指令输入至目标大语言模型中，得到文档数据中的文档实体。

14、第三方面，本发明实施例还提供了一种文档抽取的大语言模型的训练装置，该装置包括：

15、数据标注模块，用于获取目标场景的文档数据以及文档实体标注数据；

16、样本生成模块，用于根据目标场景的文档数据以及文档实体标注数据生成样本数据集；

17、样本训练模块，用于根据目标场景和样本数据集确定至少一个单次训练样本数量；

18、指令确定模块，用于根据目标场景确定至少一个备选指令；

19、数据量组合模块，用于将各备选指令和各单次训练样本数据量进行组合，得到至少一个备选组合；

20、模型对应模块，用于训练备选组合对应的大语言模型，得到备选组合对应的备选的大语言模型；

21、结果预测模块，用于根据各备选的大语言模型的预测验证结果，在各备选的大语言模型中筛选出目标大语言模型，以及确定目标大语言模型对应的备选组合中备选指令为目标指令。

22、第四方面，本发明实施例还提供了一种文档抽取装置，该装置包括：

23、数据获取模块，用于获取用户输入的文档数据；

24、指令融合模块，用于将文档数据和目标大语言模型对应的目标指令进行融合，得到文档处理指令；

25、实体获取模块，用于将文档处理指令输入至目标大语言模型中，得到文档数据中的文档实体。

26、第五方面，本发明实施例还提供了一种大语言模型的训练和文档抽取设备，设备包括：

27、至少一个处理器；以及

28、与至少一个处理器通信连接的存储器；其中，

29、存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本发明任一实施例的文档抽取的大语言模型的训练方法或文档抽取方法。

30、根据本发明的另一方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本发明任一实施例的文档抽取的大语言模型的训练方法或文档抽取方法。

31、本发明实施例的技术方案，通过获取目标场景的文档数据以及文档实体标注数据，有利于获取文档数据信息；根据目标场景的文档数据以及文档实体标注数据生成样本数据集，有利于模型进行训练；根据目标场景和样本数据集确定至少一个单次训练样本数量，有利于样本数据集分批次训练；根据目标场景确定至少一个备选指令，有利于模型更好的理解目标场景的文档数据以及文档实体标注数据；将各备选指令和各单次训练样本数据量进行组合，得到至少一个备选组合，有利于提升训练的多维性；训练备选组合对应的大语言模型，得到备选组合对应的备选的大语言模型，有利于针对不同的备选组合构建备选组合对应的大语言模型；根据各备选的大语言模型的预测验证结果，在各备选的大语言模型中筛选出目标大语言模型，以及确定目标大语言模型对应的备选组合中备选指令为目标指令，有利于根据不同的备选组合选取文档抽取准确率最高的模型和适配的指令，提高了文档抽取的准确率和效率。

32、应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种文档抽取的大语言模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练所述备选组合对应的大语言模型，得到所述备选组合对应的备选的大语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述备选指令包括：大语言模型的角色信息、文档数据的槽位、输出的实体类型和实体格式。

4.根据权利要求1所述的方法，其特征在于，所述根据各所述备选的大语言模型的预测验证结果，在各所述备选的大语言模型中筛选出目标大语言模型，包括：

5.一种文档抽取方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述获取用户输入的文档数据，包括：

7.一种文档抽取的大语言模型的训练装置，其特征在于，所述装置包括：

8.一种文档抽取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-4中任一项所述的文档抽取的大语言模型的训练方法或权利要求5-6中任一项所述的文档抽取方法。

技术总结
本发明公开了一种大语言模型的训练和文档抽取方法、装置、设备及介质。该方法包括：获取目标场景的文档数据以及文档实体标注数据；根据目标场景的文档数据以及文档实体标注数据生成样本数据集；根据目标场景和样本数据集确定至少一个单次训练样本数量；根据目标场景确定至少一个备选指令；将各备选指令和各单次训练样本数据量进行组合，得到至少一个备选组合；训练备选组合对应的大语言模型，得到备选组合对应的备选的大语言模型；根据各备选的大语言模型的预测验证结果，在各备选的大语言模型中筛选出目标大语言模型，以及确定目标大语言模型对应的备选组合中备选指令为目标指令。本发明实施例的技术方案可以提高合同管理的准确率和效率。

技术研发人员：李超,陈运文,纪达麒,吴万杰,文敏,石亚庆,白良俊
受保护的技术使用者：达而观数据（成都）有限公司
技术研发日：
技术公布日：2024/1/25

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超,陈运文,纪达麒,吴万杰,文敏,石亚庆,白良俊
技术所有人：达而观数据（成都）有限公司
我是此专利的发明人

上一篇：一种通信设备用天线支架紧固系统的制作方法
上一篇：一种站台门系统中滑动门的分步式替换方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。