模型训练方法、数据抽取方法及相关设备与流程

文档序号:37647663发布日期:2024-04-18 20:21阅读:9来源:国知局
模型训练方法、数据抽取方法及相关设备与流程

本技术涉及自然语言模型和抽取模型,尤其涉及一种模型训练方法、数据抽取方法及相关设备。


背景技术:

1、自然语言模型中的用于进行要素抽取的模型被称为自然语言要素抽取模型,自然语言要素抽取模型更多地依赖从训练数据中挖掘到的知识,其性能取决于模型超参数调整的好坏及训练标注数据的数量和广度。现有的自然语言抽取模型进行训练时,需要较大的人工标注成本,且标注的数据集必须是同一业务领域,才能够使得抽取模型具有该业务领域的抽取能力。训练后的抽取模型进行数据抽取时,按照流水线抽取方式,例如,首先对实体抽取,然后基于实体识别对关系进行抽取,这样,可能存在识别错误信息,导致实体和关系抽取任务的任务割裂产生部分冗余信息。


技术实现思路

1、有鉴于此,本技术的目的在于提出一种模型训练方法、数据抽取方法及相关设备,以解决现有语言模型进行数据抽取式,按照流水线抽取,存在识别错误信息,导致实体和关系抽取任务的任务割裂产生部分冗余信息的问题。

2、基于上述目的,本公开提供了一种模型训练方法,包括:

3、获取第一训练集和第二训练集,对所述第二训练集进行预处理,得到带有标注的第二训练集;其中,所述第一训练集和所述第二训练集包含的文本数据不同;

4、根据所述第一训练集,利用无监督训练算法对预设抽取模型进行训练,得到初始抽取模型;

5、根据预设的输入序列格式和输出序列格式,对所述带有标记的第二训练集进行处理,得到第二训练集的输入序列集和输出序列集;

6、根据所述第二训练集的输入序列集和输出序列集,利用有监督训练算法对所述初始抽取模型进行训练,得到目标抽取模型。

7、可选地,所述根据所述第一训练集,利用无监督训练算法对预设抽取模型进行训练,得到初始抽取模型,包括:

8、根据所述第一训练集中的文本数据对预设抽取模型进行迭代训练,最小化所述预设抽取模型的损失函数,以得到所述初始抽取模型。

9、可选地,所述对所述第二训练集进行预处理,得到带有标注的第二训练集,包括:

10、将所述第二训练集中满足预设条件的文本数据作为初始文本数据集;

11、根据任务要求对所述初始文本数据集进行标注,得到所述带有标注的第二训练集。

12、可选地,所述根据预设的输入序列格式和输出序列格式,对所述带有标记的第二训练集进行处理,得到第二训练集的输入序列集和输出序列集,包括:

13、根据所述输入序列格式对所述第二训练集内的文本数据进行滑动窗口操作,形成所述输入序列集;

14、根据所述输出序列格式对所述第二训练集内的文本数据进行滑动窗口操作,形成所述输出序列集。

15、可选地,根据所述第二训练集的输入序列集和输出序列集,利用有监督训练算法对初始抽取模型进行训练,得到目标抽取模型,包括:根据所述第二训练集的部分输入序列集和与所述部分输入序列集对应的输出序列集,利用有监督训练算法对初始抽取模型进行第一次训练,得到第一抽取模型;

16、根据所述第二训练集中除所述部分输入序列集的其他输入序列集和与所述其他序列集对应的输出序列集,利用有监督训练算法对第一抽取模型进行第二次训练,得到所述目标抽取模型。

17、可选地,所述输入序列格式包括任务类型、原始文本、抽取模式和至少一待抽取项目。

18、可选地,所述预设的输出序列格式包括与至少一组元素集合,其中,每组元素集合中的元素数量与所述待抽取项目的数量相同。

19、基于同一发明构思,本公开还提供了一种数据抽取方法,应用如上所述的模型训练方法得到的目标抽取模型,包括:

20、获取待抽取任务的新文本;

21、根据预设的输入序列格式,对所述待抽取任务的新文本进行处理,得到待输入序列;

22、将所述待输入序列输入至所述目标抽取模型,得到抽取结果。

23、基于同一发明构思,本公开还提供了一种模型训练装置,包括:

24、第一获取模块,用于获取第一训练集和第二训练集,对所述第二训练集进行预处理,得到带有标注的第二训练集;其中,所述第一训练集和所述第二训练集包含的文本数据不同;

25、第一训练模块,用于根据所述第一训练集,利用无监督训练算法对预设抽取模型进行训练,得到初始抽取模型;

26、第一处理模块,用于根据预设的输入序列格式和输出序列格式,对所述带有标记的第二训练集进行处理,得到第二训练集的输入序列集和输出序列集;

27、第二训练模块,用于根据所述第二训练集的输入序列集和输出序列集,利用有监督训练算法对所述初始抽取模型进行训练,得到目标抽取模型。

28、可选地,所述第一训练模块,还用于:

29、根据所述第一训练集中的文本数据对预设抽取模型进行迭代训练,最小化所述预设抽取模型的损失函数,以得到所述初始抽取模型。

30、可选地,所述第一获取模块,还用于:

31、将所述第二训练集中满足预设条件的文本数据作为初始文本数据集;根据任务要求对所述初始文本数据集进行标注,得到所述带有标注的第二训练集。

32、可选地,所述第一处理模块,还用于:

33、根据所述输入序列格式对所述第二训练集内的文本数据进行滑动窗口操作,形成所述输入序列集;根据所述输出序列格式对所述第二训练集内的文本数据进行滑动窗口操作,形成所述输出序列集。

34、可选地,所述第一处理模块,还用于:

35、根据所述第二训练集的部分输入序列集和与所述部分输入序列集对应的输出序列集,利用有监督训练算法对初始抽取模型进行第一次训练,得到第一抽取模型;根据所述第二训练集中除所述部分输入序列集的其他输入序列集和与所述其他序列集对应的输出序列集,利用有监督训练算法对第一抽取模型进行第二次训练,得到所述目标抽取模型。

36、可选地,所述输入序列格式包括任务类型、原始文本、抽取模式和至少一待抽取项目。

37、可选地,所述预设的输出序列格式包括与至少一组元素集合,其中,每组元素集合中的元素数量与所述待抽取项目的数量相同。

38、基于同一发明构思,本公开还提供了一种数据抽取装置,包括:

39、第二获取模块,用于获取待抽取任务的新文本;

40、第二处理模块,用于根据预设的输入序列格式,对所述待抽取任务的新文本进行处理,得到待输入序列;

41、抽取模块,用于将所述待输入序列输入至所述目标抽取模型,得到抽取结果。

42、基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。

43、基于同一发明构思,本公开还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。

44、从上面所述可以看出,本技术提供的一种模型训练方法,获取第一训练集和第二训练集,对第二训练集进行处理,也即对第二训练集进行标注,得到带有标注的第二训练集;可见,本技术中只对第二训练集进行标注,对预设抽取模型进行训练时,无需将所有的训练集进行标注,也即无需大量的人工标注,节省人力,同时节省标注时间,提高模型训练速度。通过对预设抽取模型进行两次训练后,得到目标训练模型,该目标训练模型通过两个训练集进行学习,增强了学习能力,使目标训练模型的抽取能力更强。利用第二训练集的输入序列和输出序列对模型进行训练,使训练后的模型具有可根据指令的输入序列进行提取的功能,只需要按照指令的要求进行提取即可,避免识别错误信息,避免了抽取任务之间的任务割裂导致信息冗余的问题;基于输入序列和输出序列训练的模型,还可适用于多行业领域。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1