一种基于跨域迁移学习的命名实体识别方法和装置与流程

文档序号:37183942发布日期:2024-03-01 12:45阅读:22来源:国知局
一种基于跨域迁移学习的命名实体识别方法和装置与流程

本技术涉及命名实体识别,尤其是涉及一种基于跨域迁移学习的命名实体识别方法和装置。


背景技术:

1、在医学场景下,针对某些科室已经训练好源域命名实体识别模型的前提下,在进行跨科室或跨医院迁移时,需要对新的数据重新进行标注,再去训练对目标域进行命名实体识别的模型,一方面会对源域既有学到的知识造成影响,另一方面需要标注的目标域数据量较大,消耗的资源对应也较大。这样会导致训练出的目标域命名实体识别模型对于目标域的实体识别的准确率较低。


技术实现思路

1、有鉴于此,本技术的目的在于提供一种基于跨域迁移学习的命名实体识别方法和装置,将源域模型关键结构选取以及目标域关键样本选取相结合,通过保留源域模型核心参数来保留源域的知识,通过结合t-sne算法选取关键样本数据来减少人工标注,以解决迁移学习时对目标域样本数量的大量需求,实现有效的精准标注,用最少的样本来最大化的提升模型效果,以提升模型对命名实体识别的准确性。

2、第一方面,本技术实施例提供了一种基于跨域迁移学习的命名实体识别方法,所述命名实体识别方法包括:

3、获取源域对应的源域文本数据以及源域命名实体识别模型;其中,所述源域命名实体识别模型是预先通过所述源域文本数据训练得到的;

4、在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层;

5、获取目标域对应的目标域文本数据,并基于t-sne算法对所述源域文本数据和所述目标域文本数据进行关键样本选取,得到训练文本数据;

6、将所述待锁定结构层锁定,使用所述训练文本数据对所述源域命名实体识别模型进行训练,以得到所述目标域对应的目标域命名实体识别模型;

7、将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型,得到所述目标域命名实体识别模型对所述医学文本数据实体识别的结果。

8、进一步的,所述在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层,包括:

9、利用所述源域文本数据对所述源域命名实体识别模型进行训练,得到用于评价所述源域命名实体识别模型的第一指标分数;

10、针对于所述源域命名实体识别模型的每一模型结构层,将该模型结构层进行锁定,利用所述源域文本数据对所述源域命名实体识别模型进行训练,得到锁定该模型结构层时用于评价所述源域命名实体识别模型的第二指标分数;

11、将多个所述第二指标分数中与所述第一指标分数之间的差距最小的第二指标分数对应的模型结构层作为所述待锁定结构层。

12、进一步的,所述基于t-sne算法对所述源域文本数据和所述目标域文本数据进行关键样本选取,得到训练文本数据,包括:

13、基于所述源域命名实体识别模型生成所述源域文本数据和所述目标域文本数据对应的空间向量表征;

14、通过所述t-sne算法将所述空间向量表征降维到二维平面中,生成二维平面画布;

15、基于预设数据组中的各个画框尺寸数据对所述二维平面画布进行切分,并根据切分后得到的各个数据框对所述源域文本数据和所述目标域文本数据进行筛选,以得到所述训练文本数据。

16、进一步的,所述基于预设数据组中的各个画框尺寸数据对所述二维平面画布进行切分,并根据切分后得到的各个数据框对所述源域文本数据和所述目标域文本数据进行筛选,以得到所述训练文本数据,包括:

17、针对于所述预设数据组中的每个画框尺寸数据,基于该画框尺寸数据对所述二维平面画布进行切分,得到所述二维平面画布中的多个数据框;

18、基于该画框尺寸数据以及所述预设数据组中的每个预设比值,确定出该画框尺寸数据对应的多个目标数据对;

19、针对于每个目标数据对,使用该目标数据对中的所述预设比值对多个所述数据框进行筛选,得到多个标注数据框,并基于多个所述标注数据框中的所述目标域文本数据计算该目标数据对对应的平均信息熵;

20、将多个所述平均信息熵中第一最小平均信息熵对应的目标数据对确定为该画框尺寸数据对应的待筛选数据对;

21、从多个所述平均信息熵中确定出最小的平均信息熵,并将使用所述最小的平均信息熵对应的目标数据对进行筛选时所得到的多个标注数据框中的文本数据确定为所述训练文本数据。

22、进一步的,所述使用该目标数据对中的所述预设比值对多个所述数据框进行筛选,得到多个标注数据框,包括:

23、针对于每个数据框,计算该数据框中所述目标域文本数据的数量与所述源域文本数据的数量之间的比值;

24、若所述比值大于所述预设比值,则将该数据框确定为所述标注数据框。

25、进一步的,在得到所述训练文本数据后,所述命名实体识别方法还包括:

26、将所述训练文本数据进行随机打乱,并基于每条训练文本数据对应的分数对每条训练文本数据进行分数由低到高的排序;其中,每条训练文本数据对应的分数是基于所述源域命名实体识别模型确定的;

27、将所述排序中前预设数量的训练文本数据作为所述训练文本数据。

28、第二方面,本技术实施例还提供了一种基于跨域迁移学习的命名实体识别装置,所述命名实体识别装置包括:

29、模型获取模块,用于获取源域对应的源域文本数据以及源域命名实体识别模型;其中,所述源域命名实体识别模型是预先通过所述源域文本数据训练得到的;

30、待锁定结构层确定模块,用于在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层;

31、训练文本数据确定模块,用于获取目标域对应的目标域文本数据,并基于t-sne算法对所述源域文本数据和所述目标域文本数据进行关键样本选取,得到训练文本数据;

32、目标域模型训练模块,用于将所述待锁定结构层锁定,使用所述训练文本数据对所述源域命名实体识别模型进行训练,以得到所述目标域对应的目标域命名实体识别模型;

33、命名实体识别模块,用于将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型,得到所述目标域命名实体识别模型对所述医学文本数据实体识别的结果。

34、进一步的,所述待锁定结构层确定模块在用于在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层时,所述待锁定结构层确定模块还用于:

35、利用所述源域文本数据对所述源域命名实体识别模型进行训练,得到用于评价所述源域命名实体识别模型的第一指标分数;

36、针对于所述源域命名实体识别模型的每一模型结构层,将该模型结构层进行锁定,利用所述源域文本数据对所述源域命名实体识别模型进行训练,得到锁定该模型结构层时用于评价所述源域命名实体识别模型的第二指标分数;

37、将多个所述第二指标分数中与所述第一指标分数之间的差距最小的第二指标分数对应的模型结构层作为所述待锁定结构层。

38、第三方面,本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的基于跨域迁移学习的命名实体识别方法的步骤。

39、第四方面,本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的基于跨域迁移学习的命名实体识别方法的步骤。

40、本技术实施例提供的一种基于跨域迁移学习的命名实体识别方法和装置,首先,获取源域对应的源域文本数据以及源域命名实体识别模型;然后,在单独锁定所述源域命名实体识别模型的每一模型结构层时,基于所述源域命名实体识别模型的指标分数的变化情况,对所述源域命名实体识别模型进行关键结构选取,以得到待锁定结构层;获取目标域对应的目标域文本数据,并基于t-sne算法对所述源域文本数据和所述目标域文本数据进行关键样本选取,得到训练文本数据;将所述待锁定结构层锁定,使用所述训练文本数据对所述源域命名实体识别模型进行训练,以得到所述目标域对应的目标域命名实体识别模型;最后,将所述目标域对应的医学文本数据输入到所述目标域命名实体识别模型,得到所述目标域命名实体识别模型对所述医学文本数据实体识别的结果。

41、本技术将源域模型关键结构选取以及目标域关键样本选取相结合,一方面,通过保留源域模型核心参数来保留源域的知识,另一方面,通过结合t-sne算法选取关键样本数据来减少人工标注,以解决迁移学习时对目标域样本数量的大量需求,实现有效的精准标注,用最少的样本来最大化的提升模型效果,以提升模型对命名实体识别的准确性。

42、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1