基于元学习的可自定义标签深度学习模型构建方法及系统与流程

文档序号:36401498发布日期:2023-12-16 04:48阅读:24来源:国知局
基于元学习的可自定义标签深度学习模型构建方法及系统与流程

本发明涉及深度学习,具体涉及基于元学习的可自定义标签深度学习模型构建方法及系统。


背景技术:

1、随着互联网和数字技术的快速发展,大量的文本数据在各个领域中产生。这些文本数据包含了丰富的信息,如何有效的处理这些海量的信息对于企业和个人来说具有巨大的价值。然而,传统的自然语言处理方法在处理这些数据时,往往需要大量的手工标注和特征工程,耗时且效果有限。近年来,深度学习技术在自然语言处理领域取得了显著的进步,使得许多复杂任务得以实现。尽管如此,现有的深度学习模型在应对特定领域和自定义任务时仍存在诸多局限,例如在实体抽取和分类任务中,模型的泛化能力和扩展性仍有待提高。

2、另外,目前与自然语言处理方法有关的技术可以分为以下几种:

3、1.基于规则和特征的方法:这是自然语言处理任务中最为常见的方法。通过手工制定的规则或者特定的特征,实现实体的识别或文本的分类。

4、2.深度学习方法:这是近年来最为流行的方法,尤其是transformer及其变种如bert、gpt等模型在多项nlp任务中取得了领先的性能。这些模型能够自动提取文本特征,并进行端到端的训练,大大提高了任务的效果。

5、3.迁移学习和微调:在深度学习模型的基础上,通过在大规模数据上预训练,然后在特定任务上微调,可以进一步提高模型的效果。这种方法可以利用预训练模型的泛化能力,在少量标注数据上也能取得较好的效果。

6、4.元学习算法:近年来的机器学习研究中,元学习已经表现出对于分类任务的巨大潜力,特别是当可用的标注数据较少时。元学习的核心思想是利用少量的数据作为提示、就能有效地适应新任务。这主要是通过找到一个适合多个任务的模型起点,然后根据新任务的少量样本进行微调。

7、5.大型语言模型技术:这种模型,如gpt系列、t5等,通过利用大量无标签的文本数据进行预训练,然后在特定任务上进行微调或给出适当提示,取得了很多nlp任务的最佳性能。它们可以捕捉到深层次的语言结构和语义信息,对于很多任务有着显著的助益。

8、然而现有技术或多或少都存在一些缺陷,具体如下:

9、1.基于规则和特征的方法:随着数据量和任务复杂性的增加,这种方法在效果和效率上逐渐显得力不从心,并且完全没有泛化性能。对于和原任务存在差异的新数据只能进行规则的更新,并且可能对已有规则产生伤害。

10、2.深度学习方法:当前的深度学习模型往往需要大量的标注数据来训练。数据标注的质量对结果的影响极大,在数据稀缺的特定领域或任务上,模型的效果可能会大打折扣。

11、3.迁移学习和微调:虽然迁移学习和微调可以在某种程度上解决数据稀缺问题,但如何让模型更好地泛化到新的、完全未见过的任务仍然是一个挑战。通常来看,迁移以及微调的目标任务与模型的原始任务不能差别过大,否则,不仅迁移训练或者微调的难度很大,模型的最终效果也很难保证。

12、4.元学习算法:目前元学习的应用大多集中在分类任务上,如图像分类或文本分类。尽管这些方法在分类任务上取得了显著的成功,但由于实体抽取的单个样本中存在多个标签,经典元学习算法很难直接应用于序列标注任务,特别是命名实体识别 (ner)。

13、5.大型语言模型技术:大型语言模型往往有着上亿的参数。尽管这些模型在许多任务中表现出色,但由于它们是在特定的、大规模的文本数据上进行预训练的,可能会引入数据的偏见。当遇到与预训练数据分布不同的任务时,由于拥有过于庞大的参数量,导致这类大模型的微调是一个非常艰难的任务。同时,由于海量的参数导致它们需要大量的计算资源进行训练和部署,从而增加了相关任务的计算成本。同时,过大模型也限制了它们在特定环境中的部署。

14、综上所述,在实际应用中,不同领域和场景下的文本数据具有不同的特点,需要抽取的实体类型和分类任务的标签也各不相同。现有的深度学习模型往往在处理通用任务时性能优越,但在应对特定领域和自定义任务时却难以胜任。

15、因此,设计一种能够使用户可以在默认标签的基础上进行模型能力的扩充或变更,实现更加灵活和准确的实体抽取和分类任务的基于元学习的可自定义标签深度学习模型构建方法及系统,就显得十分重要。


技术实现思路

1、本发明是为了克服现有技术中,现有的深度学习模型往往在处理通用任务时性能优越,但在应对特定领域和自定义任务时却存在难以胜任的问题,提供了一种能够使用户可以在默认标签的基础上进行模型能力的扩充或变更,实现更加灵活和准确的实体抽取和分类任务的基于元学习的可自定义标签深度学习模型构建方法及系统。

2、为了达到上述发明目的,本发明采用以下技术方案:

3、基于元学习的可自定义标签深度学习模型构建方法,包括如下步骤;

4、s1,将训练数据按照标签分成若干个任务,每个任务均含有支持数据集和查询数据集;

5、s2,采用基于转换器的预训练模型bert作为基础的模型,并使用支持数据集对模型进行内循环的调整,再使用查询数据集对调整后的模型进行外循环的训练;

6、s3,对训练后的模型进行测试,若模型达到预期的指标,则进入下一步骤;若模型未达到预期的指标,则重复步骤s2训练过程;

7、s4,根据实际使用需求,提供带标注的实体示例数据作为学习样本,通过测试的模型利用学习样本快速适应新任务,并达到实体标签抽取的目的;

8、s5,在新任务上获取了预期数量的新数据后,将新数据与原始训练数据结合,对通过测试的模型再次进行步骤s2的训练过程。

9、作为优选,步骤s1中,所述支持数据集中的标签同样存在于查询数据集中,且支撑数据集和查询数据集的任务类型保持一致。

10、作为优选,步骤s2包括如下步骤:

11、s21,随机采样一个或一组任务ti,并在采样时产生一个随机数j,通过随机激活j个标签的方式进行任务的制定;其中,j的范围在2到n之间, n为随机采样任务中的最大标签数量;

12、s22,将任务ti中每一个单独的任务,均分成支持数据集和查询数据集;

13、s23,在内循环阶段,利用支持数据集对模型进行学习;在外循环阶段,在查询数据集上使用梯度下降对模型的初始参数进行更新。

14、作为优选,步骤s23包括如下步骤:

15、s231,以单个循环为例,设定,表示单个序列标注任务ti的一组训练样本;

16、其中,,表示序列长度为l的一句话;,表示对应的实体标签;

17、s232,计算出每类实体标签的平均表示,具体公式为:

18、;

19、其中,代表任务i中所有标签为k的集合,具体为;表示任务k的序列长度;表示深度学习模型,表示任务i中序号为t的字符或词语;表示任务i中序号为t的字符或词语对应的实体标签;为标签为k的所有词语的向量表示在通过模型 之后的平均;

20、s233,通过softmax 函数求出序列中每个字符对应某类标签的概率;

21、其中, 表示某类实体标签;e表示数学中自然底数e; 表示单个字符或者词语属于k类的概率,整体上表示为softmax函数;表示序列样本中的序列号为t的字符或词语;为序列样本中的序列号为t的字符或词语对应的实体标签;

22、其中,使用负对数似然函数作为损失函数,负对数似然函数为;表示单个任务的联合概率;

23、s235,通过梯度下降来更新模型的初始参数。

24、作为优选,步骤s3包括如下步骤:

25、s31,重新建立一组或多组训练任务;每组训练任务同样包含支持数据集和查询数据集;其中,支持数据集被看作是包含需要抽取的实体的示例数据;

26、s32,训练后的模型通过参考支持数据集,快速理解对应训练任务的要求,并针对训练任务调整模型参数;

27、s33,在查询数据集上进行评估以确认模型的性能,根据模型在查询数据集上的表现,决定是否需要重复步骤s2的训练过程;若模型未达到预期的指标,则重复步骤s2训练过程,直到模型最终达到预期的指标。

28、作为优选,所述学习样本的格式与支持数据集的格式保持一致。

29、作为优选,步骤s2中,所述基于转换器的预训练模型bert可替换为循环神经网络rnn或转换器transformers。

30、本发明还提供了基于元学习的可自定义标签深度学习模型构建系统,包括:

31、数据准备模块,用于将训练数据按照标签分成若干个任务,每个任务均含有支持数据集和查询数据集;

32、模型训练模块,用于采用基于转换器的预训练模型bert作为基础模型,并使用支持数据集对基础模型进行内循环的调整,再使用查询数据集对调整后的基础模型进行外循环的训练;

33、模型测试模块,用于对训练后的模型进行测试,若模型达到预期的指标,则进入下一模块;若模型未达到预期的指标,则重复模型训练模块的训练过程;

34、模型使用模块,根据实际使用需求,提供带标注的实体示例数据作为学习样本,通过测试的模型利用学习样本快速适应新任务,并达到实体标签抽取的目的;

35、模型在线学习与继续训练模块,在新任务上获取了预期数量的新数据后,将新数据与原始训练数据结合,对通过测试的模型再次进行模型训练模块的训练过程。

36、本发明与现有技术相比,有益效果是:(1)强化灵活性:与传统的实体抽取和分类模型相比,本发明允许用户在不需大量标注的前提下,快速地为模型添加或修改自定义标签,同时只需要提供与目标任务类似的少量标签数据即可,无需区别对待实体抽取任务和文本分类任务;这种设计不仅减少了数据准备的工作量,还为用户提供了更大的灵活性,以满足特定的实体抽取需求;(2)提高训练效率:本发明的元学习框架使得模型能够在新任务上快速适应,从而减少了模型在新标签或任务上的训练时间和计算资源消耗;(3)增强泛化能力:通过多任务学习,模型不仅可以在特定任务上获得优异表现,同时也增强了其对未见过任务的泛化能力,即使在数据量较小或标签分布发生变化的情况下,模型也能维持较高的性能;(4)支持在线学习:模型可以继续学习并不断完善,随着时间的推移和新数据的积累,模型可以进行在线学习和继续训练,从而持续优化其性能;(5)兼容性强:由于本发明可以与大多数预训练模型相结合,用户可以利用带有行业知识的预训练模型来加速元训练过程,这样可以有效减少训练时长并提升模型的准确性;(6)降低门槛:用户无需深入理解模型的内部机制,只需提供少量示例数据,即可进行自定义标签的实体抽取,大大降低了非专家用户的使用门槛;(7)模型持续优化:通过本发明的在线学习和继续训练功能,企业和组织可以在实时环境中持续收集和标注数据,从而确保模型在面对不断变化的数据和业务需求时始终保持最佳状态;(8)本发明提供了一种高效、灵活且易于部署的自定义标签实体抽取解决方案,有助于推动深度学习技术在实际应用中的广泛使用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1