本技术属于数据处理领域,具体涉及一种模型确定方法、装置及计算机可读存储介质。
背景技术:
1、本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、人类具有凭借先前的知识快速适应新场景的能力,例如,婴儿只需见过几次猫或狗就能认出它们,只需有限的行走练习就能学会跑步。相比之下,模型则通常需要大量的样本来学习应用于特定的应用场景,并且缺乏相应的泛化能力。
3、对此,相关技术中提出了模型无关元学习(model-agnostic meta-learning,maml)来弥补模型训练需要大量样本和泛化能力较差的不足,具体的,maml不是通过大量的样本来提升模型在某个特定的应用场景的能力,而是通过来自于不同数据集的少量的样本来提升模型在一系列应用场景的能力,例如,与只能应用于语音识别的语音识别模型或者与只能应用于图像识别的图像识别模型相比,通过maml可以在来自于不同数据集的少量样本的训练下得到能够应用于语音识别和图像识别等一系列应用场景的多场景识别模型。
4、虽然相关技术中通过maml可以得到能够应用于一系列应用场景的多场景模型,但是由于需要保证多场景模型在应用于多个应用场景的通用初始化,故多场景模型在应用于具体的应用场景时的效果会较差,例如,通过maml得到的多场景识别模型在应用于语音识别这一具体的应用场景时的准确率可能并不高,即通过maml得到的多场景模型在应用于多个应用场景时会存在一定的局限性。
5、因此,如何提高能够应用于多个应用场景的多场景模型的准确率是一个亟待解决的问题。
6、申请内容
7、针对上述现有技术中存在的问题,提出了一种模型确定方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
8、本技术提供了以下方案。
9、第一方面,提供了一种模型确定方法,包括:
10、获取m个训练任务分别对应的多个训练样本,m为整数,m≥2;针对所述m个训练任务中第i个训练任务,所述第i个训练任务对应的多个训练样本对应于多个训练数据集,所述多个训练数据集与多个应用场景一一对应,其中,i为整数,m≥i≥1;
11、将所述第i个训练任务对应的多个训练样本输入初始多场景模型,通过所述初始多场景模型中的特征提取子模型,确定所述第i个训练任务对应的多个训练样本分别对应的数据集特征;所述数据集特征用于表示对应的训练样本与所述多个训练数据集之间的相关性;
12、根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征,通过所述初始多场景模型中的预测子模型,确定所述第i个训练任务对应的多个训练样本分别对应的预测结果;
13、基于所述第i个训练任务对应的多个训练样本的分别对应的预测结果和对应的样本标签之间的差异,生成第i个训练任务对应的子模型损失函数;
14、通过所述m个训练任务分别对应的子模型损失函数和外循环学习率,对所述初始多场景模型进行训练的内循环和外循环,得到多场景模型。
15、可选的,当所述预测子模型包括k个卷积层时,其中,k为整数,k≥2,所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征,通过所述初始多场景模型中的预测子模型,确定所述第i个训练任务对应的多个训练样本分别对应的预测结果,包括:
16、针对所述k个卷积层中的第1个卷积层,将所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征输入所述第1个卷积层,通过所述第1个卷积层,确定所述第i个训练任务对应的多个训练样本分别对应的第1层预测子结果;
17、针对所述k个卷积层中的第k个卷积层,将所述第i个训练任务对应的多个训练样本分别对应的第k-1层预测子结果和所述多个样本分别对应的数据集特征输入所述第k个卷积层,通过所述第k个卷积层,确定所述第i个训练任务对应的多个训练样本分别对应的第k层预测子结果;其中,k为整数,k≥k≥2;
18、将所述第i个训练任务对应的多个训练样本分别对应的第k层预测子结果作为所述第i个训练任务对应的多个训练样本分别对应的预测结果。
19、可选的,所述特征提取子模型与所述预测子模型具有相同的模型架构。
20、可选的,所述根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征,通过所述初始多场景模型中的预测子模型,确定所述第i个训练任务对应的多个训练样本分别对应的预测结果,包括:
21、将所述多个训练样本分别对应的数据集特征输入所述初始多场景模型中的双向长短期记忆网络,通过所述双向长短期记忆网络,确定所述多个训练样本分别对应的记忆数据集特征;所述记忆数据集特征包括的信息量大于对应的数据集特征包括的信息量;
22、根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的记忆数据集特征,通过所述初始多场景模型中的预测子模型,确定所述第i个训练任务对应的多个训练样本分别对应的预测结果。
23、可选的,所述通过所述m个训练任务分别对应的子模型损失函数和外循环学习率,对所述初始多场景模型进行训练的内循环和外循环,得到多场景模型,包括:
24、通过所述第i个训练任务对应的子模型损失函数,对所述初始多场景模型进行训练的内循环,得到所述第i个训练任务对应的模型更新参数;
25、根据所述m个训练任务分别对应的模型更新参数和外循环学习率,对所述初始多场景模型进行训练的外循环,得到多场景模型。
26、可选的,所述通过所述第i个训练任务对应的子模型损失函数,对所述初始多场景模型进行训练的内循环,得到所述第i个训练任务对应的模型更新参数,包括:
27、通过所述第i个训练任务对应的子模型损失函数,对所述初始多场景模型进行训练的内循环,得到所述第i个训练任务对应的多个模型更新子参数;所述第i个训练任务对应的多个模型更新子参数与所述第i个训练任务对应的多步更新一一对应;
28、所述根据所述m个训练任务分别对应的模型更新参数和外循环学习率,对所述初始多场景模型进行训练的外循环,得到多场景模型,包括:
29、根据所述m个训练任务分别对应的多个模型更新子参数和外循环学习率,对所述初始多场景模型进行训练的外循环,得到多场景模型。
30、可选的,在通过所述第i个训练任务对应的子模型损失函数,对所述初始多场景模型进行训练的内循环时,所述方法还包括:
31、为所述第i个训练任务对应的多步更新分别配置对应的样本权重。
32、可选的,所述为所述第i个训练任务对应的多个训练样本分别配置对应的样本权重,包括:
33、在所述初始多场景模型的训练的内循环开始阶段,为所述第i个训练任务对应的多步更新分别配置对应的初始样本权重;所述第i个训练任务对应的多个初始样本权重的数值相同;
34、在所述初始多场景模型的训练的内循环过程中,对所述第i个训练任务对应的多个初始样本权重进行调整;其中,针对所述第i个训练任务对应的多步更新中的开始更新步骤,减小所述第i个训练任务对应的开始更新步骤对应的初始样本权重,针对所述第i个训练任务对应的多步更新中的后续更新步骤,增加所述第i个训练任务对应的后续更新步骤对应的初始样本权重。
35、可选的,所述方法还包括:
36、在所述初始多场景模型的训练的外循环过程中,对所述外循环学习率进行退火;其中,所述外循环学习率随着所述初始多场景模型的训练的外循环过程变小。
37、第二方面,提供了一种模型确定装置,包括:
38、获取单元,用于获取m个训练任务分别对应的多个训练样本,m为整数,m≥2;针对所述m个训练任务中第i个训练任务,所述第i个训练任务对应的多个训练样本分别具有对应的样本标签,所述第i个训练任务对应的多个训练样本对应于多个训练数据集,所述多个训练数据集与多个应用场景一一对应,所述多个应用场景具有相同的场景类型,其中,i为整数,m≥i≥1;
39、第一确定单元,用于将所述第i个训练任务对应的多个训练样本输入初始多场景模型,通过所述初始多场景模型中的特征提取子模型,确定所述第i个训练任务对应的多个训练样本分别对应的数据集特征;所述数据集特征用于表示对应的训练样本与所述多个训练数据集之间的相关性;
40、第二确定单元,用于根据所述第i个训练任务对应的多个训练样本和所述多个训练样本分别对应的数据集特征,通过所述初始多场景模型中的预测子模型,确定所述第i个训练任务对应的多个训练样本分别对应的预测结果;
41、生成单元,用于基于所述第i个训练任务对应的多个训练样本的分别对应的预测结果和对应的样本标签之间的差异,生成第i个训练任务对应的子模型损失函数;
42、第一训练单元,用于通过所述第i个训练任务对应的子模型损失函数,对所述初始多场景模型进行训练的内循环,得到所述第i个训练任务对应的模型更新参数;
43、第二训练单元,用于根据所述m个训练任务分别对应的模型更新参数和外循环学习率,对所述初始多场景模型进行训练的外循环,得到多场景模型,所述多场景模型应用于所述多个应用场景。
44、第三方面,提供了一种模型确定装置,包括:
45、至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如上述方面所述的方法。
46、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行如上述方面所述的方法。
47、上述实施例的优点之一,为了得到能够应用于具有相同的场景类型的多个应用场景的多场景模型,获取m个训练任务分别对应的多个训练样本,m为整数,m≥2,以m个训练任务中第i个训练任务为例进行说明,其中,i为整数,m≥i≥1,第i个训练任务对应的多个训练样本并不是来自于一个训练数据集,而是来自于与多个应用场景一一对应的多个训练训练数据集;将第i个训练任务对应的多个训练样本输入初始多场景模型进行训练优化,初始多场景模型包括特征提取子模型和预测子模型,可以先通过特征提取子模型确定第i个训练任务对应的多个训练样本分别对应的数据集特征,数据集特征用于表示对应的训练样本与多个训练数据集之间的相关性,即数据集特征可以表示与对应的训练样本最相关的训练数据集,从而确定对应的训练样本对应的应用场景,再根据第i个训练任务对应的多个训练样本和该多个训练样本分别对应的数据集特征,通过预测子模型,确定第i个训练任务对应的多个训练样本分别对应的预测结果,由于预测子模型在确定预测结果的过程中不仅参考了训练样本,还参考了能够表示训练样本对应的应用场景的数据集特征,故能够在一定程度上增加了预测结果的准确性;基于第i个训练任务对应的多个训练样本的分别对应的预测结果和对应的样本标签之间的差异,能够生成第i个训练任务对应的子模型损失函数;并通过m个训练任务分别对应的子模型损失函数和外循环学习率,对初始多场景模型进行训练的内循环和外循环,得到多场景模型。在对初始多场景模型进行训练的过程中,包括特征提取子模型和预测子模型的初始多场景模型能够在训练过程中学习到如何判别训练样本对应的应用场景的知识,从而能够使得得到的多场景模型能够更好的应用于多个应用场景中具体的应用场景,提高应用于多个应用场景的多场景模型的准确率。
48、本技术的其他优点将配合以下的说明和附图进行更详细的解说。
49、应当理解,上述说明仅是本技术技术方案的概述,以便能够更清楚地了解本技术的技术手段,从而可依照说明书的内容予以实施。为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本技术的具体实施方式。
技术实现思路