本公开涉及人工智能领域,具体涉及图像识别、人脸识别技术,可应用在智慧城市、城市治理、应急管理场景下。
背景技术:
1、较大规模的模型无法部署到一些计算资源有限的设备上,因此需要一些手段对模型进行压缩,在相关技术中,通常可以通过知识蒸馏、量化、剪枝等手段实现模型的压缩。
2、知识蒸馏是一种常见的模型训练手段,旨在将参数较多的教师模型的知识蒸馏到参数较少学生模型中,实际使用时部署学生模型,从而降低所需的计算资源。然而,当教师模型和学生模型的网络结构差异较大时,会导致模型的训练过程的效率或者学生模型的准确率较差。
技术实现思路
1、本公开提供了一种模型训练方法、任务处理方法、装置、电子设备及介质。
2、根据本公开的第一方面,提供了一种模型训练方法,模型训练方法包括:
3、利用教师模型和初始学生模型对至少一个第一样本进行特征提取,得到每个第一样本的第一特征和第二特征,其中,第一特征是由教师模型提取的,第二特征是由初始学生模型提取的;
4、基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的参数,得到过渡学生模型;
5、利用教师模型和过渡学生模型对至少一个样本对进行特征提取,得到每个样本对中的第二样本的第三特征和第四特征,其中,样本对包括两个第二样本,第三特征是由教师模型提取的,第四特征是由过渡学生模型提取的;
6、确定每个样本对中两个第二样本的第三特征的第一相似度、每个样本对中两个第二样本的第四特征的第二相似度;
7、基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型。
8、在本公开的一些实施例中,第三特征是由教师模型中的特征提取层提取的,第四特征是由初始学生模型中的特征提取层提取的;
9、基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型,包括:基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型。
10、在本公开的一些实施例中,基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型,包括:
11、基于每个样本对所对应的第一相似度和第二相似度的差异和预设的第二损失函数,确定出第二损失;
12、基于每个第二损失调整过渡学生模型的特征提取层的参数,得到目标学生模型。
13、在本公开的一些实施例中,基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型,包括:
14、针对每个样本对,确定该样本对所对应的第一相似度和第二相似度的相似度差值;
15、响应于该样本对的相似度差值大于预设的差异阈值,将该样本对确定为目标样本对;
16、利用教师模型和至少一个目标样本对训练过渡学生模型,得到目标学生模型。
17、在本公开的一些实施例中,利用教师模型和至少一个目标样本对训练过渡学生模型,得到目标学生模型,包括:
18、利用教师模型和过渡学生模型对至少一个目标样本对进行特征提取,得到每个目标样本对中的第二样本的第三特征和第四特征;
19、确定每个目标样本对中两个第二样本的第三特征的第一相似度、每个目标样本对中两个第二样本的第四特征的第二相似度;
20、基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型。
21、在本公开的一些实施例中,第三特征是由教师模型中的特征提取层提取的,第四特征是由初始学生模型中的特征提取层提取的;
22、基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型,包括:基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型。
23、在本公开的一些实施例中,基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型,包括:
24、基于每个目标样本对所对应的第一相似度和第二相似度的差异和预设的第二损失函数,确定出第二损失;
25、基于每个第二损失调整过渡学生模型的特征提取层的参数,得到目标学生模型。
26、在本公开的一些实施例中,第一特征是由教师模型中的特征提取层提取的,第二特征是由初始学生模型中的特征提取层提取的;
27、基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的参数,得到过渡学生模型,包括:基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的特征提取层的参数,得到过渡学生模型。
28、在本公开的一些实施例中,基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的特征提取层的参数,得到过渡学生模型,包括:
29、基于每个第一样本的第一特征和第二特征的差异和预设的第一损失函数,确定出第一损失;
30、基于每个第一损失调整初始学生模型的特征提取层的参数,得到过渡学生模型。
31、根据本公开的第二方面,提供了一种任务处理方法,任务处理方法包括:
32、将待处理数据输入目标学生模型,其中,目标学生模型是基于本公开的第一方面提供的模型训练方法训练得到的;
33、利用目标学生模型输出对应的处理结果。
34、根据本公开的第三方面,提供了一种模型训练装置,模型训练装置包括第一特征提取模块、第一参数调整模块、第二特征提取模块、相似度比对模块和第二参数调整模块;
35、第一特征提取模块用于利用教师模型和初始学生模型对至少一个第一样本进行特征提取,得到每个第一样本的第一特征和第二特征,其中,第一特征是由教师模型提取的,第二特征是由初始学生模型提取的;
36、第一参数调整模块用于基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的参数,得到过渡学生模型;
37、第二特征提取模块用于利用教师模型和过渡学生模型对至少一个样本对进行特征提取,得到每个样本对中的第二样本的第三特征和第四特征,其中,样本对包括两个第二样本,第三特征是由教师模型提取的,第四特征是由过渡学生模型提取的;
38、相似度比对模块用于确定每个样本对中两个第二样本的第三特征的第一相似度、每个样本对中两个第二样本的第四特征的第二相似度;
39、第二参数调整模块用于基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型。
40、在本公开的一些实施例中,第三特征是由教师模型中的特征提取层提取的,第四特征是由初始学生模型中的特征提取层提取的;
41、第二参数调整模块在用于基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型时,具体用于:基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型。
42、在本公开的一些实施例中,第二参数调整模块在用于基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型时,具体用于:
43、基于每个样本对所对应的第一相似度和第二相似度的差异和预设的第二损失函数,确定出第二损失;
44、基于每个第二损失调整过渡学生模型的特征提取层的参数,得到目标学生模型。
45、在本公开的一些实施例中,第二参数调整模块在用于基于每个样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型时,具体用于:
46、针对每个样本对,确定该样本对所对应的第一相似度和第二相似度的相似度差值;
47、响应于该样本对的相似度差值大于预设的差异阈值,将该样本对确定为目标样本对;
48、利用教师模型和至少一个目标样本对训练过渡学生模型,得到目标学生模型。
49、在本公开的一些实施例中,第二参数调整模块在用于利用教师模型和至少一个目标样本对训练过渡学生模型,得到目标学生模型时,具体用于:
50、利用教师模型和过渡学生模型对至少一个目标样本对进行特征提取,得到每个目标样本对中的第二样本的第三特征和第四特征;
51、确定每个目标样本对中两个第二样本的第三特征的第一相似度、每个目标样本对中两个第二样本的第四特征的第二相似度;
52、基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型。
53、在本公开的一些实施例中,第三特征是由教师模型中的特征提取层提取的,第四特征是由初始学生模型中的特征提取层提取的;
54、第二参数调整模块在用于基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的参数,得到目标学生模型时,具体用于:基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型。
55、在本公开的一些实施例中,第二参数调整模块在用于基于每个目标样本对所对应的第一相似度和第二相似度调整过渡学生模型的特征提取层的参数,得到目标学生模型时,具体用于:
56、基于每个目标样本对所对应的第一相似度和第二相似度的差异和预设的第二损失函数,确定出第二损失;
57、基于每个第二损失调整过渡学生模型的特征提取层的参数,得到目标学生模型。
58、在本公开的一些实施例中,第一特征是由教师模型中的特征提取层提取的,第二特征是由初始学生模型中的特征提取层提取的;
59、第一参数调整模块在用于基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的参数,得到过渡学生模型时,具体用于:基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的特征提取层的参数,得到过渡学生模型。
60、在本公开的一些实施例中,第一参数调整模块在用于基于每个第一样本的第一特征和第二特征的差异调整初始学生模型的特征提取层的参数,得到过渡学生模型时,具体用于:
61、基于每个第一样本的第一特征和第二特征的差异和预设的第一损失函数,确定出第一损失;
62、基于每个第一损失调整初始学生模型的特征提取层的参数,得到过渡学生模型。
63、根据本公开的第四方面,提供了一种任务处理装置,任务处理装置包括数据输入模块和结果输出模块;
64、数据输入模块用于将待处理数据输入目标学生模型,其中,目标学生模型是基于本公开的第一方面提供的模型训练方法训练得到的;
65、结果输出模块用于利用目标学生模型输出对应的处理结果。
66、根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面提供的方法或第二方面提供的方法。
67、根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行第一方面提供的方法或第二方面提供的方法。
68、根据本公开的第七方面,提供了一种计算机程序项目,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面提供的方法或第二方面提供的方法。
69、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
70、本公开提供的技术方案带来的有益效果是:
71、本公开实施例提供的模型训练方法,首先基于教师模型和学生模型对同一个样本所提取出的特征的差异对学生模型进行训练,可以加速模型收敛,提高了模型训练的速度;之后继续以教师模型和学生模型对同一个样本对所提取出的特征的相似度的差异对学生模型进行训练,强化学生模型对不同图片之间的差异的学习能力,提升了学生模型的准确度。