一种知识蒸馏的方法、装置、电子设备及存储介质与流程

文档序号:36478808发布日期:2023-12-25 06:31阅读:40来源:国知局
一种知识蒸馏的方法与流程

本申请涉及人工智能,尤其涉及知识蒸馏的方法、装置、电子设备及存储介质。


背景技术:

1、知识蒸馏是模型压缩的一种常用的方法,通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。采用目前的知识蒸馏方法,无法精确的训练好这个小模型,使其达到更好的性能和精度。


技术实现思路

1、本申请提供了一种知识蒸馏的方法、图像识别方法、语音识别方法、装置、电子设备以及存储介质。

2、根据本申请的一方面,提供了一种知识蒸馏的方法,包括:

3、获取已训练的第一神经网络;

4、在第一神经网络对第二神经网络中的多个子分块网络进行监督的情况下,采用梯度自适应参数对所述第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,直至满足预设条件,得到第三神经网络;

5、其中,所述第三神经网络为已训练好的第二神经网络。

6、根据本申请的另一方面,提供了一种图像识别方法,包括:

7、将图像数据输入本申请任意一实施例得到的第三神经网络;

8、根据所述第三神经网络对所述图像数据进行识别,得到目标图像数据。

9、根据本申请的另一方面,提供了一种语音识别方法,包括:

10、将语音数据输入本申请任意一实施例得到的第三神经网络;

11、根据所述第三神经网络对所述语音数据进行识别,得到目标语音数据。

12、根据本申请的另一方面,提供了一种知识蒸馏的装置,包括:

13、第一获取单元,用于获取已训练的第一神经网络;

14、第一处理单元,用于在第一神经网络对第二神经网络中的多个子分块网络进行监督的情况下,采用梯度自适应参数对所述第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,直至满足预设条件,得到第三神经网络;

15、其中,所述第三神经网络为已训练好的第二神经网络。

16、根据本申请的另一方面,提供了一种图像识别装置,包括:

17、第六处理单元,用于将图像数据输入本申请任意一实施例得到的第三神经网络;

18、第七处理单元,用于根据所述第三神经网络对所述图像数据进行识别,得到目标图像数据。

19、根据本申请的另一方面,提供了一种语音识别装置,包括:

20、第八处理单元,用于将语音数据输入本申请任意一实施例得到的第三神经网络;

21、第九处理单元,用于根据所述第三神经网络对所述语音数据进行识别,得到目标语音数据。

22、根据本申请的另一方面,提供了一种电子设备,包括:

23、至少一个处理器;以及

24、与该至少一个处理器通信连接的存储器;其中,

25、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

26、根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

27、根据本申请的另一方面,提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本申请任意一项实施例所提供的方法。

28、采用本申请,可以获取已训练的第一神经网络,在第一神经网络对第二神经网络中的多个子分块网络进行监督的情况下,采用梯度自适应参数对第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,直至满足预设条件,得到第三神经网络;其中,第三神经网络为已训练好的第二神经网络,通过梯度自适应参数对第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,实现了自适应的知识蒸馏。

29、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种知识蒸馏的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述多个子分块网络,包括至少两个类型;其中,

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求2所述的方法,其特征在于,所述在所述第一神经网络对第二神经网络中的多个子分块网络进行监督的情况下,采用梯度自适应参数对所述第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,直至满足预设条件,得到第三神经网络,包括:

5.根据权利要求4所述的方法,其特征在于,还包括:

6.根据权利要求1-5中任一项所述的方法,其特征在于,所述第一神经网络及所述第二神经网络分别包括:第一子分块网络、第k-1子分块网络、第k子分块网络、第k+1子分块网络、第n-1子分块网络、第n子分块网络;所述k、所述n皆为大于2的正整数且k<n;其中,

7.根据权利要求6所述的方法,其特征在于,所述第一类子分块网络为所述第二神经网络中的所述第k子分块网络的情况下,所述第二神经网络中的所述第k子分块网络的输入,为所述第一神经网络中的所述第k-1子分块网络的输出,以及

8.根据权利要求6所述的方法,其特征在于,所述第二类子分块网络为所述第二神经网络中的所述第k+1子分块网络的情况下,所述第二神经网络中的所述第k+1子分块网络的输入,为所述第一神经网络中的所述第k子分块网络的输出,以及

9.根据权利要求1-5中任一项所述的方法,还包括:

10.根据权利要求1-5中任一项所述的方法,还包括:

11.一种图像识别方法,其特征在于,所述方法包括:

12.一种语音识别方法,其特征在于,所述方法包括:

13.一种知识蒸馏的装置,其特征在于,所述装置包括:

14.根据权利要求13所述的装置,其特征在于,所述多个子分块网络,包括至少两个类型;其中,

15.根据权利要求14所述的装置,其特征在于,还包括:第二处理单元,用于:

16.根据权利要求14所述的装置,其特征在于,所述第一处理单元,用于:

17.根据权利要求16所述的装置,其特征在于,还包括:第三处理单元,用于:

18.根据权利要求13-16中任一项所述的装置,其特征在于,所述第一神经网络及所述第二神经网络分别包括:第一子分块网络、第k-1子分块网络、第k子分块网络、第k+1子分块网络、第n-1子分块网络、第n子分块网络;所述k、所述n皆为大于2的正整数且k<n;其中,

19.根据权利要求18所述的装置,其特征在于,所述第一类子分块网络为所述第二神经网络中的所述第k子分块网络的情况下,所述第二神经网络中的所述第k子分块网络的输入,为所述第一神经网络中的所述第k-1子分块网络的输出,以及

20.根据权利要求18所述的装置,其特征在于,所述第二类子分块网络为所述第二神经网络中的所述第k+1子分块网络的情况下,所述第二神经网络中的所述第k+1子分块网络的输入,为所述第一神经网络中的所述第k子分块网络的输出,以及

21.根据权利要求13-17中任一项所述的装置,还包括:第四处理单元,用于:

22.根据权利要求13-17中任一项所述的装置,还包括:第五处理单元,用于:

23.一种图像识别装置,其特征在于,所述装置包括:

24.一种语音识别装置,其特征在于,所述装置包括:

25.一种电子设备,包括:

26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。


技术总结
本申请涉及一种知识蒸馏的方法、装置、电子设备及存储介质,其中,所述方法包括:获取已训练的第一神经网络;在第一神经网络对第二神经网络中的多个子分块网络进行监督的情况下,采用梯度自适应参数对第二神经网络中的多个子分块网络执行用于知识蒸馏的联合训练,直至满足预设条件,得到第三神经网络;其中,第三神经网络为已训练好的第二神经网络。采用本申请,实现了自适应的知识蒸馏。

技术研发人员:欧俊宏
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1