一种多模态模型的蒸馏方法及装置与流程

文档序号:37919371发布日期:2024-05-10 23:58阅读:9来源:国知局
一种多模态模型的蒸馏方法及装置与流程

本申请涉及模型处理,更具体的说,是涉及一种多模态模型的蒸馏方法及装置。


背景技术:

1、为了满足领域内对模型的处理能力和准确度越来越高的要求,一些处理模型也越来越大,如当前的多模态模型。多模态模型对处理资源的要求比较高,因此导致其应用也受到比较大限制。基于此,可以通过对多模态模型进行蒸馏得到功能与多模态模型相符的小模型,以扩展模型应用范围。


技术实现思路

1、有鉴于此,本申请提供如下技术方案:

2、一种多模态模型的蒸馏方法,包括:

3、确定多模态模型m个维度中重要度符合目标条件的n个维度,所述m和n为正整数,所述重要度表征维度输出信息所代表内容的重要性;

4、基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,所述多模态模型和所述学生模型为语言处理模型,不同所述维度能够表征语言处理模型中文本输入信息对应的不同文本特征;

5、其中,所述蒸馏损失至少基于所述多模态模型n个维度的重要度的第一相关关系以及所述学生模型n个维度的重要度的第二相关关系确定,相关关系表征不同维度的输出信息之间的关联关系。

6、可选地,所述蒸馏损失还基于所述多模态模型n个维度的输出信息的各第一值以及所述学生模型n个维度的输出信息的各第二值确定,值表征输出信息的自身信息。

7、可选地,所述基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,包括:

8、控制所述学生模型学习所述多模态模型n个维度的重要度以及n个维度的重要度的相关关系;

9、确定所述多模态模型n个维度的重要度之间的第一相关关系;

10、确定所述学生模型n个维度的重要度之间的第二相关关系;

11、基于所述第一相关关系和所述第二相关关系确定所述多模态模型与所述学生模型之间的蒸馏损失;

12、若所述蒸馏损失大于设定值,重复以上各步骤,直至所述蒸馏损失低于所述设定值。

13、可选地,所述m个维度中重要度符合目标条件的n个维度表示,所述n个维度表征的文本特征符合重要度条件;所述确定所述多模态模型n个维度的重要度之间的的第一相关关系,包括:

14、基于所述多模态模型的输出信息确定其n个维度中各个维度的协方差分量;

15、基于所述n个维度中任意两个维度的协方差分量确定这两个维度的协方差值;

16、基于所述协方差值确定所述两个维度的相关关系矩阵。

17、可选地,所述基于所述多模态模型的输出信息确定其n个维度中各个维度的协方差分量,包括:

18、根据维度当前次的输出值和前面所有次输出值的均值确定该维度的当前均值;

19、根据所述当前均值和所述当前次输出值确定该维度当前次的协方差分量。

20、可选地,所述基于所述n个维度中任意两个维度的协方差分量确定这两个维度的协方差值,包括:

21、基于所述n个维度中任意两个维度上一次的协方差分量、当前次的协方差分量和当前次数确定这两个维度的协方差值。

22、可选地,所述第一相关关系为第一相关关系矩阵,所述第二相关关系为第二相关关系矩阵,所述基于所述第一相关关系和所述第二相关关系确定所述多模态模型与所述学生模型之间的蒸馏损失,包括:

23、将所述多模态模型的所述第一相关关系矩阵与所述学生模型的所述第二相关关系矩阵的差值平方确定为所述多模态模型与所述学生模型之间的蒸馏损失。

24、可选地,所述控制所述学生模型学习所述多模态模型n个维度的重要度以及n个维度的重要度的相关关系,包括:

25、控制所述学生模型的一层学习所述多模态模型的q层中n个维度的重要度以及n个维度的重要度的相关关系;

26、其中,q为所述多模态模型和所述学生模型的层数比值。

27、可选地,其中,多模态模型的维度的重要度的确定包括:基于维度输出信息的绝对值、维度输出信息的平方值或维度输出信息对应的梯度的绝对值确定该维度的重要度。

28、本申请还公开了一种多模态模型的蒸馏装置,包括:

29、维度确定模块,用于确定多模态模型m个维度中重要度符合目标条件的n个维度,所述m和n为正整数,所述重要度表征维度输出信息所代表内容的重要性;

30、调参处理模块,用于基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,所述多模态模型和所述学生模型为语言处理模型,不同所述维度能够表征语言处理模型中文本输入信息对应的不同文本特征;

31、其中,所述蒸馏损失至少基于所述多模态模型n个维度的重要度的第一相关关系以及所述学生模型n个维度的重要度的第二相关关系确定,相关关系表征不同维度的输出信息之间的关联关系。



技术特征:

1.一种多模态模型的蒸馏方法,包括:

2.根据权利要求1所述的多模态模型的蒸馏方法,所述蒸馏损失还基于所述多模态模型n个维度的输出信息的各第一值以及所述学生模型n个维度的输出信息的各第二值确定,值表征输出信息的自身信息。

3.根据权利要求1所述的多模态模型的蒸馏方法,所述基于所述多模态模型n个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,包括:

4.根据权利要求3所述的多模态模型的蒸馏方法,所述m个维度中重要度符合目标条件的n个维度表示,所述n个维度表征的文本特征符合重要度条件;所述确定所述多模态模型n个维度的重要度之间的的第一相关关系,包括:

5.根据权利要求4所述的多模态模型的蒸馏方法,所述基于所述多模态模型的输出信息确定其n个维度中各个维度的协方差分量,包括:

6.根据权利要求4所述的多模态的蒸馏方法,所述基于所述n个维度中任意两个维度的协方差分量确定这两个维度的协方差值,包括:

7.根据权利要求3所述的多模态模型的蒸馏方法,所述第一相关关系为第一相关关系矩阵,所述第二相关关系为第二相关关系矩阵,所述基于所述第一相关关系和所述第二相关关系确定所述多模态模型与所述学生模型之间的蒸馏损失,包括:

8.根据权利要求3所述的多模态模型的蒸馏方法,所述控制所述学生模型学习所述多模态模型n个维度的重要度以及n个维度的重要度的相关关系,包括:

9.根据权利要求1所述的多模态模型的蒸馏方法,其中,多模态模型的维度的重要度的确定包括:基于维度输出信息的绝对值、维度输出信息的平方值或维度输出信息对应的梯度的绝对值确定该维度的重要度。

10.一种多模态模型的蒸馏装置,包括:


技术总结
本申请公开了一种多模态模型的蒸馏方法及装置,方法包括:确定多模态模型M个维度中重要度符合目标条件的N个维度,所述M和N为正整数,所述重要度表征维度输出信息所代表内容的重要性;基于所述多模态模型N个维度的重要度对学生模型进行调参,直至所述多模态模型与所述学生模型之间的蒸馏损失收敛至设定值,所述多模态模型和所述学生模型为语言处理模型,不同所述维度能够表征语言处理模型中文本输入信息对应的不同文本特征;其中,所述蒸馏损失至少基于所述多模态模型N个维度的重要度的第一相关关系以及所述学生模型N个维度的重要度的第二相关关系确定,相关关系表征不同维度的输出信息之间的关联关系。

技术研发人员:舒红乔,王奇刚,李远辉
受保护的技术使用者:联想(北京)有限公司
技术研发日:
技术公布日:2024/5/9
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1