一种多模态模型的训练方法、图像分类方法及装置

文档序号：37151515发布日期：2024-02-26 17:06阅读：18来源：国知局

本发明涉及计算机视觉，尤其涉及一种多模态模型的训练方法、图像分类方法及装置。

背景技术：

1、计算机视觉和自然语言处理是人工智能领域中重要的研究方向。传统方案上，视觉和语义信息的处理通常是分开的，这就导致了视觉和语义之间的信息鸿沟。近年来，多模态学习方法被广泛应用于图像和文本之间的关联建模，从而有效地弥合了视觉和语义之间的差距。

2、在多模态学习中，基于深度学习的方法已经取得了重大的突破。然而，传统的多模态模型通常需要大量标注数据和复杂的网络结构来实现高质量的表征学习，同时也需要预先训练视觉和语言模型，然后再进行微调，而这不仅需要耗费大量的时间精力，还极有可能导致模型性能的损失。为解决这一问题，clip(contrastive language-imagepretraining)的多模态模型被提出，该模型可以在一定程度上解决上述问题，但是，在具体任务上目前的微调方法会对其泛化能力产生影响，从而导致模型在其他任务上的表现不佳。

技术实现思路

1、本发明提供一种多模态模型的训练方法、图像分类方法及装置，用以解决现有技术中微调方法会影响模型的泛化性能，从而使得模型在其他任务上的表现欠佳的缺陷，实现模型泛化能力的提升，以在更好的适应于当前任务的同时，不影响模型在其他任务上的性能。

2、本发明提供一种多模态模型的训练方法，包括：

3、获取任务图像数据及其类别名，以及通用类别名；

4、基于初始多模态模型中的生成器，确定所述通用类别名对应的通用图像数据；

5、基于所述任务图像数据及其类别名，以及所述通用图像数据及其通用类别名，对所述初始多模态模型进行模型微调，得到多模态模型；

6、其中，所述生成器是在变分自编码器的基础上，应用所述任务图像数据及其类别名训练得到的；所述变分自编码器基于所述初始多模态模型中的文本编码器构建得到。

7、根据本发明提供的一种多模态模型的训练方法，所述生成器基于如下步骤训练：

8、基于变分编码器，以及所述初始多模态模型中的文本编码器，构建变分自编码器；

9、基于所述初始多模态模型中的视觉编码器，确定所述任务图像数据的任务图像特征；

10、基于所述任务图像特征，以及所述任务图像数据对应的类别名，应用所述变分自编码器进行特征重构，得到重构图像特征；

11、基于所述任务图像特征和所述重构图像特征之间的相似度，对所述变分自编码器进行训练，得到所述生成器。

12、根据本发明提供的一种多模态模型的训练方法，所述基于所述任务图像特征，以及所述任务图像数据对应的类别名，应用所述变分自编码器进行特征重构，得到重构图像特征，包括：

13、基于所述变分自编码器的变分编码层，编码所述任务图像特征，得到所述任务图像特征对应的高斯噪声；

14、基于所述变分自编码器的特征重构层，结合所述高斯噪声和所述任务图像数据对应的类别名进行特征重构，得到重构图像特征。

15、根据本发明提供的一种多模态模型的训练方法，所述特征重构层包括特征映射层和文本编码层，所述基于所述变分自编码器的特征重构层，结合所述高斯噪声和所述任务图像数据对应的类别名进行特征重构，得到重构图像特征，包括：

16、基于所述变分自编码器的特征映射层，对所述高斯噪声进行映射，得到局部偏执特征；

17、基于所述局部偏执特征，以及全局提示特征，确定提示特征，所述全局提示特征基于对所述局部偏执特征进行随机初始化得到；

18、基于所述提示特征，以及所述任务图像数据对应的类别名，确定目标提示特征；

19、基于所述变分自编码器的文本编码层，结合所述目标提示特征进行特征重构，得到重构图像特征。

20、根据本发明提供的一种多模态模型的训练方法，所述基于所述任务图像特征和所述重构图像特征之间的相似度，对所述变分自编码器进行训练，得到所述生成器，包括：

21、确定所述高斯噪声所对应的高斯分布；

22、基于所述高斯分布的均值和方差，以及标准高斯分布，确定变分损失；

23、基于所述任务图像特征和所述重构图像特征之间的相似度，确定重构损失；

24、基于所述重构损失和所述变分损失，对所述变分自编码器进行训练，得到所述生成器；

25、所述生成器基于训练完成的变分自编码器中的特征重构层确定。

26、本发明还提供一种图像分类方法，包括：

27、确定待分类图像；

28、基于多模态模型，确定所述待分类图像的图像特征，并基于所述图像特征进行图像分类，得到所述待分类图像的类别名；

29、所述多模态模型基于如上述任一项所述的多模态模型的训练方法训练得到。

30、本发明还提供一种多模态模型的训练装置，包括：

31、获取单元，用于获取任务图像数据及其类别名，以及通用类别名；

32、确定单元，用于基于初始多模态模型中的生成器，确定所述通用类别名对应的通用图像数据；

33、微调单元，用于基于所述任务图像数据及其类别名，以及所述通用图像数据及其通用类别名，对所述初始多模态模型进行模型微调，得到多模态模型；

34、其中，所述生成器是在变分自编码器的基础上，应用所述任务图像数据及其类别名训练得到的；所述变分自编码器基于所述初始多模态模型中的文本编码器构建得到。

35、本发明还提供一种图像分类装置，包括：

36、图像确定单元，用于确定待分类图像；

37、图像分类单元，用于基于多模态模型，确定所述待分类图像的图像特征，并基于所述图像特征进行图像分类，得到所述待分类图像的类别名；所述多模态模型基于如上述任一项所述的多模态模型的训练方法训练得到。

38、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的多模态模型的训练方法或如上述所述的图像分类方法。

39、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的多模态模型的训练方法或如上述所述的图像分类方法。

40、本发明提供的一种多模态模型的训练方法、图像分类方法及装置，通过初始多模态模型中的生成器，确定通用类别名对应的通用图像数据，生成器是在变分自编码器的基础上，应用任务图像数据及其类别名训练得到的；变分自编码器基于初始多模态模型中的文本编码器构建得到；根据任务图像数据及其类别名，以及通用图像数据及其通用类别名，对初始多模态模型进行模型微调，以使模型在更好地适应于当前任务的同时，提升在其他任务上的性能，得到多模态模型，克服了传统方案中微调训练会影响模型的泛化性能，从而使得模型在其他任务上的表现欠佳的缺陷，不仅提升了模型在当前任务上的性能，还改善了其在其他任务上的表现，实现了多模态模型泛化能力的提升。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁坚,王政博
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：一种铅基堆用固相氧控装置和方法
上一篇：一种时序业务拓扑生成方法、系统、设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。