多模态模型训练方法、装置、设备及存储介质与流程

文档序号：37186431发布日期：2024-03-01 12:50阅读：22来源：国知局

本公开涉及计算机，尤其涉及一种多模态模型训练方法、装置、设备及存储介质。

背景技术：

1、多模态大型语言模型作为通用人工智能的一项基础研究任务，目的是通过给定的图片及问题描述，返回与问题描述最符合的答案，从而更好帮助用户理解图片内容或生成与图片相关的文本描述。随着近年来大型语言模型取得了显著的进展，通过扩大数据规模和模型大小，这些大型语言模型激发出了惊人的潜在能力。

2、为了探索多模态大型语言模型的架构及训练方法，许多研究机构及单位提出了不同的方法，大致可分为两种不同的范式，即系统协作训练和端到端的模型训练。

3、然而，目前基于系统协作训练和端到端的模型训练方法，大多方法主要依赖强大的语言模型，忽略了视觉模型的潜在能力，这会造成多模态模型不能很好地理解图像特征及模态对齐不足。

技术实现思路

1、为了解决上述技术问题，本公开提供了一种多模态模型训练方法、装置、设备及存储介质，以提高多模态信息的对齐效果，使得多模态模型对于图像视觉信息的理解能力得到提升。

2、第一方面，本公开实施例提供一种多模态模型训练方法，包括：

3、对训练数据进行预处理，得到文本特征向量集合以及图像特征向量集合；

4、将所述文本特征向量集合与所述图像特征向量集合输入经过预训练的图文对齐模型中进行模态对齐处理，以使所述图文对齐模型学习与所述输入文本相关的视觉表达信息；

5、将所述视觉表达信息输入经过预训练的大型语言模型，得到与所述视觉表达信息对应的文本输出信息；

6、根据所述文本输出信息，对所述图文对齐模型以及所述大型语言模型的预训练权重进行更新，得到更新后的图文对齐模型以及更新后的大型语言模型；

7、根据所述更新后的图文对齐模型以及所述更新后的大型语言模型，得到训练好的多模态模型。

8、在一些实施例中，所述训练数据至少包括输入文本和输入图像，所述对训练数据进行预处理，得到文本特征向量集合以及图像特征向量集合，包括：

9、对所述输入文本进行语言特征预编码，得到文本特征向量集合；

10、通过冻结图像编码器对所述输入图像进行图像特征预编码，得到图像特征向量集合。

11、在一些实施例中，所述图文对齐模型包括图像处理子模型和文本处理子模型，所述图像处理子模型和所述文本处理子模型共享自注意力层。

12、在一些实施例中，所述将所述文本特征向量集合与所述图像特征向量集合输入经过预训练的图文对齐模型中进行模态对齐处理，包括：

13、通过图文对比学习函数学习所述文本特征向量集合与所述图像特征向量的相似度，以使文本特征与图像特征对齐；

14、通过图像定位的文本生成函数，以所述输入图像作为条件生成文本；

15、通过图文匹配函数对所述文本特征与所述图像特征进行细粒度的信息对齐。

16、在一些实施例中，所述将所述视觉表达信息输入经过预训练的大型语言模型，包括：

17、通过全连接层将所述视觉表达信息投影到相同维度的大型语言模型的文本嵌入中。

18、在一些实施例中，所述根据所述文本输出信息，对所述图文对齐模型以及所述大型语言模型的预训练权重进行更新，包括：

19、计算所述文本输出信息的交叉熵损失；

20、朝所述交叉熵损失减小的方向对所述图文对齐模型以及所述大型语言模型的预训练权重进行更新。

21、第二方面，本公开实施例提供一种多模态模型训练装置，包括：

22、预处理模块，用于对训练数据进行预处理，得到文本特征向量集合以及图像特征向量集合；

23、对齐模块，用于将所述文本特征向量集合与所述图像特征向量集合输入经过预训练的图文对齐模型中进行模态对齐处理，以使所述图文对齐模型学习与所述输入文本相关的视觉表达信息；

24、输入模块，用于将所述视觉表达信息输入经过预训练的大型语言模型，得到与所述视觉表达信息对应的文本输出信息；

25、更新模块，用于根据所述文本输出信息，对所述图文对齐模型以及所述大型语言模型的预训练权重进行更新，得到更新后的图文对齐模型以及更新后的大型语言模型；

26、获取模块，用于根据所述更新后的图文对齐模型以及所述更新后的大型语言模型，得到训练好的多模态模型。

27、在一些实施例中，所述输入模块还用于通过全连接层将所述视觉表达信息投影到相同维度的大型语言模型的文本嵌入中。

28、第三方面，本公开实施例提供一种电子设备，包括：

29、存储器；

30、处理器；以及

31、计算机程序；

32、其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

33、第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

34、第五方面，本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的多模态模型训练方法。

35、本公开实施例提供的多模态模型训练方法、装置、设备及存储介质，通过连接图文对齐模型以及大型语言模型，将图文对齐模型得到的视觉表达信息输入大型语言模型中，提高了多模态信息的对齐效果，使得多模态模型对于图像视觉信息的理解能力得到提升。

技术特征：

1.一种多模态模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练数据至少包括输入文本和输入图像，所述对训练数据进行预处理，得到文本特征向量集合以及图像特征向量集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述图文对齐模型包括图像处理子模型和文本处理子模型，所述图像处理子模型和所述文本处理子模型共享自注意力层。

4.根据权利要求3所述的方法，其特征在于，所述将所述文本特征向量集合与所述图像特征向量集合输入经过预训练的图文对齐模型中进行模态对齐处理，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述视觉表达信息输入经过预训练的大型语言模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述文本输出信息，对所述图文对齐模型以及所述大型语言模型的预训练权重进行更新，包括：

7.一种多模态模型训练装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。

技术总结
本公开涉及一种多模态模型训练方法、装置、设备及存储介质。本公开通过连接图文对齐模型以及大型语言模型，将图文对齐模型得到的视觉表达信息输入大型语言模型中，提高了多模态信息的对齐效果，使得多模态模型对于图像视觉信息的理解能力得到提升。

技术研发人员：罗引,郝艳妮,马先钦,陈博,徐楠,曹家,王磊
受保护的技术使用者：北京中科闻歌科技股份有限公司
技术研发日：
技术公布日：2024/2/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗引,郝艳妮,马先钦,陈博,徐楠,曹家,王磊
技术所有人：北京中科闻歌科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。