基于多语言图片文字描述数据的多模态模型预训练方法与流程

文档序号：36361980发布日期：2023-12-14 05:34阅读：25来源：国知局

本发明涉及多模态机器学习领域，尤其是涉及一种基于多语言图片文字描述数据的多模态模型预训练方法。

背景技术：

1、近年来，多模态融合已成为计算机视觉与自然语言理解的重要研究课题，并且得到广泛应用，例如工业互联网，图文检索，图文跨模态生成，视觉问答，推理等。目前，以clip为代表的图文融合多模态预训练模型已经广泛应用于各类下游任务。随着计算机算力的增强，其他的多模态融合模型，例如albef,flamingo等模型被提出，并表现出卓越的性能。然而，目前的多模态预训练模型都是基于单语言进行训练，其中绝大部分使用的文本信息是英文。由于预训练模型巨大的参数量，更换语言重新训练使得预训练的成本变得非常高昂。另外，对于多语言应用的场景，对每个语言分别部署不同的预训练模型也变得不可实现。这些难点阻碍了多模态预训练模型，特别是在语料信息较少的小语种场景的应用。

2、针对以上难点，如何训练一个多语言通用的预训练模型，降低模型的使用成本，是目前所需要亟待解决的问题。

技术实现思路

1、本发明主要是解决现有技术所存在的缺乏多语言通用的模型预训练方法的技术问题，提供一种基于多语言图片文字描述数据的多模态模型预训练方法。

2、本发明针对上述技术问题主要是通过下述技术方案得以解决的：一种基于多语言图片文字描述数据的多模态模型预训练方法，多模态模型包括图片编码器和文本编码器，包括以下步骤：

3、s1、利用机器翻译的方式，对训练数据集的原始文本信息内容进行翻译，获得不同语言的文本信息，例如原始语言为中文，翻译后的语言为英文、泰文等，训练数据集包括图文对，每一个图文对(即每一个样本)包括图片和图片对应的描述文字，并且描述文字为单语言文字；多模态模型针对每一种语言(包括原始语言)单独设置一个文本编码器，所有文本编码器结构相同；

4、s2、对不同语言的文本信息分别进行掩码操作，将掩码后的文本信息输入到各自语言对应的文本编码器中预测被掩码的词，并与掩码前的文本信息比较，对每一个文本编码器单独计算被掩码的词和预测的词的交叉熵损失，对所有文本编码器的交叉熵损失求平均值作为最终的文本掩码损失；

5、不同的语种各自计算自己的掩码损失，因此也不需要融合；每个语种的掩码损失的平均值为总的掩码损失；掩码的训练任务是在不同语言内进行的，不同语言之间不做交叉；这个任务是为了保障文本能力不会随其他任务发生退化；

6、每个文本对应使用一个文本编码器，不同语种之间的编码器信息不共享但是可以使用同样的编码器结构，这样做的目的是使经过预训练的文本编码模型与多模态模型解耦，具备单独使用的能力；

7、s3、将不同语言的文本信息输入到各自对应的文本编码器，产生各语言的文本信息对应的表征向量，再将多语言特征映射到统一的语义空间，得到多语言对比损失；

8、s4、将训练数据集的图片输入到图像编码器获得图像表征，进而计算图文对比损失；

9、s5、依据文本掩码损失、多语言对比损失和图文对比损失叠加获得多模态模型的训练总损失；

10、通过步骤s2到步骤s5，多模态模型通过反向传播的方式完成预训练过程。

11、本方案所说的多模态模型指的是图文多模态双流模型，视觉模型需要包含图片编码器，语言模型需要包含文本编码器；模型的结构没有限制。图像编码器为任意的基于图像的神经网络模型，例如resnet、convnext、vision transformer等；文本编码器为任意的基于自然语言的神经网络模型，例如bert，roberta；预训练多模态模型可以用于图文检索，图文跨模态生成，视觉问答，推理等任务。预训练是指训练一个模型的通识能力，大模型在预训练之后可以在特定的任务上进行进一步的专用性训练；

12、作为优选，所述步骤s3中，多语言对比损失为所有语言两两计算对比损失之和，例如设原始语言为t1，翻译为语言t2和语言t3，计算t1和t2的损失、t2和t3的损失、t1和t3的损失，然后将这三个损失相加得到多语言对比损失；

13、两种语言之间的对比损失的计算公式如下：

14、

15、式中，lcntrstl_ij为第i种语言和第j种语言的对比损失，n为训练所用的样本总数，li_m是第m个样本的第i种语言文本经过对应的文本编码器后得到的表征向量，lj_m是第m个样本的第j种语言文本经过对应的文本编码器后得到的表征向量；p(li_m,lj_m)的计算公式如下：

16、

17、式中，s为计算括号中两个对象的相似度，τ为温度超参数，nri为同一批训练所用样本中除第m个样本之外的其它样本的集合,lj_k是第k个样本的第j种语言文本经过对应的文本编码器后得到的表征向量，k≠m；

18、s的计算公式为：

19、

20、式中，t表示转置，双竖线表示求向量长度，即norm2。此处v和l为通用变量，无具体含义。

21、作为优选，所述图文对比损失计算公式如下：

22、

23、式中，v_m是第m个样本的图片经过图像编码器得到的图像表征，l_m是第m个样本的各语言文本经过对应的文本编码器后得到的文本表征向量的平均；

24、p(v_m,l_m)的计算公式如下：

25、

26、式中，s为计算括号中两个对象的相似度，τ′为温度超参数，nri′为同一批训练所用样本中除第m个样本之外的其它样本的集合，l_k为第k个样本的各语言文本经过对应的文本编码器后得到的文本表征向量的平均，k≠m。

27、作为优选，步骤s5中，所述总损失的函数如下：

28、l＝λmlm·lmlm+λcntrstl·lcntrstl+λcntrst·lcntrst

29、其中，lmlm为文本掩码损失，λmlm为lmlm对应的权重；lcntrstl为多语言对比损失，λcntrstl为lcntrstl对应的权重；lcntrst为图文对比损失，λcntrst为lcntrst对应的权重。各个λ为经验参数，由人为设定。

30、本发明利用图片及图片的文字描述信息，采用机器翻译的方式可以生成大量多语言图文数据；然后用多语言的图文数据，并将不同语言的文本信息通过编码的方式映射到同一语义空间，进行多模态模型的预训练。通过该预训练方法，可以通用于不同的语言，提升预训练模型的使用范围与效率。

技术特征：

1.一种基于多语言图片文字描述数据的多模态模型预训练方法，多模态模型包括图片编码器和文本编码器，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多语言图片文字描述数据的多模态模型预训练方法，其特征在于，所述步骤s3中，多语言对比损失为所有语言两两计算对比损失之和；

3.根据权利要求1或2所述的基于多语言图片文字描述数据的多模态模型预训练方法，其特征在于，所述图文对比损失计算公式如下：

4.根据权利要求1所述的基于多语言图片文字描述数据的多模态模型预训练方法，其特征在于，步骤s5中，所述总损失的函数如下：

技术总结
本发明公开了一种基于多语言图片文字描述数据的多模态模型预训练方法，其包括以下步骤：对训练数据集的原始文本信息内容进行翻译；对不同语言的文本信息分别进行掩码后输入到对应的文本编码器中预测被掩码的词，并计算被掩码的词和预测的词的交叉熵损失，对所有交叉熵损失求平均值作为最终的文本掩码损失；通过文本编码器产生各语言的文本信息对应的表征向量，再将多语言特征映射到统一的语义空间，得到多语言对比损失；通过图像编码器获得图像表征，进而计算图文对比损失；将三种损失叠加获得多模态模型的训练总损失；多模态模型通过反向传播的方式完成预训练过程。本方案适用于包含文本编码器和图像编码器的多模态模型的预训练。

技术研发人员：赵天成,张倩倩,刘鹏,张璐
受保护的技术使用者：杭州联汇科技股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵天成张倩倩刘鹏张璐
技术所有人：宏龙科技（杭州）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。