图文生成模型的训练方法、装置、电子设备及介质与流程

文档序号：36171294发布日期：2023-11-24 09:01阅读：38来源：国知局

本申请属于人工智能领域，具体涉及一种图文生成模型的训练方法、装置、电子设备及介质。

背景技术：

1、目前，随着生成式人工智能(artificial intelligence generated content，aigc)的兴起和不断发展，图文生成模型，如，ai绘画领域的文生图扩散模型，在壁纸、头像、游戏、动漫设计等领域得到了广泛应用，具有效率高、自动化程度高等优点。在相关技术中，可以通过将文本输入图文生成模型以输出该文本对应图像。

2、然而，上述文图文生成模型的模型训练过程中仍然存在训练精度低的问题。

技术实现思路

1、本申请实施例的目的是提供一种图文生成模型的训练方法、装置、电子设备及介质，能够提高图文生成模型的模型训练精度。

2、第一方面，本申请实施例提供了一种图文生成模型的训练方法，该图文生成模型的训练方法包括：将第一训练样本对集合中的第一训练样本对输入至第一图文生成模型，输出第二训练样本对，第一图文生成模型是基于第一训练样本对集合训练得到的，第一训练样本对包括第一图像和用于描述第一图像的图像内容的第一文本，第二训练样本对包括第二图像和第二文本，第二图像为第一文本经图文转换得到的图像，第二文本为第一图像经图文转换得到的文本；基于第一训练样本对和第二训练样本对，生成m个训练样本对，m个训练样本对中至少包括第一训练样本对和第二训练样本对，m为大于1的整数；将第一训练样本对集合中的第一训练样本对替换为第三训练样本对，得到第二训练样本对集合，第三训练样本对为m个训练样本对中图文相似度最高的训练样本对；基于第二训练样本对集合训练第一图文生成模型，得到目标图文生成模型。

3、第二方面，本申请实施例提供了一种图文生成模型的训练装置，该图文生成模型的训练装置包括：处理模块、生成模块、替换模块以及训练模块；

4、该处理模块，用于将第一训练样本对集合中的第一训练样本对输入至第一图文生成模型，输出第二训练样本对，该第一图文生成模型是基于上述第一训练样本对集合训练得到的，第一训练样本对包括第一图像和用于描述第一图像的图像内容的第一文本，第二训练样本对包括第二图像和第二文本，第二图像为上述第一文本经图文转换得到的图像，第二文本为上述第一图像经图文转换得到的文本；上述生成模块，用于基于上述第一训练样本对和上述第二训练样本对，生成m个训练样本对，m个训练样本对中至少包括第一训练样本对和第二训练样本对，m为大于1的整数；上述替换模块，用于将上述第一训练样本对集合中的第一训练样本对替换为第三训练样本对，得到第二训练样本对集合，该第三训练样本对为上述生成模块生成的多个训练样本对中图文相似度最高的训练样本对；上述训练模块，用于基于上述替换模块替换后的第二训练样本对集合训练第一图文生成模型，得到目标图文生成模型。

5、第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

6、第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

7、第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

8、第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

9、在本申请实施例中，将第一训练样本对集合中的第一训练样本对输入至第一图文生成模型，输出第二训练样本对，第一图文生成模型是基于第一训练样本对集合训练得到的，第一训练样本对包括第一图像和用于描述第一图像的图像内容的第一文本，第二训练样本对包括第二图像和第二文本，第二图像为第一文本经图文转换得到的图像，第二文本为第一图像经图文转换得到的文本；基于第一训练样本对和第二训练样本对，生成m个训练样本对，m个训练样本对中至少包括第一训练样本对和第二训练样本对，m为大于1的整数；将第一训练样本对集合中的第一训练样本对替换为第三训练样本对，得到第二训练样本对集合，第三训练样本对为m个训练样本对中图文相似度最高的训练样本对；基于第二训练样本对集合训练第一图文生成模型，得到目标图文生成模型。如此，通过将训练样本集中的一个或多个训练样本对输入图文生成模型进行图文转换，得到新的训练样本对，然后，基于每个训练样本中的文本与图像间的图文相似度，不断使用图文相似度更高的训练样本对来更新训练样本对集合，以使得基于更新后的训练样本对集合对图文生成模型进行训练，提高了图文生成模型的模型训练精度，进而提高了图文生成模型生成的图像和文本内容的一致性。

技术特征：

1.一种图文生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一图文生成模型包括文本编码器模型、图像编码器模型、扩散模型、图像解码器模型及文本解码器模型；

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一训练样本对和所述第二训练样本对，生成m个训练样本对之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述m个训练样本对包括：所述第一训练样本对、所述第二训练样本对、第四训练样本对和第五训练样本对；其中，所述第四训练样本对包括所述第一图像和所述第二文本，所述第五训练样本对包括所述第二图像和所述第一文本。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第二训练样本对集合训练所述第一图文生成模型，得到目标图文生成模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二训练样本对集合训练所述第一图文生成模型，得到目标图文生成模型之后，所述方法还包括：

7.一种图文生成模型的训练装置，其特征在于，所述装置包括：处理模块、生成模块、替换模块以及训练模块；

8.根据权利要求7所述的装置，其特征在于，所述图文生成模型包括文本编码器模型、图像编码器模型、扩散模型、图像解码器模型及文本解码器模型；

9.根据权利要求8所述的装置，其特征在于，所述处理模块，还用于在基于所述第一训练样本对和所述第二训练样本对，生成m个训练样本对之前，

10.根据权利要求7所述的装置，其特征在于，所述m个训练样本对包括：所述第一训练样本对、所述第二训练样本对、第四训练样本对和第五训练样本对；其中，所述第四训练样本对包括所述第一图像和所述第二文本，所述第五训练样本对包括所述第二图像和所述第一文本。

11.根据权利要求7所述的装置，其特征在于，所述训练模块，具体用于：

12.根据权利要求7所述的装置，其特征在于，所述处理模块，还用于：

13.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的图文生成模型的训练方法的步骤。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的图文生成模型的训练方法的步骤。

技术总结
本申请公开了一种图文生成模型的训练方法、装置、电子设备及介质，属于人工智能领域。该方法包括：将第一训练样本对集合中的第一训练样本对输入至第一图文生成模型，输出第二训练样本对，第一训练样本对包括第一图像和用于描述第一图像的图像内容的第一文本，第二训练样本对包括第二图像和第二文本，第二图像为第一文本经图文转换得到的图像，第二文本为第一图像经图文转换得到的文本；基于第一训练样本对和第二训练样本对，生成M个训练样本对；将第一训练样本对集合中的第一训练样本对替换为第三训练样本对，得到第二训练样本对集合，第三训练样本对为M个训练样本对中图文相似度最高的训练样本对；基于第二训练样本对集合训练第一图文生成模型，得到目标图文生成模型。

技术研发人员：罗龙强
受保护的技术使用者：维沃移动通信有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗龙强
技术所有人：维沃移动通信有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。