文本图像生成方法以及扩散生成模型训练方法与流程

文档序号：35537133发布日期：2023-09-23 13:01阅读：47来源：国知局

本说明书实施例涉及计算机，特别涉及一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序。

背景技术：

1、随着计算机技术的发展，文本图像的生成越来越依赖计算机技术进行。目前，通常可以基于规则生成文本图像：采集各式各样的字体和图像背景素材，通过文本图像中文本的排布规则渲染合成文本图像。

2、然而，上述方法所采集的图像背景素材是有限的，同时要为不同场景设计不同的合成规则，十分低效且具有局限性，导致无法合成高质量的文本图像，因此，亟需一种高质量的文本图像生成方案。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种文本图像生成方法，包括：

3、获取初始图像；

4、将初始图像输入条件编码器，获得初始图像的图像特征；

5、将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

6、根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

7、根据本说明书实施例的第二方面，提供了一种手写文本图像生成方法，包括：

8、接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息；

9、将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征；

10、将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

11、根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像；

12、向用户发送初始图像对应的目标手写文本图像。

13、根据本说明书实施例的第三方面，提供了一种扩散生成模型训练方法，应用于云侧设备，包括：

14、获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

15、从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；

16、对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

17、将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

18、根据第一样本噪声和第一预测噪声，计算噪声损失值；

19、根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

20、向端侧设备发送扩散生成模型的模型参数。

21、根据本说明书实施例的第四方面，提供了一种文本图像生成装置，包括：

22、第一获取模块，被配置为获取初始图像；

23、第一输入模块，被配置为将初始图像输入条件编码器，获得初始图像的图像特征；

24、第二输入模块，被配置为将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

25、第一生成模块，被配置为根据初始图像和噪声数据，生成初始图像对应的目标文本图像。

26、根据本说明书实施例的第五方面，提供了一种手写文本图像生成装置，包括：

27、接收模块，被配置为接收用户发送的手写文本图像生成请求，其中，手写文本图像生成请求携带初始图像和初始图像的初始风格信息；

28、第三输入模块，被配置为将初始图像和初始风格信息输入条件编码器，获得初始图像的视觉特征、语义特征和风格特征；

29、第四输入模块，被配置为将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征、样本语义特征和样本风格特征；

30、第二生成模块，被配置为根据初始图像和噪声数据，生成初始图像对应的目标手写文本图像；

31、第一发送模块，被配置为向用户发送初始图像对应的目标手写文本图像。

32、根据本说明书实施例的第六方面，提供了一种扩散生成模型训练装置，应用于云侧设备，包括：

33、第二获取模块，被配置为获取样本集，其中，样本集包括多个样本文本图像，样本文本图像携带样本图像特征，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；

34、提取模块，被配置为从样本集中提取第一样本文本图像，其中，第一样本文本图像为多个样本文本图像中的任一个；

35、添加模块，被配置为对第一样本文本图像添加第一样本噪声，获得第一噪声样本图像；

36、第五输入模块，被配置为将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型，获得第一预测噪声；

37、计算模块，被配置为根据第一样本噪声和第一预测噪声，计算噪声损失值；

38、调整模块，被配置为根据噪声损失值调整扩散生成模型的模型参数，并返回执行从样本集中提取第一样本文本图像的步骤，直至达到第二预设停止条件，获得训练完成的扩散生成模型的模型参数；

39、第二发送模块，被配置为向端侧设备发送扩散生成模型的模型参数。

40、根据本说明书实施例的第七方面，提供了一种计算设备，包括：

41、存储器和处理器；

42、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

43、根据本说明书实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述第一方面或者第二方面或者第三方面所提供方法的步骤。

44、根据本说明书实施例的第九方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述第一方面或者第二方面或者第三方面所提供方法的步骤。

45、本说明书一个实施例提供的文本图像生成方法，获取初始图像；将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像。由于训练扩散生成模型时引入了样本噪声，从而基于样本噪声可以生成无限个噪声样本图像，扩充了扩散生成模型的训练数据，此外，训练扩散生成模型时还引入了与样本文本图像相关的样本图像特征，有效编码了样本文本图像字符间的上下文信息和纹理特征，显著提升了扩散生成模型所生成的文本图像的质量。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱远志李兆海何梦超姚聪
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：一种基于微分开路电压的石墨电极析锂检测方法和装置
上一篇：一种借助重力实现物料中铁杂清除的装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。