图像生成方法、装置、电子设备及存储介质与流程

文档序号：37782263发布日期：2024-04-30 16:52阅读：8来源：国知局

本公开涉及计算机视觉领域，尤其涉及一种图像生成方法、装置、电子设备及存储介质。

背景技术：

1、作为人工智能生成内容（artificial intelligence generated content，aigc）的重要组成部分，文本生图（text-to-image generation）正受到与日俱增的关注和应用，即根据用户输入的文本描述，由计算机模型输出与之对应的图像。扩散模型（diffusionmodel）由于其优越的图像生成质量，逐步成为了文本生图领域的主流解决方案。

2、扩散模型使用海量图文对（image-text pairs）数据进行训练，通过对真实图像进行多次加噪处理，即在像素空间或特征空间中叠加随机噪声，从而得到完全随机的噪声数据；在此基础上，将真实图像配对的文本数据映射为去噪的控制条件，基于扩散模型进行相同次数的去噪处理，从而恢复出原始的真实图像。训练收敛之后，扩散模型即可对于任意文本数据，以任意完全随机噪声数据为起点，通过指定次数的去噪处理，输出高质量且符合文本数据的语义的图像。

3、现有技术的扩散模型使用采样器对噪声数据进行去噪。生成的图像质量较好的采样器的去噪次数通常是较大的，因此图像生成效率较低。去噪次数少、图像生成效率较高的采样器生成的图像质量又比较差。因此现有技术的扩散模型尚不能实现图像生成效果和效率的兼顾。

技术实现思路

1、有鉴于此，本公开提出了一种图像生成方法、装置、电子设备及存储介质。本公开实施例的图像生成方法使用第一采样器和第二采样器对噪声数据进行去噪，通过对两种采样器的使用顺序进行控制，使得生成图像需要的去噪次数低于两种采样器中去噪次数更高的第一采样器，提高图像生成效率，且生成的图像的内容和质量与较高，从而能实现图像生成质量和效率的兼顾。

2、根据本公开的一方面，提供了一种图像生成方法，所述方法应用于扩散模型，所述方法包括：响应于输入的第一文本数据，获取第一噪声数据，所述第一噪声数据为随机噪声数据；按照预设使用顺序，使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪，生成第一图像，所述第一图像与所述第一文本数据相对应，其中，m＜x＜n，n为单独采用所述第一采样器进行去噪以生成图像所需的次数，m为单独采用所述第二采样器进行去噪以生成图像所需的次数，每次去噪使用所述第一采样器和所述第二采样器中的一个，以及由所述第一文本数据映射得到的控制条件；其中，在所述扩散模型训练过程中，采用所述预设使用顺序生成的图像与基准图像的相似度大于第一阈值，且图像质量高于与所述基准图像的相似度大于第一阈值的、采用其他使用顺序生成的图像。

3、在一种可能的实现方式中，对所述第一噪声数据进行x次去噪时，第1次去噪的输入包括所述第一噪声数据，第i次去噪的输入包括第i-1次去噪的输出，第x次去噪的输出作为所述第一图像，1＜i≤x，i是整数。

4、在一种可能的实现方式中，第i次去噪的输入还包括第i次去噪对应的图像生成程度指标，所述按照预设使用顺序，使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪，包括：第i次去噪时，将第i-1次去噪的输出和第i次去噪对应的图像生成程度指标输入第i次去噪使用的采样器，所述采样器根据第i-1次去噪的输出和第i次去噪对应的图像生成程度指标预测第i-1次去噪的输出包括的无效数据，对第i-1次去噪的输出和预测的无效数据作差，得到第i次去噪的输出；其中，第i次去噪使用的采样器为所述第一采样器或所述第二采样器。

5、在一种可能的实现方式中，第x次去噪对应的图像生成程度指标的数值为1，图像生成程度指标的初始值为t，t是大于n的整数；第i次去噪使用所述第一采样器时，第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/n；第i次去噪使用所述第二采样器时，第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/m。

6、在一种可能的实现方式中，所述方法还包括：在对所述扩散模型进行训练，以确定所述预设使用顺序的过程中，响应于输入的第二文本数据，获取第二噪声数据，所述第二噪声数据为随机噪声数据；确定使用所述第一采样器和所述第二采样器去噪x次以生成图像时，所述第一采样器和所述第二采样器的每一种使用顺序，每次去噪使用所述第一采样器和所述第二采样器中的一个，以及由所述第二文本数据映射得到的控制条件；按照每一种使用顺序，对所述第二噪声数据进行x次去噪，生成每一种使用顺序对应的第二图像；单独使用所述第一采样器对所述第二噪声数据进行n次去噪，生成所述基准图像；确定每一第二图像与所述基准图像的相似度指标，以及每一第二图像的质量指标；将相似度指标大于第一阈值的第二图像中、质量指标最大的第二图像所对应的使用顺序，确定为预设使用顺序。

7、在一种可能的实现方式中，在每一种使用顺序下，所述第一采样器的使用次数与n的比值作为第一比值，所述第二采样器的使用次数与m的比值作为第二比值，所述第一比值与所述第二比值之和等于1。

8、根据本公开的另一方面，提供了一种图像生成装置，所述装置应用于扩散模型，所述装置包括：第一获取模块，用于响应于输入的第一文本数据，获取第一噪声数据，所述第一噪声数据为随机噪声数据；第一去噪模块，用于按照预设使用顺序，使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪，生成第一图像，所述第一图像与所述第一文本数据相对应，其中，m＜x＜n，n为单独采用所述第一采样器进行去噪以生成图像所需的次数，m为单独采用所述第二采样器进行去噪以生成图像所需的次数，每次去噪使用所述第一采样器和所述第二采样器中的一个，以及由所述第一文本数据映射得到的控制条件；其中，在所述扩散模型训练过程中，采用所述预设使用顺序生成的图像与基准图像的相似度大于第一阈值，且图像质量高于与所述基准图像的相似度大于第一阈值的、采用其他使用顺序生成的图像。

9、在一种可能的实现方式中，对所述第一噪声数据进行x次去噪时，第1次去噪的输入包括所述第一噪声数据，第i次去噪的输入包括第i-1次去噪的输出，第x次去噪的输出作为所述第一图像，1＜i≤x，i是整数。

10、在一种可能的实现方式中，第i次去噪的输入还包括第i次去噪对应的图像生成程度指标，所述按照预设使用顺序，使用所述扩散模型中的第一采样器和第二采样器对所述第一噪声数据进行x次去噪，包括：第i次去噪时，将第i-1次去噪的输出和第i次去噪对应的图像生成程度指标输入第i次去噪使用的采样器，所述采样器根据第i-1次去噪的输出和第i次去噪对应的图像生成程度指标预测第i-1次去噪的输出包括的无效数据，对第i-1次去噪的输出和预测的无效数据作差，得到第i次去噪的输出；其中，第i次去噪使用的采样器为所述第一采样器或所述第二采样器。

11、在一种可能的实现方式中，第x次去噪对应的图像生成程度指标的数值为1，图像生成程度指标的初始值为t，t是大于n的整数；第i次去噪使用所述第一采样器时，第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/n；第i次去噪使用所述第二采样器时，第i次去噪对应的图像生成程度指标与第i+1次去噪对应的图像生成程度指标之差等于t/m。

12、在一种可能的实现方式中，所述装置还包括：第二获取模块，用于在对所述扩散模型进行训练，以确定所述预设使用顺序的过程中，响应于输入的第二文本数据，获取第二噪声数据，所述第二噪声数据为随机噪声数据；第一确定模块，用于确定使用所述第一采样器和所述第二采样器去噪x次以生成图像时，所述第一采样器和所述第二采样器的每一种使用顺序，每次去噪使用所述第一采样器和所述第二采样器中的一个，以及由所述第二文本数据映射得到的控制条件；第二去噪模块，用于按照每一种使用顺序，对所述第二噪声数据进行x次去噪，生成每一种使用顺序对应的第二图像；第三去噪模块，用于单独使用所述第一采样器对所述第二噪声数据进行n次去噪，生成所述基准图像；第二确定模块，用于确定每一第二图像与所述基准图像的相似度指标，以及每一第二图像的质量指标；第三确定模块，用于将相似度指标大于第一阈值的第二图像中、质量指标最大的第二图像所对应的使用顺序，确定为预设使用顺序。

13、在一种可能的实现方式中，在每一种使用顺序下，所述第一采样器的使用次数与n的比值作为第一比值，所述第二采样器的使用次数与m的比值作为第二比值，所述第一比值与所述第二比值之和等于1。

14、根据本公开的另一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为在执行所述存储器存储的指令时，实现上述方法。

15、根据本公开的另一方面，提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其中，所述计算机程序指令被处理器执行时实现上述方法。

16、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

17、根据本公开实施例的图像生成方法，扩散模型响应于输入的第一文本数据，获取第一噪声数据，可以得到去噪的对象；按照预设使用顺序，使用扩散模型中的第一采样器和第二采样器对第一噪声数据进行x次去噪，生成第一图像，每次去噪使用第一采样器和第二采样器中的一个，以及由第一文本数据映射得到的控制条件，因此第一图像与第一文本数据相对应，可以完成文本生图功能；m＜x＜n，n为单独采用第一采样器进行去噪以生成图像所需的次数，m为单独采用第二采样器进行去噪以生成图像所需的次数，使得生成图像需要的去噪次数低于两种采样器中去噪次数更高的第一采样器，和单独使用第一采样器相比，本公开的图像生成方法的图像生成效率更高；在扩散模型训练过程中，采用预设使用顺序生成的图像与基准图像的相似度大于第一阈值，且图像质量高于与基准图像的相似度大于第一阈值的、采用其他使用顺序生成的图像，因此本公开的图像生成方法生成的图像的内容和质量较高。从而能实现图像生成质量和效率的兼顾。

18、使用本公开实施例的图像生成方法，相比单独使用第一采样器，可以减少30%的去噪次数，并且所得的生成结果几乎完全一样。由于第一采样器和第二采样器可以是现有技术的采样器，因此本公开实施例的图像生成方法的成本低、效果显著。

19、根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名
技术所有人：摩尔线程智能科技（北京）有限责任公司
我是此专利的发明人

上一篇：一种保持液体微生物活性的存储罐的制作方法
上一篇：一种糖尿病治疗用干细胞制剂储存装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。