用于图像生成的方法、装置、设备和存储介质与流程

文档序号：37344055发布日期：2024-03-18 18:16阅读：10来源：国知局

本公开的示例实施例总体涉及计算机领域，特别地涉及用于图像生成的方法、装置、设备和计算机可读存储介质。

背景技术：

1、在计算机视觉(cv)领域中，基于机器学习的各种图像生成技术已经得到显著发展，并且具有广泛应用。例如，在诸如社交、游戏、图像编辑等很多应用场景中期望生成和使用目标图像。基于机器学习的图像生成技术可以用于这样的应用场景中，以提高用户的体验感。如何以较小的训练成本实现较高质量的图像生成是当前所关注的问题之一。

技术实现思路

1、在本公开的第一方面，提供了一种图像生成方法。该方法包括：基于待去噪图像特征和表征图像生成条件的至少一个条件特征，生成用于噪声预测的预测输入特征；基于预测输入特征，利用基础扩散模型的至少一部分和至少一个附加模型，分别生成第一中间特征和第二中间特征，其中基础扩散模型通过第一训练模式被训练，并且至少一个附加模型通过不同于第一训练模式的第二训练模式被训练；基于第一中间特征和第二中间特征，生成针对待去噪图像特征的预测噪声特征；以及基于预测噪声特征和待去噪图像特征，确定目标图像。

2、在本公开的第二方面，提供了一种用于图像生成的装置。该装置包括：输入特征预测模块，被配置为基于待去噪图像特征和表征图像生成条件的至少一个条件特征，生成用于噪声预测的预测输入特征；中间特征生成模块，被配置为基于预测输入特征，利用基础扩散模型的至少一部分和至少一个附加模型，分别生成第一中间特征和第二中间特征，其中基础扩散模型通过第一训练模式被训练，并且至少一个附加模型通过不同于第一训练模式的第二训练模式被训练；噪声特征预测模块，被配置为基于第一中间特征和第二中间特征，生成针对待去噪图像特征的预测噪声特征；以及目标图像确定模块，被配置为基于预测噪声特征和待去噪图像特征，确定目标图像。

3、在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序可由处理器执行以实现第一方面的方法。

5、应当理解，本内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征：

1.一种图像生成方法，包括：

2.根据权利要求1所述的方法，其中所述基础扩散模型的所述至少一部分包括注意力层，所述至少一个附加模型包括与所述注意力层对应的第一附加模型，并且分别生成第一中间特征和第二中间特征包括：

3.根据权利要求2所述的方法，其中所述至少一个附加模型包括第二附加模型，并且生成用于所述注意力层的注意力输入特征包括：

4.根据权利要求2所述的方法，其中所述基础扩散模型包括前馈层，所述至少一个附加模型包括与所述前馈层对应的第三附加模型，并且生成针对所述待去噪图像特征的预测噪声特征包括：

5.根据权利要求1所述的方法，其中生成用于噪声预测的预测输入特征包括：

6.根据权利要求1所述的方法，其中在所述至少一个附加模型中的给定附加模型中，通过对所述给定附加模型的输入特征执行如下操作，生成所述给定附加模型的输出特征：

7.根据权利要求1所述的方法，其中所述目标图像的生成包括多个去噪步骤，并且所述待去噪声图像特征是所述多个去噪步骤中的给定去噪步骤的输入，并且确定所述目标图像包括：

8.根据权利要求1所述的方法，其中在所述至少一个附加模型的训练期间，所述基础扩散模型的参数保持不变。

9.根据权利要求1所述的方法，其中所述第一训练模式包括预训练，并且所述第二训练模式包括微调。

10.一种用于图像生成装置，包括：

11.一种电子设备，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序可由处理器执行以实现根据权利要求1至9中任一项所述的方法。

技术总结
根据本公开的实施例，提供了用于图像生成的方法、装置、设备和存储介质。该方法包括，基于待去噪图像特征和表征图像生成条件的至少一个条件特征，生成用于噪声预测的预测输入特征；基于预测输入特征，利用基础扩散模型的至少一部分和至少一个附加模型，分别生成第一中间特征和第二中间特征，其中基础扩散模型通过第一训练模式被训练，并且至少一个附加模型通过不同于第一训练模式的第二训练模式被训练；基于第一中间特征和第二中间特征，生成针对待去噪图像特征的预测噪声特征；以及基于预测噪声特征和待去噪图像特征，确定目标图像。以此方式，能够以较小的训练成本实现高质量的图像生成。

技术研发人员：李啸,罗世楷
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：
技术公布日：2024/3/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李啸,罗世楷
技术所有人：北京字跳网络技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。