一种基于扩散模型的娃稿生成方法、装置及存储介质与流程

文档序号：37690352发布日期：2024-04-18 21:07阅读：33来源：国知局

本公开实施例涉及图像处理，尤其涉及一种基于扩散模型的娃稿生成方法、装置、电子设备及计算机存储介质。

背景技术：

1、扩散模型是一种典型的文生成图模型，能够根据用户输入的文本产生相关联的照片。目前官方及社区提供的开源模型，不了解娃稿这一概念，也无法准确的画出娃稿这一类型的图片。直接拿现有扩散模型生成娃稿图，生成出的大部分都是跟娃稿无关的娃娃图。如图1所示，为现有扩散模型产出的娃稿图。目前，扩散模型基于固定文本产出娃稿图时，产出的娃稿图随机性比较大，与用户上传的人像照片没有任何关系。

技术实现思路

1、本公开实施例的目的在于提供一种基于扩散模型的娃稿生成方法、装置、电子设备及计算机存储介质，从而解决现有技术中存在的前述问题。

2、为了实现上述目的，本公开实施例采用的技术方案如下：

3、本公开实施例一方面提供一种基于扩散模型的娃稿生成方法，所述方法包括：获取包含人脸的图像；

4、将人脸图像输入至特征识别模型进行样貌特征识别，得到人脸图像识别特征；

5、将所述人脸图像识别特征填充至提示词模板，生成相应的正向提示词和反向提示词；

6、将所述正向提示词和反向提示词分别输入至预先训练的娃稿生成模型，得到包含人脸特征的娃稿图片，其中，所述娃稿生成模型包括基于扩散模型得到。

7、示例性的，所述获取包含人脸的图像包括：

8、获取图像，检测所述图像是否合法，若是，则检测所述图像是否包含人脸，若是，则对人脸部分进行裁剪和校正，得到包含人脸的图像。

9、示例性的，所述娃稿生成模型的训练过程包括：

10、获取娃稿图片，其中，所述娃稿图片包括男娃稿图片和女娃稿图片；

11、对所述娃稿图片的娃稿样貌特征及背景进行标注；

12、将具有标注的娃稿图片作为训练集，通过dreambooth训练和调整扩散模型，得到娃稿生成模型。

13、示例性的，所述获取娃稿图片之后，所述方法还包括：

14、将所述娃稿图片裁切为1024×1024大小尺寸的图片。

15、示例性的，所述将所述正向提示词和反向提示词分别输入至预先训练的娃稿生成模型，得到包含人脸特征的娃稿图片，包括：

16、生成尺寸为1024×1024的潜空间噪音图像；

17、将所述正向提示词和所述反向提示词中每个词分别转换为对应标识符token，并将所述标识符token换为词向量；

18、所述潜空间噪音图像以及所述词向量输入噪声预测器u-net，以预测潜在空间的噪声；

19、采用ksampler调度相关算法以及参数根据所述预测潜在空间的噪声对潜空间噪音图像执行多次反向去噪；

20、利用vae模型将去噪后的潜空间图像转换为像素空间图像，得到包含人脸特征的娃稿图片。

21、示例性的，所述正向提示词包括：特征部分和固定部分，所述反向提示词包括固定内容。

22、示例性的，所述特征识别模型采用openclip模型。

23、本公开实施例另一方面提供了一种基于扩散模型的娃稿生成装置，所述装置包括：

24、获取人脸图像模块，用于获取包含人脸的图像；

25、特征提取模块，用于将人脸图像输入至特征识别模型进行样貌特征识别，得到人脸图像识别特征；

26、生成提示词模块，用于将所述人脸图像识别特征填充至提示词模板，生成相应的正向提示词和反向提示词；

27、娃稿生成模块，用于将所述正向提示词和反向提示词分别输入至预先训练的娃稿生成，得到包含人脸特征的娃稿图片，其中，所述娃稿生成模型包括基于扩散模型得到。

28、本公开实施例另一方面提供了一种电子设备，包括：一个或多个处理器；

29、存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至7任一项所述的方法。

30、本公开实施例另一方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现根据权利要求1至7任一项所述的方法。

31、本公开实施例的有益效果是：

32、本公开实施例的娃稿生成方法，能够生成具有人脸特征的娃稿图像，让产出的娃稿图与用户上传的图更相似，以满足用户需求。

技术特征：

1.一种基于扩散模型的娃稿生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取包含人脸的图像包括：

3.根据权利要求1所述的方法，其特征在于，所述娃稿生成模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述获取娃稿图片之后，所述方法还包括：

5.根据权利要求1～4任一项所述的方法，其特征在于，所述将所述正向提示词和反向提示词分别输入至预先训练的娃稿生成模型，得到包含人脸特征的娃稿图片，包括：

6.根据权利要求1～4任一项所述的方法，其特征在于，所述正向提示词包括：特征部分和固定部分，所述反向提示词包括固定内容。

7.根据权利要求1～4任一项所述的方法，其特征在于，所述特征识别模型采用openclip模型。

8.一种基于扩散模型的娃稿生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：一个或多个处理器；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时能实现根据权利要求1至7任一项所述的方法。

技术总结
本公开实施例提出了一种基于扩散模型的娃稿生成方法、装置及存储介质，所述方法包括：获取包含人脸的图像；将人脸图像输入至特征识别模型进行样貌特征识别，得到人脸图像识别特征；将所述人脸图像识别特征填充至提示词模板，生成相应的正向提示词和反向提示词；将所述正向提示词和反向提示词分别输入至预先训练的娃稿生成模型，得到包含人脸特征的娃稿图片，其中，所述娃稿生成模型包括基于扩散模型得到。本公开实施例提供了一种可以生成具有人脸特征的娃稿图像，本公开的方法提高了娃稿图与人脸图像的相似度，满足用户需求。

技术研发人员：吕英斌
受保护的技术使用者：无线生活（北京）信息技术有限公司
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕英斌
技术所有人：无线生活（北京）信息技术有限公司
我是此专利的发明人

上一篇：一种重金属污染耕地修复治理的智能化决策方法
上一篇：基于持续预训练的语言模型训练方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。