本公开涉及人工智能领域,尤其涉及图像生成。
背景技术:
1、近年来,图像生成技术领域迅速发展,其中,根据输入的文本来生成图像的技术得到了尤其广泛的关注和应用。这项技术允许用户通过简单的文本,自动生成媲美专业画师的高质量画作。
2、随着人工智能(artificial intelligence,ai)创作的普及,仅凭借文本生成画作的方式逐渐难以满足用户对生成的图像更高可控性的需求,目前尚缺乏可控性较高的图像生成方案。
技术实现思路
1、本公开提供了一种用于可控图像生成方法、装置及电子设备。
2、根据本公开的第一方面,提供了一种可控图像生成方法,包括:
3、获取控制图像,提取至少一个所述控制图像的特征,生成第一特征向量;
4、将所述第一特征向量融合以生成第二特征向量;
5、将噪声图像输入扩散网络进行推理运算,并将所述第二特征向量输入到对应的推理层中参与所述推理运算,生成目标图像。
6、可选的,所述方法还包括:
7、获取参考图像,将所述参考图像输入控制图提取模块;
8、根据所述控制图提取模块的控制维度提取所述参考图像中的控制特征,以生成控制图像。
9、可选的,所述控制维度包括构图维度、色彩维度和结构维度,所述根据所述控制图提取模块的控制维度提取所述参考图像中的控制特征,以生成控制图像包括以下至少一项:
10、响应于所述控制维度为构图维度,对所述参考图像中各个像素进行分类,根据所述像素的类别对像素进行标注,以生成所述控制图像;
11、响应于所述控制维度为色彩维度,对所述参考图像进行模糊处理,以生成所述控制图像,其中,所述控制图像中包含多个色块;
12、响应于所述控制维度为结构维度,识别所述参考图像中的结构,并根据所述结构生成所述控制图像。
13、可选的,所述提取至少一个所述控制图像的特征,生成第一特征向量包括:
14、将所述控制图像输入维度编码器中进行推理运算,获取各个推理层输出的第一特征向量,其中,所述维度编码器中包括多个推理层。
15、可选的,所述将所述第一特征向量融合以生成第二特征向量包括:
16、获取各个所述维度编码器的控制权重,将所述编码器对应的第一特征向量与对应的所述控制权重相乘以获取中间特征向量;
17、将所述中间特征向量相加以获取所述第二特征向量。
18、可选的,所述扩散网络包括编码器和解码器,所述编码器和解码器中包括多个推理层,所述解码器和编码器中推理层的数量和推理层中的结构与所述维度编码器相同,所述维度编码器与所述解码器中的推理层一一对应。
19、可选的,所述将噪声图像输入扩散网络进行推理运算,并将所述第二特征向量输入到对应的推理层中参与所述推理运算,生成目标图像包括:
20、将所述噪声图像输入所述编码器的推理层中进行推理运算后输入所述解码器的推理层中;
21、将所述第一特征向量与所述解码器中对应的推理层的输出相加后输入所述解码器中的下一推理层进行推理运算,以生成待定图像;
22、将所述待定图像输入所述扩散网络进行迭代运算以生成所述目标图像。
23、可选的,所述将所述待定图像输入所述扩散网络进行迭代运算以生成所述目标图像,包括:
24、获取预设的迭代次数阈值,设置迭代次数的计数值为0,在每次迭代运算完成输出所述待定图像后将所述迭代次数值增加1;
25、如果所述迭代次数计数值小于所述迭代次数阈值,则继续迭代运算;
26、如果所述迭代次数计数值等于所述迭代次数阈值,则停止迭代运算,并将输出的所述待定图像确定为所述目标图像。
27、根据本公开的第二方面,提供了一种可控图像生成装置,包括:
28、特征提取模块,用于获取控制图像,提取至少一个所述控制图像的特征,生成第一特征向量;
29、特征融合模块,用于将所述第一特征向量融合以生成第二特征向量;
30、图像生成模块,用于将噪声图像输入扩散网络进行推理运算,并将所述第二特征向量输入到对应的推理层中参与所述推理运算,生成目标图像。
31、可选的,所述装置还包括:
32、参考图像获取模块,用于获取参考图像,将所述参考图像输入控制图提取模块;
33、控制图像生成模块,用于根据所述控制图提取模块的控制维度提取所述参考图像中的控制特征,以生成控制图像。
34、可选的,所述控制维度包括构图维度、色彩维度和结构维度,所述控制图像生成模块中包括:
35、构图提取子模块,用于响应于所述控制维度为构图维度,对所述参考图像中各个像素进行分类,根据所述像素的类别对像素进行标注,以生成所述控制图像;
36、色彩提取子模块,用于响应于所述控制维度为色彩维度,对所述参考图像进行模糊处理,以生成所述控制图像,其中,所述控制图像中包含多个色块;
37、结构提取子模块,用于响应于所述控制维度为结构维度,识别所述参考图像中的结构,并根据所述结构生成所述控制图像。
38、可选的,所述特征提取模块包括:
39、特征提取子模块,用于将所述控制图像输入维度编码器中进行推理运算,获取各个推理层输出的第一特征向量,其中,所述维度编码器中包括多个推理层。
40、可选的,所述特征融合模块包括:
41、加权子模块,用于获取各个所述维度编码器的控制权重,将所述编码器对应的第一特征向量与对应的所述控制权重相乘以获取中间特征向量;
42、特征融合子模块,用于将所述中间特征向量相加以获取所述第二特征向量。
43、可选的,所述扩散网络包括编码器和解码器,所述编码器和解码器中包括多个推理层,所述解码器和编码器中推理层的数量和推理层中的结构与所述维度编码器相同,所述维度编码器与所述解码器中的推理层一一对应。
44、可选的,所述图像生成模块包括:
45、第一推理子模块,用于将所述噪声图像输入所述编码器的推理层中进行推理运算后输入所述解码器的推理层中;
46、第二推理子模块,用于将所述第一特征向量与所述解码器中对应的推理层的输出相加后输入所述解码器中的下一推理层进行推理运算,以生成待定图像;
47、迭代子模块,用于将所述待定图像输入所述扩散网络进行迭代运算以生成所述目标图像。
48、可选的,所述迭代子模块包括:
49、计数单元,获取预设的迭代次数阈值,设置迭代次数的计数值为0,在每次迭代运算完成输出所述待定图像后将所述迭代次数值增加1;
50、第一判断单元,如果所述迭代次数计数值小于所述迭代次数阈值,则继续迭代运算;
51、第二判断单元,如果所述迭代次数计数值等于所述迭代次数阈值,则停止迭代运算,并将输出的所述待定图像确定为所述目标图像。
52、根据本公开的第三方面,提供了一种电子设备,包括:
53、至少一个处理器;以及
54、与所述至少一个处理器通信连接的存储器;其中,
55、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
56、根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面中任一项所述的方法。
57、根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面中任一项所述的方法。
58、本公开技术方案可以实现至少以下有益效果:
59、通过一个或多个控制图像对生成的图像进行控制,可以实现对生成图像过程的精准控制,提高生成图像的可控性。
60、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。