本公开涉及人工智能,尤其涉及深度学习、aigc(人工智能生成内容)等,具体涉及一种图像风格迁移方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、图像风格迁移指的是在保持原图像(即,参考图像)的内容大致不变的情况下改变原图像的风格,得到同时具有原图像的内容和新风格的新图像(即,目标图像)。例如,原图像为描绘有一只在街边行走的狗的照片(即,照片风格),指定的新风格为动漫风格。通过对原图像进行风格迁移,可以得到用动漫风格描绘有一只在街边行走的狗的新图像。
2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
1、本公开提供了一种图像风格迁移方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
2、根据本公开的一方面,提供了一种图像风格迁移方法,包括:获取参考图像和描述文本,其中,所述描述文本包括描述所述参考图像的内容的内容描述文本和描述待生成的目标图像的风格的风格描述文本;提取所述描述文本的文本特征;以及基于预训练的扩散模型执行以下操作,以生成所述目标图像:在所述扩散模型的每个时间步中:计算第一图像特征与所述文本特征的第一交叉注意力特征,其中,第一个时间步中的所述第一图像特征为预设的初始图像的图像特征,第二个及后续每个时间步中的所述第一图像特征为上一个时间步所生成的结果图像特征;获取所述参考图像的第二图像特征与所述文本特征的第二交叉注意力特征;基于所述第二交叉注意力特征,对所述第一交叉注意力特征进行编辑,以得到第三交叉注意力特征;以及基于所述第三交叉注意力特征和所述文本特征,生成该时间步的结果图像特征;以及对最后一个时间步的结果图像特征进行解码,以生成所述目标图像。
3、根据本公开的一方面,提供了一种图像风格迁移装置,包括:获取模块,被配置为获取参考图像和描述文本,其中,所述描述文本包括描述所述参考图像的内容的内容描述文本和描述待生成的目标图像的风格的风格描述文本;提取模块,被配置为提取所述描述文本的文本特征;以及生成模块,被配置为基于预训练的扩散模型生成所述目标图像,所述生成模块包括:注意力编辑单元,被配置为在所述扩散模型的每个时间步中:计算第一图像特征与所述文本特征的第一交叉注意力特征,其中,第一个时间步中的所述第一图像特征为预设的初始图像的图像特征,第二个及后续每个时间步中的所述第一图像特征为上一个时间步所生成的结果图像特征;获取所述参考图像的第二图像特征与所述文本特征的第二交叉注意力特征;基于所述第二交叉注意力特征,对所述第一交叉注意力特征进行编辑,以得到第三交叉注意力特征;以及基于所述第三交叉注意力特征和所述文本特征,生成该时间步的结果图像特征;以及解码单元,被配置为对最后一个时间步的结果图像特征进行解码,以生成所述目标图像。
4、根据本公开的一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
5、根据本公开的一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行上述方法。
6、根据本公开的一方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器执行时实现上述方法。
7、根据本公开的一个或多个实施例,提供了一种基于注意力编辑的非训练的图像风格迁移方法。该方法使用通用的、预训练的扩散模型即可实现高质量的图像风格迁移,无需利用大量的标注数据对扩散模型进行进一步训练(微调),提高了图像风格迁移的效率,具有良好的泛化性。
8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种图像风格迁移方法,包括:
2.根据权利要求1所述的方法,其中,所述第一交叉注意力特征包括对应于所述内容描述文本的第一内容子特征和对应于所述风格描述文本的第一风格子特征,所述第二交叉注意力特征包括对应于所述内容描述文本的第二内容子特征和对应于所述风格描述文本的第二风格子特征,所述第三交叉注意力特征包括对应于所述内容描述文本的第三内容子特征和对应于所述风格描述文本的第三风格子特征,所述基于所述第二交叉注意力特征,对所述第一交叉注意力特征进行编辑,以得到第三交叉注意力特征包括:
3.根据权利要求2所述的方法,其中,所述基于所述第二内容子特征,对所述第一内容子特征进行修改包括:
4.根据权利要求2或3所述的方法,其中,所述基于所述第一风格子特征,确定所述第三风格子特征包括:
5.根据权利要求1-4中任一项所述的方法,其中,所述提取所述描述文本的文本特征包括:
6.根据权利要求5所述的方法,其中,所述扩展的风格描述文本包括所述风格描述文本和所述参考图像的风格描述标识,并且其中,所述对所述扩展的风格描述文本进行编码,以得到所述扩展的风格描述文本的第二文本特征包括:
7.根据权利要求6所述的方法,其中,所述参考图像为参考视频中的任一图像帧,并且其中,所述利用图像编码器提取所述参考图像的第三图像特征包括:
8.根据权利要求1-7中任一项所述的方法,其中,所述计算第一图像特征与所述文本特征的第一交叉注意力特征包括:
9.根据权利要求8所述的方法,其中,所述参考图像为参考视频中的除第一个图像帧以外的任一图像帧,并且其中,所述基于所述自注意力特征和所述第一图像特征,生成第四图像特征包括:
10.一种图像风格迁移装置,包括:
11.根据权利要求10所述的装置,其中,所述第一交叉注意力特征包括对应于所述内容描述文本的第一内容子特征和对应于所述风格描述文本的第一风格子特征,所述第二交叉注意力特征包括对应于所述内容描述文本的第二内容子特征和对应于所述风格描述文本的第二风格子特征,所述第三交叉注意力特征包括对应于所述内容描述文本的第三内容子特征和对应于所述风格描述文本的第三风格子特征,所述注意力编辑单元包括:
12.根据权利要求11所述的装置,其中,所述内容编辑子单元进一步被配置为:
13.根据权利要求11或12所述的装置,其中,所述风格编辑子单元进一步被配置为:
14.根据权利要求10-13中任一项所述的装置,其中,所述提取模块包括:
15.根据权利要求14所述的装置,其中,所述扩展的风格描述文本包括所述风格描述文本和所述参考图像的风格描述标识,并且其中,所述第二编码单元包括:
16.根据权利要求15所述的装置,其中,所述参考图像为参考视频中的任一图像帧,并且其中,所述第二编码子单元进一步被配置为:
17.根据权利要求10-16中任一项所述的装置,其中,所述注意力编辑单元包括:
18.根据权利要求17所述的装置,其中,所述参考图像为参考视频中的除第一个图像帧以外的任一图像帧,并且其中,所述生成子单元进一步被配置为:
19.一种电子设备,包括:
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现权利要求1-9中任一项所述的方法。