一种多模态发型风格迁移生成方法和系统

文档序号:37154146发布日期:2024-02-26 17:12阅读:19来源:国知局
一种多模态发型风格迁移生成方法和系统

本发明涉及计算机,尤其涉及一种多模态发型风格迁移生成方法和系统。


背景技术:

1、发型是个人形象的一个明显特征,在当今的个性化时代,人们对个人形象越来越关注,拥有适合自己的发型、找到佩戴合适的假发或是通过图像编辑改变发型风格也成为人们日常生活工作中的一个自然选择。发型风格迁移一直是人脸风格迁移中最具挑战性的一个方面。如何准确地分解头发的局部结构特征,生成重建保真度较高又可编辑的发型风格迁移图像一直是一个难题。受到stylegan在各种领域生成高度逼真图像的能力的启发,许多局部风格迁移的工作都集中在理解如何使用stylegan的潜在空间来操纵生成的和真实的图像。有些研究人员从stylegan中的潜在空间w到扩展潜在空间w+再到特征空间f,这种方法都属于gan的反演。但由于gan反演的可编辑性降低,重构质量提高,最近的gan反演方法也大多数是探索w+和f而不是w,并且由于发型特征的特殊性,头发的颜色特征收到光影与角度的影响,结构特征较细小又复杂,形状特征也会随着结构的改变而受到影响,这些聚焦于w+和f空间的gan反演方法在针对需要更细化要求的发型风格迁移来说存在着局限性,基于此可以通过退一步到w空间得到相应的改进,这种方法不仅可以保证生成图像的质量也可以提高可编辑性。

2、当前研究领域仅通过参考图像进行发型风格迁移的过程是很普遍存在的,所以近年来与为了使图像的生成和操作更加方便和用户友好,很多研究主要集中在多种引导条件下的图像合成,如草图、语义标签或文本描述。尽管在标签和草图方面取得了成功,但文本引导图像生成和处理方法只能生成低质量的图像。基于文本的图像编辑方法也会产生文本相关的属性被过度操纵,文本无关的属性也会被改变然而,并且语义上有意义的潜在操作通常需要对许多自由度进行艰苦的人工检查,或者为每个所需的操作提供带注释的图像集合,并且现有的技术中为达到用户友好的图像与文本相结合进行图像生成的方法还较少。


技术实现思路

1、基于上述现有技术中存在的问题,本发明提供一种多模态发型风格迁移生成方法,首先是对style gan的潜在空间进行改进,提出了先在基础潜在空间w中获得合适的潜码,然后引入对比学习来对齐w和图像空间,以便发现合适的潜码。然后,利用交叉注意编码器将w中获得的潜在代码相应地转换为w+和f,对比于其他方法只针对w+空间与f空间,这种做法具有可是使gan的反演具有更高的可编辑性,方便下一步与文本相结合,具体方法如下:

2、步骤1,将目标图像与对应的潜在代码进行映射对齐,并通对齐损失进行约束;

3、步骤2,对参考图像和参考文本进行特征编码,获得对应的编码特征,将编码特征通过条件映射传入到cnn编码器的不同语义层中,对齐后的目标图像输入到cnn编码器中获得不同尺度的语义特征;

4、步骤3,利用注意力机制对步骤2中的输出进行优化调节得到向量集合并对cnn编码器中最高语义层输出的特征进行交叉注意处理得到特征然后将和传入预训练好的style gan的生成器中进行图像生成。

5、进一步的,步骤1中将目标图像传入cnn编码器,在潜在空间w∈r512中获得潜在代码w,采用clip模型的对比学习模块对齐目标图像i和潜在代码w的分布,对比学习模块包括特征提取器和投影头。

6、进一步的,步骤1中的对齐损失如下:

7、设置最小批次包含s个目标图像和潜在代码,并将它们在投影头之后的嵌入分别表示为hi(i)∈r512,hw(w)∈r512,对于最小批次中的第i对,i∈[1,2,…,s],其嵌入为hi(ii)和hw(wi),对比损失表示为:

8、

9、

10、其中,表示对齐图像i到潜在代码w的损失,表示潜在代码w到对齐图像i的损失,<·>表示余弦相似度,t∈r+是一个可学习的温度参数;对比学习模块中最终的对齐损失写成:

11、

12、式中λ为常数。

13、进一步的,步骤2中,将参考图像与参考文本传入clip图像编码器与clip文本编码器获取相应的参考发型的颜色与文本描述的形状特征后,通过对应的条件映射对应传入cnn编码器的不同语义层中。

14、进一步的,步骤2中的cnn编码器是一个金字塔结构,包括三个不同尺度的语义层,即低语义层、中语义层和高语义层,分别生成三个级别的特征图。

15、进一步的,将编码特征通过条件映射传入到cnn编码器的不同语义层中的具体实现方式如下:

16、将发型信息作为高语义层和中语义层的条件输入,es代表头发形状结构,代表用户所给的发型文本提示,代表参考图像的发型提示;

17、作为低语义层的条件输入,ec代表发型颜色,代表用户所给的头发颜色的文本提示,代表参考图像头发颜色的提示。

18、进一步的,步骤3中注意力机制通过交叉注意块实现,其处理流程如下;

19、在交叉注意块中,将目标图像的潜在代码w设为查询q,δwi+设为值v和键k来计算注意图,该注意图用于提取出w与δwi+间的潜在关系,整个过程可以写成:

20、

21、其中可学习参数δwi+为第i个粗残差,由cnn输出的特征与map2style块结合得到,特征维数d为512,softmax为概率函数,attention表示注意力机制,为交叉注意块的输出的第i个向量,取值为1-n。

22、进一步的,对cnn编码器中最高语义层输出的特征进行交叉注意处理的整个过程可以写成:

23、

24、其中可学习参数特征维数d为512,t'3表示cnn编码器最高层语义层输出的特征,cnn表示编码器,softmax为概率函数,attention表示注意力机制。

25、进一步的,在传入style gan之前,先对输入数据进行如下修正处理:

26、(1)使用经典的潜在空间编辑方法修正得到修正后的向量集合

27、(2)修正f的具体实现方式为:

28、

29、其中,和g5(w+)为特征样式编码器中第5层卷积层的特征,通过修改后的和得到编辑结果及最终的生成图像,g表示style gan中的生成器,也为特征样式编码器。

30、本发明还提供一种多模态发型风格迁移生成系统,包括如下模块:

31、映射对齐模块,用于将目标图像与对应的潜在代码进行映射对齐,并通过对齐损失进行约束;

32、语义特征提取模块,用于对参考图像和参考文本进行特征编码,获得对应的编码特征,将编码特征通过条件映射传入到cnn编码器的不同语义层中,对齐后的目标图像输入到cnn编码器中获得不同尺度的语义特征;

33、图像生成模块,用于利用注意力机制对语义特征提取模块中的输出进行优化调节得到向量集合并对cnn编码器中最高语义层输出的特征进行交叉注意处理得到特征然后将和传入预训练好的style gan的生成器中进行图像生成。

34、与现有技术相比,本发明的优点和有益效果如下:

35、(1)本发明方法通过图像编辑的方式进行发型风格改变更便捷、相比真实改变发型来说试错的成本几乎没有,可为理发店的发型师提供具体实例的参考,并可用于市场上的修图app中,且相比于仅靠参考图像或者文本编辑应用范围更广。

36、(2)本发明可以很好的解决发型风格迁移过程中存在的影响,比如相比于通过语义分割的方法进行发型风格迁移会导致前景生成的发型部分与背景之间融合较差边缘明显生硬不逼真,本方法是通过在潜在空间对语义层进行更精细的调控操作,会改善生成图前景与背景之间产生的伪影,对比于仅靠文本或者草图进行的发型风格迁移图像过程中所产生的发型纹理结构的丢失,本方法通过与交叉注意块的调节控制,可得到更高保真的发型风格迁移生成图。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1