一种基于循环生成对抗网络的面部图像转换方法与流程

文档序号:14736281发布日期:2018-06-19 20:33阅读:463来源:国知局
一种基于循环生成对抗网络的面部图像转换方法与流程

本发明涉及图像转换领域,尤其是涉及了一种基于循环生成对抗网络的面部图像转换方法。



背景技术:

随着深度学习在图像分类、物体检测、图像分割等计算机视觉问题上都取得重大进展,深度学习被认为可以提取图像高层语义特征。因此,逐渐衍生出了许多很有意思的图像应用,其中一个近年来兴起的图像转换应用最受人们欢迎。图像转换即将一类图片转换成另一类图片或将两个面部图像进行交换,简称“换脸”。“换脸”技术受到当今年轻人的广泛应用,其可以将男人的面部转换成女人的面部或将女人的面部转换成男人的面部,也可以为面部匹配各种不同的表情,还可以将人的面部表情转化成各种流行的表情包中的表情等。而在公安刑侦领域,通过“换脸”来模拟犯罪嫌疑人或可疑分子的表情和神态,可以帮助公安刑侦人员快速辨认嫌疑人或可疑分子,从而帮助案件侦破或及时制止危险行为。然而,原有的面部图像转换技术在处理边缘细节时精度不够,稳定性不佳,整体转换效果较差。

本发明提出了一种基于循环生成对抗网络的面部图像转换方法,使用生成器网络和鉴别器网络进行相互对抗,利用传统的GAN损失函数和新的循环一致性损失函数组成循环GAN,接着改进WGAN,并通过其损失改善GAN的训练,然后SSIM损失匹配生成的图像和输入图像的亮度、对比度和结构信息,在训练期间将二进制掩码与图像一起输入,并应用元素乘积重建损失。本发明使用了循环生成对抗网络,在转换面部表情时具有更高的一致性和稳定性,还可以更好地处理面部细节和边缘细节,使转换后的图像更自然、更真实。



技术实现要素:

针对处理边缘细节时精度不够、稳定性不佳的问题,本发明的目的在于提供一种基于循环生成对抗网络的面部图像转换方法,使用生成器网络和鉴别器网络进行相互对抗,利用传统的GAN损失函数和新的循环一致性损失函数组成循环GAN,接着改进WGAN,并通过其损失改善GAN的训练,然后SSIM损失匹配生成的图像和输入图像的亮度、对比度和结构信息,在训练期间将二进制掩码与图像一起输入,并应用元素乘积重建损失。

为解决上述问题,本发明提供一种基于循环生成对抗网络的面部图像转换方法,其主要内容包括:

(一)沃瑟斯坦生成对抗网络(WGAN);

(二)结构相似性(SSIM)损失(二);

(三)背景减除法和面部掩码(三);

(四)生成对抗网络(GAN)。

其中,所述的循环生成对抗网络(CycleGAN),CycleGAN的损失函数由传统的GAN损失函数和新的循环一致性损失函数两部分组成,共同推动循环一致性:

L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F) (1)

其中,循环一致性损失函数表示G(F(X))与X、F(G(Y))与Y之间的相似性:

因此需要在未对齐的数据集上产生更好的对齐序列。

其中,所述的沃瑟斯坦生成对抗网络(WGAN),从测试中发现,人物A的一些表情被转移到了人物B的相同姿势和表情;标准的鉴别器损失使用了交叉熵损失,并且渐变消失;为了解决这个问题,根据WGAN采取了以下改进措施:

(1)损失中没有log;D的输出不再是一个概率问题,因此不在D的输出处应用S形函数;

(2)在D中减少权重;

(3)比训练生成器G更多地训练鉴别器D;

(4)使用RMSProp算法而不是ADAM优化算法;

(5)降低学习率,使学习率α=0.00005。

进一步地,所述的WGAN损失,通过WGAN损失改善GAN的训练;然而,即使调整学习速度并限制梯度,训练也非常不稳定;使用WGAN的故障率很高,训练速度也很慢;可以看到与WGAN损失相比,最小二乘GAN损失有助于产生更好的结果。

其中,所述的结构相似性(SSIM)损失,SSIM损失匹配生成的图像和输入图像的亮度(l)、对比度(c)和结构信息(s),并且能有效提高图像的质量;多尺度SSIM损失考虑M尺度上的SSIM损失如下:

其中,

在循环GAN中添加SSIM损失,以便强化恢复的图像和原始图像之间的相似性;SSIM的权重范围应该在0.0001到0.01之间。

进一步地,所述的权重,SSIM的权重不应该太大,否则它可能会主导重建损失;添加权重为0.01的SSIM损失,可以很好地帮助学习人物姿势,但是仍然需要更多的调整来恢复更多的面部细节。

其中,所述的背景减除法和面部掩码,由于循环GAN不是将前景和背景明确分开,而是将整个图像作为一个对象进行处理,并隐式转移该域,因此视频中的背景受到严重损坏;通过处理前景和背景,获得更加清晰的目标边界;通过分割输入的面部,将掩码作为像素重建误差的权重;提取面部标志,然后将面部多边形转换成掩码,使用掩码更有助于专注于面部表情,可以通过以下两种方法来平衡掩码:

(1)只为网络输入裁剪脸部,忽略所有其他部分;

(2)基于分段掩模,将逐像素权重应用于原始循环一致性损失。

进一步地,所述的掩码,为了保持更好的背景,更重要的是增加面部的权重;因此,在训练期间将二进制掩码与图像一起输入,并应用wmaskImask+1的元素乘积和L1重建损失;随着人脸上更高的梯度流,网络学习更多关注面部细节。

其中,所述的生成对抗网络(GAN),使用一个生成器网络和一个鉴别器网络进行相互对抗;生成器采用UNet,具有跳跃层;使用三层卷积DX和DY作为鉴别器,将这个子网的深度扩展到五层卷积;或者可以在每边使用两个不同的鉴别器,并使用给定的权重λ来平均损失;在实验中,将λ设置为0.5;

LGAN(G,DY1,DY2)=λLGAM(G,DY1)+(1-λ)LGAN(G,DY2) (7)

修改损失函数,如上式所示。

进一步地,所述的鉴别器,当鉴别层的数量增加时,接受域尺寸减小,迫使模型学习从一个域到另一个域的更详细的转化;结果表明,利用五层鉴别器的模型在模拟输入的面部表情方面做得比较好,但是头肩比等全局结构的结果较差;

多重鉴别器GAN与单个鉴别器一样,放大了模型的容量并减少随机噪声;当遇到一个看不见的姿势图像时,它明显优于其他设置;通过从不同的接受领域中学习的模式之间进行合理的折中,生成器完美地结合了人的微妙表情,而不会绕过目标人物的特征。

附图说明

图1是本发明一种基于循环生成对抗网络的面部图像转换方法的系统框架图。

图2是本发明一种基于循环生成对抗网络的面部图像转换方法的循环生成对抗网络。

图3是本发明一种基于循环生成对抗网络的面部图像转换方法的结构相似性(SSIM)损失。

图4是本发明一种基于循环生成对抗网络的面部图像转换方法的深度鉴别器和多重鉴别器。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于循环生成对抗网络的面部图像转换方法的系统框架图。主要包括沃瑟斯坦生成对抗网络(WGAN),结构相似性(SSIM)损失,背景减除法和面部掩码,生成对抗网络(GAN)。

沃瑟斯坦生成对抗网络(WGAN),从测试中发现,人物A的一些表情被转移到了人物B的相同姿势和表情;标准的鉴别器损失使用了交叉熵损失,并且渐变消失;为了解决这个问题,根据WGAN采取了以下改进措施:

(1)损失中没有log;D的输出不再是一个概率问题,因此不在D的输出处应用S形函数;

(2)在D中减少权重;

(3)比训练生成器G更多地训练鉴别器D;

(4)使用RMSProp算法而不是ADAM优化算法;

(5)降低学习率,使学习率α=0.00005。

通过WGAN损失改善GAN的训练;然而,即使调整学习速度并限制梯度,训练也非常不稳定;使用WGAN的故障率很高,训练速度也很慢;可以看到与WGAN损失相比,最小二乘GAN损失有助于产生更好的结果。

背景减除法和面部掩码,由于循环GAN不是将前景和背景明确分开,而是将整个图像作为一个对象进行处理,并隐式转移该域,因此视频中的背景受到严重损坏;通过处理前景和背景,获得更加清晰的目标边界;通过分割输入的面部,将掩码作为像素重建误差的权重;提取面部标志,然后将面部多边形转换成掩码,使用掩码更有助于专注于面部表情,可以通过以下两种方法来平衡掩码:

(1)只为网络输入裁剪脸部,忽略所有其他部分;

(2)基于分段掩模,将逐像素权重应用于原始循环一致性损失。

为了保持更好的背景,更重要的是增加面部的权重;因此,在训练期间将二进制掩码与图像一起输入,并应用wmaskImask+1的元素乘积和L1重建损失;随着人脸上更高的梯度流,网络学习更多关注面部细节。

生成对抗网络(GAN),使用一个生成器网络和一个鉴别器网络进行相互对抗;生成器采用UNet,具有跳跃层;使用三层卷积DX和DY作为鉴别器,将这个子网的深度扩展到五层卷积;或者可以在每边使用两个不同的鉴别器,并使用给定的权重λ来平均损失;在实验中,将λ设置为0.5;

LGAN(G,DY1,DY2)=λLGAN(G,DY1)+(1-λ)LGAN(G,DY2) (1)

修改损失函数,如上式所示。

图2是本发明一种基于循环生成对抗网络的面部图像转换方法的循环生成对抗网络。CycleGAN的损失函数由传统的GAN损失函数和新的循环一致性损失函数两部分组成,共同推动循环一致性:

L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F) (2)

其中,循环一致性损失函数表示G(F(X))与X、F(G(Y))与Y之间的相似性:

因此需要在未对齐的数据集上产生更好的对齐序列。

图3是本发明一种基于循环生成对抗网络的面部图像转换方法的结构相似性(SSIM)损失。SSIM损失匹配生成的图像和输入图像的亮度(l)、对比度(c)和结构信息(s),并且能有效提高图像的质量;多尺度SSIM损失考虑M尺度上的SSIM损失如下:

其中,

在循环GAN中添加SSIM损失,以便强化恢复的图像和原始图像之间的相似性;SSIM的权重范围应该在0.0001到0.01之间。

SSIM的权重不应该太大,否则它可能会主导重建损失;添加权重为0.01的SSIM损失,可以很好地帮助学习人物姿势,但是仍然需要更多的调整来恢复更多的面部细节。

图4是本发明一种基于循环生成对抗网络的面部图像转换方法的深度鉴别器和多重鉴别器。当鉴别层的数量增加时,接受域尺寸减小,迫使模型学习从一个域到另一个域的更详细的转化;结果表明,利用五层鉴别器的模型在模拟输入的面部表情方面做得比较好,但是头肩比等全局结构的结果较差;

多重鉴别器GAN与单个鉴别器一样,放大了模型的容量并减少随机噪声;当遇到一个看不见的姿势图像时,它明显优于其他设置;通过从不同的接受领域中学习的模式之间进行合理的折中,生成器完美地结合了人的微妙表情,而不会绕过目标人物的特征。

对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1