基于双重注意力机制的轻量级人脸老化方法

文档序号:29946237发布日期:2022-05-07 16:15阅读:173来源:国知局
基于双重注意力机制的轻量级人脸老化方法

1.本发明属于数字图像处理技术领域,具体涉及一种基于双重注意力机制的轻量级人脸老化方法。


背景技术:

2.伴随着生活水平的提升,人民群众对社交娱乐品质的追求也日渐提升,短视频已成为当下最火热的社交娱乐方式。而在拍摄短视频的过程中,实现人脸老化和年轻化的特效模拟,因其自身的真实性和趣味性,收到了广大用户的一致好评。但是,人脸老化是一个十分复杂的过程,需要综合考虑各方面因素,传统算法为了实现老化效果的真实性,算法结构设计较为复杂,尤其是在实现高分辨率人脸老化的过程中,单张图像计算量较为庞大,不利于在手机等嵌入式设备部署。
3.为了解决人脸老化算法在嵌入式设备部署困难的问题,研究学者考虑将深度学习应用到人脸老化当中,已有的人脸老化算法通常设计一个结构相对简单的神经网络模型来实现人脸老化,尽管一定程度上能实现人脸老化,但效果不尽人意,真实性大打折扣。
4.目前,轻量化网络设计在深度学习领域已经取得了巨大的成功,在图像处理研究中也应用广泛,但人脸老化这一特定领域应用相对较少,还需要更深入研究,存在较大的进步空间。


技术实现要素:

5.本发明的目的就是为了解决上述背景技术存在的不足,提供一种基于双重注意力机制的轻量级人脸老化方法,使用传统卷积、深度可分离卷积、倒瓶颈残差、混合域注意力对输入人脸图像进行身份特征提取,并将目标老化年龄作为图像属性编辑的输入,使用自适应实例规范化层实现身份特征与老化年龄特征的融合,通过对融合特征进行跳跃连接、上采样、卷积运算,生成双重注意力机制的纹理注意力图和色彩注意力图;最后,将纹理注意力图、色彩注意力图和原始输入图像三者结合,能够得到最终老化至目标年龄的人脸高分辨率图像,并且能够在无监督学习的情况完成网络训练。
6.本发明采用的技术方案是:一种基于双重注意力机制的轻量级人脸老化方法,其特征在于:包括以下步骤:
7.s1,对输入的人脸图像进行预处理,实现像素归一化;
8.s2,对输入的目标老化年龄进行编码,转换为多维年龄向量;
9.s3,对预处理后的人脸图像采用编码网络进行身份特征提取,获得高维身份特征;
10.s4,将多维年龄向量输入至多层感知器,逐步升高维度,映射为年龄相关的高维年龄特征;
11.s5,将高维身份特征和高维年龄特征通过自适应实例规范化层实现特征融合,获得融合特征向量;
12.s6,对融合特征向量使用由跳跃连接、上采样和多尺度传统卷积构建的解码网络,
得到纹理注意力图和色彩注意力图;通过纹理注意力图、色彩注意力图和输入原始图像,三者融合得到最终老化至目标年龄的人脸老化图像。
13.上述技术方案中,步骤s1中,对原始输入图像xi预处理,其原始年龄为i,按照[0.5,0.5,0.5]的均值和[0.5,0.5,0.5]的标准差进行归一化处理,且仅在网络训练过程中引入拉伸、裁剪、加噪,以防止网络训练过拟合。
[0014]
上述技术方案中,针对常见的编码方式对于相邻年龄的关联性弱的问题,在步骤s2中,设计一种结合分类与回归的编码方式,首先确认目标老化年龄所在的年龄区间,通过线性计算的方式得到目标老化年龄与年龄区间边界的关联性作为编码结果,得到多维年龄向量,从而实现编码结果保留一定的年龄关联性。
[0015]
上述技术方案中,步骤s2中,按照年龄区间宽度n=10,将0-100岁划分为0-1,1-2,2-3

9-10共10个年龄区间,获取输入的目标老化年龄j,进行年龄区间判定,即j所在的年龄区间为j/n的下整数a和j/n+1的下整数b;
[0016]
根据确定的年龄区间,通过如下公式组计算目标年龄与年龄区间的关联系,可得关联系数p,q:
[0017]
p+q=1
[0018]a×
p+b
×
q=j
[0019]
则目标老化年龄j的编码结果为11维向量tj:
[0020]
m取整数
[0021]
上述技术方案中,针对传统卷积方式计算量与参数量较大的问题,在步骤s3中,编码网络包括传统卷积模块、步长为2的深度可分离卷积模块、倒瓶颈残差模块、混合域注意力模块;对预处理后的人脸图像采用编码网络中传统卷积模块和步长为2深度可分离卷积模块进行下采样和特征提取,采用编码网络中倒瓶颈残差模块加深对于身份提取的采样深度,使用混合域注意力模块增强编码网络对于身份特征的重要区域提取能力。采用上述方法能有效地降低编码网络的参数量和计算量。
[0022]
优选地,使用1个步长为1的7
×
7传统卷积模块和2个步长为2的3
×
3深度可分离卷积模块实现下采样和特征提取,使用4个步长为1的3
×
3倒瓶颈残差模块加深卷积深度,使用1个混合域注意力模块指导网络对于特征的重要区域提取,最终提取图像到128维n
×
n身份特征z。
[0023]
上述技术方案中,步骤s4中,将步骤s2中多为年龄向量输入到[11,64,128,256]的多层感知器,逐步提高特征维度,得到256维1
×
1年龄向量l。
[0024]
上述技术方案中,为了使两种特征向量得到合理充分的融合,在步骤s5中,将高维年龄特征格式转换为与高维身份特征维度相同的2个年龄特征向量;使用自适应实例规范化层(adain)对高维身份特征和2个年龄特征向量进行特征融合,得到与高维身份特征维度相同的融合特征向量adain(z,l),
[0025]
[0026]
其中,z表示身份特征,l表示年龄特征;μ(z)和σ(z)分别表示身份特征的均值和标准差,通过现有技术中的数学公式计算获得;α(l)和β(l)分别表示年龄特征格式转换过后的2个年龄特征向量。
[0027]
优选地,将所得的128维身份特征和256维年龄特征进行融合,首先将256维特征压缩为2个128维1
×
1的特征向量,然后使用自适应实例规范化层(adain)进行特征融合,得到128维n
×
n的融合特征向量。
[0028]
上述技术方案中,针对解码过程中跳跃连接层会弱化融合特征所包含的年龄信息作用的问题,在步骤s6中,使用结合注意力门机制的跳跃连接层、上采样模块、传统卷积模块构建解码网络,加强年龄信息在解码过程中的作用,使得生成的图像更接近与目标年龄;采用解码网络对融合特征向量进行特征维度降低和尺度扩张后,使用2个独立的传统卷积模块对解码网络的输出图像进行处理,分别生成与输入图像尺度一致的纹理注意力图r和色彩注意力图c;未处理的原始人脸图像xi和纹理注意力图r和色彩注意力图c按照如下公式融合,最终得到目标年龄j对应的老化人脸图像x
ij
:
[0029]
x
ij
=r
×
xi+(1-r)
×c[0030]
优选地,使用2个结合注意力门机制的跳跃连接层、2个比例为2的上采样、2个步长为1的3
×
3的传统卷积构建解码网络,对所得融合特征进行特征维度降低和尺度扩张,然后使用2个独立的步长为1的7
×
7传统卷积,分别生成与输入图像尺度一致的纹理注意力图r和色彩注意力图c。
[0031]
上述技术方案中,为了使本方法能够生成视觉更真实、细节更清晰的人脸年龄合成图像,还包括步骤s7:
[0032]
训练用于对最终老化至目标年龄的人脸老化图像结果进行判别的真实性鉴别器,真实性鉴别器检测输入图片是否来自于步骤s6生成,计算真实性误差损失值;采用年龄鉴别器对输入图片中的老化人脸的年龄进行估计,计算年龄误差损失值;采用真实性误差损失值和年龄误差损失值共同指导步骤s3-s6中的编码网络、多层感知器和解码网络训练过程。所述年龄鉴别器采用vgg-face。
[0033]
上述技术方案中,针对数据集在训练过程中缺乏配对数据的问题,还包括步骤s8:
[0034]
采用循环一致性原则将步骤s6所得的人脸老化图像结果和步骤s1采用的人脸图像的原始年龄作为原始人脸图像和目标老化年龄输入,再次执行步骤s1-s6得到老化后图片还原至原始年龄的图像,将执行上述步骤获得的人脸图像与步骤s1输入的原始人脸图像进行像素级损失对比,指导步骤s3-s6的编码网络、多层感知器和解码网络训练过程。
[0035]
上述技术方案中,为了使本方法能够生成视觉更真实、细节更清晰的人脸年龄合成图像,还包括步骤s9:
[0036]
采用图像重建一致性原则,将原始输入图像和原始年龄作为步原始人脸图像和目标老化年龄输入,再次执行步骤s1-s6得到原始人脸图像在原始年龄的图像,与原始输入人脸图像进行像素级损失对比和年龄损失对比,指导步骤s3-s6的编码网络、多层感知器和解码网络训练过程。
[0037]
本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有轻量化网络的双重注意力机制高分辨率人脸图像老化方法程序,所述轻量化网络的双重注意力机制高分辨率人脸图像老化方法程序被处理器执行时实现上述技术方案中所述的轻量化
网络的双重注意力机制高分辨率人脸图像老化方法的步骤。
[0038]
本发明的有益效果是:本发明使用深度可分离卷积和倒瓶颈残差模块,降低了计算机对于人脸图像身份特征提取的运算量;使用自适应实例规范化层,降低了高维空间特征融合的运算量;使用纹理注意力图、色彩注意力图和原始输入图像三者融合的方式,降低了老化图像与原始图像的像素损失,实现高分辨率的人脸老化图像合成;使用循环一致性原则和重建一致性原则,实现网络无监督训练过程。
附图说明
[0039]
图1为本发明一种基于双重注意力机制的轻量级人脸老化方法的流程图;
[0040]
图2为本发明一种基于双重注意力机制的轻量级人脸老化方法的网络结构示意图;
[0041]
图3为深度可分离卷积与传统卷积对比图;
[0042]
图4为倒瓶颈残差模块与传统残差模块对比图;
[0043]
图5为结合注意力门机制的跳跃连接层示意图;
[0044]
图6为本发明一种基于双重注意力机制的轻量级人脸老化方法的训练过程图;
[0045]
图7为本发明一种基于双重注意力机制的轻量级人脸老化方法的人脸老化效果图(原始图像为34岁,老化图像为65岁)。
具体实施方式
[0046]
下面结合附图和具体实施例对本发明作进一步的详细说明,便于清楚地了解本发明,但它们不对本发明构成限定。
[0047]
本发明提供了一种基于双重注意力机制的轻量级人脸老化方法,该方法主要包括:如图1所示,输入人脸图像和目标老化年龄预处理、人脸图像身份提取、高维年龄特征映射、身份与年龄特征融合、双重注意力图生成及老化人脸图像合成5个方面;如图6所示,网络模型的无监督训练过程,整个方法包括如下步骤:
[0048]
一、输入人脸图像和目标老化年龄预处理,具体包括:
[0049]
(1-1)对输入人脸图像进行归一化处理,并且在训练过程中进行拉伸后随机裁剪,同时添加高斯噪声防止网络训练过拟合,具体为:
[0050]
(1-1-1)将输入的人脸图像的rgb通道的阈值范围从0-255调整至0-1,并且使归一化后的图像符合均值为[0.5,0.5,0.5],标准差为[0.5,0.5,0.5];在训练过程中需要在图像归一化之前,额外进行拉伸、裁剪过程,将图像拉伸至原始尺寸的1.1倍,在拉伸过后的图像中,随机裁剪原始尺寸大小的图像,并且在人脸图像归一化之后加入期望为0.5,方差为0.5的高斯噪声。
[0051]
(1-2)对目标老化年龄j编码,结合分类与回归的编码方式,首先确认目标年龄所在的年龄区间,通过线性计算的方式得到目标年龄与年龄区间边界的关联性,输出年龄特征,具体为:
[0052]
(1-2-1)按照年龄区间宽度n=10,将0-100岁划分为0-1,1-2,2-3

9-10共10个年龄区间,获取输入老化年龄j,进行年龄区间判定,即j所在的年龄区间为j/n的下整数a和j/n+1的下整数b。
[0053]
(1-2-2)根据(1-2-1)确定的年龄区间,通过如下公式组计算目标年龄与年龄区间的关联性,可得关联系数p,q.
[0054]
p+q=1
[0055]a×
p+b
×
q=j
[0056]
则老化年龄j编码结果为11维向量tj;下式中m取整数,对应年龄区间
[0057][0058]
二、人脸图像身份提取,包括以下步骤:
[0059]
(2)使用步长为1的传统卷积模块、步长为2的深度可分离卷积模块、倒瓶颈残差模块、混合域注意力模块构建编码网络,对预处理后的人脸图像进行身份特征提取,本步骤具体包括以下子步骤:
[0060]
(2-1)如图2所示,使用1个填充为3,步长为1的7
×
7传统卷积计算,激活函数选择为relu,在保存卷积较高的感受野的同时,实现从3
×n×
n的低维空间映射到32
×n×
n的特征空间。
[0061]
(2-2)如图2所示,连续使用2个填充为1,步长为2的3
×
3深度可分离卷积计算,激活函数选择h-swish,步长为2的卷积可以代替池化层实现特征尺度降低,在降低参数和计算量的同时,实现特征空间从32
×n×
n到再到的转换。
[0062]
深度可分离卷积(图3中的下部的卷积模块)相对于传统卷积(图3中的上部的卷积模块)的混合域卷积,采用逐通道卷积和逐点卷积的方式,在实现相同的卷积效果的同时,极大地降低算力的需求,具体结构对比如图3所示。
[0063]
(2-3)如图2所示,连续使用4个倒瓶颈残差模块计算,激活函数选择为h-swish,在降低参数和计算量的同时,加强网络对于深层次特征的提取。
[0064]
倒瓶颈残差模块区别于传统的残差模块,采用逐点卷积提升维度,深度可分离卷积降低维度的方式,中间引入轻量级se注意力,实现低计算量下对于更深层特征的提取,具体结构对比如图4所示,左侧为传统残差模块,右侧为本方法使用的倒瓶颈残差模块。
[0065]
(2-4)如图2所示,使用1个混合域注意力模块,进一步指导编码网络重点提取身份特征感兴趣区域。
[0066]
三、高维年龄特征映射,包括以下步骤:
[0067]
(3)对于长度为11的年龄向量t,使用维度变换为[11,64,128,256]的多层感知器映射到256维,使用sigmoid函数进行非线性映射,得到256维1
×
1的年龄特征l。
[0068]
l=g(b
(3)
+w
(3)
(s(b
(2)
+w
(2)
(s(b
(1)
+w
(1)
*t)))))
[0069]
其中w表示全连接层的权重矩阵,b表示全连接层的偏置矩阵,t表示(1-2-2)所得的目标老化年龄编码结果,g为softmax函数,s为sigmoid函数。
[0070]
四、身份与年龄特征融合,包括以下步骤:
[0071]
(4)首先将256维1
×
1年龄特征l格式转换为2个128维1
×
1的特征向量,然后使用自适应实例规范化层(adain)进行特征融合,融合公式如下,得到128维n
×
n的融合特征adain(z,l)。
[0072][0073]
μ(z)和σ(z)分别表示身份特征的均值和标准差,通过现有技术中的数学公式计算获得;α(l)和β(l)分别表示年龄特征格式转换过后的两个128维特征向量。
[0074]
五、双重注意力图生成及老化人脸图像合成,包括以下步骤:
[0075]
(5)对融合特征使用跳跃连接、上采样和多尺度传统卷积,得到纹理注意力图和色彩注意力图。结合纹理注意力图、色彩注意力图和输入原始图像,三者融合得到最终老化至目标年龄的人脸老化图像,本步骤具体包括以下子步骤:
[0076]
(5-1)如图2所示,使用结合注意力门机制的跳跃连接层,融合特征作为门控信号,指导跳跃连接层的权重,最终突出显著的图像区域和抑制任务无关的特征响应。
[0077]
注意力门机制如图5所示,融合特征作为门控信号xg,首先进行1
×
1的传统卷积,其压缩特征为hg×
wg×
1,跳跃连接层作为受控信号x
l
,同样进行1
×
1的传统卷积,压缩特征为h
l
×wl
×
1,其中h表示特征的高度,w表示特征的宽度,其下标l,g表示对应的信号来源;两个1维向量concat为2维向量,然后经过7
×
7卷积,得到h
l
×wl
×
1的resampler层,与受控信号x
l
相乘,得到最终的输出信号
[0078]
(5-2)如图2所示,在本网络结构中,融合特征与结合注意力门机制的跳跃连接层特征尺度完全一致,将两者concat连接在一起,使用两个比例因数为2的上采样和步长为1的3
×
3传统卷积,实现特征空间从到再到32
×n×
n的转换。
[0079]
(5-3)如图2所示,对32
×n×
n的特征向量分别进行7
×7×
1,7
×7×
3的卷积,得到纹理注意力图r和色彩注意力图c,并且与原始输入图像按照如下公式进行融合,最终得到老化图像x
ij

[0080]
六、网络模型的无监督训练过程,包括以下步骤:
[0081]
(6)如图6所示,网络训练过程中,得到的老化图像需要经过真实性鉴别器d进行真实性判断,判断结果作为gan的原始损失函数l
gan
指导编码网络,解码网络,多层感知器训练。
[0082]
l
gan
(e,g,m)=e
x~p(x)ey~p(y)
[(d(g(e(x),m(y)))-1)2]
[0083]
其中e
x~p(x)
表示输入图像x符合p(x)的分布下的数学期望,e(*)表示编码网络,g(*)表示解码网络,m(*)表示多层感知器,p(x)表示输入图像的真实分布,p(y)表示目标老化年龄标签的真实分布,x表示原始输入人脸图像,y表示目标老化年龄。
[0084]
指导鉴别器d自身训练时,损失函数如下
[0085]
l
gan
(d)=e
x~p(x)ey~p(y)
[(d(g(e(x),m(y))))2]+e
x~p(x)
[(d(x)-1)2]
[0086]
其中e
x~p(x)
表示输入图像x符合p(x)的分布下的数学期望,e(*)表示编码网络,g(*)表示解码网络,m(*)表示多层感知器,p(x)表示输入图像的真实分布,p(y)表示目标老化年龄标签的真实分布,x表示原始输入人脸图像,y表示目标老化年龄。
[0087]
年龄鉴别器v采用已有的vgg-face鉴别器,因此自身不需要进行训练,老化图像输入到人脸鉴别器中,得到估计的年龄,与目标年龄进行比较,得到损失函数l
age1

[0088]
[0089][0090]
其中p(yj)表示目标年龄分布,c(yj)表示目标年龄yj进行one-hot编码所得的101向量;l
ce
表示交叉熵损失函数。
[0091]
(7)如图6所示,训练过程中,缺少同一对象不同年龄的配对数据进行监督学习,因此,采用循环一致性原则解决该问题。
[0092]
理论上,本方法经过上述步骤可得老化至目标年龄的图像x
ij
,由于缺乏监督样本,因此,将老化图像x
ij
重复上述步骤,将其还原至原始年龄i,得到还原图像x
iji
,与原始图像xi进行对比,得到像素级损失函数l
cycle

[0093]
l
cycle
=||x
i-x
iji
||1·
[0094]
其中xi表示原始输入图像,x
iji
表示循环重建图像,|| ||1·
表示l1范数计算。
[0095]
同时在训练过程中,需要对两次编码所得身份特征z进行约束,指导编码器对于身份特征提取的准确性,因此损失函数为皮尔森相关系数l
id

[0096][0097]
其中μ和σ分别是均值和标准差,z1表示老化过程中编码网络对输入的原始图像提取所得身份特征,z2表示循环重建过程中编码网络对输入的老化图像提取所得身份特征。
[0098]
(8)如图6所示,为了提升网络图像生成质量和年龄准确性,采用重建一致性原则。
[0099]
理论上,本方法将原始图像xi和原始年龄i作为算法输入,即可得到重建图像x
ii
,与原始图像xi进行对比,得到像素级损失函数l
recon
和年龄损失函数l
age2

[0100]
l
recon
=||x
i-x
ii
||1·
[0101][0102]
其中|| ||1·
表示l1范数计算,p(yi)表示原始年龄分布,c(yi)表示原始年龄yi进行one-hot编码所得的101向量;l
ce
表示交叉熵损失函数。
[0103]
(9)如图6所示,用于基于双重注意力机制的轻量级人脸老化方法的训练生成网络g的最终损失函数为l
all
作为目标损失函数,使用adam优化器进行参数优化,指导步骤s3-s6中的编码网络、多层感知器和解码网络训练过程;
[0104]
l
all
=λ
gan
l
gan
(e,g,m)+λ
recon
l
recon

cycle
l
cycle

id
l
id

age1
l
age1

age2
l
age2
#
[0105]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1