基于空间特征变换和跨尺度特征集成的人脸超分辨方法与流程

文档序号:23725313发布日期:2021-01-26 15:29阅读:72来源:国知局
基于空间特征变换和跨尺度特征集成的人脸超分辨方法与流程

[0001]
本发明属于人脸图像识别技术领域,涉及一种基于空间特征变换和跨尺度特征集成的人脸超分辨方法。


背景技术:

[0002]
现有与人脸相关的任务,如人脸识别、人脸对齐、表情识别和三维人脸重建等都是基于清晰的高分辨率人脸数据集实现的,在面对低分辨人脸图像时,效果出现明显下降.因此,人脸超分辨技术在计算机视觉和生物识别领域显得尤其重要。此外,受传统数字成像设备的固有限制,所获得的人脸图像往往经过了光学模糊、欠采样等一系列退化过程,最终难以获得视觉感官上较清晰的图像。图像超分辨技术作为一种有效的图像恢复手段,能有效克服因为成像设备物理分辨率限制和光学模糊等导致图像分辨率低的问题。
[0003]
人脸超分辨率方法大致分为两类:基于经典机器学习算法的传统方法和基于卷积神经网络的深度学习方法。其中,基于深度学习的超分辨方法因其优越的重建性能而获得人们广泛关注。然而,现有的人脸图像超分辨率算法大多数只关注16
×
16像素的“微小脸”超分辨重建,即也称为“人脸幻象”,而忽略了实际应用中常见的“较小脸”如64
×
64像素的人脸图像重建;也正因如此,这些方法所获得的结果图像往往只能满足人脸检测任务,而并不能使其与真实人脸保持身份一致性。另外,这些方法往往追求很高的峰值信噪比和结构相似性,而忽略了重建的人脸图像中纹理细节是否满足人眼对视觉感知质量的要求。


技术实现要素:

[0004]
本发明的目的是提供一种基于空间特征变换和跨尺度特征集成的人脸超分辨方法,解决了现有技术中存在的现有方法忽略了重建的人脸图像中纹理细节的问题。
[0005]
本发明所采用的技术方案是,基于空间特征变换和跨尺度特征集成的人脸超分辨方法,具体按照如下步骤实施:
[0006]
步骤1,从人脸数据集中随机选取n张人脸图像,然后对人脸图像进行预处理,生成训练集和测试集;
[0007]
步骤2,采用人脸解析预训练模型bisnet作为语义分割概率图生成的基网络,将步骤1预处理后的人脸图像进行处理生成语义分割概率图;
[0008]
步骤3,构建用于训练的生成对抗网络模型,生成对抗网络模型包括依次连接的语义分割概率图中间条件生成模块、空间特征变换模块、跨尺度特征集成模块和融合输出模块,跨尺度特征集成模块内引入图像上采样的亚像素卷积层,生成对抗网络模型引入对抗损失函数和感知损失函数;
[0009]
步骤4,将步骤1得到的训练集内的人脸图像依次输入构建的生成对抗网络模型中,设置参数,训练并达到收敛;
[0010]
步骤5,将步骤1中的测试集中的人脸图像输入经步骤4训练好的生成对抗网络模型中,得到超分辨重建后的高分辨图像。
[0011]
步骤1中的人脸数据集为celeba-hq人脸数据集。
[0012]
步骤1中对训练集中的人脸图像进行预处理具体为:采用双立方插值算法对训练集中的图像进行下采样,输出尺寸为512
×
512的插值图像i
hr
,作为训练集和测试集的目标图像,然后将插值图像i
hr
采用双立方插值下采样4倍至64
×
64作为训练和测试输入图像i
lr
;然后将输入图像i
lr
采用双立方插值上采样4倍至256
×
256作为语义分割网络输入图像i
s

[0013]
步骤2具体为:
[0014]
采用人脸解析预训练模型bisnet作为语义分割概率图生成的基网络,修改人脸解析预训练模型bisnet的输出层,具体为:在人脸解析预训练模型bisnet的输出层加入softmax函数,将步骤1得到的语义分割网络输入图像i
s
作为输入输入到修改后的人脸解析预训练模型bisnet中,输出为语义概率,将语义概率输出结果保存为.pth文件,即pytorch模型文件,得到语义分割概率图i
seg

[0015]
步骤4具体为:
[0016]
步骤4.1,设置训练参数,将训练和测试输入图像i
lr
、训练集和测试集的目标图像i
hr
和语义分割概率图i
seg
加载网络输入端,即就是语义分割概率图中间条件生成模块的输入端,语义分割概率图中间条件生成模块将输入的语义分割概率图i
seg
进行处理,生成语义信息中间条件ψ;
[0017]
步骤4.2,语义分割概率图中间条件生成模块将训练和测试输入图像i
lr
经过一层卷积生成特征图,作为前层特征图;
[0018]
步骤4.3,前层特征图和语义信息中间条件ψ作为空间特征变换模块的输入,空间特征变换模块输出特征图f1;
[0019]
步骤4.4,将步骤4.3中输出特征图f1输入到跨尺度集成模块中,得到不同尺度特征,然后将不同尺度特征输入至融合输出模块,得到超分辨图像,记为i
sr

[0020]
步骤4.5,将超分辨图像i
sr
和对应的插值图像i
hr
输入判别器d
η
,将判别信息反向传输至生成对抗网络模型,即就是生成器g
θ

[0021]
步骤4.6,不断迭代步骤4.4-4.5,使得对抗损失和感知损失的总和达到最小,然后将对应的参数作为训练好的模型参数,得到训练好的生成对抗网络模型。
[0022]
语义分割概率图中间条件生成模块包括依次连接的五个卷积层,第一个卷积层的输入通道数为19,输出通道数为128,卷积核大小为4
×
4,卷积步长为4,修正线性单元的负值非零斜率为0.1;第二个卷积层的输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积步长为4,修正线性单元的负值非零斜率为0.1;第三个卷积层输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积步长为1,修正线性单元的负值非零斜率为0.1,第四个卷积层的输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积步长为1;最后再用一个卷积层的输入通道数为128,输出通道数为32,卷积核大小为1
×
1,卷积步长为1,最后再用一个卷积层输出包含语义信息的中间条件记为ψ;
[0023]
空间特征变换模块由8个带有空间特征变换层的残差单元组成,每个残差单元由空间特征变换层、卷积层、非线性激活层构成。
[0024]
步骤4.4中将步骤4.3中输出特征图f1输入到跨尺度集成模块中,得到不同尺度特征具体为:
[0025]
输出特征图f1在跨尺度集成模块中首先经过一个卷积层对维数升高4倍,再经过亚像素卷积对输出特征图f1进行上采样2倍得到特征图f2;同时输出特征图f1通过双立方插值放大2倍后与特征图f2进行通道上的融合,得到特征图f3_1,并向后传递;并且将特征图f2通过一个步长为2的卷积实现缩小两倍后与特征图f1进行通道上的融合,得到特征图f3_2并向后传递;f3_1和f3_2分别输入两个残差特征提取模块,输出的特征图分别记为特征图f4_1和特征图f4_2,特征图f4_1分别通过直接输出得到特征图f5_2、利用步长为2的卷积进行下采样2倍输出得到特征图f5_1,利用双三次插值进行上采样2倍输出得到特征图f5_3;
[0026]
特征图f4_1利用第二个亚像素上采样2倍,输出特征图f5,然后特征图f5分别直接输出得到f6_3、利用步长为2的卷积进行下采样2倍输出得到f6_2、利用步长为4的卷积进行下采样4倍输出得到f6_1;
[0027]
f4_2分别直接输出得到f7_1、双三次插值2倍得到f7_2、双三次插值4倍得到f7_3;接下来,将同为小尺度的f5_1、f6_1、f7_1进行特征融合后接着输入到由4个残差块构成的特征提取模块中,输出特征图通过插值上采样模块进行4倍放大输出特征图f8_1;同理,将同为中尺度的特征图f5_2、f6_2、f7_2进行特征融合后接着输入到由4个残差块构成的残差特征提取模块中,输出特征图通过插值上采样模块进行2倍放大输出f8_2;将同为大尺度的f5_3、f6_3、f7_3进行特征融合后接着输入到由4个残差块构成的残差特征提取模块中,输出特征图直接输出f8_3。
[0028]
步骤4.4中将不同尺度特征输入至融合输出模块,得到重建后的超分辨结果具体为:
[0029]
将不同尺度的特征图f8_1、f8_2、f8_3进行特征融合,然后用两个卷积层逐级降维输出得到重建后的超分辨图像,记为i
sr

[0030]
步骤4.6的感知损失函数为:
[0031][0032]
对抗损失函数为:
[0033]
l
d
=∑
i
log(1-d
η
(g
θ
(i
lr
)))
[0034]
其中,φ(i
sr
),φ(i
hr
)表示结果图和目标图分别经过预训练的vgg网络后所提得到的特征图,g
θ
代表生成网络,d
η
代表判别网络。
[0035]
本发明的有益效果是:
[0036]
(1)使用的空间特征变换层通过转换单个网络的中间特征,只需一次正向传递就可以实现具有丰富语义区域的高分辨率图像的重建。
[0037]
(2)重建网络使用语义映射来指导高分辨率域中不同区域的纹理恢复,同时,利用概率图来捕捉精细的纹理细节。
[0038]
(3)跨尺度特征集成模块使传输中的纹理特征在各个尺度上进行交换,实现了更有效的特征表示,从而进一步提高了超分辨重建算法的性能。
附图说明
[0039]
图1是本发明于空间特征变换和跨尺度特征集成的人脸超分辨方法中实施例1-1
的结果对比图;
[0040]
图2是本发明于空间特征变换和跨尺度特征集成的人脸超分辨方法中实施例1-2的结果对比图.
具体实施方式
[0041]
下面结合附图和具体实施方式对本发明进行详细说明。
[0042]
基于空间特征变换和跨尺度特征集成的人脸超分辨方法,具体按照如下步骤实施:
[0043]
步骤1,从人脸数据集中随机选取n张人脸图像,然后对人脸图像进行预处理,生成训练集和测试集;具体为:从celeba-hq人脸数据集中随机选取1000张人脸图像作为训练集,100张作为测试集,采用双立方插值算法对训练集中的高分辨图像进行下采样,输出尺寸为512
×
512的插值图像i
hr
,作为训练集和测试集的目标图像;同样使用双立方插值将下采样4倍至64
×
64作为训练和测试输入图像i
lr
;然后将i
lr
再次插值上采样4倍至256
×
256作为语义分割网络输入图像i
s

[0044]
步骤2,采用人脸解析预训练模型bisnet作为语义分割概率图生成的基网络,将步骤1预处理后的人脸图像进行处理生成语义分割概率图;具体为:
[0045]
采用人脸解析预训练模型bisnet作为语义分割概率图生成的基网络,修改人脸解析预训练模型bisnet的输出层,具体为:在人脸解析预训练模型bisnet的输出层加入softmax函数,将步骤1得到的语义分割网络输入图像i
s
作为输入输入到修改后的人脸解析预训练模型bisnet中,输出为语义概率,将语义概率输出结果保存为.pth文件,即pytorch模型文件,得到语义分割概率图i
seg

[0046]
步骤3,构建用于训练的生成对抗网络模型,生成对抗网络模型包括依次连接的语义分割概率图中间条件生成模块、空间特征变换模块、跨尺度特征集成模块和融合输出模块,跨尺度特征集成模块内引入图像上采样的亚像素卷积层,生成对抗网络模型引入对抗损失函数和感知损失函数;
[0047]
步骤4,将步骤1得到的训练集内的人脸图像依次输入构建的生成对抗网络模型中,设置参数,训练并达到收敛;
[0048]
步骤5,将步骤1中的测试集中的人脸图像输入经步骤4训练好的生成对抗网络模型中,得到超分辨重建后的高分辨图像。
[0049]
步骤4具体为:
[0050]
步骤4.1,设置训练参数,将训练和测试输入图像i
lr
、训练集和测试集的目标图像i
hr
和语义分割概率图i
seg
加载网络输入端,即就是语义分割概率图中间条件生成模块的输入端,语义分割概率图中间条件生成模块将输入的语义分割概率图i
seg
进行处理,生成语义信息中间条件ψ,其中,语义分割概率图中间条件生成模块包括依次连接的五个卷积层,第一个卷积层的输入通道数为19,输出通道数为128,卷积核大小为4
×
4,卷积步长为4,修正线性单元的负值非零斜率为0.1;第二个卷积层的输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积步长为4,修正线性单元的负值非零斜率为0.1;第三个卷积层输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积步长为1,修正线性单元的负值非零斜率为0.1,第四个卷积层的输入通道数为128,输出通道数为128,卷积核大小为1
×
1,卷积
步长为1;最后再用一个卷积层的输入通道数为128,输出通道数为32,卷积核大小为1
×
1,卷积步长为1,最后再用一个卷积层输出包含语义信息的中间条件记为ψ,该模块结构参数见表1;
[0051]
步骤4.2,语义分割概率图中间条件生成模块将训练和测试输入图像i
lr
经过一层卷积生成特征图,作为前层特征图;
[0052]
步骤4.3,前层特征图和语义信息中间条件ψ作为空间特征变换模块的输入,空间特征变换模块输出特征图f1,空间特征变换模块由8个带有空间特征变换层的残差单元组成,每个残差单元由空间特征变换层、卷积层、非线性激活层构成;在每个残差单元由空间特征变换层、卷积层和非线性激活层构成,结构见表2;其中,空间特征变换层以上一层特征图和语义信息中间条件ψ为输入,经过内部的两组卷积生成一对调制参数(γ,β),通过相乘和相加实现了在空间上对特征图的仿射变换;
[0053]
其数学描述为:
[0054]
sft(f|γ,β)=γ

f+β
[0055]
其中,f代表特征图,其维数和γ和β的维度一致,

为矩阵对应位置元素的点乘操作。
[0056]
步骤4.4,将步骤4.3中输出特征图f1输入到跨尺度集成模块中,得到不同尺度特征,然后将不同尺度特征输入至融合输出模块,得到超分辨图像,记为i
sr
;输出特征图f1在跨尺度集成模块中首先经过一个卷积层对维数升高4倍,再经过亚像素卷积对输出特征图f1进行上采样2倍得到特征图f2;同时输出特征图f1通过双立方插值放大2倍后与特征图f2进行通道上的融合,得到特征图f3_1,并向后传递;并且将特征图f2通过一个步长为2的卷积实现缩小两倍后与特征图f1进行通道上的融合,得到特征图f3_2并向后传递;f3_1和f3_2分别输入两个残差特征提取模块,每个残差块结构见表3,输出的特征图分别记为特征图f4_1和特征图f4_2,特征图f4_1分别通过直接输出得到特征图f5_2、利用步长为2的卷积进行下采样2倍输出得到特征图f5_1,利用双三次插值进行上采样2倍输出得到特征图f5_3;
[0057]
特征图f4_1利用第二个亚像素上采样2倍,输出特征图f5,然后特征图f5分别直接输出得到f6_3、利用步长为2的卷积进行下采样2倍输出得到f6_2、利用步长为4的卷积进行下采样4倍输出得到f6_1;
[0058]
f4_2分别直接输出得到f7_1、双三次插值2倍得到f7_2、双三次插值4倍得到f7_3;接下来,将同为小尺度的f5_1、f6_1、f7_1进行特征融合后接着输入到由4个残差块构成的特征提取模块中,输出特征图通过插值上采样模块进行4倍放大输出特征图f8_1;同理,将同为中尺度的特征图f5_2、f6_2、f7_2进行特征融合后接着输入到由4个残差块构成的残差特征提取模块中,输出特征图通过插值上采样模块进行2倍放大输出f8_2;将同为大尺度的f5_3、f6_3、f7_3进行特征融合后接着输入到由4个残差块构成的特征提取模块中,直接输出特征图f8_3,残差块结构见表3;
[0059]
将不同尺度的特征图f8_1、f8_2、f8_3进行特征融合,然后用两个卷积层逐级降维输出得到重建后的超分辨图像,记为i
sr

[0060]
步骤4.5,将超分辨图像i
sr
和对应的插值图像i
hr
输入判别器d
η
,将判别信息反向传输至生成对抗网络模型,即就是生成器g
θ

[0061]
步骤4.6,不断迭代步骤4.4-4.5,使得对抗损失和感知损失的总和达到最小,然后
将对应的参数作为训练好的模型参数,得到训练好的生成对抗网络模型,其中,感知损失函数为:
[0062][0063]
对抗损失函数为:
[0064]
l
d
=∑
i
log(1-d
η
(g
θ
(i
lr
)))
[0065]
其中,φ(i
sr
),φ(i
hr
)表示结果图和目标图分别经过预训练的vgg网络后所提得到的特征图,g
θ
代表生成网络,d
η
代表判别网络。
[0066]
本发明将每步的训练数据量即bachsize设置为16,设置迭代3000轮,感知损失权重设为1,对抗损失权重设置为10-4
;开始训练,训练结束后将最后一轮训练所得到的参数保存成模型文件,在本发明中,在将所有训练样本遍历3000轮后,验证集总的损失基本不再变化,表示训练可以结束。
[0067]
表1
[0068]
conv_1|leakyrelu(19,128,4,4)|leakyreluconv_2|leakyrelu(128,128,1,1)|leakyreluconv_3|leakyrelu(128,128,1,1)|leakyreluconv_4|leakyrelu(128,128,1,1)|leakyreluconv_out(128,32,1,1)
[0069]
表2
[0070][0071]
如表2所示,sft即为空间特征变换层,scale_conv0和scale_conv1为两个卷积层,其可学习得到缩放参数γ;shift_conv0和shift_conv1为两个卷积层,其可学习得到平移
参数β。括号中对应参数从左到右分别表示该层的输入特征图个数、输出特征图个数、卷积核大小、步长大小。
[0072]
表3
[0073]
conv(64,64,3,1,1)relu\conv(64,64,3,1,1)
[0074]
如表3所示,该模块由卷积层、激活层、卷积层构成,括号中对应参数从左到右分别表示该层的输入特征图个数、输出特征图个数、卷积核大小、步长大小。
[0075]
实施例
[0076]
为了更方便地生成人脸语义分割概率图,并且更容易对比图像细节,本发明在实验上采用人脸高清数据集celeba-hq,从中随机选择部分人脸图像在4倍放大下比较结果;另外为了更好地量化图像质量分数,使其更符合人眼感官,本发明除了比较psnr(峰值信噪比)和ssim(结构相似性),还会计算其局部块相似度和基于马超等人提出的感知指标参数。采用现有较为先进的技术如msrn(多尺度残差网路)、edsr(改进的深度残差超分辨网络)方法、srfbn(超分辨反馈网络)方法、sftgan(空间特征变换网络)方法、esrgan(改进的超分辨生成对抗网络)方法和本发明方法获得的psnr值、ssim值、lpips值和pi值分别如下表所示:
[0077]
[0078][0079]
经对比,本发明方法不论在主观视觉质量如图1和2所示,还是客观评价指标上均优于其他几种对比方法,尤其和较为先进的esrgan(改进的超分辨生成对抗网络)相比,几乎获得了和其同等的性能,但是本发明的参数量却仅有4,604,262,而esrgan(改进的超分辨生成对抗网络)的参数量为16,697,987。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1