人脸图像生成方法、装置、存储介质和计算机设备与流程

文档序号:14836433发布日期:2018-06-30 12:36阅读:231来源:国知局
人脸图像生成方法、装置、存储介质和计算机设备与流程

本发明涉及图像处理技术领域,特别是涉及一种人脸图像生成方法、装置、存储介质和计算机设备。



背景技术:

在计算机视觉、图像处理与模式识别领域中,人脸图像是研究热点之一,人脸识别检测技术是生物识别技术的重要组成部分。在视频监控中,由于硬件摄像设备的自身不足以及拍摄环境的影响,获取到的人脸图像可能会出现不同程度的不清楚,造成图像质量下降。



技术实现要素:

基于此,有必要针对上述问题,提供一种可以提升图像质量的人脸图像生成方法、装置、存储介质和计算机设备。

一种人脸图像生成方法,包括:

基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络,目标检测网络用于从待检测人脸图像中提取并识别人脸特征;

构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;

将目标检测网络与对抗生成网络级联,得到超分辨率网络;

将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像。

一种人脸图像生成装置,包括:

目标检测网络构建模块,用于基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络,目标检测网络用于从待检测人脸图像中提取并识别人脸特征;

对抗生成网络构建模块,用于构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;

超分辨网络模块,用于将目标检测网络与对抗生成网络级联,得到超分辨率网络;

人脸图像输出模块,用于将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像。

一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该程序时实现上述方法的步骤。

上述人脸图像生成方法、装置、存储介质和计算机设备,包括基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络;构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;将目标检测网络与对抗生成网络级联,得到超分辨率网络;将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像;超分辨率网络中的目标检测网络从待检测人脸图像中提取并识别人脸特征,对抗生成网络对人脸特征进行重构,得到超分辨率人脸图像,这样的处理可以有效提升输入图像的清晰度,从而提升输入图像的图像质量。

附图说明

图1为一个实施例中人脸图像生成方法的流程示意图;

图2为一个实施例中人脸图像生成方法中残差网络的示意图;

图3为一个实施例中人脸图像生成方法其中一个步骤的流程示意图;

图4为一个实施例中人脸图像生成装置的结构示意图;

图5为一个实施例中人脸图像生成方法中目标检测网络的示意图;

图6为一个实施例中人脸图像生成方法中对抗生成网络的示意图。

具体实施方式

如图1所示,一种人脸图像生成方法,包括:

S100,基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络,目标检测网络用于从待检测人脸图像中提取并识别人脸特征。

残差网络(Residual Network,ResNet)为每层的输入提供一个参考,学习形成残差函数,这种残差函数更容易优化,能使网络层数大大加深。在计算机视觉里,图像特征的等级随网络深度的加深而变高,网络深度是实现好的图像处理效果的重要因素。然而梯度弥散或爆炸成为训练深层次网络的障碍,导致无法收敛。归一初始化、各层输入归一化等手段可以使收敛的网络的深度提升为原来的十倍,然而网络却开始退化,即增加网络层数会导致更大的误差。通过在一个浅层网络基础上叠加y=x的层,可以让网络随深度增加而不退化。

ResNet学习的是残差函数F(x)=H(x)–x,没有引入额外的参数和计算复杂度,残差函数一般会有较小的响应波动。实际中,考虑计算的成本,对残差块做计算优化,将两个3×3的卷积层替换为1×1+3×3+1×1,如图2所示,中间3×3的卷积层首先在一个降维1×1卷积层下减少了计算,然后在另一个1x1的卷积层下做了还原,既保持了精度又减少了计算量。

具有卷积神经网络特征的快速区域网络(Faster Regions with Convolution Neural Networks features,Faster Rcnn),包括输入测试图像,将整张图片输入CNN(Convolution Neural Networks,卷积神经网络)进行特征提取;用RPN生成建议窗口,每张图片生成300个建议窗口;把建议窗口映射到CNN的最后一层卷积特征图上;通过RoI(region of interest,感兴趣区域)pooling(池化)层使每个RoI生成固定尺寸的特征图;利用Softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。

卷积神经网络和普通的神经网络一样,由神经元按层级结构组成,其间的权重和偏移量都是可以通过训练得到。同样是输入的数据和权重做运算,输出结果输入激励神经元,再输出结果。从整体上看来,整个神经网络对像素级别输入的图像数据,用得分函数计算最后各个类别的得分,然后通过最小化损失函数来得到最优的权重。

S200,构建对抗生成网络,对抗生成网络用于对人脸特征进行重构。

对抗生成网络GAN启发自博弈论中的二人零和博弈(two-player game),GAN模型中的两位博弈方分别由生成式模型(generative model)和判别式模型(discriminative model)充当。生成式模型G捕捉样本数据的分布,用服从某一分布(比如均匀分布、高斯分布等)的噪声z生成一个类似真实训练数据的样本,追求效果是越像真实样本越好;判别式模型D是一个二分类器,估计一个样本来自于训练数据(而非生成数据)的概率,如果样本来自于真实的训练数据,D输出大概率;否则,D输出小概率。在训练的过程中固定一方,更新另一方的网络权重,交替迭代,在这个过程中,双方都极力优化自己的网络,从而形成竞争对抗,直到双方达到一个动态的平衡(纳什均衡),此时生成式模型G恢复了训练数据的分布(造出了和真实数据一模一样的样本),判别式模型再也判别不出来结果,准确率为50%,约等于乱猜。当固定G的时候,对于D的优化,可以这样理解:输入来自于真实数据,D优化网络结构使自己输出1;输入来自于生成数据,D优化网络结构使自己输出0。当固定D的时候,G优化自己的网络使自己输出尽可能和真实数据一样的样本,并且使得生成的样本经过D的判别之后,D输出高概率。

S300,将目标检测网络与对抗生成网络级联,得到超分辨率网络。

将训练好的目标检测网络和对抗生成网络连接,得到超分辨率网络,当低分辨率的人脸图像输入至该超分辨率网络后,输出可以得到高清晰度人脸图像,以及人脸五官特征。

S400,将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像。

超分辨率是指提高原有图像的分辨率,通过低分辨率的图像来得到高分辨率的图像的过程就是超分辨率重建。在大量的电子图像应用领域,往往期望得到高分辨率图像。高分辨率意味着图像中的像素密度高,能够提供更多的细节,而这些细节在许多实际应用中不可或缺。

上述人脸图像生成方法,包括基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络;构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;将目标检测网络与对抗生成网络级联,得到超分辨率网络;将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像;超分辨率网络中的目标检测网络从待检测人脸图像中提取并识别人脸特征,对抗生成网络对人脸特征进行重构,得到超分辨率人脸图像,这样的处理可以有效提升输入图像的清晰度,从而提升输入图像的图像质量。

在一个实施例中,如图3所示,人脸图像生成方法中基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络的步骤S100包括:

S120,基于残差网络,构建用于提取人脸图像中人脸特征的特征提取层;

S140,将特征提取层与具有卷积神经网络特征的快速区域网络中的目标检测层连接,形成样本目标检测网络,样本目标检测网络用于识别人脸图像中的人脸特征;

S160,对样本目标检测网络进行训练,得到目标检测网络。

具体地,可以搭建一个残差网络(RestNet-101层),在该残差网络中一共有5个块,除了第一个输入块中,其余四个块中卷积网络的循环数量分别为3、4、23、3,采用ImageNet数据库中的数据,对该网络进行训练使得参数拟合,训练到最后可以达到分类前一种正确率72.6%,前五正确率93.7%。采用321×321像素大小的图片输入,提取中间块中每一个循环的最后一个卷积层,四个卷积层的大小分别为160×160×256、80×80×512、40×40×1024、20×20×2048,卷积层的参数可以用(s,n)表示,其中,n为卷积核的数量,s为卷积核的尺寸。从最底层的卷积层开始,通过一个卷积层减小特征数量后,利用转置卷积层放大2倍,再与上一层的卷积层相连,最后得到160×160×256的输出层,该残差网络作为特征提取网络。对已经训练好的基于ImageNet的1000个类别的ResNet进行调整,将其分类数量改成6类,把人脸和其他4类图像作为数据集进行输入,重新训练参数,可以达到100%的准确率,不能过拟合,第一阶段训练结束,得到了所需要特征提取网络。得到训练好的特征提取网络之后,将得到的特征提取网络按照Faster Rcnn的连接方式与后续的目标检测层相连,采用Faster Rcnn对五官和人脸进行检测,所需要分类的类别为眼睛、眉毛、鼻子、嘴巴、人脸、其他六类。

在其中一个实施例中,对样本目标检测网络进行训练,得到目标检测网络的步骤包括:将携带特征标记的人脸图像输入至样本目标检测网络,输出人脸图像中特征的位置和分类类别,特征包括人脸五官;通过损失函数对样本目标检测网络进行修正,得到目标检测网络,其中,损失函数为五官标记的位置与输出五官位置的欧氏距离。在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。欧氏距离是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。

在一个实施例中,人脸图像生成方法中构建对抗生成网络的步骤包括:搭建卷积网络和像素位移网络;将卷积网络与像素位移网络连接,形成对抗生成网络。在另一个实施例中,人脸图像生成方法中构建对抗生成网络的步骤包括:搭建卷积层和转置卷积层,将卷积层与转置卷积层连接,形成卷积网络;将卷积网络中的转置卷积层与像素位移网络连接,形成对抗生成网络。其中,搭建卷积层和转置卷积层,将卷积层与转置卷积层连接,形成卷积网络的步骤包括:搭建依次连接的第一卷积层、第二卷积层以及第三卷积层;搭建依次连接的第一转置卷积层和第二转置卷积层;将第三卷积层与第一转置卷积层连接,形成卷积网络。

具体地,对抗生成网络可以采用5层卷积网络加1层像素位移网络,前三层为步长为2的卷积层,可以将图片缩小8倍,后两层为步长为2的转置卷积层,将图片放大4倍。特征层为132个,最后一层像素位移层,将132位特征层提取为3位通道,图片长、宽放大8倍,得到长、宽分别放大4倍的浅层对抗生成网络,对网络进行训练,使得网络拟合。

在一个实施例中,人脸图像生成方法中将目标检测网络与对抗生成网络级联,得到超分辨率网络的步骤之后还包括:通过梯度下降法减小网络损失函数,对超分辨率网络进行修正,其中,网络损失函数为通过超分辨率网络输出的人脸图像特征与预设样本人脸图像特征的欧氏距离;将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像的步骤包括:将待检测人脸图像输入至修正后的超分辨率网络,得到超分辨率人脸图像。

在机器学习算法中,在最小化损失函数时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。

在一个实施例中,还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种人脸图像生成方法。其中,存储介质可以为光盘、只读存储记忆体或随机存储记忆体等。

该存储介质,其存储的计算机程序,通过实现包括如上述各人脸图像生成方法的实施例的流程,从而可以得到超分辨率人脸图像,这样的处理可以有效提升输入图像的清晰度,从而提升输入图像的图像质量。

在一个实施例中,还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行该程序时实现如上述各实施例中的任意一种人脸图像生成方法。该计算机设备,其处理器执行程序时,通过实现如上述各实施例中的任意一种人脸图像生成方法,从而可以得到超分辨率人脸图像,这样的处理可以有效提升输入图像的清晰度,从而提升输入图像的图像质量。

在一个实施例中,一种人脸图像生成装置,如图4所示,包括:

目标检测网络构建模块100,用于基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络,目标检测网络用于从待检测人脸图像中提取并识别人脸特征;

对抗生成网络构建模块200,用于构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;

超分辨网络模块300,用于将目标检测网络与对抗生成网络级联,得到超分辨率网络;

人脸图像输出模块400,用于将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像。

上述人脸图像生成装置,包括目标检测网络构建模块100、对抗生成网络构建模块200、超分辨网络模块300以及人脸图像输出模块400,目标检测网络构建模块100基于残差网络和具有卷积神经网络特征的快速区域网络,构建目标检测网络;对抗生成网络构建模块200构建对抗生成网络,对抗生成网络用于对人脸特征进行重构;超分辨网络模块300将目标检测网络与对抗生成网络级联,得到超分辨率网络;人脸图像输出模块400将待检测人脸图像输入至超分辨率网络,得到超分辨率人脸图像;超分辨率网络中的目标检测网络从待检测人脸图像中提取并识别人脸特征,对抗生成网络对人脸特征进行重构,得到超分辨率人脸图像,这样的处理可以有效提升输入图像的清晰度,从而提升输入图像的图像质量。

在一个实施例中,一种人脸图像生成方法,具体包括:1、特征提取网络的搭建。搭建一个残差网络(ResNet-101),在残差网络中一共有5个块,除了第一个输入块,其余每个块中卷积网络的循环数量分别为3、4、23、3,采用ImageNet数据库的数据,对网络进行训练使得参数拟合,训练到最后可以达到分类前一种正确率72.6%,前五正确率93.7%。采用321×321像素大小的图片输入,提取中间块中每一个循环的最后一个卷积层,四个卷积层的大小分别为160×160×256、80×80×512、40×40×1024、20×20×2048,卷积层的参数可以用(s,n)表示,其中,n为卷积核的数量,s为卷积核的尺寸。从最底层的卷积层开始,通过一个卷积层减小特征数量后,利用转置卷积层放大2倍,与上一层的卷积层相连,最后得到160×160×256的输出层。

得到训练好的特征提取层后,采用具有卷积神经网络特征的快速区域网络对五官和人脸进行检测,所需要分类的类别为眼睛、眉毛、鼻子、嘴巴、人脸、其他六类,所以需要对已经训练好的基于ImageNet的1000个类别ResNet进行调整,将其分类数量改成6类,把人脸和其他4类图像做成数据集进行输入,重新训练参数,可以达到100%的准确率,不能过拟合,第一阶段训练结束,得到了所需要特征提取网络。

2、构建目标检测网络。将得到的特征提取网络按照具有卷积神经网络特征的快速区域网络的连接方式与后续的目标检测层相连,形成目标检测网络,如图5所示。将带有五官标记的人脸图片输入该目标检测网络,输出为每个五官的位置和分类类别,损失函数为标记位置和所预测位置的欧氏距离。基于人脸特征,眼睛和嘴巴的检测边框长宽比为2:1,鼻子的检测边框的长宽比为1:2。通过训练好的目标检测网络可以准确检测出人脸五官的位置和类别。

3、构建对抗生成网络。对抗生成网络可以有两种,一种采用深层网络,提取更好的特征;另一种采用浅层网络,保留原图更多的特征。如图6所示,这里采用5层卷积网络加1层像素位移网络,前三层为步长为2的卷积层,可以将图片缩小8倍;后两层为步长为2的转置卷积层,将图片放大4倍。特征层为132个,最后一层像素位移层将132位特征层提取为3位通道,图片长、宽放大8倍,然后得到长、宽分别放大4倍的浅层对抗生成网络,训练该网络,使得网络拟合。

4、对抗生成网络与目标检测网络级联。将训练好的目标检测网络和对抗生成网络连接,当低分辨率的图片输入该连接后的网络后,可以得到高清晰度图片及其五官特征。同时将数据库中高清晰度人脸图片的平均值输入,得到综合五官特征值。对于相应的特征使用L2泛数作为损失函数,将损失函数对高清晰度图片求导,用梯度下降法减小损失函数,提高高清晰度图片中五官特征的准确度。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1