一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法与流程

文档序号:18032354发布日期:2019-06-28 22:48阅读:198来源:国知局
一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法与流程
本发明涉及计算机视觉技术,尤其是涉及一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法。
背景技术
:在过去的几十年中,随着人脸识别技术的广泛应用,其在计算机视觉和模式识别方面受到越来越多的关注。近年来,由于深度学习的快速发展,人脸识别方法的准确性得到了极大的提高,在某些特定场景下已经超越人眼的识别极限。然而,由于光照、遮挡、噪声等外在干扰因素的影响,人脸识别在这些干扰环境下仍然面临极大的挑战。随着深度学习的发展,卷积神经网络(cnn)已被广泛应用于各种计算机视觉任务中,并取得了极佳的效果。目前主流的人脸识别工作均采用卷积神经网络来进行。虽然人脸识别方法已经取得了很好的效果,但这些方法主要是基于干净的人脸图像数据集来设计的。当获取的人脸图像被噪声严重污染时,这些方法的性能会显著下降。通常来说,有两种主要方法用于处理噪声下的人脸识别任务。一种方法是利用图像去噪技术,首先对输入的含噪声的人脸图像进行去噪处理,然后将去噪后的人脸图像输入到人脸识别网络中进行验证或识别。但图像去噪和人脸识别是作为两个独立的任务分别进行的,代表性的图像去噪方法包括bm3d(k.dabov,a.foi,v.katkovnik,k.egiazarian,“imagedenoisingbysparse3dtransform-domaincollaborativefiltering”,ieeetransactionsonimageprocessing,vol.16,no.8,pp.2080-2095,2007.)和wnnm(s.gu,l.zhang,w.zuo,x.feng,“weightednuclearnormminimizationwithapplicationtoimagedenoising”,in:ieeeconferenceoncomputervisionandpatternrecognition,2014,pp.2862-2869.)。随着深度学习的发展,zhang等人提出了一种基于深度cnn的图像去噪方法,称为dncnn(k.zhang,w.zuo,y.chen,d.meng,l.zhang,“beyondagaussiandenoiser:residuallearningofdeepcnnforimagedenoising”,ieeetransactionsonimageprocessing,vol.26,no.7,pp.3142-3155,2016.),它基于残差学习和批规范化方法进行训练,取得了很好的图像去噪效果。另一种方法是直接生成噪声鲁棒的人脸表征,ding等人提出了一个抗噪声网络nr-network(y.ding,y.cheng,x.cheng,b.li,y.xing,x.yuan,“noise-resistantnetwork:adeeplearningmethodforfacerecognitionundernoise”,eurasipjournalonimageandvideoprocessing,vol.2017,no.1,pp.43.2017.),其使用含噪声的人脸图像进行网络的训练,并采用“inception”结构构建了一个抗噪声的深度卷积神经网络,将网络中不同层的特征图在最后一层全连接层进行堆叠,生成抗噪声的人脸表征。但是,由于其简单的网络架构以及使用了大量的池化操作,导致一部分人脸细节特征在训练过程中丢失,因而此方法无法在噪声下获得满意的人脸识别结果。技术实现要素:本发明的目的在于提供一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法。本发明包括以下步骤:1)准备训练样本集:对于训练样本集中每幅图像进行人脸检测与人脸关键点检测操作,然后将人脸部分裁剪出,并对裁剪后的人脸图像随机添加高斯白噪声操作,从而获得含噪声的人脸训练样本集;在步骤1)中,所述准备训练样本集的具体方法可包括以下子步骤:1.1对训练样本集中每幅图像逐一进行人脸检测与人脸关键点的检测,采用mtcnn(k.zhang,z.zhang,z.li,y.qiao,“jointfacedetectionandalignmentusingmulti-taskcascadedconvolutionalnetworks”,ieeesignalprocessingletters,vol.23,no.10,pp.1499-1503,2016)方法,得到人脸关键点在每幅图像中的位置,并将人脸对齐到标准的人脸图像上;1.2将每幅人脸图像进行切割,得到大小为64×64像素的人脸图像;1.3对每幅人脸图像随机添加高斯白噪声(awgn),高斯白噪声的强度表示为σ,其范围设置为σ∈[0,50],得到含噪声的人脸训练样本集。2)设计去噪子网络:使用扩张卷积增大网络的感受野,获取更多背景信息,并利用密集连接的方法将去噪子网络各层产生的特征图从前往后进行逐层连接,完成浅层网络人脸特征的重利用,获得细节更丰富的人脸特征图;在步骤2)中,所述设计去噪子网络的具体方法可包括以下子步骤:2.1采用ircnn(k.zhang,w.zuo,s.gu,l.zhang,“learningdeepcnndenoiserpriorforimagerestoration”,in:ieeeconferenceoncomputervisionandpatternrecognition,2017,pp.2808-2817.)网络结构的前6层,并在最后增加2层局部特征融合层,去噪子网络共包括8层网络结构,其中包含3种不同类型的块结构,第1层为“扩张卷积+修正线性单元”块,中间6层为“扩张卷积+批规范化+修正线性单元”块,最后1层为“扩张卷积”块;2.2采用扩张卷积方法来增大网络的感受野,扩张因子从第1层到第8层分别设置为1,2,3,4,3,2,1,1,扩张卷积的卷积核大小均设置为3×3,整个去噪子网络最终可获得35×35的感受野,从而获得更丰富的人脸图像背景信息;2.3采用“残差学习+批规范化”的方法加速深度卷积神经网络的训练速度,并且可以增强去噪子网络的去噪效果;2.4采用密集连接方法(g.huang,z.liu,l.v.maaten,k.q.weinberger,“denselyconnectedconvolutionalnetworks”,in:ieeeconferenceoncomputervisionandpatternrecognition,2017,pp.2261-2269)将去噪子网络前6层中各层产生的特征图由前往后进行逐层连接,以充分利用浅层网络产生的人脸特征,并在网络第6层将之前各层产生的特征图全部堆叠在一起,利用网络最后2层的局部特征融合方法将各层特征融合起来,生成更完整的人脸特征,密集连接公式如下:fl=dl([f0,f1,···,fl-1])其中,f0,f1,···,fl表示第0,1,…,l层产生的特征图,dl表示第l层的密集连接操作;2.5去噪子网络对含噪声的人脸图像中的噪声进行建模,为有效计算网络的损失完成反向传播过程,采用均方误差损失函数,公式如下:其中,n为训练样本数,表示噪声人脸图像所含的噪声,表示噪声-干净人脸图像样本对,表示从第1个到第n个值的累加和运算,表示矩阵的frobenius范数的平方。3)设计人脸识别子网络:采用残差网络结构,对去噪后的人脸图像进行识别;在步骤3)中,所述设计人脸识别子网络包括以下子步骤:3.1设计的人脸识别子网络,其输入为去噪子网络去噪后的人脸特征图,采用残差网络结构构建一个20层的识别网络,利用恒等映射方法将不同层之间进行捷径连接,可有效减少梯度消失现象;3.2采用am-softmax损失函数作为人脸识别子网络的损失函数,公式如下:其中,n为训练样本数,c表示人脸种类数目,表示权重向量和特征向量fi之间的角度,log表示取对数操作,表示从第1个到第n个值的累加和运算,表示从1个到第c个(不包含第yi个)值的累加和运算,优化参数m和尺度因子s分别设置为0.35和30。4)设计级联深度卷积神经网络结构:网络由去噪子网络和人脸识别子网络两部分组成,采用级联的方式将去噪子网络和人脸识别子网络进行联合训练,并设计一个联合损失函数用于两个子网络的参数更新;在步骤4)中,所述设计级联深度卷积神经网络结构的具体方法为:采用级联训练方法将去噪子网络和人脸识别子网络进行联合训练,并设计一个联合损失函数对去噪子网络和人脸识别子网络损失函数的权重进行调整,联合损失函数公式如下:loss=λlossdenoise+(1-λ)lossid其中,loss表示联合损失函数,lossdenoise表示去噪子网络的损失函数,lossid表示人脸识别子网络的损失函数,λ表示去噪子网络占整个网络的权重比例,设置为0.2。5)将含噪声的人脸训练样本集中的所有图像输入级联深度卷积神经网络中,进行端到端的训练,得到训练好的噪声鲁棒人脸识别模型;6)利用训练好的模型对含噪声的人脸图像进行识别。本发明首先设计去噪子网络和人脸识别子网络,在去噪子网络中,利用密集连接的方法,将网络前6层中各层产生的特征图由前往后进行逐层连接,以充分利用浅层网络产生的人脸特征。在人脸识别子网络中采用残差网络结构,利用恒等映射的方法对网络不同层之间进行捷径连接,可有效减少深层网络结构中出现的梯度消失现象。然后采用级联的方法,将去噪子网络和人脸识别子网络进行联合训练,获得噪声鲁棒的人脸表征,并设计了一个联合损失函数用于两个子网络的权值更新。最后根据训练好的网络模型,得到最终的噪声人脸识别结果。本发明使用级联的方式联合训练去噪子网络和人脸识别子网络,去噪子网络生成的图像有利于人脸识别子网络的训练,可生成更加噪声鲁棒的人脸表征,并且为了更好地指导两个子网络的权值更新,本发明设计了一个联合损失函数。本发明在去噪子网络中,采用密集连接的方法将网络前6层中不同层生成的的特征图进行逐层连接,充分利用了卷积神经网络中深层和浅层网络生成的人脸特征,可获得细节更丰富的人脸特征图,优化了人脸识别的效果。此外,本发明利用残差学习和批规范化方法来加速网络的训练以及提高网络的去噪效果,并利用局部特征融合层有效的减少了级联网络中参数的数量,加快了训练过程。附图说明图1为本发明实施例的框架图。具体实施方式下面结合附图和实施例对本发明的方法作详细说明。参见图1,本发明实施例包括以下步骤:1.准备训练样本集。1.1.对训练样本集中每幅图像逐一进行人脸检测与人脸关键点的检测,采用mtcnn(k.zhang,z.zhang,z.li,y.qiao,“jointfacedetectionandalignmentusingmulti-taskcascadedconvolutionalnetworks”,ieeesignalprocessingletters,vol.23,no.10,pp.1499-1503,2016.)方法,得到人脸关键点在每幅图像中的位置,并将人脸对齐到标准的人脸图像上。1.2将每幅人脸图像进行切割,得到大小为64×64像素的人脸图像。1.3.对每幅人脸图像随机添加高斯白噪声(awgn),高斯白噪声的强度表示为σ,其范围设置为σ∈[0,50],得到含噪声的人脸训练样本集。2.设计去噪子网络。对输入的含有噪声的人脸图像进行去噪处理。2.1采用ircnn(k.zhang,w.zuo,s.gu,l.zhang,“learningdeepcnndenoiserpriorforimagerestoration”,in:ieeeconferenceoncomputervisionandpatternrecognition,2017,pp.2808-2817.)网络结构的前6层,并在最后增加2层局部特征融合层,去噪子网络共包括8层网络结构,其中包含3种不同类型的块结构,第1层为“扩张卷积+修正线性单元”块,中间6层为“扩张卷积+批规范化+修正线性单元”块,最后1层为“扩张卷积”块。2.2利用扩张卷积的方法在不增加网络层数的前提下扩大网络的感受野,第1层至第8层扩张卷积层的扩张因子分别设置为1,2,3,4,3,2,1,1,扩张卷积的卷积核大小均设置为3×3,最终去噪子网络可获得35×35的感受野,从而得到更丰富的人脸图像背景信息。2.3使用密集连接的方法,将去噪子网络前6层中各层产生的特征图从前往后进行逐层连接,完成浅层网络人脸特征的重利用,这样可有效保持人脸细节特征的完整度。密集连接公式如下:fl=dl([f0,f1,···,fl-1])其中,f0,f1,···,fl表示第0,1,…,l层产生的特征图,dl表示第l层的密集连接操作。2.4去噪子网络的最后2层使用局部特征融合层,利用卷积操作将之前各层产生的特征图进行局部特征融合,获得更加完整的人脸特征图,并有效减少网络的参数数量。局部特征融合公式如下:fl=lffl([f0,f1,···,fl-1])其中,[f0,f1,···,fl-1]表示第0,1,…,l-1层产生的特征图的叠加,lffl表示第l层的局部特征融合操作。2.5去噪子网络利用“残差学习+批规范化”的组合方法,可有效加快卷积神经网络的训练速度,并增强去噪网络的去噪效果。2.6.使用均方误差损失作为去噪子网络的损失函数,对含噪声的人脸图像中的噪声进行建模,利用残差学习的方法得到去噪后的人脸特征图。损失函数如下:其中,n为训练样本数,表示含噪声人脸图像所含的噪声,表示噪声-干净人脸图像样本对,表示从第1个到第n个值的累加和运算,表示矩阵的frobenius范数的平方。3.设计人脸识别子网络。输入为去噪子网络产生的去噪后的人脸特征图,采用残差网络结构,利用am-softmax损失函数进行损失计算,对去噪后的人脸图像进行识别。3.1人脸识别子网络,采用am-softmax(f.wang,w.liu,h.liu,j.cheng,“additivemarginsoftmaxforfaceverification”,ieeesignalprocessingletters,vol.25,no.7,pp.926-930,2018.)中的网络架构,由一个20层的残差网络及am-softmax损失函数组成。3.2人脸识别子网络中利用恒等映射的方法,将卷积神经网络中不同层产生的特征图进行恒等映射,完成捷径连接。这样可有效减少由于网络层数过多导致的梯度消失现象。3.3人脸识别子网络的am-softmax损失函数,将不同类间的分隔边界扩展为一个间隔区域,保持类间距离的同时可有效减小类内距离,有助于人脸识别的结果。损失函数公式如下:其中,n为训练样本数,c表示人脸种类数目,表示权重向量和特征向量fi之间的角度,log表示取对数操作,表示从第1个到第n个值的累加和运算,表示从1个到第c个(不包含第yi个)值的累加和运算,优化参数m和尺度因子s分别设置为0.35和30。4.设计级联的深度卷积神经网络结构。网络由去噪子网络和人脸识别子网络两部分组成,采用级联的方式将两个子网络进行联合训练,有助于生成噪声鲁棒的人脸表征,并且设计了一个联合损失函数用于指导两个子网络的参数更新。公式如下:loss=λlossdenoise+(1-λ)lossid其中,loss表示联合损失函数,lossdenoise表示去噪子网络的损失函数,lossid表示人脸识别子网络的损失函数,λ表示去噪子网络占整个网络的权重比例,设置为0.2。5.将含噪声的人脸训练样本集中的所有图像输入级联的深度卷积神经网络中,进行端到端的训练,得到训练好的模型。6.利用训练好的模型进行含噪声的人脸图像的识别。表1为在添加7种不同强度σ=[0,15,25,35,40,45,50]的高斯白噪声后的lfw数据集上,本发明提出的方法与其他方法的噪声人脸验证结果对比。表1σ=0σ=15σ=25σ=35σ=40σ=45σ=50base194.0584.9371.4261.5858.0756.8555.23base290.7790.1289.2787.9887.2386.4785.47bm3d94.0892.6891.2588.8787.8386.9585.38wnnm94.0792.4791.1587.9783.6082.0380.52dncnn94.0892.6891.0789.0588.0886.8585.17nr-net85.0285.0784.2083.9783.6282.9782.77cnr-cnn93.3792.9892.0591.5791.4291.0090.02表2为在添加7种不同强度σ=[0,15,25,35,40,45,50]的高斯白噪声后的feret数据集上,本发明提出的方法与其他方法的噪声人脸识别结果对比。表2σ=0σ=15σ=25σ=35σ=40σ=45σ=50base198.4968.267.150.940.880.820.75base298.1297.3095.6191.2889.9086.9581.30bm3d98.4997.9392.4179.4969.1356.9044.86wnnm98.4998.1891.8475.8566.7555.9044.98dncnn98.4997.9393.3580.8772.9663.1750.75nr-net90.2887.3980.9972.0866.7562.3053.83cnr-cnn99.3198.8797.9995.9294.4892.7989.77表3为在添加7种不同强度σ=[0,15,25,35,40,45,50]的高斯白噪声后的fei数据集上,本发明提出的方法与其他方法的噪声人脸识别结果对比。表3σ=0σ=15σ=25σ=35σ=40σ=45σ=50base198.6558.455.751.451.151.251.15base294.3593.3589.8087.1087.4578.9074.40bm3d98.6595.0087.5574.7070.9561.6554.35wnnm98.6594.8585.9570.6567.7555.2047.25dncnn98.5594.6086.4571.8067.3555.3547.00nr-net79.2576.6070.9562.7064.3551.4548.15cnr-cnn98.2097.4595.7093.1093.8088.7584.70表4为在添加7种不同强度σ=[0,15,25,35,40,45,50]的高斯白噪声后的cameral2数据集上,本发明提出的方法与其他方法的噪声人脸识别结果对比。表4σ=0σ=15σ=25σ=35σ=40σ=45σ=50base194.9367.5827.429.816.804.402.67base282.3282.1279.1976.1276.1273.9873.51bm3d94.9391.4686.3978.2572.9266.7861.71wnnm94.9391.3985.4676.2571.3166.7160.77dncnn94.8691.4687.3278.0872.9868.7164.38nr-net73.5872.3868.7164.8462.6460.8457.24cnr-cnn88.9388.5386.7984.9283.7281.9979.32在表1~4中:base1对应改进版的人脸识别网络facenet网络在干净人脸数据集casia-webface下训练得到的模型;base2对应改进版的人脸识别网络facenet网络在随机添加高斯白噪声后的人脸数据集casia-webface下训练得到的模型;bm3d对应k.dabov等人提出的图像去噪方法(k.dabov,a.foi,v.katkovnik,k.egiazarian,“imagedenoisingbysparse3dtransform-domaincollaborativefiltering”,ieeetransactionsonimageprocessing,vol.16,no.8,pp.2080-2095,2007.),人脸识别网络使用basel;wnnm对应s.gu等人提出的图像去噪方法(s.gu,l.zhang,w.zuo,x.feng,“weightednuclearnormminimizationwithapplicationtoimagedenoising”,in:ieeeconferenceoncomputervisionandpatternrecognition,2014,pp.2862-2869.),人脸识别网络使用base1;dncnn对应k.zhang等人提出的图像去噪方法(k.zhang,w.zuo,y.chen,d.meng,l.zhang,“beyondagaussiandenoiser:residuallearningofdeepcnnforimagedenoising”,ieeetransactionsonimageprocessing,vol.26,no.7,pp.3142-3155,2016.),人脸识别网络使用base1;nr-net对应y.ding等人提出的方法(y.ding,y.cheng,x.cheng,b.li,y.xing,x.yuan,“noise-resistantnetwork:adeep-learningmethodforfacerecognitionundernoise”,eurasipjournalonimageandvideoprocessing,vol.2017,no.1,pp.43.2017.)。cnr-cnn对应本发明公开的一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1