本发明涉及视频图像处理技术,具体涉及基于条件生成对抗网络的多监控视频人脸合成正脸的方法。
背景技术:
近年来,随着深度学习与大数据的蓬勃发展,在图像处理领域,特别是人脸识别领域得到了快速的发展,获得了比传统方法更好的准确率,在某些数据库上的性能已经超过了人类。目前的算法大多针对正面姿态的人脸识别问题,但对于偏转人脸的识别却还没有一个较好的解决方案。
在监控视频安防领域,由于监控视频中被识别的人处于无约束状态,包括低头或者各种角度的人脸偏转情况,因此监控摄像头捕捉到的人脸往往是处于各种偏转角度下,严重降低了人脸识别及认证的结果。因此,解决无约束角度偏转的人脸识别问题,对监控视频安防具有重大意义。
由于在监控视频下的同一个运动事件中,监控摄像头能够捕捉到属于同一个人的多张不同角度人脸图像。这些不同角度的人脸图像,携带着人脸丰富的信息与特征。如何将这些在监控视频下具有相同环境条件的多张无约束角度偏转人脸的特征利用起来提升人脸识别的性能,成为当前智能监控视频安防领域的关键问题。
技术实现要素:
为了克服现有技术存在的缺点与不足,本发明提供基于条件生成对抗网络的多监控视频人脸合成正脸的方法。
本发明采用如下技术方案:
一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,包括如下步骤:
s1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注;
s2对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;
s3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;
s4采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定;
s5将n张同一监控视频片段下捕捉到的无约束偏转角度的人脸作为s4中已经训练好的生成器的输入,得到一张跟输入人脸图像同属于一个人的正脸图像。
所述人脸对齐关键点包括眼睛、鼻子、嘴巴及轮廓,人脸对齐具体是正脸图像的左眼和右眼位于同一水平线上。
所述s2还包括图像预处理,具体包括将无约束偏转角度人脸图像数据集中的图像转化为灰度图,正脸图像集中的正脸图像保持rgb彩色图像,并将图像尺寸放大到m×m像素,放大后的图像作为生成器模型的输入。
所述基于多输入自动编码器的生成器模型由输入层、编码层、解码层及卷积映射层构成,输入层将n张输入图像组合成一个n通道的数据层,输入层连接编码层,编码层连接解码层,解码层输出连接卷积映射层,最后输出正脸图像。
所述s3中,所述卷积神经网络判决器模型是将生成器模型合成的正脸和属于同一个人的正脸分别与生成器的输入人脸图像构成两个训练样本,分别作为卷积神经网络判决器的输入,根据这两个训练样本得到两个评价分,将两个评价分求和为判别器输出。
条件生成网络的损失函数为:
生成器的损失:lg=e[log(1-d(x,g(x,z)))]+λe[||y-g(x,z)||1]
判决器的损失:ld(d,g)=e[log(d(x,y))]+e[log(1-d(x,g(x,z)))]
总的损失也就是条件生成网络的损失:
y指的是真实正脸图像,g(x,z)指的是生成器合成的图像,d(x,y)为判别器的损失,ll1(g)=λe[||y-g(x,z)||1]为条件变量,l为条件生成对抗网络的总损失,λ是一个设置的参数,表示l1损失的权重,选为100,生成器损失指来自于合成图像-输入图像对的评价分,判决器的损失指判决器得到2个评价分的和,l表示总的损失,包含l1损失。
所述局部感受野评分具体是根据判别器模型最后一层数据进行求平均值得到的,所述局部感受野是将判别器最后一层的每一维数据作为一个感受野。
所述条件生成对抗网络收敛稳定:条件生成对抗网络总损失l,判别器的损失d(x,y),生成器的损失g(x,z)和ll1(g)趋于稳定,所述稳定为损失达到一定值不再改变。
无约束偏转角度的人脸是连续帧捕捉到的人脸或者同一个运动事件内非连续帧捕捉的人脸。
所述s1中,对人脸图像数据集进行标注,按顺序从0到n添加标签,n为图像集中的人数减1。
本发明的有益效果:
本方法通过构建基于多输入自动编码器的生成器模型和基于局部感受野评分的卷积神经网络判决器模型组合成一个条件生成对抗网络,用来实现由多张监控视频人脸合成正脸,充分利用了监控视频中多张人脸的信息和特征,提高了监控视频安防中人脸识别性能。
附图说明
图1是本发明的工作流程图;
图2是本发明的卷积神经网络判决器模型结构图;
图3是局部感受野评分的流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1-图3所示,一种基于条件生成对抗网络的多监控视频人脸合成正脸的方法,包括如下步骤:
s1采集监控视频中的无约束偏转角度人脸,并将同一个人的脸归为一类,筛选出正脸,得到无约束偏转角度人脸图像数据集和正脸图像数据集,并对每一个人的人脸图像数据集进行标注,按顺序从0到n添加标签,n为图像集中的人数减1。
s2对监控视频中的图像进行预处理,将非正脸图像转化为灰度图,正脸图像保持原来的rgb彩色图像,使用双线性插值算法对图像进行放大。图像放大后的尺寸优选为256x256像素。然后对每个人的正脸图像数据集根据人脸关键点进行仿射变换实现人脸对齐;优选人脸的5点或68点关键点利用仿射变换实现人脸对齐。所述的人脸关键点为眼睛,鼻子,嘴巴,轮廓等关键点。对齐后的正脸图像的左眼和右眼应处于同一水平线上。
s3构建条件生成对抗网络,所述条件生成对抗网络包括用于生成正脸图像的基于多输入自动编码器的生成器模型和用于评价合成图像质量的基于局部感受野评分的卷积神经网络判决器模型;
所述基于多输入自动编码器的生成器模型由输入层、编码层、解码层及卷积映射层构成,输入层将n张输入图像组合成一个n通道的数据层,输入层连接编码层,编码层连接解码层,解码层输出连接卷积映射层,最后输出正脸图像。
此处的n优选为3。无约束偏转角度人脸图像可以是视频中连续帧获取的人脸图像,也可以是非连续帧非同一运动事件中获取的人脸图像,但这3张人脸图像需要属于同一个人。
基于多输入自动编码器的生成器的编码模块基本结构由8个基于conv-batchnorm-leakyrelu的子模块组成。每个子模块的滤波器数目分别是64-128-256-512-512-512-512-512。生成器的解码模块基本结构由8个基于deconv-batchnorm-relu的子模块组成。每个子模块的滤波器数目分别是512-512-512-512-512-256-128-64。
根据生成器模型的这个设置,训练过程中生成器的每一次迭代计算,选取属于同一个人的无约束偏转角度人脸图像的任意3张组合,生成器在此设置下将合成一张40x40像素的正脸图像。
所述卷积神经网络判决器模型是将生成器模型合成的正脸和属于同一个人的正脸分别与生成器的输入人脸图像构成两个训练样本,分别作为卷积神经网络判决器的输入,根据这两个训练样本得到两个评价分,两个评价分求和为输出。两个评价分分别来自合成图像-输入图像对,目标正脸图像(人工筛选的正脸)-输入图像对。这两个评价分的和,作为对合成图像的评价分。其中,这个总的评价分(2个评价分的和),用于指导优化判决器。分别来自于合成图像-输入图像对的评价分,加上l1损失,指导优化生成器。
局部感受野评分,是根据判别器最后一层的30x30维数据进行求平均值得到的。所述的局部感受野是判别器最后一层的每一维数据作为一个感受野,即局部感受野为1x1。
所述条件生成对抗网络的条件是真实正脸人脸图像与生成正脸图像的损失为条件变量,即:ll1(g)=e[||y-g(x,z)||1];
生成器的损失:lg=e[log(1-d(x,g(x,z)))]+λe[||y-g(x,z)||1]
判决器的损失:ld(d,g)=e[log(d(x,y))]+e[log(1-d(x,g(x,z)))]
总的损失也就是条件生成网络的损失:
y指的是真实正脸图像,g(x,z)指的是生成器合成的图像,d(x,y)为判别器的损失,ll1(g)=λe[||y-g(x,z)||1]为条件变量,l为条件生成对抗网络的总损失,λ是一个设置的参数,表示l1损失的权重,选为100,生成器损失指来自于合成图像-输入图像对的评价分,判决器的损失指判决器得到2个评价分的和,l表示总的损失,包含l1损失。
s4采用对抗训练的策略对生成器模型和卷积神经网络判决器模型进行训练,直到条件生成对抗网络收敛稳定;
所述条件生成对抗网络收敛稳定:条件生成对抗网络总损失l,判别器的损失d(x,y),生成器的损失g(x,z)和ll1(g)趋于稳定,所述稳定为损失达到一定值不再改变。
s5将n张同一监控视频片段下捕捉到的无约束偏转角度的人脸作为s4中已经训练好的生成器的输入,得到一张跟输入人脸图像同属于一个人的正脸图像。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。