一种人脸活体检测方法与流程

文档序号:24130448发布日期:2021-03-02 17:33阅读:130来源:国知局
一种人脸活体检测方法与流程

[0001]
本发明涉及图像识别领域,特别涉及一种人脸活体检测方法。


背景技术:

[0002]
生物识别系统在诸如手机认证、门禁等领域中大量应用,生物识别系统的安全经受着严峻的考验,而人脸活体检测作为生物识别系统中重要的一项技术,也引来越来越多的关注。活体检测是指通过特征筛选来判断通过镜头获取的生物特征信息是否是从对应的合法活体用户身上取得。而基于人脸的活体检测的主要方法便是通过区分活体样本上的生理信息,这些生理信息作为重要的区分条件来区分纸张、硅脂塑料等样本载体,同样也用于区分纸张攻击、视频攻击和面具攻击等攻击方法。活体样本与非活体
·
样本主要差别体现在颜色纹理、运动变形、材料以及图像质量等方面。机器学习时代的活体检测算法主要是针对性地设计特征,再通过分类器逐步分离出非活体样本。而深度学习则直接提供了提取特征的办法,通过各式的神经网络来提取活体样本与非活体样本的特征,达到分类目的。与此同时,活体检测算法在嵌入式设备的运行效率和效果也值得关注,有限的计算能力是制约算法执行速度的关键点。基于人脸的活体检测算法大致可以分为两类,第一类就是传统的机器学习方法,另外一类则是基于深度神经网络的方法。对于传统的机器学习算法,主要利用手工特征,比如lbp,hog,sift等特征,然后利用像svm和lda分类器进行分类。但是由于这些传统的方法对光照、姿态等变化特别敏感,不能学习到丰富的特征表达,因此不能很好的区分真假人脸。对于一些基于深度神经网络的算法,有些方法利用lstm机制学习时序信息,这种方法要求网络输入连续的视频帧。有些方法将输入的图像划分为不同图像块,并且进行整体图像的深度图估计,该方法的精确性严重依赖深度图的估计,而图像的深度估计技术本来就还不够成熟。有些方法则利用级联的方法将多个网络的结果结合在一起,但是这种方法泛化性较差,而且如何级联以及如何处理多个网络的结果比较重要。一些方法则结合可见光,深度,红外信息进行分类,但是将16bit深度图像和红外图像转换为8bit图像,这造成了相应的信息损失,而且该方法只利用了图像的局部信息,然后对每个局部信息进行分类,最终的结果为所有局部信息结果的平均值,忽略了全局信息,另外该方法在固定像素位置裁剪图像块,使得裁剪出来的图像块每次都是人脸不同的区域。一些方法则加入一些人为配合(如眨眼睛)的特征进行辅助检测,这种方法严重依赖人为配合,降低了用户的使用感受。所以高效准确地判别人脸图像的真伪来抵抗人脸欺骗攻击已经是当今人脸识别系统必不可少的环节。
[0003]
现有技术基本上都是采用单模态可见光相机来进行活体检测,但是可见光相机受很多因素的影响,比如常见的光线变化,姿态变化等等,另外对于3维的人脸攻击难以区分。第二,很多活体检测算法采用传统底层特征对真假人脸进行分类,但是这些特征不够鲁棒,经常导致分类失败。第三、很多方法利用深度图像信息时,为了方便,将16bit深度图像转换为8bit,这样会造成一定程度的信息丢失。第四、可见光图像能够捕捉到更丰富的细节信息,而深度图像对距离信息比较敏感。
[0004]
因此本技术主要结合可见光和原始的16bit深度图像的优势来对真假人脸进行分类,并且提出一种多流神经网络学习到更丰富的语义特征,从而达到识别真假人脸的目的。


技术实现要素:

[0005]
为了解决上述问题,本发明提出了一种人脸活体检测方法,本方法主要结合可见光和16bit深度图像,采用深度学习的方法,提出一种多流网络的特征学习结构,并且结合全局和局部特征,在学习到鲁棒的特征表达之后,采用softmax函数进行分类,从而识别真假人脸。
[0006]
本发明提供一种人脸活体检测方法,技术方案如下:
[0007]
获取目标对象的可见光图像和深度图像的全局图像;
[0008]
利用人脸关键点检测算法检测到人脸的5个关键点,该5个关键点为左右眼、鼻子和左右嘴角,按照各个关键点的坐标裁剪出可见光图像和深度图像对应区域的局部图像;
[0009]
将各个所述局部图像分别输入到局部特征网络的分支中去,将所述可见光图像和深度图像的全局图像分别输入到全局特征网络的分支中;
[0010]
在进行不同网络分支特征叠加之后,进行特征融合,利用分类函数进行二分类,得到第一处理结果和第二处理结果;
[0011]
根据所述第一处理结果和所述第二处理结果,确定目标对象是否为人脸活体。
[0012]
其中,所述第一处理结果为第一概率值,所述第一概率值是根据可见光图像和深度图像所确定的目标对象为假人脸的概率;
[0013]
所述第二处理结果为第二概率值,所述第二概率值是根据可见光图像和深度图像所确定的目标对象为人脸活体的概率。若所述第二概率值大于第一概率值,则确定所述目标对象为所述人脸活体。
[0014]
所述局部特征网络包括第一神经网络和第二神经网络,所述第一神经网络为可见光图像局部特征网络,提取可见光局部图像特征;所述第二神经网络为深度图像局部特征网络,提取深度图像局部特征。
[0015]
所述全局特征网络包括第三神经网络和第四神经网络,所述第三神经网络为可见光图像全局特征网络,提取可见光全局图像特征;所述第四神经网络为深度图像全局特征网络,提取深度全局图像特征。
[0016]
优选的,所述局部特征网络在对所述可见光图像和深度图像的局部图像的处理过程中,融合所述全局特征网络从所述可见光图像和深度图像的全局图像中提取的特征;
[0017]
优选的,所述特征融合的方式为按照每个神经网络的特征图通道进行堆叠处理,每个神经网络特征图的最后通道数为n,4个神经网络分支进行叠加,得到4n个通道的特征图;其中,所述n为正整数。
[0018]
优选的,所述人脸检测算法分别得到人脸区域以及人脸的5个关键点坐标,所述5个关键点分别为左眼、右眼、鼻子、左嘴角、右嘴角,将可见光图像和深度图像划分成4个互不重叠的区域。
[0019]
优选的,所述深度图像的颜色深度为16位。
[0020]
优选的,所述分类函数为softmax函数,利用softmax函数进行二分类,得到每个图像特征的置信度,结合后输出为第一处理结果和第二处理结果。
[0021]
与现有技术相比,本发明的益处有:
[0022]
1、结合全局和局部特征,分类效果更好;
[0023]
1、利用关键点进行裁剪局部区域,关键点部分特征更加明显;
[0024]
3、结合可见光、深度图像的特征能够防御更多的攻击类别;
[0025]
4、16bit深度图像不会损失任何信息;
[0026]
5、16bit深度图像能够测量出相机距离目标的距离,能够使得检测目标与相机距离可控,便于算法的部署。
附图说明
[0027]
图1为一种人脸活体检测方法流程图;
[0028]
图2为人脸活体检测方法的网络结构图;
[0029]
其中,
①-⑩
的结构为seresnext模块,的结构为squeeze and excitation模块,表示全连接层,其中64,128,256,512,1024,表示每个卷积模块的通道数。
具体实施方式
[0030]
以下将结合附图所示的具体实施方式对本发明进行详细描述,但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
[0031]
如图1所示,其表示本申请一个实施例提供的人脸活体检测方法的流程图。该方法包括步骤如下:
[0032]
步骤101,从可见光深度相机中获取目标对象的可见光图像和16bit深度图像,获取到的两者图像称为全局图;
[0033]
目标对象的可见光图像是指通过摄像头对目标对象进行拍摄得到的彩色图像,可见光图像的每个像素值采用r(红)、g(绿)、b(蓝)三个通道的颜色分量来表示。目标对象的深度图像是能够反映目标对象中各点到摄像头的距离作为像素值的图像,深度图像可以直接反映物体可见表面的几何形状。因此两种特征的图像具备互补性,两种图像的特征融合能够防御更多类型的欺诈、攻击手段。
[0034]
步骤102,利用人脸关键点检测算法检测到人脸的5个关键点,按照关键点的坐标裁剪出可见光图像和深度图像对应区域的局部图像;
[0035]
利用人脸检测算法多任务神经网络分别得到人脸区域以及人脸的5个关键点坐标,5个关键点分别为左眼,右眼,鼻子,左嘴角,右嘴角,5个关键点的x,y坐标分别表示为le(x,y),re(x,y),n(x,y),lm(x,y),rm(x,y);
[0036]
利用5个关键点对可见光图像和深度图像划分成4个互不重叠区域,针对人的眼睛,鼻子,嘴巴,通过大数据统计得到眼睛,鼻子,嘴巴的宽高分别为w_e,h_e,w_n,h_n,w_m,h_m;对于眼睛和鼻子,分别以各自的关键点作为矩形的中心坐标.对于嘴巴关键点,利用lm和rm计算得到嘴巴中心点的坐标.利用(x_c-w_*/2,y_c-h_*/2)可计算得到眼睛,鼻子和嘴巴矩形框的左上角坐标信息,其中x_c,y_c表示关键点的中心坐标,w_*,h_*表示关键点部位的宽高,然后利用左上角坐标信息以及各自关键点的宽高可裁剪出相应的局部区域,得
到局部图像。
[0037]
步骤103,如图2所示,对裁剪出来可见光和深度图像的局部图像分别输入到局部特征网络分支中去,对可见光和深度全局图像分别输入到全局特征的网络分支中;可见光图像的局部图像输入到第一神经网络,深度图像的局部图像输入到第二神经网络;可见光图像的全局图像输入到第三神经网络,深度图像的全局图像输入到第四神经网络;
[0038]
在多流神经网络的中间将局部特征和全局特征结合,可选地,局部特征网络在对可见光图像和深度图像的局部图像的处理过程中,融合全局特征网络从可见光图像和深度图像的全局图像中提取的特征;特征融合的方式为按照每个神经网络的特征图通道进行堆叠,每个神经网络特征图的最后通道数为256,4个分支进行叠加,得到1024个通道的特征图;
[0039]
步骤104,在进行不同分支特征叠加之后,采用squeeze and excitation模块进行特征融合;最后利用softmax分类函数进行二分类,softmax目标函数如下:
[0040][0041]
s0表示假人脸的置信度,s1表示真人脸的置信度,且s0+s1=1;
[0042]
步骤105,每个局部图像块和全局图像块都会得到对应的s0和s1,一共会得到4对s0和s1,取他们的平均值为第一处理结果,为第二处理结果,两者作为最终的分类置信度,以此作为活体人脸的概率值,第一处理结果为第一概率值,第二处理结果为第二概率值,概率值的取值是[0,1],第一概率值表示假人脸的概率,第二概率值表示活体人脸的概率。
[0043]
若第一概率值<第二概率值则表示为真人脸,否则为假人脸。
[0044]
在本实施例中,全局特征网络可以是深度神经网络,如卷积神经网络;同样地,局部特征网络也可以是深度神经网络,如卷积神经网络;卷积神经网络可以包括输入层、卷积层(convolutional layer)、池化层(pooling layer)、全连接层(fullyconnected layer)和输出层,还可以包括卷积层、批规范化层和relu(修正线性单元激活函数,rectified linear unit)激活层。其中,输入层用于输入可见光图像,卷积层用于将可见光图像转化为特征图(feature map),池化层用于对特征图进行池化处理,以降低特征图的大小,全连接层用于将经过卷积层和池化层处理后的特征图映射为一维特征向量,输出层用于根据全连接层输出的一维特征向量,输出第一概率值。在本实施例中卷积神经网络采用的是seresnext网络模型,其中上述输出层由softmax分类器实现,用于实现二分类任务。
[0045]
综上所述,本申请实施例提供的技术方案中,通过获取目标对象的可见光图像和深度图像,结合上述两种图像对目标对象进行人脸活体检测,融合了人脸全局图像和局部特征图像进行人脸活体检测,提高了检测的准确性,可以有效拦截人脸纸片、高清屏幕人脸翻拍、合成人脸视频、面具、3d假体模型等攻击。并且,可见光图像和深度图像的拍摄过程中,无需用户执行交互动作,更为简单高效,且降低交互成本,提高用户体验。
[0046]
尽管为示例目的,已经公开了本发明的优选实施方式,但是本领域的普通技术人员将意识到,在不脱离由所附的权利要求书公开的本发明的范围和精神的情况下,各种改
进、增加以及取代是可能的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1