活体检测方法及装置与流程

文档序号:17725412发布日期:2019-05-22 02:28阅读:222来源:国知局
活体检测方法及装置与流程

本发明实施例属于图像分类技术领域,更具体地,涉及一种活体检测方法及装置。



背景技术:

在使用人脸识别系统进行人脸识别时,很可能会出现将包含人脸的照片或视频置于人脸识别系统前进行识别,而非真人的人脸识别。因此,需要进行活体检测,即从人脸识别系统中区分照片与真人图像,或者视频与真人图像,以防止人脸欺骗。

如今活体检测方法大都是将人脸防欺骗视为一个黑箱二进制分类问题。该方法通过对从原始的实时图像中生成欺骗图像的过程进行建模来打开黑盒。在抗欺骗干扰的情况下,欺骗图像可以看成是对真实图像的重新渲染,只是有一些来自欺骗介质和环境的特殊噪声。

现有的活体检测方法主要包括基于交互式动作的方法、基于三维图像建模技术和采用红外摄像头的方法。其中,基于交互式动作的方法检测速度慢、用户难配合、交互性差;基于三维图像建模技术计算量大,需要3d摄像头,硬件要求高;采用红外摄像头的方法成本高,需要红外探测设备,硬件要求高。



技术实现要素:

为克服上述现有的活体检测方法需要用户配合、速度慢、需要额外的硬件设备的问题或者至少部分地解决上述问题,本发明实施例提供一种活体检测方法及装置。

根据本发明实施例的第一方面,提供一种活体检测方法,包括:

基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;

基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;

根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

根据本发明实施例第二方面提供一种活体检测装置,包括:

第一判别模块,用于基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;

第二判别模块,用于基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;

确定模块,用于根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

根据本发明实施例的第三个方面,还提供一种电子设备,包括:

至少一个处理器;以及

与所述处理器通信连接的至少一个存储器,其中:

所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的活体检测方法。

根据本发明实施例的第四个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的活体检测方法。

本发明实施例提供一种活体检测方法及装置,该方法通过基于照片或视频二次拍摄的欺骗人脸图像与真实人脸图像中噪声结构和形式不同,结合具有约束和监督作用的卷积神经网络结构,借鉴传统的去噪声的思想,使用第一卷积神经网络提取目标人脸图像的噪声,使用第二卷积神经网络根据噪声确定目标人脸图像的真假,为了使检测结果更精确,使用第三卷积神经网络提取目标人脸图像的输入面深度,根据输入面深度再次确定目标人脸图像的真假,将两次检测结果进行综合,确定目标人脸图像的真假,能自动识别使用照片和视频进行人脸识别的欺骗行为,速度快,准确率高,鲁棒性强,设备要求低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的活体检测方法整体流程示意图;

图2为本发明实施例提供的活体检测方法中网络结构示意图;

图3为本发明实施例提供的活体检测装置整体结构示意图;

图4为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的一个实施例中提供一种活体检测方法,图1为本发明实施例提供的活体检测方法整体流程示意图,该方法包括:s101,基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;

其中,目标人脸图像为需要进行活体检测的人脸图像,第一卷积神经网络为从目标人脸图像中提取噪声的卷积神经网络。由于使用照片或视频二次拍摄的欺骗人脸图像与真实人脸图像中噪声结构和形式不同。本实施例通过使用第一卷积神经网络从输入的目标人脸图像中预测估计噪声模式n,然后可以通过从目标人脸图像中减去估计的噪声n来重建真实人脸。无论是噪声图还是模糊图,都可看成在原图上加上噪声运算或者模糊运算,而去噪声和去抖动就是估计噪声分布和模糊核,从而重构回原图,即:

x=x′+n(x′);

其中,x表示欺骗人脸图像或真实人脸图像,x’表示真实人脸,n(x’)表示噪声。通过此公式将欺骗人脸图像反向分解为真实人脸和噪声,从而从目标人脸图像中剥离噪声并重建原始画面。对于不同的环境和不同的欺骗方式,噪声的形式不尽相同。当x为真实人脸图像时,x’为真实人脸图像自身,噪声n(x’)应为0。使用第二卷积神经网络根据目标人脸图像和目标人脸图像的噪声确定目标人脸图像的类别概率,即根据目标人脸图像的视觉质量进行分类。目标人脸图像的类别为欺骗人脸图像或真实人脸图像。欺骗人脸图像为二次拍摄人脸图像或人脸视频获取的图像。本实施例不限于第一卷积神经网络和第二卷积神经网络的具体结构。例如第二卷积神经网络的结果包括六个卷积层和一个全连接层。

s102,基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;

第三卷积神经网络用语估计目标人脸图像的输入面深度。其中,真实人脸图像的输入面深度为面部形状深度,而由于欺骗人脸图像为平面的,其输入面深度为全零图。第三卷积神经网络用于监督和辅助第二卷积神经网络的检测结果。第三卷积神经网络可以是一个完全卷积网络,将每个池化层之后的特征调整大小并堆叠后发送到后面的卷积层。本实施例不限于第三卷积神经网络的具体结构。

s103,根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

具体地,根据目标人脸图像的噪声和输入面深度对分类结果的影响程度,预先为第一分类概率和第二分类概率设置相应的权重。将第一分类概率和第二分类概率分别乘以相应的权重后相加,获取目标人脸图像的最终分类概率。根据目标人脸图像的最终分类概率确定目标人脸图像的真假。当确定目标人脸图像为欺骗人脸图像时,根据对频域欺骗人脸图像进行分析,确定欺骗人脸图像是图片还是视频。

本实施例基于照片或视频二次拍摄的欺骗人脸图像与真实人脸图像中噪声结构和形式不同,结合具有约束和监督作用的卷积神经网络结构,借鉴传统的去噪声的思想,使用第一卷积神经网络提取目标人脸图像的噪声,使用第二卷积神经网络根据噪声确定目标人脸图像的真假,为了使检测结果更精确,使用第三卷积神经网络提取目标人脸图像的输入面深度,根据输入面深度再次确定目标人脸图像的真假,将两次检测结果进行综合,确定目标人脸图像的真假,能自动识别使用照片和视频进行人脸识别的欺骗行为,速度快,准确率高,鲁棒性强,设备要求低。

在上述实施例的基础上,本实施例中基于第一卷积神经网络从目标人脸图像中提取噪声的步骤具体包括:将所述目标人脸图像的rgb特征和hsv特征作为所述第一卷积神经网络的输入,提取所述目标人脸图像中的噪声。

具体地,为了对目标人脸图像提取的特征更全面,本实施例将目标人脸图像的rgb特征和hsv特征,即六维特征一起作为第一卷积神经网络的输入,提取目标人脸图像的噪声。hsv模型中颜色的参数分别是色调h、饱和度s和明度v。其三维表示从rgb立方体演化而来。设想从rgb沿立方体对角线的白色顶点向黑色顶点观察,就可以看到立方体的六边形外形。六边形边界表示色彩,水平轴表示纯度,明度沿垂直轴测量。

在上述实施例的基础上,本实施例中所述第一卷积神经网络包括编码器和解码器;相应地,基于第一卷积神经网络从目标人脸图像中提取噪声的步骤具体包括:基于所述第一卷积神经网络中的编码器对所述目标人脸图像进行编码,基于所述第一卷积神经网络中的解码器对编码后的所述目标人脸图像进行解码,获取所述目标人脸图像中的噪声。

例如,当目标人脸图像的大小为256*256时,第一卷积神经网络设计为256*256*6维度的编码器和解码器,这里的6个通道为目标人脸图像的rgb特征和hsv特征。在编码器部分,受残差网络的启发,堆叠10个具有3个池化层的卷积层,并建立快捷链接,即连接三个池化层并将它们发送到最后三个卷积层。有助于将不同比例的特征响应传递到后续阶段并简化训练过程。第一卷积神经网络不限于举例中的网络结构。

在上述实施例的基础上,本实施例中基于第一卷积神经网络从目标人脸图像中提取噪声的步骤之前还包括:对所述第一卷积神经网络和所述第二卷积神经网络进行训练。

在上述实施例的基础上,本实施例中对所述第一卷积神经网络和所述第二卷积神经网络进行训练的步骤具体包括:将各训练样本作为所述第一卷积神经网络的输入,获取各所述训练样本的噪声;将各所述训练样本的噪声和各所述训练样本作为所述第二卷积神经网络的输入,获取各所述训练样本的第一分类概率;使用第三卷积神经网络提取各所述训练样本的输入面深度特征,根据各所述训练样本的输入面深度特征和预设输入面深度特征获取各所述训练样本的第二分类概率;根据各所述训练样本第一分类概率、第二分类概率和各所述训练样本的预设类别标签,对所述第一卷积神经网络和所述第二卷积神经网络中的参数进行调整,直到损失函数的值小于预设阈值。

在上述实施例的基础上,本实施例中损失函数jt是所有损失函数的加权总和,所述损失函数jt的公式为:

jt=jz+λ1jm+λ2jr+λ3j3+λ4j2;

其中,λ1、λ2、λ3和λ4为权重,jz为零\一映射损失函数,jm为幅度损失函数,jr为重复性损失函数,j3为第三卷积神经网络的损失函数,j2为第二卷积神经网络的损失函数。

其中,为了学习编码器层的判别特征,在第一卷积神经网络中估计真实人脸图像的全零矩阵和欺骗人脸图像的全一矩阵,此过程的损失函数jz的公式为:

jz=||cnn01map-m||1;

其中,cnn01map表示各所述训练样本噪声的零\一映射图,m为零\一映射中的参数;

由于从真实人脸图像提取的噪声为零,因此使用幅度损失对估计的噪声进行约束,幅度损失函数jm的公式为:

jm=||n||1;

其中,n为各所述训练样本的噪声;

将估计的噪声n转换为傅里叶域,并计算高频带的最大值,高峰的存在代表重复模式。当各所述训练样本为欺骗人脸图像时,所述重复性损失函数jr的公式为:

jr=-max(h(f(n)),k);

其中,h为高斯滤波,f为傅里叶变换,k为傅里叶变换后噪声的中心区域坐标;

当各所述训练样本为真实人脸图像时,所述重复性损失函数jr的公式为:

jr=||max(h(f(n)),k)||1;

第三卷积神经网络的反向传播引导第一卷积神经网络估计输入的各训练样本中应减去的欺骗噪声模式,所述第三卷积神经网络的损失函数j3的公式为:

j3=||cnn3(i)-d||1;

其中,i为各所述训练样本,cnn3(i)为所述第三卷积神经网络提取的各所述训练样本的输入面深度特征,d为各所述训练样本的人脸深度特征;

在每次迭代中第二卷积神经网络分两个批次进行评估,当个训练样本为真实人脸图像时j2为0。当各所述训练样本为欺骗人脸图像时,所述第二卷积神经网络的损失函数j2的公式为:

j2=-ei∈slog(cnn2(cnn1(i)));

其中,e为期望,s为预设类别标签为欺骗人脸图像的训练样本,cnn1(i)为所述第一卷积神经网络提取的各所述训练样本的噪声,cnn2(cnn1(i))为所述第一卷积神经网络根据各所述训练样本的噪声获取的各所述训练样本的第一分类概率。其中,第二卷积神经网络和第一卷积神经网络为上次迭代中已经更新过的。

如图2所示,各训练样本i经过第一卷积神经网络生成噪声n,将编码器的输出结果作为0\1映射网络的输入,获取0\1映射图,将从各训练样本i去除各训练样本的噪声n获取各训练样本中的真实人脸。将各训练样本i和各训练样本的噪声n作为第二卷积神经网络的输入,判别各训练样本的真假,即为真实人脸图像还是为欺骗人脸图像。使用第三卷积神经网络提取各训练样本的输入面深度特征,根据各训练样本的输入面深度特征和预设输入面深度特征判断各所述训练样本的真假。根据两次判断结果确定各训练样本的最终真假。

在本发明的另一个实施例中提供一种活体检测装置,该装置用于实现前述各实施例中的方法。因此,在前述活体检测方法的各实施例中的描述和定义,可以用于本发明实施例中各个执行模块的理解。图3为本发明实施例提供的活体检测装置整体结构示意图,该装置包括第一判别模块301、第二判别模块302和确定模块303;其中:

第一判别模块301用于基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;

其中,目标人脸图像为需要进行活体检测的人脸图像,第一卷积神经网络为从目标人脸图像中提取噪声的卷积神经网络。由于使用照片或视频二次拍摄的欺骗人脸图像与真实人脸图像中噪声结构和形式不同。第一判别模块301使用第一卷积神经网络从输入的目标人脸图像中预测估计噪声模式n,然后可以通过从目标人脸图像中减去估计的噪声n来重建真实人脸。无论是噪声图还是模糊图,都可看成在原图上加上噪声运算或者模糊运算,而去噪声和去抖动就是估计噪声分布和模糊核,从而重构回原图将欺骗人脸图像反向分解为真实人脸和噪声,从而从目标人脸图像中剥离噪声并重建原始画面。对于不同的环境和不同的欺骗方式,噪声的形式不尽相同。当目标人脸图像为真实人脸图像时,提取的噪声应为0。第一判别模块301使用第二卷积神经网络根据目标人脸图像和目标人脸图像的噪声确定目标人脸图像的类别概率,即根据目标人脸图像的视觉质量进行分类。目标人脸图像的类别为欺骗人脸图像或真实人脸图像。欺骗人脸图像为二次拍摄人脸图像或人脸视频获取的图像。本实施例不限于第一卷积神经网络和第二卷积神经网络的具体结构。

第二判别模块302用于基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;

第三卷积神经网络用语估计目标人脸图像的输入面深度。其中,真实人脸图像的输入面深度为面部形状深度,而由于欺骗人脸图像为平面的,其输入面深度为全零图。第三卷积神经网络用于监督和辅助第二卷积神经网络的检测结果。第三卷积神经网络可以是一个完全卷积网络,将每个池化层之后的特征调整大小并堆叠后发送到后面的卷积层。本实施例不限于第三卷积神经网络的具体结构。

确定模块303用于根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

根据目标人脸图像的噪声和输入面深度对分类结果的影响程度,预先为第一分类概率和第二分类概率设置相应的权重。确定模块303将第一分类概率和第二分类概率分别乘以相应的权重后相加,获取目标人脸图像的最终分类概率。根据目标人脸图像的最终分类概率确定目标人脸图像的真假。当确定目标人脸图像为欺骗人脸图像时,根据对频域欺骗人脸图像进行分析,确定欺骗人脸图像是图片还是视频。

本实施例基于照片或视频二次拍摄的欺骗人脸图像与真实人脸图像中噪声结构和形式不同,结合具有约束和监督作用的卷积神经网络结构,借鉴传统的去噪声的思想,使用第一卷积神经网络提取目标人脸图像的噪声,使用第二卷积神经网络根据噪声确定目标人脸图像的真假,为了使检测结果更精确,使用第三卷积神经网络提取目标人脸图像的输入面深度,根据输入面深度再次确定目标人脸图像的真假,将两次检测结果进行综合,确定目标人脸图像的真假,能自动识别使用照片和视频进行人脸识别的欺骗行为,速度快,准确率高,鲁棒性强,设备要求低。

在上述实施例的基础上,本实施例中第一判别模块具体用于:将所述目标人脸图像的rgb特征和hsv特征作为所述第一卷积神经网络的输入,提取所述目标人脸图像中的噪声。

在上述实施例的基础上,本实施例中所述第一卷积神经网络包括编码器和解码器;相应地,第一判别模块具体用于:基于所述第一卷积神经网络中的编码器对所述目标人脸图像进行编码,基于所述第一卷积神经网络中的解码器对编码后的所述目标人脸图像进行解码,获取所述目标人脸图像中的噪声。

在上述实施例的基础上,本实施例中还包括训练模块,用于对所述第一卷积神经网络和所述第二卷积神经网络进行训练。

在上述各实施例的基础上,本实施例中训练模块具体用于:将各训练样本作为所述第一卷积神经网络的输入,获取各所述训练样本的噪声;将各所述训练样本的噪声和各所述训练样本作为所述第二卷积神经网络的输入,获取各所述训练样本的第一分类概率;使用第三卷积神经网络提取各所述训练样本的输入面深度特征,根据各所述训练样本的输入面深度特征和预设输入面深度特征获取各所述训练样本的第二分类概率;根据各所述训练样本第一分类概率、第二分类概率和各所述训练样本的预设类别标签,对所述第一卷积神经网络和所述第二卷积神经网络中的参数进行调整,直到损失函数的值小于预设阈值。

在上述实施例的基础上,本实施例中所述损失函数jt的公式为:

jt=jz+λ1jm+λ2jr+λ3j3+λ4j2;

其中,λ1、λ2、λ3和λ4为权重,jz为零\一映射损失函数,jm为幅度损失函数,jr为重复性损失函数,j3为第三卷积神经网络的损失函数,j2为第二卷积神经网络的损失函数。

在上述实施例的基础上,本实施例中所述零\一映射损失函数jz的公式为:

jz=||cnn01map-m||1;

其中,cnn01map表示各所述训练样本噪声的零\一映射图,m为零\一映射中的参数;

所述幅度损失函数jm的公式为:

jm=||n||1;

其中,n为各所述训练样本的噪声;

当各所述训练样本为欺骗人脸图像时,所述重复性损失函数jr的公式为:

jr=-max(h(f(n)),k);

其中,h为高斯滤波,f为傅里叶变换,k为傅里叶变换后噪声的中心区域坐标;

当各所述训练样本为真实人脸图像时,所述重复性损失函数jr的公式为:

jr=||max(h(f(n)),k)||1;

所述第三卷积神经网络的损失函数j3的公式为:

j3=||cnn3(i)-d||1;

其中,i为各所述训练样本,cnn3(i)为所述第三卷积神经网络提取的各所述训练样本的输入面深度特征,d为各所述训练样本的人脸深度特征;

当各所述训练样本为欺骗人脸图像时,所述第二卷积神经网络的损失函数j2的公式为:

j2=-ei∈slog(cnn2(cnn1(i)));

其中,e为期望,s为预设类别标签为欺骗人脸图像的训练样本,cnn1(i)为所述第一卷积神经网络提取的各所述训练样本的噪声,cnn2(cnn1(i))为所述第一卷积神经网络根据各所述训练样本的噪声获取的各所述训练样本的第一分类概率。

本实施例提供一种电子设备,图4为本发明实施例提供的电子设备整体结构示意图,该设备包括:至少一个处理器401、至少一个存储器402和总线403;其中,

处理器401和存储器402通过总线403完成相互间的通信;

存储器402存储有可被处理器401执行的程序指令,处理器调用程序指令能够执行上述各方法实施例所提供的方法,例如包括:基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:基于第一卷积神经网络从目标人脸图像中提取噪声,基于第二卷积神经网络根据所述噪声和所述目标人脸图像确定所述目标人脸图像的第一分类概率;基于第三卷积神经网络提取所述目标人脸图像的输入面深度特征,根据所述输入面深度特征确定所述目标图像的第二分类概率;根据所述第一分类概率和所述第二分类概率,确定所述目标人脸图像的真假。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1