口罩鲁棒的人脸识别网络、方法、电子设备及存储介质与流程

文档序号:28074382发布日期:2021-12-18 00:43阅读:126来源:国知局
口罩鲁棒的人脸识别网络、方法、电子设备及存储介质与流程

1.本发明属于计算机视觉领域,尤其涉及一种口罩鲁棒的人脸识别网络、方法、电子设备及存储介质。


背景技术:

2.人脸识别技术被广泛用于生物识别领域。相比于其他的生物识别手段,比如指纹,虹膜等,人脸识别技术具有无接触性,易采集等特点。在深度学习理论日益发展的今天,对于遮挡识别问题,基于人工、遮挡检测、分割的方法选择提前获得人脸图像中的遮挡区域,然后对非遮挡区域进行特征提取;基于直接特征提取的方法则会利用各种损失函数强制约束遮挡图片和非遮挡图片之间的距离;基于图像重建的方法则通常利用生成对抗网络对图片进行复原或重建。相比于遮挡人脸识别,口罩人脸识别问题具有独特性,其口罩(遮挡)的分布区域相对固定,可以作为先验知识帮助我们设计网络结构。
3.虽然口罩的遮挡形式相对更单一,但其本质上还是带来了与人脸识别无关的非生物信息。geng, mengyue等人(geng m, peng p, huang y等,masked face recognition with generative data augmentation and domain constrained ranking[c]//mm 2020
ꢀ‑ꢀ
proceedings of the 28th acm international conference on multimedia. 2020)试图利用对比学习法学习口罩人脸和正常人脸图像的共同特征,但训练过程依赖于对训练样本的采样,训练结果不稳定。song, lingxue等人(song l, gong d, li z等,occlusion robust face recognition based on mask learning with pairwise differential siamese network[c]//proceedings of the ieee international conference on computer vision. institute of electrical and electronics engineers inc., 2019)利用卷积神经网络学习与各种遮挡对应的mask字典,在得到最终的特征表示前都会与字典进行匹配。这种方法训练过程复杂,设计多个模型的训练且其结果依赖于最终的mask字典。montero, david等人(montero d, nieto m, leskovsky p等,boosting masked face recognition with multi

task arcface[j]. corr, 2021, abs/2104.0.)提出直接在原始人脸识别神经网络中添加针对口罩分类的分支,同时完成对人脸识别任务以及是否佩戴口罩的分类任务。这种方法会扰乱人脸识别任务的学习过程,因为分类任务关注的是口罩区域,与口罩人脸识别任务的需求刚好相反。
[0004]
如果将口罩人脸看成是一种噪音数据的话,deng, jiankang等人(deng j, guo j, liu t等,sub

center arcface: boosting face recognition by large

scale noisy web faces[c]//eccv. 2020)依据ghazi等人(ghazi m m, ekenel h k,a comprehensive analysis of deep learning based representation for face recognition[j]. ieee computer society conference on computer vision and pattern recognition workshops, ieee computer society, 2016)对人脸识别任务分类特性的研究,将人脸识别任务中学习(聚类)得到的类中心扩展成多个类中心,并从中分出主类中心和次类中心,其中后者便被作为噪音数据的类中心参与训练。但这种主次之分导致整个网络虽然增加了
参数量,同时也放宽了训练约束。
[0005]
口罩作为非生物信息参与到了生物识别应用之中,这给之前基于正常人脸研发的人脸识别技术带来了巨大的挑战,现有技术中在完成口罩人脸识别任务时正常人脸识别性能均受到影响。


技术实现要素:

[0006]
本发明的目的在于提供一种口罩鲁棒的人脸识别网络、方法、电子设备及存储介质,旨在解决如何在不损失正常人脸识别性能的情况下完成口罩人脸识别任务的问题。
[0007]
一方面,本发明提供了一种口罩鲁棒的人脸识别网络,所述人脸识别网络包括整图特征提取网络、与所述整图特征提取网络连接的特征分割模块、与所述特征分割模块分别连接的第一分支网络和第二分支网络,其中,所述整图特征提取网络,用于从输入的人脸图像中提取浅层整图特征;所述特征分割模块,用于根据预设的分割点的位置对所述浅层整图特征进行空间上的分割,得到上、下两部分浅层特征;所述第一分支网络,用于提取上半部浅层特征的上半部高级特征,所述上半部高级特征用于口罩人脸识别;所述第二分支网络,用于提取下半部浅层特征的下半部高级特征,所述下半部高级特征用于与所述上半部高级特征拼接,拼接得到的全特征用于正常人脸识别。
[0008]
优选地,所述人脸识别网络为改进后的resnet网络。
[0009]
优选地,所述特征分割模块用于根据所述人脸图像中鼻子的位置模拟口罩区域的上边界,基于所述上边界对所述浅层整图特征进行空间上的分割。
[0010]
另一方面,本发明还提供了一种基于以上所述人脸识别网络的人脸识别网络训练方法,所述方法包括:获取训练数据集,所述训练数据集中包含多张正常人脸图像;基于所述训练数据集,使用多损失函数联合训练所述人脸识别网络,得到训练好的人脸识别网络。
[0011]
优选地,使用多损失函数联合训练所述人脸识别网络的步骤之前,还包括:对所述训练数据集进行口罩人脸图像的数据增广。
[0012]
优选地,所述第一分支网络和所述第二分支网络采用的损失函数均采用am

softmax函数。
[0013]
优选地,所述人脸识别网络的损失函数如下:l
mc
(f
up
,f
down
,w
n
,w
m
)=l
am
(f
up
,w
m
)+ l
am
(f
down
,w
n
),其中,l
mc
(f
up
,f
down
,w
n
,w
m
)表示所述人脸识别网络的联合损失,l
am
(f
up
,w
m
)表示所述第一分支网络的损失,l
am
(f
down
,w
n
)表示所述第二分支网络的损失,f
up
表示分割出的上半部浅层特征,f
down
表示分割出的下半部浅层特征,w
n
、w
m
分别表示所述第一分支网络和所述第二分支网络的参数。
[0014]
另一方面,本发明还提供了一种基于以上所述人脸识别网络的人脸识别方法,所述方法包括下述步骤:从输入的人脸图像中提取浅层整图特征;
根据预设的分割点的位置对所述浅层整图特征进行空间上的分割,得到上、下两部分浅层特征;若所述人脸图像为口罩人脸图像,则通过所述第一分支网络提取所述上半部浅层特征的上半部高级特征,基于所述上半部高级特征进行人脸识别;若所述人脸图像为正常人脸图像,则通过所述第一分支网络和所述第二分支网络,分别提取所述上、下两部分浅层特征的上、下两部分高级特征,基于由所述上、下两部分高级特征拼接得到的全特征进行人脸识别。
[0015]
另一方面,本发明还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
[0016]
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
[0017]
本发明人脸识别网络包括整图特征提取网络、特征分割模块、第一分支网络和第二分支网络,整图特征提取网络用于从输入的人脸图像中提取浅层整图特征,特征分割模块用于根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,第一分支网络用于提取上半部浅层特征的上半部高级特征,上半部高级特征用于口罩人脸识别,第二分支网络用于提取下半部浅层特征的下半部高级特征,下半部高级特征用于与上半部高级特征拼接,拼接得到的全特征用于正常人脸识别,从而通过该人脸识别网络即可实现人脸识别任务中正常人脸特征和口罩人脸特征的提取,提高了人脸识别网络的鲁棒性。
附图说明
[0018]
图1是本发明实施例一提供的口罩鲁棒的人脸识别网络的结构示意图;图2是本发明实施例二提供的口罩鲁棒的人脸识别网络训练方法的实现流程图;图3是本发明实施例三提供的口罩鲁棒的人脸识别方法的实现流程图;以及图4是本发明实施例四提供的电子设备的结构示意图。
具体实施方式
[0019]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0020]
以下结合具体实施例对本发明的具体实现进行详细描述:实施例一:图1示出了本发明实施例一提供的口罩鲁棒的人脸识别网络的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:本发明实施例提供的口罩鲁棒的人脸识别网络1包括整图特征提取网络11、与整图特征提取网络连接的特征分割模块12、与特征分割模块分别连接的第一分支网络13和第二分支网络14。其中,整图特征提取网络用于从输入的人脸图像中提取浅层整图特征,特征分割模块用于根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两
部分浅层特征,第一分支网络用于提取上半部浅层特征的上半部高级特征,上半部高级特征用于口罩人脸识别,第二分支网络用于提取下半部浅层特征的下半部高级特征,下半部高级特征用于与上半部高级特征拼接,拼接得到的全特征用于正常人脸识别。从而通过该人脸识别网络即可实现人脸识别任务中正常人脸特征和口罩人脸特征的提取,提高了人脸识别网络对口罩人脸的鲁棒性。其中,第一分支网络和第二分支网络的结构通常相同,正常人脸即未佩戴口罩的人脸。
[0021]
具体地,在特征提取过程中,输入图像会先与预设好的人脸关键点(例如,双眼、鼻子、左右嘴角五个人脸关键点)进行对齐,得到对齐之后的人脸图像,例如为112x112,然后将该图像输入到人脸识别网络中通过提取浅层整图特征,该人脸识别网络通用卷积神经网络,通过整图特征提取网络提取浅层整图特征,然后根据预设的分割点的位置坐标对浅层整图特征进行分割,得到上、下两部分浅层特征,最后这上、下两部分浅层特征分别经过第一分支网络和第二分支网络得到对应的两个高级特征表达。
[0022]
优选地,人脸识别网络为改进后的resnet网络,以通过对resnet网络的改进,得到对口罩人脸鲁棒的人脸识别网络。具体地,在特征提取过程中,将人脸图像输入到改进后的resnet网络,通过前几个区块提取人脸图像的浅层整图特征,可以选择第三个block之前的结构作为整图特征提取网络提取浅层整图特征,然后根据预设的分割关键点的位置坐标对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,最后这两部分特征分别经过相同结构的两个分支网络(第一分支网络和第二分支网络)得到对应的两个高级特征表达,其中,上述的两个分支网络可以选择resnet网络剩下的网络结构。
[0023]
优选地,特征分割模块用于根据人脸图像中鼻子的位置模拟口罩区域的上边界,基于上边界对浅层整图特征进行空间上的分割,以通过检测到的人脸鼻子的位置对整图特征进行分割。
[0024]
在本发明实施例中,人脸识别网络包括整图特征提取网络、特征分割模块、第一分支网络和第二分支网络,整图特征提取网络用于从输入的人脸图像中提取浅层整图特征,特征分割模块用于根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,第一分支网络用于提取上半部浅层特征的上半部高级特征,上半部高级特征用于口罩人脸识别,第二分支网络用于提取下半部浅层特征的下半部高级特征,下半部高级特征用于与上半部高级特征拼接,拼接得到的全特征用于正常人脸识别,从而通过该人脸识别网络即可实现人脸识别任务中正常人脸特征和口罩人脸特征的提取,提高了人脸识别网络的鲁棒性。
[0025]
实施例二:本发明实施例基于实施例一,图2示出了本发明实施例二提供的口罩鲁棒的人脸识别网络训练方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:在步骤s201中,获取训练数据集,训练数据集中包含多张正常人脸图像。
[0026]
在本发明实施例中,可先获取基础数据集,该基础数据集中包含多张正常人脸图像,基础数据集可以为从通用数据集中选取的图像数据,例如,megaface等,在此不作限定。在获取基础数据集之后,对基础数据集中的每个人脸图像进行关键点检测,将检测到的关键点与标准关键点进行对齐,具体地,可经过mtcnn等检测每个人脸图像的人脸关键点,例
如,双眼、鼻子、左右嘴角五个关键点,并与标准关键点对齐裁剪得到最终的人脸图片,所有对齐后的人脸图像形成训练数据集。
[0027]
在步骤s203中,基于训练数据集,使用多损失函数联合训练人脸识别网络,得到训练好的人脸识别网络。
[0028]
在本发明实施例中,通过使用多损失函数联合训练人脸识别网络,从而缓解了人脸识别网络对口罩人脸识别任务的偏向。在使用多损失函数联合训练人脸识别网络之前,优选地,对训练数据集进行口罩人脸图像的数据增广,以通过增广后的训练数据集对人脸识别网络进行训练,从而提高了后续人脸识别的准确度。
[0029]
在使用训练数据集对人脸识别网络进行训练时,两个分支网络分别提取到的高级特征均会被两个损失函数约束更新为更有代表性的特征表达。优选地,第一分支网络和第二分支网络采用的损失函数均为am

softmax函数,以提高网络训练效果。
[0030]
优选地,人脸识别网络的损失函数如下:l
mc
(f
up
,f
down
,w
n
,w
m
)=l
am
(f
up
,w
m
)+ l
am
(f
down
,w
n
),其中,l
mc
(f
up
,f
down
,w
n
,w
m
)表示人脸识别网络的联合损失,l
am
(f
up
,w
m
)表示第一分支网络的损失,l
am
(f
down
,w
n
)表示第二分支网络的损失,f
up
表示分割出的上半部浅层特征,f
down
表示分割出的下半部浅层特征,w
n
、w
m
分别表示第一分支网络和第二分支网络的参数。
[0031]
在测试过程中,由f
up
、f
down
前后拼接而成的full特征(即全特征)通常被用于正常人脸识别,而f
up
形成的hif特征(higher identity

related feature),即上半部高级特征通常被用于口罩人脸识别任务。
[0032]
在本发明实施例中,获取训练数据集,训练数据集中包含多张正常人脸图像,基于训练数据集,使用多损失函数联合训练人脸识别网络,得到训练好的人脸识别网络,从而通过使用多损失函数联合训练人脸识别网络,缓解了人脸识别网络对口罩人脸识别任务的偏向,提高了人脸识别网络对口罩人脸的鲁棒性。
[0033]
实施例三:本发明实施例三基于实施例一,图3示出了本发明实施例三提供的口罩鲁棒的人脸识别方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:在步骤s301中,从输入的人脸图像中提取浅层整图特征。
[0034]
在本发明实施例中,该输入的人脸图像为对齐后的人脸图像。在输入人脸图像之前,可将获取的人脸图像与预设好的人脸关键点(例如,双眼、鼻子、左右嘴角五个人脸关键点)进行对齐,将对齐之后的人脸图像输入到训练好的人脸识别网络中。该训练好的人脸识别网络可采用实施例二描述的方法训练得到。
[0035]
在步骤s302中,根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征。
[0036]
在本发明实施例中,在提取浅层整图特征之后,在空间上根据预设的分割点的位置对浅层整图特征进行分割,得到上半部浅层特征和下半部浅层特征,以进一步提取高级特征。
[0037]
在步骤s303中,若人脸图像为口罩人脸图像,则通过第一分支网络提取上半部浅层特征的上半部高级特征,基于上半部高级特征进行人脸识别。
[0038]
在步骤s304中,若人脸图像为正常人脸图像,则通过第一分支网络和第二分支网
络,分别提取上、下两部分浅层特征的上、下两部分高级特征,基于由上、下两部分高级特征拼接得到的全特征进行人脸识别。
[0039]
在本发明实施例中,从输入的人脸图像中提取浅层整图特征,根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,若人脸图像为口罩人脸图像,则通过第一分支网络提取上半部浅层特征的上半部高级特征,基于上半部高级特征进行人脸识别,若人脸图像为正常人脸图像,则通过第一分支网络和第二分支网络,分别提取上、下两部分浅层特征的上、下两部分高级特征,基于由上、下两部分高级特征拼接得到的全特征进行人脸识别,从而提高了人脸识别网络的鲁棒性。
[0040]
实施例四:本实施例结合实验例对前述实施例做进一步说明。
[0041]
(1)本实验例使用的数据集megaface(miller d, brossard e, seitz s等,megaface: a million faces for recognition at scale[c]//cvpr. 2016)是一个通用的用于开放测试的数据集,其注册集含有超过1百万的噪音图片,其探针集有两个,本实验例选取了其中的facecrub(hong

wei n, stefan w,a data

driven approach to cleaning large face datasets[c]//international conference on image processing(icip). 2014.)作为探针集。
[0042]
lfw(zhang n, deng w,labeled faces in the wild: a database for studying face recognition in unconstrained environments[r]. 2007.)是一个标准的用于测试模型人脸验证性能的数据集,其包含5749人超过13000张非限制环境下的图片。
[0043]
(2)实验描述本实验例的实验和测试均采用pytorch(paszke a, gross s, massa f等,pytorch: an imperative style, high

performance deep learning library[c]//advances in neural information processing systems. 2019)深度学习框架,训练中采用随机梯度下降法进行优化。具体的,训练时每批次对512张图片进行学习,初始学习率设置为0.01,并分别在第5、10、20次遍历学习完全部训练图片之后递减为原来的十分之一,最后将第25轮学习之后的模型作为最终的模型。模型权重归一化损失权重设置为5x10
‑4,训练过程中的动量参数设置为0.9,prelu(he k, zhang x, ren s等,delving deep into rectifiers: surpassing human

level performance on imagenet classification[c]//proceedings of the ieee international conference on computer vision. 2015)作为激活函数接在卷积操作之后。
[0044]
训练数据来自ms1m

v1c(guo y, zhang l, hu y等,ms

celeb

1m: a dataset and benchmark for large

scale face recognition[c]//eccv. springer verlag, 2016),其中目标人脸图片经过mtcnn(zhang k, zhang z, li z等,joint face detection and alignment using multitask cascaded convolutional networks[j]. ieee signal processing letters, 2016)检测得到五个人脸关键点,并与标准关键点对齐裁剪得到112x112最终的人脸图片。本实验例在训练过程中对数据集进行口罩数据增广,利用dlib(king d e,dlib

ml: a machine learning toolkit[j]. journal of machine learning research, 2009)检测人脸中68点关键点,然后依此为图像中的人脸佩戴口罩。所有实验都在1显卡(nvidia 3090)工作站上进行。
[0045]
(3)实验结果本实验例在megaface challenge 1数据集上进行针对开放场景的1:n测试,得到了rank

1(正常人脸的首位命中率)的性能,同时本实验例利用了在训练过程使用的口罩数据增广方式对该数据集进行增广,将探针集内的人脸图片替换为对应口罩人脸图片,注册集中仍然是正常人脸图片,得到rank
‑1‑
occ(口罩人脸的首位命中率)的性能。本实验例选择了与流行的amsoft(wang f, cheng j, liu w等,additive margin softmax for face verification[j]. ieee signal processing letters, 2018),arcface(deng j, guo j, xue n等,arcface: additive angular margin loss for deep face recognition[c]//cvpr. 2019)损失函数训练得到的模型进行对比(对应表1中amsoft,arcface行),同时也对比了在相同损失函数的情况下,使用增广方式进行训练得到的模型的性能(对应表1中baseline_am行)。从图中可以看到,本实验例的模型(对应表1中ours_am行)取得了更好的结果。
[0046]
表1表2本实验例在lfw数据集上进行了完善的1:1测试,并同样对测试集中的人脸图片进行了上述的口罩图片增广,由此得到两组分别在n

n,n

m测试方协议(protocol)下模型的性能,前者表示在测试集中随机选取两张图片构成的1:1配对中,两张图片均是正常人脸图片,而后者则表示配对图片中有一张为增广得到的口罩人脸图片。从表2中可以看到,本实验例的方法在两种测试协议下均取得了最好的效果。表2中far表示误识率。
[0047]
本实验例在megaface测试集上验证了特征空间分割操作以及训练方式的有效性。从表3中可以看到在相同训练集的情况下,使用多损失函数联合的训练方式(对应表3中baseline_ml行)极大的缓解了模型对口罩人脸识别任务的偏向。同时,仅加上特征空间分割操作而不使用多损失函数联合训练(对应表3中ours w/o ml行),模型就能在正常人脸识别和口罩人脸识别任务上取得很好的性能。在联合两者之后,模型(对应表3中ours行)的性
能有了进一步的提高。
[0048]
表3本实验例在通用cpu和gpu上测试了本方法的推理速度,在cpu和gpu上可以分别达到9fps(frames per second,每秒传输帧数)和86fps的速度。
[0049]
实施例五:图4示出了本发明实施例五提供的电子设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
[0050]
本发明实施例的电子设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各方法实施例中的步骤,例如,图2所示的步骤s201至s202,又如,图3所示的步骤s301至s304。或者,处理器40执行计算机程序42时实现上述人脸识别网络的功能。
[0051]
在本发明实施例中,人脸识别网络包括整图特征提取网络、特征分割模块、第一分支网络和第二分支网络,整图特征提取网络用于从输入的人脸图像中提取浅层整图特征,特征分割模块用于根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,第一分支网络用于提取上半部浅层特征的上半部高级特征,上半部高级特征用于口罩人脸识别,第二分支网络用于提取下半部浅层特征的下半部高级特征,下半部高级特征用于与上半部高级特征拼接,拼接得到的全特征用于正常人脸识别,从而通过该人脸识别网络即可实现人脸识别任务中正常人脸特征和口罩人脸特征的提取,提高了人脸识别网络的鲁棒性。
[0052]
实施例六:在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图2所示的步骤s201至s202,又如,图3所示的步骤s301至s304。或者,该计算机程序被处理器执行时实现上述人脸识别网络的功能。
[0053]
在本发明实施例中,人脸识别网络包括整图特征提取网络、特征分割模块、第一分支网络和第二分支网络,整图特征提取网络用于从输入的人脸图像中提取浅层整图特征,特征分割模块用于根据预设的分割点的位置对浅层整图特征进行空间上的分割,得到上、下两部分浅层特征,第一分支网络用于提取上半部浅层特征的上半部高级特征,上半部高级特征用于口罩人脸识别,第二分支网络用于提取下半部浅层特征的下半部高级特征,下半部高级特征用于与上半部高级特征拼接,拼接得到的全特征用于正常人脸识别,从而通过该人脸识别网络即可实现人脸识别任务中正常人脸特征和口罩人脸特征的提取,提高了人脸识别网络的鲁棒性。
[0054]
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何
实体或装置、记录介质,例如,rom/ram、磁盘、光盘、闪存等存储器。
[0055]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1