基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置与流程

文档序号:32343586发布日期:2022-11-26 10:35阅读:38来源:国知局
基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置与流程

1.本发明涉及人脸识别技术领域,具体涉及一种基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置。


背景技术:

2.人脸识别是图像分析与理解最重要的应用之一,所谓人脸识别,就是利用计算机分析人脸视频或者图像,并从中提取出有效的识别信息,最终判别人脸对象的身份。人脸识别的研究可以追溯到20世纪60年代末期,主要的思路是设计特征提取器,再利用机器学习的算法进行分类。2012年深度学习引入人脸识别领域后,特征提取转由神经网络完成,随着深度卷积神经网络和大规模数据集的发展,基于深度学习的人脸识别应运而生识别技术已经取得了显著的进展,并在实际应用中得到了广泛的应用。
3.整个人脸识别系统一般由三个关键要素构成:人脸检测、人脸预处理、人脸表征。人脸检测定位图像或视频帧中的人脸。然后,人脸预处理是进行人脸标定到一个规范的视角并将他们裁剪到一个标准化像素大小。最后,在人脸表征阶段,从预处理后的图像中提取具有鉴别性的特征用于识别。具体的,人脸识别系统通常分为三个模块:人脸检测模块,人脸配准模块与人脸识别模块。人脸检测模块完成目标识别任务,从给定图片中识别出人脸,返回对应的人脸框坐标与人脸图片,人脸配准模块的输入信息为人脸检测模块输出的人脸图片和人脸坐标框,输出的信息为五官的关键点坐标序列,通过人脸关键点坐标序列,对人脸图片进行对齐,人脸识别模块的输入信息为对齐后的人脸图片,输出对应的人脸特征向量。通过比较两张人脸图片对应的特征向量间的相似度来判断人脸身份信息。
4.现有的人脸识别方法,已经取得了较好的识别准确率,但多数网络模型还较为复杂,训练代价较高,且识别速率还有待提升。


技术实现要素:

5.为解决上述技术背景中涉及的问题,本发明提供了一种基于深度可分离卷积与加性角度间隔损失的人脸识别方法及装置,通过深度可分离卷积神经网络同时完成人脸检测与人脸配准任务,采用加性角度间隔损失提升模型的鲁棒性,不仅降低了训练代价,而且因为其轻量级的网络结构,识别速度也可以达到工业应用的要求。
6.本发明的具体技术方案为:一种基于深度可分离卷积与加性角度间隔损失的人脸识别方法,包括以下步骤:s1.从公开的人脸数据集中抽取原始图像组成训练数据集,再对所述原始图像进行预处理得到灰度图像,所述原始图像包括包含人脸信息的图片与对应的人脸位置标注信息;s2.构建深度可分离卷积神经网络模块i,提取步骤s1内的灰度图像的多尺度区域特征;
s3. 构建特征金字塔ii,进行特征融合;s4. 利用步骤s3得到的融合特征,构建卷积神经网络模块iii加强感受野,完成特征提取,得到人脸先验框分类预测结果、人脸框回归预测结果及人脸五官的关键点坐标序列预测结果;s5:根据人脸关键点坐标,比对标准人脸五点关键点坐标,计算仿射变换矩阵,对人脸框进行人脸矫正;s6:构建采用加性角度间隔损失函数的卷积神经网络模块iv,训练网络模型,提取人脸特征向量;s7:将两张给定包含待识别人脸图片分别输入训练好的卷积神经网络模型中,分别得到两张图片所包含人脸的特征向量,计算特征向量间的相似度,比对识别阈值,匹配人脸身份信息。
7.进一步地,所述步骤s2中,所述深度可分离卷积神经网络模块i包括两个主要网络模块,归一化模块i-i和深度可分离卷积模块i-ii;所述深度可分离卷积神经网络模块i的输入为归一化模块i-i的输入,所述归一化模块的输出为所述深度可分离卷积模块i-ii的输入,所述深度可分离卷积模块i-ii的输出为所述深度可分离卷积神经网络i的输出;所述归一化模块i-i首先对深度可分离卷积神经网络i的输入通过零填充层i-i-i,将零填充层i-i-i的输出结果输入到卷积核尺寸为2
×
2的卷积层i-i-ii进行卷积,将卷积层i-i-ii的输出结果输入到批量归一化层i-i-iii,将批量归一化层的输出结果输入到relu层,将relu层的输出结果输入到通道数为16的深度可分离卷积单位i-i-iv,深度可分离卷积单位i-i-iv的输出即为归一化模块i-i的输出;深度可分离卷积模块i-ii由4个深度可分离卷积子模块构成,分别为通道数为32的深度可分离卷积子模块i-ii-i,通道数为64的深度可分离卷积子模块i-ii-ii,通道数为128的深度可分离卷积子模块i-ii-iii,通道数为256的深度可分离卷积子模块i-ii-iv,前一个子模块的输出即为后一个子模块的输入,其中通道数为32的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位,通道数为64的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位,通道数为128的深度可分离卷积子模块i-ii-i包含6个深度可分离卷积单位,通道数为256的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位,深度可分离卷积子模块i-ii-ii的输出c1,深度可分离卷积子模块i-ii-iii的输出c2,深度可分离卷积子模块i-ii-iv的输出c3即为深度可分离卷积神经网络i的网络输出;所述深度可分离卷积单位i-i-iv、深度可分离卷积子模块i-ii-i、所述深度可分离卷积子模块i-ii-ii、所述深度可分离卷积子模块i-ii-iii、所述深度可分离卷积子模块i-ii-iv由若干深度可分离卷积单位i-iii组成,所述深度可分离卷积单位i-iii将输入通过一个卷积核尺寸为3
×
3的卷积层i-iii-i,将卷积层i-iii-i的输出结果输入到批量归一化层i-iii-ii,将批量归一化层i-iii-ii的结果输入到relu层i-iii-iii,将relu层i-iii-iii的输出结果输入到卷积核尺寸为1
×
1的卷积层i-iii-iv,将卷积层i-iii-iv的输出结果输入到批量归一化层i-iii-v,最后将批量归一化层i-iii-v的输出结果输入到relu层i-iii-vi,relu层的输出结果作为深度可分离卷积单位i-iii的输出结果。
8.进一步地,所述步骤s3中,将c1,c2,c3分别输入卷积核尺寸为1
×
1,通道数为64的卷积层ii-i,输出d1,d2,d3,其中d3为特征金字塔ii的输出之一p3,将p3与d2相加,输入到卷积层ii-ii,输出融合特征得到特征金字塔ii的输出之一p2,将p2与d1相加,输入到卷积层
ii-iii,输出融合特征得到特征金字塔ii的输出之一p1。
9.进一步地,所述步骤s4中,利用步骤s3得到的融合特征p1,p2,p3,构建卷积神经网络模块iii加强感受野,将p1,p2,p3分别输入卷积核尺寸为3
×
3的卷积层iii-i,将卷积层iii-i的输出结果输入到卷积核尺寸为3
×
3的卷积层iii-ii,将卷积层iii-ii的输出结果输入到卷积核尺寸为3
×
3的卷积层iii-iii,卷积层iii-iii的输出结果s1,s2,s3做为卷积神经网络模块iii的输出结果,s1为人脸先验框分类预测结果,s2为人脸框回归预测结果,s3为人脸五官的关键点坐标序列预测结果。
10.进一步地,所述步骤s5中,根据人脸关键点坐标,比对标准人脸五点关键点坐标,计算仿射变换矩阵,对人脸框进行人脸矫正;人脸关键点坐标为人脸图片尺寸为112
×
112时的坐标值,其坐标值矩阵为m1,图片尺寸为112
×
112时的人脸五点关键点标准坐标值矩阵为m2,计算得到人脸图像应旋转的角度为,对应的仿射变化矩阵m
x,
其中:,。
11.进一步地,所述步骤s6中,构建采用加性角度间隔损失函数的卷积神经网络模块iv,提取人脸特征向量;卷积神经网络模块iv由通过端到端的方法训练整个卷积神经网络模型;其中卷积神经网络模块iv的主干网络为resnet50,所采用的损失函数为加性角度间隔损失函数:其中,为间隔函数:为间隔函数:为真值标签,为特征向量与第个特征权重向量之间的角度,m为取值区间为的间隔值,本方法取,s为调整范围的超参数,本方法取。
12.进一步地,所述步骤s7中,将两张给定包含待识别人脸图片分别输入训练好的卷积神经网络模型中,分别得到两张图片所包含人脸的特征向量,计算特征向量间的相似度,比对识别阈值,匹配人脸身份信息;其中相似度为两向量间的余弦相似度:其中分别为待比较的两张人脸图片通过卷积神经网络模块iv输出的512维特征向量,表示向量点乘运算,表示x向量的长度。
13.进一步地,所述卷积神经网络模型包括深度可分离卷积神经网络模块i、特征金字塔ii、卷积神经网络模块iii、卷积神经网络模块iv。
14.一种基于深度可分离卷积与加性角度间隔损失的人脸识别的装置,包括包括图像获取单元、人脸区域学习单元、特征融合单元、特征提取单元、人脸矫正单元、人脸特征学习单元、特征相似度计算单元;所述图像获取单元,用于从数据集中抽取模型训练所需要的大量原始图像组成训练数据集,并对原始图像对进行预处理,得到灰度图像;所述人脸区域学习单元,包括深度可分离卷积神经网络模块i,采用深度可分离卷积单位来学习图片中的人脸框位置信息与人脸特征点位置信息;所述特征融合单元,包括特征金字塔模块ii,用于对人脸区域学习单元的三个输出进行特征融合,进一步强化学习效果;所述特征提取单元,包括卷积神经网络模块iii,对特征融合单元的结果进行特征提取,加强感受野,输出得到最终的人脸分类预测结果,人脸框回归预测结果,人脸五点特征点回归预测结果;所述人脸矫正单元,根据标准人脸特征点序列与特征提取单元得到的人脸特征点回归预测结果计算相应的仿射变换矩阵,根据该矩阵对人脸图片进行矫正;所述人脸特征学习单元,包括卷积神经网络模块iv,使用resnet50做为主干网络,加性角度间隔损失做为损失函数,训练并提取人脸图片所包含的特征,最终输出表征人脸特征的512维特征向量;所属特征相似度计算单元,通过计算两个由人脸特征学习单元输出的人脸特征向量间的余弦相似度,匹配人脸身份信息。
15.与现有技术相比,本发明具有以下有益效果:本发明提供的基于深度可分离卷积与加性角度间隔损失的人脸识别方法和装置,通过深度可分离卷积神经网络同时完成图像中的人脸检测与人脸配准,相对于以往的模型网络结构复杂、训练代价高的问题,本发明展现出了更轻量级的网络结构;采用加性角度间隔损失,显著提高了模型的表达能力与鲁棒性。
附图说明
16.图1为本发明方法的实施流程示意图;图2为深度可分离卷积神经网络模块i的结构示意图;图3为深度可分离卷积单位i-iii的结构示意图;图4为特征金字塔ii的结构示意图;图5为卷积神经网络模块iii的结构示意图;图6为整个人脸识别系统的流程示意图。
具体实施方式
17.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
18.如图1所示为一种基于深度可分离卷积与加性角度间隔损失的人脸识别方法的流程示意图,该方法包括如下步骤:s1:从公开的人脸数据集中抽取的原始图像组成训练数据集,再对原始图像进行预处理得到灰度图像,原始图像包括包含人脸信息的图片与对于的人脸位置标注信息。
19.为了使模型拥有较好的泛化能力,原始人脸检测数据集选用包含多场景下的人脸公开数据集wider face,原始人脸识别数据集选用大规模公开数据集glint360k,从数据集中均匀地抽取数据,分别组成人脸检测训练数据集与人脸识别训练数据集。
20.s2:构建深度可分离卷积神经网络模块i提取灰度图像的多尺度区域特征。
21.如图2所示,采用深度可分离卷积神经网络模块i提取灰度图像的多尺度区域特征,深度可分离卷积神经网络模块i包括两个主要网络模块,分别为归一化模块i-i,深度可分离卷积模块i-ii。其中,深度可分离卷积神经网络模块i的输入做为归一化模块i-i的输入,归一化模块的输出做为深度可分离卷积模块i-ii的输入,深度可分离卷积模块i-ii的输出即为深度可分离卷积神经网络i的输出。
22.其中,归一化模块i-i首先对深度可分离卷积神经网络i的输入通过零填充层i-i-i,将零填充层i-i-i的输出结果输入到卷积核尺寸为2
×
2的卷积层i-i-ii进行卷积,将卷积层i-i-ii的输出结果输入到批量归一化层i-i-iii,将批量归一化层的输出结果输入到relu层,将relu层的输出结果输入到通道数为16的深度可分离卷积单位i-i-iv,深度可分离卷积单位i-i-iv的输出即为归一化模块i-i的输出。深度可分离卷积模块i-ii由4个深度可分离卷积子模块构成,分别为通道数为32的深度可分离卷积子模块i-ii-i,通道数为64的深度可分离卷积子模块i-ii-ii,通道数为128的深度可分离卷积子模块i-ii-iii,通道数为256的深度可分离卷积子模块i-ii-iv。前一个子模块的输出即为后一个子模块的输入。其中通道数为32的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位,通道数为64的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位,通道数为128的深度可分离卷积子模块i-ii-i包含6个深度可分离卷积单位,通道数为256的深度可分离卷积子模块i-ii-i包含2个深度可分离卷积单位。深度可分离卷积子模块i-ii-ii的输出c1,i-ii-iii的输出c2,i-ii-iv的输出c3即为深度可分离卷积神经网络i的网络输出。
23.深度可分离卷积单位i-i-iv、深度可分离卷积子模块i-ii-i、深度可分离卷积子模块i-ii-ii、深度可分离卷积子模块i-ii-iii、深度可分离卷积子模块i-ii-iv由若干深度可分离卷积单位i-iii组成,每个深度可分离卷积单位i-iii将输入通过一个卷积核尺寸为3
×
3的卷积层i-iii-i,将卷积层i-iii-i的输出结果输入到批量归一化层i-iii-ii,将批量归一化层i-iii-ii的结果输入到relu层i-iii-iii,将relu层i-iii-iii的输出结果输入到卷积核尺寸为1
×
1的卷积层i-iii-iv,将卷积层i-iii-iv的输出结果输入到批量归一化层i-iii-v,最后将批量归一化层i-iii-v的输出结果输入到relu层i-iii-vi,relu层的输出结果作为深度可分离卷积单位i-iii的输出结果。深度可分离卷积单位i-iii的具体网络结构如图3所示。
24.由于深度可分离卷积神经网络i存在多个输出,属于多任务学习的范畴,对于每一个训练anchor i,我们最小化多任务损失l:其中:
1)为人脸分类损失,表示预测i为人脸的概率,表示真值概率,该分类任务为二分类(i是人脸或不是人脸),正样本anchor为1,负样本anchor为0,是softmax损失;2)为人脸框回归损失,其中,分别表示与正样本anchor对应的预测框的位置与真实标注框的位置。
25.3)为人脸关键点回归函数,,分别表示正样本人脸anchor五点关键点预测值与真值。
26.4) 为密集回归损失函数。
27.5) 的值分别取0.25,0.1,0.01s3:构建特征金字塔ii,进行特征融合;如图4所示,构建特征金字塔ii,进行特征融合。首先对深度可分离卷积神经网络i的输出c1,c2,c3,首先将c1,c2,c3分别输入卷积核尺寸为1
×
1,通道数为64的卷积神经网络ii-i,输出d1,d2,d3,其中d3为特征金字塔ii的输出之一p3,将p3与d2相加,输入到卷积层ii-ii,输出融合特征得到特征金字塔ii的输出之一p2,将p2与d1相加,输入到卷积层ii-iii,输出融合特征得到特征金字塔ii的输出之一p1。
28.其中卷积神经网络ii-i的作用为调整通道数一致,便于进行特征图相加,完成特征融合。
29.s4:利用步骤s3得到的融合特征,构建卷积神经网络模块iii加强感受野,完成特征提取,得到人脸先验框分类预测结果、人脸框回归预测结果及人脸五官的关键点坐标序列预测结果;如图5所示,利用步骤s3得到的融合特征p1,p2,p3,构建卷积神经网络模块iii加强感受野,将p1,p2,p3分别输入卷积核尺寸为3
×
3的卷积层iii-i,将卷积层iii-i的输出结果输入到卷积核尺寸为3
×
3的卷积层iii-ii,将卷积层iii-ii的输出结果输入到卷积核尺寸为3
×
3的卷积层iii-iii,卷积层iii-iii的输出结果s1,s2,s3做为卷积神经网络模块iii的输出结果,s1为人脸先验框分类预测结果,s2为人脸框回归预测结果,s3为人脸五官的关键点坐标序列预测结果。
30.s5:根据人脸关键点坐标,比对标准人脸五点关键点坐标,计算仿射变换矩阵,对人脸框进行人脸矫正;具体的,所述步骤s05中,根据人脸关键点坐标,比对标准人脸五点关键点坐标,计算仿射变换矩阵,对人脸框进行人脸矫正。其中,人脸关键点坐标为人脸图片尺寸为112
×
112时的坐标值,其坐标值矩阵为m1,图片尺寸为112
×
112时的人脸五点关键点标准坐标值矩阵为m2,计算得到人脸图像应旋转的角度为,对应的仿射变化矩阵m
x,
其中:
, s6:构建采用加性角度间隔损失函数的卷积神经网络模块iv,训练网络模型,提取人脸特征向量;构建采用加性角度间隔损失函数的卷积神经网络模块iv,提取人脸特征向量;卷积神经网络模块iv由通过端到端的方法训练整个卷积神经网络模型。其中卷积神经网络模块iv的主干网络为resnet50,所采用的损失函数为加性角度间隔损失函数:其中,为间隔函数:为间隔函数:为真值标签,为特征向量与第个特征权重向量之间的角度,m为取值区间为的间隔值,本方法取,s为调整范围的超参数,本方法取。
31.s7:将两张给定包含待识别人脸图片分别输入训练好的卷积神经网络模型中,分别得到两张图片所包含人脸的特征向量,计算特征向量间的相似度,比对识别阈值,匹配人脸身份信息;将两张给定包含待识别人脸图片分别输入训练好的卷积神经网络模型中,分别得到两张图片所包含人脸的特征向量,计算特征向量间的相似度,比对识别阈值,匹配人脸身份信息;其中相似度为两向量间的余弦相似度:其中分别为待比较的两张人脸图片通过卷积神经网络模块iv输出的512维特征向量,表示向量点乘运算,表示x向量的长度。
32.其中,卷积神经网络模型包括深度可分离卷积神经网络模块i、特征金字塔ii、卷积神经网络模块iii、卷积神经网络模块iv。
33.本发明方法整体流程图如图6所示,可以完全通过计算机实现,无需人工辅助处理;这表明,本技术可以实现批量化自动处理,能够大大提高处理效率、降低人工成本。
34.一种用于实现上述方法的装置,包括图像获取单元、人脸区域学习单元、特征融合单元、特征提取单元、人脸矫正单元、人脸特征学习单元、特征相似度计算单元;所述图像获取单元,用于从数据集中抽取模型训练所需要的大量原始图像组成训练数据集,并对原始图像对进行预处理,得到灰度图像;所述人脸区域学习单元,包括深度可分离卷积神经网络
模块i,采用深度可分离卷积单位来学习图片中的人脸框位置信息与人脸特征点位置信息;所述特征融合单元,包括特征金字塔模块ii,用于对人脸区域学习单元的三个输出进行特征融合,进一步强化学习效果;所述特征提取单元,包括卷积神经网络模块iii,对特征融合单元的结果进行特征提取,加强感受野,输出得到最终的人脸分类预测结果,人脸框回归预测结果,人脸五点特征点回归预测结果;所述人脸矫正单元,根据标准人脸特征点序列与特征提取单元得到的人脸特征点回归预测结果计算相应的仿射变换矩阵,根据该矩阵对人脸图片进行矫正;所述人脸特征学习单元,包括卷积神经网络模块iv,使用resnet50做为主干网络,加性角度间隔损失做为损失函数,训练并提取人脸图片所包含的特征,最终输出表征人脸特征的512维特征向量;所属特征相似度计算单元,通过计算两个由人脸特征学习单元输出的人脸特征向量间的余弦相似度,匹配人脸身份信息。
35.使用本系统时,将图片1通过s1、s2、s3、s4、s5、s6得到图片1中所包含的人脸对应的特征向量1,然后图片2通过s1、s2、s3、s4、s5、s6得到图片2中所包含的人脸对应的特征向量2,此时得到两个要比较的特征向量,接下来进行s7,计算一下两个向量间的余弦相似度(范围[0,1]),对比一下阈值(阈值根据实际生产中的经验与要求设定,比如设为0.6),如果计算出的余弦相似度大于阈值那么图片1和图片2中的人脸是同一个人的,否则认为不是同一个人的。
[0036]
此外,s1中提到的图片数据集只用于训练模型,训练完成后,在实际使用系统的时候,系统内只包含训练好的模型,是没有图片的。使用系统时,只需输入两张图片,然后系统输出判断结果(是同一个人 或 不是同一个人)。
[0037]
以上是示意性的对本发明及其实施方式进行了描述,该描述没有限制性。附图中所展示的也只是本发明的实施方式之一,实际的结构并不限于此。所以如果本技术领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1