一种替换调节参数的尺度参数自适应的人脸识别方法

文档序号:26538238发布日期:2021-09-07 20:37阅读:288来源:国知局
一种替换调节参数的尺度参数自适应的人脸识别方法

1.本发明涉及一种人脸识别方法,特别涉及一种替换调节参数的尺度参数自适应的人脸识别方法。


背景技术:

2.目前,人脸识别是图像分析与理解的重要应用之一,是计算机视觉领域研究最广泛和深入的技术之一。市场化后的人脸识别技术能够很好的与人本位的人因工程理念结合起来。人因工程主张以人为本,把人的需求和能力摆在首要地位,不仅实现了通过管理培训使人适应机器,也实现了机器的各种构造和使用操作贴合人。人脸识别技术在诸如市场人员识别管理,天眼追踪疑犯等方面不仅达到了较高的精度,而且在满足人的需求方面,如日常娱乐,人脸遮挡识别等更高要求上也达到了很好的效果,并且不断简化使用操作,优化使用界面,更加贴合人的习惯和审美。
3.近年来,随着深度卷积神经网络的不断发展,人脸识别的性能也实现了不断突破。
4.卷积神经网络在人脸识别中的成功主要取决于三个因素:大量的训练数据、优异的网络结构和有效的损失函数。casia webface、ms1m、megaface、ms

celeb

1m和vggface2等包含有大量身份信息的人脸数据集,能够很好地训练现在的深度卷积神经网络。deepface、vggface、facenet和arcface等研究中涉及到的网络结构的设计和改进,在经过大量消融实验后证实了设计行之有效的网络架构也能提高人脸识别性能。作为三大因素的最后一点,设计有效的损失函数,提高惩罚能力从而增强特征的类内紧凑性和类间差异性,对于提高人脸识别准确率也是至关重要的。
5.通常来说,人脸识别分为两类任务:1)1:1人脸验证:确定两张人脸图像是否同时属于一个身份;2)1:n人脸识别:将给定的人脸图像与已知的身份库进行匹配,并赋予相匹配的身份。人脸识别有两种测试协议:开放集协议和封闭集协议。在开放集协议下,测试集中的测试类别通常与训练集中所使用的类别不同。而在封闭集中,测试图像与训练图像类别相同。但与一般的图像分类任务不同,人脸识别本质上是开放集识别问题。在真实环境下,收集所有类别进行训练显然是不可能的,开放集协议更贴近现实,也更具挑战性。为了应对这一挑战,现有的研究基本上都是将深度卷积神经网络当作特征提取器,利用主干cnn提取人脸图像中的特征,然后采用度量(欧几里得距离或者余弦相似度)的方式来比较人脸对之间的相似性以进行人脸识别。
6.目前最新的人脸识别方法主要采用基于softmax损失的分类方法。但是在开放集协议下的人脸识别中,测试类别通常与训练集中的不同,使用原始softmax学习到的特征缺乏足够的鉴别能力,难以很好的解决实际场景下的人脸识别问题。为了缓解训练与测试之间的差距,margin

bsaed的思想被引入基于深度学习的人脸识别框架中,使用了尺度参数和边界裕度参数后的softmax变体显著的增强特征的鉴别能力。例如sphereface、cosface、arcface补充了原有的softmax函数,以增强类内紧密性和类间差异性,从而产生更具有区分性的特征。然而,基于余弦的softmax损失的训练性能在很大程度上依赖于超参数的人为
设置,超参数的设置是在部分先验知识以及大量实验下凭经验和感觉确定下来的,超参数的细微的变化也可能引起整个训练过程的退化或者失败。
7.最近的一些研究涉及到了超参数的自适应学习,adacos对比了尺度参数与边界裕度参数的作用,并自适应学习尺度参数提高人脸识别准确率;adapativeface给batch中的每个样本自适应学习一个边界裕度参数以平衡样本间的不平衡问题,然而,这些自适应学习的损失函数并没有根据样本的重要性明确强调每个样本。curricularface采用了mining

based的思想,在训练过程中自适应的调整容易样本与困难样本之间的相对重要性,但引入了新的超参数调节参数。
8.因此,现有的方法中仍然存在以下的缺点:
9.首先,单纯的margin

based损失方法只关注样本正类,完全放弃挖掘样本负类中可能存在的信息,通过引入尺度参数和边界裕度参数来提高特征鉴别能力,从而提高人脸识别准确性。
10.其次,单纯的mining

based损失方法通常应用于目标检测领域中,相较而言很少使用在人脸识别领域。
11.最后,将margin

based和mining

based思想结合起来的方法,诸如curricularface,虽然同时利用了样本正类和负类中的信息,但是引入了新的超参数调节参数,容易导致因为超参数的细微波动而造成的训练过程的退化或者失败问题。


技术实现要素:

12.本发明为解决公知技术中存在的技术问题而提供一种替换调节参数的尺度参数自适应的人脸识别方法。
13.本发明为解决公知技术中存在的技术问题所采取的技术方案是:一种替换调节参数的尺度参数自适应的人脸识别方法,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin

based损失函数;构建用于优化调节参数的mining

based损失函数。
14.进一步地,设s为尺度参数;设m为边界裕度参数;设t为调节参数;将margin

based损失函数与mining

based损失函数结合构建综合损失函数,设l为综合损失函数,则l的计算方法如下:
[0015][0016][0017]
[0018][0019]
式中:
[0020]
r为迭代的次数;
[0021]
为第r次迭代过程中数量为n的小批量样本中所有样本负类的logits和的平均值;
[0022]
为第r次迭代过程中数量为n的小批量样本中总样本中间的样本距离真值的角度大小;
[0023]
k为总类别数量;
[0024]
n为每次迭代输入到模型中的小批次样本数量;
[0025]
γ
(r)
为当前迭代回合中样本中所有正值的平均值;
[0026]
α为动量参数;
[0027]
t
(r)
为第r次迭代过程中数量为n的小批量样本所自适应学习到的调节参数;
[0028]
为第r次迭代过程中数量为n的小批量样本所自适应学习到的尺度参数;
[0029]
θ
j
为数量为n的小批量样本中负类样本的特征和对应类权重的夹角角度;
[0030]
为大小为n的小批量样本中正类样本的特征和对应类权重的夹角角度;
[0031]
n(t,cosθ
j
)为调节样本负类余弦相似度的函数。
[0032]
进一步地,基于resnet神经网络并引入注意力机制建立人脸识别模型。
[0033]
进一步地,人脸识别模型包括主干神经网络、残差神经网络、第一batchnorm模块、第二batchnorm模块及dropout模块;将图像数据输入至主干神经网络,主干神经网络输出的特征依次经过第一batchnorm模块、dropout模块后接入全连接层,由全连接层输出初始特征;初始特征再经过第二batchnorm模块后,输入至残差神经网络中,残差神经网络输出残差特征;将残差特征和初始特征相加,得到人脸识别模型的输出特征。
[0034]
进一步地,dropout模块中,隐含层节点的输出比例为50%~60%。
[0035]
进一步地,主干神经网络依次包括1个卷积层及第一至第四模块组;第一模块组包括a个64通道的模块;第二模块组包括b个128通道的模块;第三模块组包括c个256通道的模块;第四模块组包括d个512通道的模块;每一个模块组中的第一个模块为注意力模块。
[0036]
进一步地,u为1~5,a为1~4,b为4~8,c为8~16,d为1~5。
[0037]
进一步地,残差神经网络依次包括两个激活函数为relu的全连接层。
[0038]
进一步地,残差神经网络依次包括第三batchnorm模块、leaky_relu激活函数模块、卷积层及注意力模块。
[0039]
进一步地,训练样本包括由arcface清洗挑选过后的faces_emore数据集,其中用于训练的每张图片都根据mtcnn方法裁剪成112*112大小的脸部图片;验证数据集包括lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp。
[0040]
本发明具有的优点和积极效果是:本发明将margin

based的思想和mining

based的思想结合起来,不仅能利用样本中正类中的信息,而且能利用样本负类中可能存在的有用信息。在减少超参数引入,即使用尺度参数替代调节参数的情况下,实现自适应的调整训练过程中简单样本与困难样本的相对重要性,并且能自动加强训练监督强度的基于余弦的softmax损失方法,从而提高人脸识别准确率。
[0041]
其包括如下几个方面的优点:
[0042]
1)将margin

based思想和mining

based思想有机结合起来,并统一于基于深度学习的人脸识别框架下,充分的利用了样本中正类的信息和负类中可能存在的信息。
[0043]
2)自适应学习超参数,削弱了人为设置超参数的不准确性,减少了训练中需要用到的训练技巧,降低了需要花费的时间成本。
[0044]
3)减少了超参数的个数,在一定程度上防止了由于超参数波动而引起的训练过程中的退化或者失败。
[0045]
4)在训练过程中能自适应的调整简单样本与困难样本的相对重要性,并能自动加强训练监督强度,提高了人脸识别的准确率并缩短了模型的收敛时间。
附图说明
[0046]
图1为本发明的一种工作原理图。
[0047]
图2为本发明的一种人脸识别模型结构示意图。
[0048]
图中:2*64@56*56指的是重复2次56*56长和宽的64通道的模块,其他以此类推。
[0049]
图3为残差网络采用l_resnet_ir,图2中不重复的模块如64@56*56的工作流程示意图。
[0050]
图4为残差网络采用l_resnet_ir,图2中重复的模块如2*64@56*56的工作流程示意图。
[0051]
图5为残差网络采用modifiedresnet,图2中不重复的模块如64@56*56的工作流程示意图。
[0052]
图6为残差网络采用modifiedresnet,图2中重复的模块如2*64@56*56的工作流程示意图。
[0053]
图7为注意力模块pasa工作流程示意图。
[0054]
图8为图像经过l_resnet_ir主干深度卷积神经网络后的全连接结构示意图。
[0055]
图9为图像经过modifiedresnet主干深度卷积神经网络后的全连接结构示意图。
具体实施方式
[0056]
为能进一步了解本发明的发明内容、特点及功效,兹列举以下实施例,并配合附图详细说明如下:
[0057]
本发明中部分英文及英文缩写的中文释义如下:
[0058]
softmax损失函数:一种用于多分类的损失函数,常与交叉熵搭配起来,是目前应用最广泛的分类损失函数。其作用在于放大分类后的概率,使大的分类概率变得更大,更具有可区分性。
[0059]
margin

based损失函数:基于边界的损失函数。在权重归一化和特征归一化,使偏执项为0后,在softmax损失函数的基础上,通过引入尺度参数和边界裕度参数形成的变种,使得损失函数具有更高的惩罚能力,从而提高人脸识别准确率。
[0060]
mining

based损失函数:基于挖掘的损失函数。
[0061]
batchnorm模块:batchnorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布,是加快神经网络训练,加速收敛速度及提高稳定性的不可或缺的算
法。
[0062]
logits:指的是样本特征与对应类的权重之间的角度大小的余弦相似度,乘以尺度参数后,作为自然常数的指数后的值。
[0063]
dropout模块:dropout能在前向传播的时候,让某个神经元的激活值以一定的概率停止工作,使模型泛化性更强。可以比较有效的缓解模型参数过多,而训练样本过少造成的过拟合现象,在一定程度上达到正则化的效果。
[0064]
casia webface:人脸数据集。该数据集是从imbb网站上搜集来的,含10k个人的500k张图片。同时做了相似度聚类来去掉一部分噪声。
[0065]
ms1m:arcface作者清洗后的的ms

celeb

1m人脸数据集。包含85k人的共5.8m图片。
[0066]
megaface:人脸数据集。包含672k人的4.7m张图片,做过一些清洗,不过依然有噪声,不同人的图片可能混到了一起。
[0067]
ms

celeb

1m:人脸数据集。包含100k人的共100m图片,来自搜索引擎。这个数据集非常大,没有清洗过,噪声很大。
[0068]
vggface2:大规模人脸识别数据,包含331万图片,9131个id,平均图片个数为362.6。
[0069]
mtcnn方法:将人脸检测和特征点检测结合起来,用于对齐和裁剪人脸的算法。
[0070]
faces_emore数据集:arcface作者完成实验用到的完整数据集,包括训练集和数个不同特点的验证集。
[0071]
resnet:一种结合残差结构的深度卷积神经网络,解决了由于网络层数过多而造成的梯度弥散问题。
[0072]
l_resnet_ir:arcface作者进行修改后的resnet变种,具有较好的表现能力。
[0073]
modifiedresnet:指本发明提出的一种改进的resnet神经网络结构,其根据数据集的特点提出的resnet变种结构,在一定程度上加快了模型收敛速度。
[0074]
pasa模块:本发明提出的一种运用注意力机制的注意力模块,可以提高人脸识别准确率和减少计算资源。
[0075]
leaky_relu:一种激活函数。正值保持原样,relu是将所有的负值都设为零,相反,leaky_relu是给所有负值赋予一个非零斜率。
[0076]
请参见图1至图9,一种替换调节参数的尺度参数自适应的人脸识别方法,建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin

based损失函数;构建用于优化调节参数的mining

based损失函数。
[0077]
进一步地,可设s为尺度参数;可设m为边界裕度参数;可设t为调节参数;可将margin

based损失函数与mining

based损失函数结合构建综合损失函数,可设l为综合损失函数,则l的计算方法可如下:
[0078]
[0079][0080][0081][0082]
式中:
[0083]
r为迭代的次数;
[0084]
为第r次迭代过程中数量为n的小批量样本中所有样本负类的logits和的平均值;
[0085]
为第r次迭代过程中数量为n的小批量样本中总样本中间的样本距离真值的角度大小;
[0086]
k为总类别数量;
[0087]
n为每次迭代输入到模型中的小批次样本数量;
[0088]
γ
(r)
为当前迭代回合中样本中所有正值的平均值;
[0089]
α为动量参数;
[0090]
t
(r)
为第r次迭代过程中数量为n的小批量样本所自适应学习到的调节参数;
[0091]
为第r次迭代过程中数量为n的小批量样本所自适应学习到的尺度参数;
[0092]
θ
j
为数量为n的小批量样本中负类样本的特征和对应类权重的夹角角度;
[0093]
为大小为n的小批量样本中正类样本的特征和对应类权重的夹角角度;
[0094]
n(t,cos θ
j
)为调节样本负类余弦相似度的函数。
[0095]
进一步地,可基于resnet神经网络并引入注意力机制建立人脸识别模型。
[0096]
进一步地,人脸识别模型可包括主干神经网络、残差神经网络、第一batchnorm模块、第二batchnorm模块及dropout模块;将图像数据输入至主干神经网络,主干神经网络输出的特征可依次经过第一batchnorm模块、dropout模块后接入全连接层,由全连接层输出初始特征;初始特征可再经过第二batchnorm模块后,输入至残差神经网络中,残差神经网络输出残差特征;可将残差特征和初始特征相加,得到人脸识别模型的输出特征。
[0097]
进一步地,dropout模块中,隐含层节点的输出比例可为50%~60%。
[0098]
进一步地,主干神经网络可依次包括1个卷积层及第一至第四模块组;第一模块组可包括a个64通道的模块;第二模块组可包括b个128通道的模块;第三模块组可包括c个256通道的模块;第四模块组可包括d个512通道的模块;每一个模块组中的第一个模块可为注意力模块。
[0099]
进一步地,u可为1~5,a可为1~4,b可为4~8,c可为8~16,d可为1~5。
[0100]
进一步地,残差神经网络可依次包括两个激活函数为relu的全连接层。
[0101]
进一步地,残差神经网络可依次包括第三batchnorm模块、leaky_relu激活函数模块、卷积层及注意力模块。
[0102]
进一步地,训练样本可包括由arcface清洗挑选过后的faces_emore数据集,其中
用于训练的每张图片都根据mtcnn方法裁剪成112*112大小的脸部图片;验证数据集可包括lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp。lfw、calfw、cplfw、agedb_30、cfp_ff、cfp_fp、vgg2_fp为现有技术中的数据集名称。
[0103]
下面根据本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理:
[0104]
一种替换调节参数的尺度参数自适应的人脸识别方法,该方法建立基于神经网络的人脸识别模型,在softmax损失函数的基础上,经过特征归一化,权重归一化,使偏置项为0,同时引入了尺度参数、边界裕度参数和用于提取样本负类中信息的调节参数,构建用于优化尺度参数和边界裕度参数的margin

based损失函数;构建用于优化调节参数的mining

based损失函数。
[0105]
本发明的一种建立基于神经网络的人脸识别模型优选方法包括如下几个步骤:
[0106]
步骤一,训练数据和验证数据的选择。
[0107]
基于深度学习的人脸识别已经取得了很高的识别率,但是在一些实际场景中进行人脸识别依旧是困难的,特别是当光照、遮挡、姿势、年龄、表情和分辨率等干扰因素存在时,会造成人脸识别准确率的大幅度降低。为了解决这些实际场景中可能出现的问题,许多数据分布不同的训练用的包含大量身份信息的大型人脸数据集应运而生,包括casia webface、ms1m、megaface、ms

celeb

1m和vggface2等,casia webface、ms1m、megaface、ms

celeb

1m和vggface2为现有技术中训练样本集。
[0108]
这些训练集能够很好地针对许多不同场景,做到有针对性地训练模型。本发明通过训练过程中实际效果的对比,最终选定的是arcface清洗挑选过后的faces_emore数据集,其中用于训练的数据包含85742个身份,总共5822653张图片,每张图片都根据mtcnn方法裁剪成112*112大小的脸部图片;验证数据集包含lfw,calfw,cplfw,agedb_30,cfp_ff,cfp_fp,vgg2_fp。
[0109]
步骤二,神经网络的设计。
[0110]
深度学习中的多层卷积和池化操作虽然能够很好的提取可供人脸识别的抽象特征,但是需要的庞大计算资源是不可避免地一大问题,同时根据卷积和池化的特性可能会在层与层之间丢失部分重要的图像特征。而模仿人类注意力特点的注意力机制能够根据算法特点快速地提取出图像中的显著性区域并忽略不重要的部分,即可以在使用较少的计算资源的情况下集中处理模型所需要的图像区域。因此,本发明基于传统的resnet上进行了部分改变,引入了注意力机制。
[0111]
本发明在两种神经网络上均进行了数次实验,一种是arcface中提及到的l_resnet_ir,另一种是本发明修改过后的modifiedresnet,最终选定神经网络为modifiedresnet。如图5所示,modifiedresnet网络模型按照顺序包含有1个卷积层,卷积核的个数为64,卷积核大小为3*3,步长为1,激活函数为relu,用于将输入进来的3通道特征转换成64通道;其后的是4个模块组,结构如图6所示,分为3个64通道的模块组,4个128通道的模块组,14个256通道的模块组,和3个512通道的模块组。如图5所示,每一个模块组中的第一个模块会改变特征的通道数,在modifiedresnet中表现为注意力模块pasa的步长为2;其后的几个模块不会改变通道数大小。残差模块里面的具体结构为:输入经过小批次样本标准化后,使用leaky_relu进行激活,残差途径中首先经过1个卷积层,卷积核的个数为当前模块的通道数,卷积核大小为3*3,步长为1,激活函数为relu;然后经过注意力模块pasa。
[0112]
注意力模块pasa的主要作用是能够自适应地根据设置好的卷积核大小在去掉背景的同时保留边缘而不模糊整体。假设卷积核大小为3*3,则对输入到pasa模块的特征经行3*3大小的滑动卷积,在高频脉冲部分会模糊背景,而遇到低频边缘部分则会自适应调整权重大小保留边缘特征,对于整体特征而言,去除了无用的信息而保留了相对较多的有用信息。
[0113]
本发明用到的注意力模块pasa的具体结构如图7所示,不改变通道数,卷积核大小为1*1,步长为2。pasa模块中分为2条途径,一条途径中,输入经过1个卷积层,卷积核核数为2,卷积核大小为1*1,步长为1。然后经过1次小批次样本标准化,再进行softmax生成与卷积核相对应的权重概率;另一条途径中,输入首先经过取模块生成与在另一条途径上经过softmax后的概率对应的模块,然后两者相乘获得经过自注意后的与原本输入大小相同的输出。再经过1个卷积层,卷积核大小为3*3,步长为1。短径途径上的过程与残差上相同。该模块模块组后几个不改变通道数大小的模块组运行经过与第1个模块除去pasa后完全相同。而其它的模块模块组与第1个模块模块组运行经过完全相同。
[0114]
如图8至图9所示,是输入经过主干cnn后的全连接具体结构。输入经过主干cnn后,经过1次小批次样本标准化,然后经过40%大小的随机丢掉后接入1层512维无激活函数的全连接层,转换为512维的原始特征,再经过1次小批次样本标准化后,接入一个残差模块,里面依次是两个512的激活函数为relu的全连接层,获得残差特征用于提取可以帮助识别身份的信息。
[0115]
人脸图片中一般包含可用于人脸识别的身份信息,以及其它属于人脸属性的部分信息,诸如姿态、年龄和表情等这些不参与人脸识别的信息,通过如图9所示的残差模块可以根据数据总体分布特征和算法特点有效地提取出这些属性特征中的部分信息。根据实际场景的不同,可以分离出年龄特征保留用于人脸识别的身份特征;也可以将大姿态的人脸如侧脸在网络中转换成正脸,增强用于识别身份的身份特征。本发明中的残差模块作用在于提取部分属性特征增强可用于识别身份的身份特征,并且经过多次消融实验证明,该残差结构确实略有成效。
[0116]
最后原始特征与残差特征相加生成组合特征用于传入身份识别器,即损失函数中进行人脸识别。
[0117]
步骤三,损失函数的设计。
[0118]
在原始的softmax损失函数的基础上,经过特征归一化,权重归一化,使偏执项为0,同时引入了尺度参数s和边界裕度参数m等超参数后,逐渐演变成目前主流的基于边界损失函数。而基于挖掘损失函数则是提取样本负类中可能存在的信息,从而引入了新的超参数调节参数t。
[0119]
本发明则是将基于边界思想和基于挖掘思想统一于基于深度学习的人脸识别框架中。本发明通过多次实验发现,随着迭代次数的增加,尺度参数s会由一个较大的初始值,不断地下降到一个固定值,然后在这个固定值上下小幅度波动。而调节参数t是随迭代次数增大而不断递增,最后趋于稳定值。同时样本正类的概率平均值也是随迭代次数不断上升的。通过多次实验还发现,尺度参数对于决定人脸识别准确率的样本logits有着拉伸和平移的作用,在二维平面上能很好地替代调节参数t的作用。为此,将margin

based损失函数与mining

based损失函数结合构建综合损失函数,设l为综合损失函数,则l的计算方法如
下:
[0120][0121][0122][0123][0124]
式中:
[0125]
r为迭代的次数;
[0126]
为第r次迭代过程中数量为n的小批量样本中所有样本负类的logits和的平均值;
[0127]
为第r次迭代过程中数量为n的小批量样本中总样本中间的样本距离真值的角度大小;
[0128]
k为总类别数量;
[0129]
n为每次迭代输入到模型中的小批次样本数量;
[0130]
γ
(r)
为当前迭代回合中样本中所有正值的平均值;
[0131]
α为动量参数;值可为0.99。
[0132]
t
(r)
为第r次迭代过程中数量为n的小批量样本所自适应学习到的调节参数;
[0133]
为第r次迭代过程中数量为n的小批量样本所自适应学习到的尺度参数;
[0134]
θ
j
为数量为n的小批量样本中负类样本的特征和对应类权重的夹角角度;
[0135]
为大小为n的小批量样本中正类样本的特征和对应类权重的夹角角度;
[0136]
n(t,cos θ
j
)为调节样本负类余弦相似度的函数。
[0137]
将经过神经网络得到的512维组合特征经过特征归一化和权重归一化后传入到本发明提出的损失函数中,即可得到85742维的特征概率。经过多次实验证明,本发明提出的方法不仅在加快模型收敛速度上有所提高,而且在一定程度上提高人脸识别准确率。
[0138]
本发明整体的运行环境是tensorflow1.5版本,ubuntu16.4版本,显卡为1模块tesla v100。arcface作者提供的训练集是matlab格式,大小为15.4g。首先将其转换成tensorflow可用的tfrecord格式,不加压缩完全转换后为200g左右。使用l_resnet_ir结构时小批量样本数量为80,使用modifiedresnet时小批量样本数量为32,整个训练过程包含20个周期,每个周期中要迭代100000步,每隔2000步进行一次验证,学习率分段设置为40000,60000和80000,小批量样本数量为80时,学习率为0.0032,0.0016,0.00096,0.00032;小批量样本数量为32时,学习率为0.001,0.0005,0.0003和0.0001。每个周期训练所需要的时间大约在1天。
[0139]
本发明经过多次实验验证后,证实使用modifiedresnet网络结构的准确率最高。
112*112*3大小的裁剪后的图片输入到神经网络中,如图2所示,经过1个卷积层,特征扩展成112*112*64大小,接下来总共要经过4个模块组模块组。特征进入第一个模块模块组,在第一个模块中变成56*56*64大小,在本模块模块组后的模块组中,大小不变,但依旧经过多个卷积层提取更抽象的信息;抽象特征进入其后的几个模块组模块组中发生的变化与在第一个模块组中相似,抽象特征大小依次变为28*28*128,14*14*256,7*7*512。注意力机制pasa模块的作用是将特征空间中的大型立方体特征按照卷积核*通道数大小的长方体在特征的长和宽滑动取模块,然后乘上原特征按照卷积核大小区域进行的sofimax自注意概率即为新的输出特征。
[0140]
如图6所示,经过主干cnn后得到的更高级的7*7*512大小的抽象特征,经过1个全连接层转换成1*512大小的特征。然后采用残差的思想,去提取特征中能用于增强识别的信息。1*512大小的特征经过2个全连接层得到新的残差特征,与原特征相加形成最终的特征,然后输入到损失函数中即可得到最后的人脸识别准确率。
[0141]
下表1列出了本发明进行的数次实验在数个验证集上的的人脸识别准确率(%)。
[0142]
表1:在多个验证集上进行的实验得到的人脸识别准确率(%)
[0143][0144]
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1