一种基于双重限制注意力神经网络模型的人脸识别方法与流程

文档序号:17064879发布日期:2019-03-08 22:50阅读:672来源:国知局
一种基于双重限制注意力神经网络模型的人脸识别方法与流程

本发明涉及图像处理识别技术,尤其涉及一种基于双重限制注意力神经网络模型的人脸识别方法。



背景技术:

在现代社会中,个人身份认证技术的应用无所不在,其中基于指纹、虹膜、以及人脸等人体生物特征的识别技术在多个领域有巨大的市场需求,例如:门禁系统、视频监控、机场安检、以及智能空间等。尽管基于指纹和虹膜的身份认证比人脸识别技术具有更高的准确性和可靠性,但人脸识别因具有自然、友好、对用户干扰少、易被用户接受等优势而有更广阔的应用前景。

人脸识别是基于数字图像处理、计算机视觉和机器学习等技术,借助于计算机处理技术,对数据库中人脸图像进行分析比较的过程。目前,人脸识别的方法主要是通过反复卷积操作来完成识别,和一般的图像分类任务处理方法一样,只考虑到图像中外在特征的提取,而没有考虑到各个特征之间的内在联系。

注意力机制一直是自然语言处理领域非常出名的机制,通过注意力机制可以有效的提取出文字上下文的深层含义,将注意力机制引入图像处理领域一直是一个非常热门的研究,但具体如何将注意力机制应用到人脸识别上还有待研究。



技术实现要素:

为了解决上述问题,本发明提供一种基于双重限制注意力神经网络模型的人脸识别方法,通过将注意力机制引入神经网络模型中,大大提高人脸图像上的轮廓以及五官信息的提取,使得模型具备特征分类能力,提高模型的识别准确率。

为达到上述目的,本发明的技术方案是:一种基于双重限制注意力神经网络模型的人脸识别方法,包括如下步骤:

步骤1)、利用摄像头获取原始人脸图像;

步骤2)、将原始人脸图像输入到mtcnn神经网络模型中,得到经过五官人脸切割后的人脸脸框图像;

步骤3)、将人脸正脸脸框图像输入双重限制注意力神经网络模型中,利用多级特征提取方法进行人脸特征提取,得到人脸特征矩阵;

步骤4)、以人脸特征矩阵与人脸模板库中的人脸图像进行比对识别得到人脸结果。

作为优选,所述步骤2)中利用mtcnn神经网络模型处理得到人脸脸框图像的过程包括:

步骤2-1、采用p-net网络获得候选窗体和边界回归量,同时候选窗体根据边界框进行校准,再利用nms方法去除重叠窗体;

步骤2-2、将p-net网络确定的包含候选窗体的图片在r-net网络中训练,利用边界框向量微调候选框体,再利用nms方法去除重叠窗体;

步骤2-3、利用o-net网络在去除候选窗体,同时显示五个人脸关键点定位。

作为优选,所述mtcnn神经网络模型的训练包括三个部分,人脸和非人脸的分类,边界框回归及五官位置点定位,其中:

人脸和非人脸的分类利用交叉熵损失函数确定:

其中,表示人脸概率,表示背景的真实标签,表示“预测人脸的概率”和“事实是不是人脸”的接近程度,值越小表示越接近,该部分的训练目标为获得最小值min();

边界框回归通过欧氏距离计算回归损失:

其中,为通过网络预测得到的背景坐标,为实际的真实的背景坐标,表示左上角、右上角、长、宽组成的四元组,表示边框回归的欧氏距离,其值越小,表示预测值与真实值越接近,该部分的训练目标为获得最小值min();

五官位置点定位通过计算网络预测坐标与实际坐标的欧氏距离,并最小化该距离,其公式为:

其中,为通过网络预测得到的五官位置坐标,为实际的真实的五官位置坐标,表示五官的五个点组成的十元组,表示边框回归的欧氏距离,其值越小,表示预测值与真实值越接近,该部分的训练目标为获得最小值min();

对上述三部分进行综合得到公式:

其中:n是训练项目的数量,表示不同任务的权重,在p-net网络和r-net网络中,=1,=0.5,=0.5,在o-net网络中,=1,=1,=0.5;表示样本类型的真实标签,表示损失函数。

作为优选,所述步骤3)中双重限制注意力神经网络模型为外在特征注意力与内在特征注意力相结合的三层网络模型,其中第一层为瞥视层,通过人脸图像提取大致轮廓信息,第二层为粗略层,通过瞥视层获取的轮廓信息进一步提取人脸上局部范围内的有效特征,第三层为精细层,进一步精确提取能区分人脸是谁的特征,得到人脸特征矩阵。

作为优选,所述瞥视层中,通过抑制内在特征注意力机制,提高外在特征注意力机制,以从整体角度提取人脸特征;所述粗略层中,通过加强内在特征注意力机制,抑制外在特征注意力机制来提取人脸图像有效特征,所述瞥视层和粗略层的输出h(x)为:

其中,为模型枝干输出,为对应层的内在特征注意力的输出,为对应层的外在特征注意力输出,其中尺寸同等大小,是通道的序号,为调整两种注意力机制的权重超参数。

作为优选,所述精细层中,利用粗略层输入的人脸有效特征,进行内在和外在特征注意力的同步价钱,进行细节特征的提取。

作为优选,所述步骤4)中,针对原始图像以及人脸模板库中人脸图像,利用矩阵间的欧几里得距离得到距离结果,并通过sigmoid函数进行相似度拟合,得到两张图像的相似度:

其中:为拟合函数二阶导数的正相关参数,threshold为正确率达到99.99%时的值。

有益效果,本发明揭示的一种基于双重限制注意力神经网络模型的人脸识别方法,具有如下有益效果:

通过在图像特征提取的模型中增加注意力机制,用来突出能够区分人脸的特征,隐含掉那些会形成干扰的因素,大大提高人脸图像上的轮廓以及五官信息的提取,使得模型得到的特征更具备分类能力,提高模型的识别准确率;

采用三层结构网络模型结合内外两种特征注意力机制,第一层采用加强外部特征注意力提取、抑制内部特征注意力提取策略;第二层采用加强内部特征注意力提取、抑制外部特征注意力提取策略;第三层采用双加强注意力提取策略,通过这样的三个层次的局部注意力相互促进应用,使得我们的模型在人脸识别任务上表现较优的同时更富有理论依据,识别准确率更高。

附图说明:

图1为本发明mtcnn神经网络级联架构示意图;

图2为本发明双重限制注意力神经网络模型中内在特征注意力的架构图;

图3为本发明双重限制注意力神经网络模型中外在特征注意力的架构图;

图4为本发明三层网络模型的整体架构图。

具体实施方式:

下面结合本发明所提供的附图对本发明的技术作进一步说明:

本发明所揭示的一种基于双重限制注意力神经网络模型的人脸识别方法,包括如下步骤:

步骤1)、利用摄像头获取原始人脸图像;

步骤2)、将原始人脸图像输入到mtcnn神经网络模型中,得到经过五官人脸切割后的人脸脸框图像;

步骤3)、将人脸正脸脸框图像输入双重限制注意力神经网络模型中,利用多级特征提取方法进行人脸特征提取,得到人脸特征矩阵;

步骤4)、以人脸特征矩阵与人脸模板库中的人脸图像进行比对识别得到人脸结果。

下面对上述步骤进行详细描述,其中步骤1)原始人脸图像的获取可以是智能手机或者其他智能设备进行获取;

如图1所示,所述步骤2)中利用mtcnn神经网络模型处理得到人脸脸框图像的过程包括:

步骤2-1、采用p-net网络获得候选窗体和边界回归量,同时候选窗体根据边界框进行校准,再利用nms方法去除重叠窗体;

步骤2-2、将p-net网络确定的包含候选窗体的图片在r-net网络中训练,利用边界框向量微调候选框体,再利用nms方法去除重叠窗体;

步骤2-3、利用o-net网络在去除候选窗体,同时显示五个人脸关键点定位。

mtcnn神经网络模型的训练过程包括三个部分,人脸和非人脸的分类,边界框回归及五官位置点定位,其中:

人脸和非人脸的分类利用交叉熵损失函数确定:

其中,表示人脸概率,表示背景的真实标签,表示“预测人脸的概率”和“事实是不是人脸”的接近程度,值越小表示越接近,该部分的训练目标为获得最小值min();

边界框回归通过欧氏距离计算回归损失:

其中,为通过网络预测得到的背景坐标,为实际的真实的背景坐标,表示左上角、右上角、长、宽组成的四元组,表示边框回归的欧氏距离,其值越小,表示预测值与真实值越接近,该部分的训练目标为获得最小值min();

五官位置点定位通过计算网络预测坐标与实际坐标的欧氏距离,并最小化该距离,其公式为:

其中,为通过网络预测得到的五官位置坐标,为实际的真实的五官位置坐标,表示五官的五个点组成的十元组,表示边框回归的欧氏距离,其值越小,表示预测值与真实值越接近,该部分的训练目标为获得最小值min();

对上述三部分进行综合得到公式:

其中:n是训练项目的数量,表示不同任务的权重,在p-net网络和r-net网络中,=1,=0.5,=0.5,在o-net网络中,=1,=1,=0.5;表示样本类型的真实标签,表示损失函数。

对于mtcnn模型处理得到的人脸脸框图像输入至双重限制注意力神经网络模型中,该网络模型的两个注意力分别指脸部内在特征注意力(如五官),和脸部外在特征注意力(轮廓),通过两种注意力的相互促进和限制,提高人脸特征提取的有效性,在进行提取时充分利用人脸特有的五官和轮廓特征之间的关系来建模,结合端到端学习了一个限制注意力模型,这个模型采用三层次结构,包含了“瞥一眼”、“粗略识别”及“精细识别”三个过程,参数量相较于现有人脸识别模型大大减少,在每一个过程我们都加入了“五官”和“轮廓”注意力的双重限制,并且结合实际识别人脸过程中人类大脑是从外在特征到内在特征的一个递进学习的思想,使得我们的模型在人脸识别任务上表现较优的同时更富有理论依据。

在双重限制注意力神经网络模型中,我们首先提出内在特征注意力概念(五官),采用“下采样-上采样”的架构,利用尺度较小的全卷积层(3×3、1×1)快速获取五官注意力,值得注意的是,我们每个基础单元都采用了瓶颈块设计(如图2所示),在几乎相同数量的参数下可以执行更多的计算,并且可以训练更深的模型,对于快速获取到的注意力我们将采用上采样结构反卷积成正常尺寸,得到这一步的软注意力概率,是针对每个像素点上的注意力,我们称之为像素级别的内在特征注意力。

在获取关键特征的前提下,我们首先获取人脸上不易改变的外在特征,如脸部轮廓,因为较大的卷积核往往具有更大的感受野,而脸部轮廓信息就是一个范围较大的信息,采用图3所示的基础单元。依旧采用“下采样-上采样”结构快速获取到这一模块的软注意力概率,结合多个概率分布,得到这一模块的输出,我们称之为外在特征注意力。

在双重限制注意力神经网络模型中,我们使用了多级特征提取的方法,模拟人类大脑识别图像的过程,我们将模型设计为三层次模型(如图4所示),通过不同层次的递进关系逐步提取到最有效的特征,是一个“由粗略到精细”的过程,我们认为每一层的输出都应该为最后预测结果做出贡献,所以使用了多级特征提取的方法,有效的降低了参数并且提升模型表示能力。

该三层网络模型中的第一层为瞥视层,通过人脸图像提取大致轮廓信息,第二层为粗略层,通过瞥视层获取的轮廓信息进一步提取人脸上局部范围内的有效特征,第三层为精细层,进一步精确提取能区分人脸是谁的特征,得到人脸特征矩阵。

具体说来,第一层的瞥视层是从人脸图像上提取大致的轮廓信息,就好像初次见到一个人只是大体瞥一眼,而不需要仔细的去看这个人的面部具体什么样,在这层次中我们抑制内在特征注意力机制的发挥,而提高外在特征注意力机制的力量,从宏观角度出发整体上提取这张人脸的特征,该层次的输出h(x)为:

其中,为模型枝干输出,为内在特征注意力的输出,为外在特征注意力输出,其中尺寸同等大小,是通道的序号,为调整两种注意力机制的权重超参数。

第二层的粗略层是从上一步得到的特征图像中继续提取特征,但还不是精确的提取,这一步我们重点提取人脸上局部范围内的内在特征,依旧采用两种注意力机制。不过与上一步相反,我们采用的策略是加强内在特征注意力机制和抑制外在特征注意力机制。目的是为了粗糙的提取人脸图像上的有效特征,这一步就像是你去看一个人,较为认真的看了他的脸部五官信息以及轮廓信息,在大脑内进行一部分的识别工作,这一层次的输出与上层的类似,一部分结果向下层传递,一部分作为最终预测的一部分。

而第三层的精细层就像人的大脑去识别一个人的时候,需要更精确的提取到能区分这个人是谁的特征,加强内在特征结机制,加强外在特征机制,进行更精确的识别是这一阶段的策略,这一阶段只有人脸特征矩阵一个输出,作为最后的预测向量中最重要的组成部分。

所述步骤4)中,针对原始图像以及人脸模板库中人脸图像,利用矩阵间的欧几里得距离得到距离结果,并通过sigmoid函数进行相似度拟合,得到两张图像的相似度:

其中:为拟合函数二阶导数的正相关参数,threshold为正确率达到99.99%时的值。

本发明的技术内容及技术特征已揭示如上,然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰,因此,本发明保护范围应不限于实施例所揭示的内容,而应包括各种不背离本发明的替换及修饰,并为本专利申请权利要求所涵盖。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1