一种基于视频多帧人脸特征融合的人脸识别方法及装置与流程

文档序号:14257095阅读:264来源:国知局

本申请涉及人工智能图像处理技术领域,尤其涉及多动态环境下,一种基于视频多帧人脸特征融合的人脸识别方法及装置。



背景技术:

随着视频监控系统的普及和逐渐增加的发展需求,人脸识别已经取得了长足的发展。现如今,“移动电子眼”的触角正在慢慢深入到城市的各个角落,扮演越来越重要的角色,为我们的“平安城市”保驾护航。平安城市也是衡量一个城市现代化管理水平的重要体现,是实现一个城市乃至整个国家安全和稳定的重要措施。建立合理、有效的城市视频监控管理系统,才能使政府管理部分在第一时间发现问题,提出应对措施及应急预案。

视频人脸识别是基于人的面部特征信息,从视频中实时查找人脸,并与人脸数据库进行实时比对,从而实现快速身份识别的一种技术。现有的基于视频的人脸识别方法及装置是采用单帧图像识别,即将视频中的多帧图像逐帧取出,将各帧图像中的人脸分别与人脸数据库进行比对识别,并且当各帧的比对识别结果满足某一预设条件时,认为识别出了人脸。

城市视频监控管理系统中的监控装置,例如,摄像头、监控录像等往往采集到的图像比较模糊,现有技术中,通过模糊算法可以对模糊图像进行处理。而对于双动态图像,也就是在双动态环境中采集到的图像,例如,行驶车辆上的摄像头采集路边行人图像,由于高速运动、车辆抖动、距离变化等因素导致采集到的双动态人脸图像出现运动模糊、抖动、遮挡、光线不足以及侧脸等质量问题。采用传统的基于单帧图像的人脸识别方法及装置识别人脸时,容易因图像质量问题造成人脸身份识别错误,或者需要通过多次识别才能正确识别出视频中的人脸身份,甚至无法识别人脸身份,这造成了视频人脸识别技术的准确率大打折扣。



技术实现要素:

本申请提供了一种基于视频多帧人脸特征融合的人脸识别方法及装置,以解决目前视频人脸图像存在质量问题,造成人脸识别准确率较低的技术问题。

为了解决上述技术问题,本申请实施例公开了如下技术方案:

第一方面,本申请实施例公开了一种基于视频多帧人脸特征融合的人脸识别方法,所述方法包括:

采集监控视频中待识别的n帧人脸图像,n≥1;

从n帧所述人脸图像中选取m帧人脸图像,对m帧所述人脸图像进行特征提取,生成与n帧所述人脸图像一一对应的特征向量{fl},i=1,2,....,m,1≤m≤n;

将m个所述特征向量{fl}融合成一个特征向量r,将所述特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。

可选的,所述将m个所述特征向量{fl}融合成一个特征向量r,包括:

将m个所述特征向量{fl}经过至少一层特征融合,最终融合成一个特征向量r。

可选的,将m个所述特征向量{fl}经过单层特征融合,最终融合成一个特征向量r,包括:

根据所述特征向量{fl}生成与每个特征向量对应的线性权值{al};

通过公式(1)将m个所述特征向量{fl}融合成一个特征向量r;

其中,

可选的,所述根据所述特征向量{fl}生成与每个特征向量对应的线性权值{al},包括:

将所述特征向量{fl}通过公式(2)、(3)生成线性权值(al};

ei=g({fl})(2)

其中,i与j相互独立。

可选的,公式(2)中,g({fl})=qtfl,其中,q为与人脸图像特征相同长度的参数向量。

可选的,当q取值为fl时,公式g({fl})=qtfl变成g({fl})=fltfl,计算得到权值

可选的,将m个所述特征向量{fl}经过k层特征融合,最终融合成一个特征向量r,包括:

将m个所述特征向量{fl}与参数向量q0通过第一层特征融合层进行特征融合,得到融合特征r0

根据所述融合特征r0计算得到参数向量q1,并将m个所述特征向量{fl}与参数向量q1通过第二层特征融合层进行特征融合,得到融合特征r1

依此类推,根据公式(4)计算得到参数向量qk-1

qk-1=tanh(wk-2rk-2+bk-2)(4)

其中,w和b分别为矩阵的权重和偏置;k≥2:

根据参数向量qk-1求解得到对应的特征权值{alk};

根据所述特征权值{alk}求解得到第k层特征融合层融合后的融合特征rk

第二方面,本申请实施例公开了一种基于视频多帧人脸特征融合的人脸识别装置,所述装置包括:

图像采集模块,用于采集监控视频中待识别的n帧人脸图像,n≥1;

特征提取模块,用于从n帧所述人脸图像中选取m帧人脸图像,对m帧人脸图像进行特征提取,并生成对应的特征向量{fl},i=1,2,...,m,1≤m≤n;

特征融合模块,用于将m个所述特征向量{fl}融合为一个特征向量r;

识别模块,用于将特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。

可选的,所述特征融合模块包括一个或多个特征融合模块,用于对m个所述特征向量{fl}进行一层或多层特征融合,最终得到一个特征向量r。

可选的,所述特征融合模块包括:

第一层特征融合模块,用于对m个所述特征向量{fl}与参数向量q0进行第一次特征融合,得到融合特征r0

第二层特征融合模块,与所述第一层特征融合模块级联,用于对m个所述特征向量{fl}与参数向量q1进行第二次特征融合,得到融合特征r1

第k层特征融合模块,与第k-1层特征融合模块级联,用于对m个所述特征向量{fl}与参数向量qk-1进行第k次特征融合,得到融合特征rk,其中,k≥2。

与现有技术相比,本申请的有益效果为:

本申请提供的基于视频多帧人脸特征融合的人脸识别方法及装置,该方法包括:采集监控视频中待识别的n帧人脸图像,n≥1;从n帧人脸图像中选取m帧人脸图像,对m帧人脸图像进行特征提取,生成与m帧人脸图像一一对应的特征向量{fl},i=1,2,....,m,1≤m≤n;将m个特征向量{fl}融合成一个特征向量r,将所述特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。本申请提供的人脸识别方法对监控视频中多帧人脸图像进行检测、特征提取,并将提取的多个人脸特征融合成一个人脸特征用于识别,不仅能够减少特征在人脸数据库中的比对次数,同时能够减少人脸角度偏转、对焦模糊、运动模糊、逆光等对人脸图像特征的影响,从而能够有效地提高人脸识别准确率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于视频多帧人脸特征融合的人脸识别方法的流程图;

图2为本申请实施例提供的基于视频多帧人脸特征融合的人脸识别方法中经过2层特征融合的流程示意图;

图3为本申请实施例提供的采用单层特征融合与2层特征融合的人脸识别准确率对比图;

图4为本申请实施例提供的一种基于视频多帧人脸特征融合的人脸识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

人脸作为人类的一个基本的生物特征,在复杂场景的人物识别方面有着不可或缺的重要性,因此人脸识别的深入研究有着重要的理论和实际意义,其中主要体现在三个方面:

(1)人机交互,传统的人机交互以个人计算机为例,人们主要是通过键盘和鼠标来向计算机输入控制命令,而计算机则通过显示器对人们的命令进行响应。然而人们希望能够和机器进行更自然的沟通,并且帮助人们高效的完成各种工作。为了实现这一目的,机器必须能够理解人们的角色、动作甚至姿态,人脸识别恰恰是解决这一问题的有效方法。

(2)安全,目前公共安全问题是全世界各个国家所共同关注的一个重大问题。公共安全的一个重要领域,就是公共场所的安全问题。人脸识别算法是解决这一问题的有效方法,通过人脸识别方法,各国的安全部门可以在各种公共场所,如飞机场、火车站等地方对那里的流动人员进行监控,检测和识别危险分子。

(3)娱乐,随着科技的发展,人脸识别技术已经用在了电影制作、互动娱乐等领域中。如很多智能机器可以通过读取人脸的表情来做出不同的响应,也可以通过人们不同的姿态和动作来进行互动等。

由于复杂的现实环境,监控视频采集的人脸图像质量存在很多问题,例如,运动模糊、光线不足及侧脸等,传统的基于单帧图像特征的人脸识别的准确率在现实环境中大打折扣,因此本申请提出了基于多帧图像特征融合的人脸识别方法来解决此问题,通过对视频中的多帧图像经过深度学习得到的特征信息进行特征融合,然后实现人脸识别,实验结果表明识别准确率有很大的提高。

参见图1,为本申请实施例提供的基于视频多帧人脸特征融合的人脸识别方法的流程图。

如图1所示,本申请实施例提供的基于视频多帧人脸特征融合的人脸识别方法包括:

s100:采集监控视频中待识别的n帧人脸图像,n≥1。

从监控视频中采集n帧人脸图像,并将采集到的人脸图像导入计算机等处理设备中,对人脸图像进行后续处理。

s200:从n帧所述人脸图像中选取m帧人脸图像,对m帧所述人脸图像进行特征提取,生成与m帧所述人脸图像一一对应的特征向量{fl},i=1,2,....,m,1≤m≤n。

特征提取是利用某种算法对人脸图像进行分析并利用特定的形式进行表征人脸的过程,目前常用的人脸特征提取方法主要有:

1)几何特征提取

利用人脸的结构特征和先验知识,通过对人脸表情的显著特征,如眼睛、鼻子、眉毛、嘴等的形状和位置变化进行定位和测量,确定其大小、距离、形状和相互比例的特征关系进行识别。

2)统计特征提取

与几何特征相比,统计特征是基于图像的整体灰度特征的,它强调尽可能多地保留原始面部表情图像的信息,通过对大量样本的训练,获得其统计特征,其基本思想是将面部表情图像映射到特征空间,将大量图像数据降维后进行模式分类,因此提取统计特征的方法实际上就是“子空间分析法”。

3)频率域特征提取

由于gabor小波核函数具有与人类大脑皮层简单细胞的二维反射区相同的特性,即能够捕捉对应于空间频率、空间位置及方向选择性的局部结构信息,因此用二维gabor小波变换的系数幅值作为特征来匹配有着良好的视觉特性和生物学背景,在人脸识别和图像处理中被广泛应用。

考虑到数据量的大小问题,从n帧人脸图像中选取m帧人脸图像,通过现有的人脸特征提取算法对采集到的m帧人脸图像进行特征提取,生成与人脸图像一一对应的特征向量{fl},其中,i=1,2,....,m,1≤m≤n。

从n帧人脸图像中选取m帧人脸图像时,可以连续选取m帧图像,也可以每隔x帧进行选取(x≥0),或者进行人脸质量评估(可以是传统的人脸质量评估方法或者其他的方法)选取等方法。

s300:将m个所述特征向量{fl}融合成一个特征向量r,将所述特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。

对m帧人脸图像分别进行特征提取后,生成m个特征向量{f1}、{f2}、…{fl}、…{fm},采用下述方法将m个特征向量{fl}融合成一个特征向量r。

将m个特征向量{fl}经过单层特征融合后,最终融合成一个特征向量r,具体方法步骤如下:

利用视频中抓取的多帧人脸图像特征向量{fl}生成与每个特征向量对应的线性权值{al},通过公式(1)将m个特征向量融合成一个特征向量r。

其中,满足

通过特征向量{fl}求解权值{al}的方法为:

根据公式(2)、式(3)由特征向量{fl}生成与之对应的权值{al}。

ei=g({fl})(2)

其中,ei表示的是第i个常数,每个特征向量fl都对应一个常数ei,可以认为是每个特征向量的权值;

i与j是相互独立的,公式(3)中分母代表所有的ei经过指数函数ex(也就是exp函数)变换然后相加。公式(3)是将ei归一化求解得到权值{al}。

公式(2)中,g({fl})=qtfl,其中,q是与人脸图像特征相同长度的参数向量,可以结合神经网络等方法对参数向量q进行求解。利用人工神经网络求解参数向量的方法是:将参数q作为网络的一层待训练的参数,fl作为网络这一层的输入,通过梯度下降方法对网络参数q进行训练,直到训练过程满足终止条件,最终得到参数向量q。

本申请实施例不仅限于通过人工神经网络求解参数向量q,也可以通过稀疏编码、pca(principalcomponentanalysis,主成分分析)等方法,其均属于本申请保护范围。

函数g(·)中的参数向量q可根据人脸图像清晰度选择不同大小的值,如增加监控视频中清晰正脸图像对应的q值,那么对应的{al}就大;相反,减少模糊、背光、测脸等图像对应的q值,那么对应的{al}就小,从而使得函数g(·)对特征具有选择作用。

当参数向量q取值为fl时,此时公式g({fl})=qtfl就变成了g({fl})=fltfl,将g({fl})=fltfl代入式(3)中,计算得到权值

时,特征融合相当于将多帧人脸特征进行了平均处理,每个特征向量的{fl}对应的权值都为相当于把m个特征向量叠加后求平均。虽然相比于使用单帧图像进行识别的准确率有了一定的提高,但不是最优解决方案。

在此基础上,为了获得更好的识别效果,将m个特征向量{fl}经过k层特征融合,最终融合成一个特征向量r。其具体方法如下:

将m个特征向量与参数向量q0通过第一层特征融合层进行特征融合,得到融合特征r0

具体地,利用公式(2)、式(3)求解得到与特征向量{fl}一一对应的权值{al},再利用公式(1)求解得到融合特征向量r0

根据融合特征向量r0计算得到参数向量q1,并将m个特征向量{fl}与参数向量q1通过第二层特征融合层进行特征融合,得到融合特征r1

具体地,利用公式q1=tanh(w0r0+b0)求解得到参数向量q1,通过校正后的参数向量q1将m个特征向量{fl}进行第二次特征融合,得到新的融合特征向量r1,该融合特征向量r1比融合特征向量r0更准确。其中,q0、w0与b0为可训练参数,可结合人工神经网络等方法进行求解。

依次类推,根据公式(4)计算得到参数向量qk-1

qk-1=tanh(wk-2rk-2+bk-2)(4)

其中,w和b分别为矩阵的权重和偏置;

k≥2;

wk-2与bk-2为多层特征融合模块的可训练模块,结合人工神经网络等方法可以进行求解。具体地,将参数向量q0作为第一层网络的权值,wk-2与bk-2作为第k-2层网络的权值和偏置,构建的人工神经网络通过现有公知方法就可以进行训练,当网络达到收敛条件,就可以得到对应的参数。

参数向量qk-1根据公式ei=g({fl})=qtfl与公式(3)求解得到与之对应的特征权值{alk}。

将参数向量qk-1代入公式ei=g({fl})=qtfl中,求得常数ei的值,之后将常数ei代入公式

(3)中,最后求解得到特征权值{alk}。

特征权值{alk}根据公式(1)得到经过第k层特征融合层后的融合特征rk

提取的特征向量{fl}经过k特征融合层的融合后,最终得到融合特征rk,将融合特征rk与数据库中的人脸特征进行比较,以确定视频中的人脸身份。

本申请以一个实验为例,来说明本申请提供的基于视频多帧人脸特征融合的人脸识别方法的识别准确率较高。

一共有100个人的门禁监控视频共500个短视频,视频中仅包含1个人脸,数据库中有这100人的标准人脸图像,生成5000对短视频与标准人脸图像的样本对,用于验证特征融合方法准确率。试验中通过mtcnn(multi-taskconvolutionalneuralnetworks,多任务卷积网络)以及sphereface方法对人脸进行检测和识别,每个短视频能够获得9帧以上的人脸图像,人脸特征长度为1024维。

均值方案

对于每一个样本对,从短视频中分别取出1、3、5、7、9个人脸特征进行对比实验,设定其中,m分别等于1、3、5、7、9,当m等于1时,相当于不适用特征融合方式

进行人脸身份识别。根据公式(1)求得融合特征后,再计算融合特征与标准人脸图像特征的余弦距离,识别视频中人脸身份。

余弦距离可以用它们之间夹角的余弦值来表示,

其中,xo、yo根据实际情况确定o的数目。

当夹角的余弦值接近于1时,两个特征向量相似;夹角的余弦值越小,两个特征向量越不相关。

可以通过5000对样本对数据获得该方法在不同m取值情况下的识别率,最终得到,相比于使用单帧图像识别人脸身份,将多帧人脸图像的特征进行融合后,识别准确率有了一定的提高。

2层特征融合模块方案

由公式(3)可知,特征权值{al}是由常数{ei}得来,公式(3)的作用就是把{ei}进行归一化,即将{ei}转换到(0,1)之间,且和为1。由公式g({fl})=qtfl可知,特征向量{fl}是通过sphereface方法得到的人脸特征向量,q即为要求的参数向量,q是与人脸图像特征相同长度的向量,即一个1*1024维的向量,可以结合人工神经网络等方法对参数向量q进行求解。由此以来,一个特征融合模块就完成了。

为了取得更好的识别效果,实验中将2个特征融合模块进行级联,最后产生一个1*1024维的特征向量,级联的方式如图2所示。由公式(4)可知,将第一个特征融合模块通过参数向量q0得到一个1*1024维的特征融合向量r0;k取值为2,通过式(4),得到第二个特征融合模块的参数向量q1,再通过公式ei=g({fl})=qtfl和公式(3)计算得到与特征向量{fl}对应的权值{al},最后通过公式(1)求出最终的特征融合向量r1

根据公式q1=tanh(w0r0+b0)求解得到参数向量q1,其中,(w0,b0)和第一特征融合模块的q0为所求的训练参数,q0,w0,b0可结合人工神经网络等方法进行求解。训练完成后,同样根据公式得到样本对中3、5、7、9个人脸的融合特征向量r1

两层特征融合是将一个人的人脸特征通过两次融合最终得到该人的人脸特征,第一次特征融合后,根据融合特征r0计算得到第二特征融合模块的参数向量q1,参数向量q0对参数向量q1起到校正的作用,使得参数向量q1更符合特征向量,从而使得根据参数向量q1求解得到的融合特征向量r1更接近于数据中的标准人脸特征。

可以通过5000对样本对数据获得该方法在不同m取值情况下的识别率,最终得到,相比于使用均值方案,采用2层人脸特征融合的识别率更高,如图3所示。

本申请实施例提供的基于视频多帧人脸特征融合的人脸识别方法包括:采集监控视频中待识别的n帧人脸图像,n≥1;从n帧所述人脸图像中选取m帧人脸图像,对m帧人脸图像进行特征提取,生成与m帧人脸图像一一对应的特征向量{fl},i=1,2,.....m,1≤m≤n;将m个特征向量{fl}融合成一个特征向量r,将特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。本申请提供的人脸识别方法通过用训练出来的人脸特征权值将视频中检测出来的多个人脸特征进行特征融合,最后进行人脸识别。该方法在减小了数据量的同时,又充分利用了视频的多帧人脸信息,从而提高了在实际监控视频中进行人脸识别的准确率。

基于本申请实施例提供的基于视频多帧人脸特征融合的人脸识别方法,本申清实施例还提供了一种基于视频多帧人脸特征融合的人脸识别装置。

如图4所示,本申请实施例提供的基于视频多帧人脸特征融合的人脸识别装置包括图像采集模块、特征提取模块、特征融合模块以及识别模块,其中,

图像采集模块,用于采集监控视频中待识别的n帧人脸图像,n≥1。采集到人脸图像后,图像采集模块将图像传送至特征提取模块。

特征提取模块,用于从n帧所述人脸图像中选取m帧人脸图像,对m帧人脸图像进行特征提取,并生成与之对应的特征向量{fl}。特征提取模块采用现有的特征提取算法提取人脸图像中的特征,并根据提取的特征生成一一对应的特征向量{fl}。

特征融合模块,接收特征提取模块生成的特征向量{fl},并将m个特征向量{fl}融合为一个特征向量r。在具体实施过程中,特征融合模块包括一个或多个特征融合模块,用于对m个特征向量{fl}进行一层或多层特征融合,最终得到一个特征向量r。

特征融合模块包括级联的第一层特征融合模块、第二层特征融合模块,…第k层特征融合模块,其中,

第一层特征融合模块,用于对m个特征向量{fl}与参数向量q0进行第一次特征融合,得到融合特征r0。第一层特征融合模块通过参数向量q0将提取的m个特征向量进行融合,获得较清晰的融合特征向量,避免了运动模糊、光线、侧脸等因素对人脸图像的影响。

第二层特征融合模块,与第一层特征融合模块级联,接收第一层特征融合模块生成的融合特征r0,并根据融合特征r0计算得到新的参数向量q1,用于对m个特征向量{fl}与参数向量q1进行第二次特征融合,得到融合特征r1

依次类推,第k层特征融合模块,与第k-1层特征融合模块级联,用于对m个特征向量{fl}与参数向量qk-1进行第k次特征融合,得到融合特征rk,其中,k≥2。

识别模块,用于接收特征融合模块生成的融合特征,并将特征向量r与数据库中的人脸特征进行比较,以识别监控视频中的人脸身份。

提取的特征经过多层特征融合后,去掉了人脸特征中一些模糊因素,得到的融合特征更接近于数据库中的标准人脸特征,极大地提高了识别准确率。

本申请实施例提供的基于视频多帧人脸特征融合的人脸识别装置包括图像采集模块、特征提取模块、特征融合模块以及识别模块,图像采集模块用于采集监控视频中待识别的多帧人脸图像;特征提取模块用于对采集到的人脸图像进行特征提取,并生成与人脸图像对应的特征向量;特征融合模块用于将提取的多个特征向量融合为一个特征向量,减少特征向量的数量;识别模块用于将融合特征向量与数据库中的人脸特征进行比较,以识别视频中的人脸身份。本申请提供的人脸识别装置充分利用了视频中每帧人脸图像之间的相关信息,将每帧人脸图像的人脸特征进行权值化的融合,使得在人脸识别时更加准确,且受到光照、角度、模糊等因素的影响较小。

本发明并不仅限于上述的具体实施方式,本发明可扩展任何在本说明书中披露的新特征或任何新特征的组合,以及披露的任一新的方法、过程的步骤或任何新方法的组合。

由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1