一种基于三维局部约束模型的RGBD人脸识别方法与流程

文档序号:18011166发布日期:2019-06-26 00:06阅读:158来源:国知局
一种基于三维局部约束模型的RGBD人脸识别方法与流程

本发明涉及一种人脸识别方法,特指一种基于三维局部约束模型的、融合深度图像和灰度信息的适应不同光照强度、头部姿势和面部表情的人脸识别方法。



背景技术:

在计算机视觉领域,人脸识别问题一直是一个热点问题。人脸识别技术因其非接触性、非强制性、采集简单和可靠性高的优良特点,主要被用于身份识别,在政府、军队、银行、社会福利保障、电子商务、安全防护等领域已经得到了广泛的使用。

随着相机、手机等图像采集设备的普及,人脸识别技术的广泛应用变得容易。现有的人脸识别技术主要是基于可见光图像的人脸识别技术,但是这种方式有着难以克服的缺陷,主要的影响因素包括特征表达、分类方法等。对于人脸来说,光照强度的不同、面部表情的不同和头部姿势的不同都会不同程度地影响现有的基于rgb图像的人脸识别方法的准确率。



技术实现要素:

本发明的目的在于提供一种使用强度图(rgbs)和深度图(ds)的人脸识别方法,对从设备获取的强度图和与之对应的深度图使用三维局部约束模型(3dconstrainedlocalmodel,clm-z)算法检测三维人脸上的特征点,将特征点使用hog、lbp和3dlbp算子描述,使用svm训练实现面部检测。将强度如与深度图结合,能够更好地抵抗光照强度、面部表情和头部姿态的干扰,具有健壮性。

为实现上述目的,本发明提供如下技术方案:一种基于三维局部约束模型的rgbd人脸识别方法,具体包括如下步骤:

s100,数据集构建;

s200,clm-z模型构建;

s300,clm-z模型匹配,拟合参数优化;

s400,拟合图像特征表述;

s500,根据拟合图像的综合特征分类:根据人工标注的数据集和获取的hog、lbp、3dlbp特征,采用神经网络训练关于模型的分类器。

优选的,在s100步骤中,包括以下步骤:

s101,数据采集:通过kinect采集100位人员面部三维模型深度图和人灰度图构建数据库,每个人员有6种基本表情:生气、厌恶、害怕、快乐、悲伤以及惊讶;每个表情序列拥有约147帧三维模型,其中49帧在光照强的条件下采集,49帧在光照弱的条件下采集,49帧在光照适中的条件下采集,每种条件下头部姿势俯仰角、航偏角范围[-30°,30°],步长为10°;

s102,对库中的数据进行预处理:对每组图像的深度图采用领域均值法补齐因深度图采集缺陷造成的空值;对每一组图像的强度图采用较为成熟的viola-jones方法找到面部区域;因为由kinect获取的深度和强度图是对齐的,深度图中对应位置也可提取面部区域;

s103,在每一张深度图及对应的强度图中人工标注66对深度图和强度图匹配的特征点对。

优选的,在s200步骤中,包括以下步骤:

s201,clm-z模型定义:clm模型使用一种点分布模型,定义为其中xi=(x,y),表示第i个特征点在二维图像上的坐标;表示平均三维模型中第i个特征点的坐标,是第i个特征向量;s表示缩放因子,r表示旋转矩阵,t表示二维平移量,q表示人脸形状的非刚性变化参数。该模型使用参数集p=[s,r,q,t]来描述;

s202,特征点旋转角分类器的训练:从数据集中选取全部数据,对每一对特征点在每一个角度利用svm训练器得到如下输出:

归一化:

其中ci,i(xi;i)和cz,i(xi;z)分别为第i个特征点在角度r的强度和深度分类器的输出,β0为逻辑回归器的截距,β1为回归系数,为强度、深度图中通过svm训练出的权重和偏置,w(xi;i)和w(xi;z)为以特征点xi为中心的n×n图像的邻域化表达,记作patch;p(c)是正则化函数,均值为0方差为1。

优选的,在s300步骤中,包括以下步骤:

s301,数据集平均协方差矩阵计算:

三维空间的66个特征点定义为:

x=(x1,...,x66,y1,…,y66,z1,…,z66)

定义三维模型均值如下:

其中,m表示训练集大小;

定义位置偏移:

其中,xj为第j个样本的形状向量,为均值,dxj表示形状偏导;

定义协方差:

协方差表示为训练集样本中非刚体形变的参数。计算协方差矩阵的特征值和特征向量,第k个特征向量表示第i个特征点的偏移向量(dxik,dyik,dzik);通常,形变仅由其中几个特征向量所确定,因此选择具有最大特征值的特征向量子空间即可;

s302,patchexperts计算

为了使检测时特征点对齐,需要引入patchexperts。patch表示二维图中一个点周围n×n的块,特征点的匹配概率如下:

p是模型的参数,li∈{1,-1}表征第i个特征点是否对齐,1表示对齐,-1表示未对齐;p(p)为模型先验概率,是所有特征点的联合概率,其中p(li=1|xi,i,z)记作patchexperts,具体定义如下:

p(li|xi,i,z)=0.5×(p(li|xi,i)+p(li|xi,z))

s303,参数迭代优化:

第i个特征点的当前位置记作需要不断调整参数使落在最佳位置;考虑到因匹配到邻域内点发生的错误,特征点的匹配概率表示如下:

其中,πyi=p(li=1|yi,i,z)为第i特征点强度图和深度图中邻域参与点匹配的概率,n(xi;yi,ρi)为参与点匹配概率,n(xi;yi,ρi)=p(yi|xi);ρ为点分布模型中使用主成分分析法得到的特征点位置的噪声方差,xi~n(xi;yi,ρi),服从同方差的各向同性的高斯分布,方差值为经验值;

上式表示为特征点正交子空间t的特征值均值;

对于第i特征点根据泰勒公式有:

ji为clm-z模型关于其参数偏导数的雅各比矩阵。δp用于调整参数以获取最佳位置;最优参数按如下推导计算:

p←p+δp

p为参数集,初始设定s=1,r=e,q=0,t=0.参数s和t通过使用三维模型和与其对应强度图的位置和比例确定;

对于δp有如下公式:

δp=j+v

其中:v=[v1;...;vn]为特征点的mean-shift向量的连接。j+为j的伪逆矩阵,vi衡量在所有候选点之中到最佳点的偏移,表示当前位置;计算公式:

其中ψi为特征点集合;上式表示最佳点为所有候选点的加权平均,每获取一个最佳位置,就可以更新模型参数,迭代计算,判断模型是否收敛;收敛即得到最优参数。

优选的,在s400步骤中,包括以下步骤:

s410,特征点邻域hog特征提取;

s411,以定义20×20大小的图像为例,cell的大小为5×5,四个相邻的cell构成一个block;只需定义特征点周围的block和cells;

s412,计算像素点(x,y)的梯度,水平方向和垂直方向的梯度算子分别为kh=[-1,0,1]和kv=[-1,0,1]t

s413,计算每个点的梯度方向θ(x,y)和幅度m(x,y),计算公式为:

θ(x,y)=tan-1[v(x,y)/h(x,y))]

m(x,y)=[h(x,y)2+v(x,y)2]

s414,获取每个block的hogdescriptor:θ(x,y)取值范围为-90度到90度,我们把它平均分成9份;然后每个cell中按梯度方向投票,权重为m(x,y),这样每个cell就得到一个9维的向量,把同一个的block中的4个cell得到的向量连起来就得到了一个block的36维向量;最后把所有向量连起来就得到了该窗口的hog特征向量;

s420,提取lbp特征和3dlbp特征:

3dlbp特征计算公式如下:

|dd|=22*i2+21*i3+i4

其中dd为以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;这样,3*3邻域内的8个点经比较可产生8位二进制数,通常转换为十进制数即lbp码,共256种,即得到该窗口中心像素点的3dlbp值,上述|dd|计算公式也是lbp编码,可以用于获取lbp特征。

本发明通过融合深度图像和强度图像,利用经训练的svm分类器实现人脸识别。

本发明由于采用以上技术方案,具有以下优点:

(1)本发明融合了深度信息和强度信,为人脸识别提供了一种新的方法。

(2)本发明结合clm-z算法完成深度图像的拟合,完成66个特征点领域的hog、lbp、3dlbp特征,而非图像的全局特征,更具有代表性。

(3)本发融合了深度信息,能有减小光照强度、面部表情和头部姿态等因素的影响,具有良好的健壮性。

附图说明

图1是rgbd人脸识别算法流程图。

图2是数据集构建流程图。

图3是clm-z模型构建流程图。

图4是clm-z模型拟合流程图。

图5是拟合图像特征表述流程图。

图6是hog特征提取流程图。

图7是模型整体框架图。

图8是kinect采集的强度图(左)和深度图(右)。

图9是融合深度特征的hog特征表示图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1的流程图、图7的模型框架图所示,本发明提供的一种基于rgbd的信息的人脸识别方法,具体包括如下步骤:

s100,数据集构建(图2)

s101,数据采集:通过kinect采集100位人员面部三维模型深度图和人灰度图构建数据库,每个人员有6种基本表情:生气、厌恶、害怕、快乐、悲伤以及惊讶。每个表情序列拥有约147帧三维模型,其中49帧在光照强的条件下采集,49帧在光照弱的条件下采集,49帧在光照适中的条件下采集,每种条件下头部姿势俯仰角、航偏角范围[-30°,30°],步长为10°。采集样例如图8所示。

s102,对库中的数据进行预处理:对每组图像的深度图采用领域均值法补齐因深度图采集缺陷造成的空值;对每一组图像的强度图采用较为成熟的viola-jones方法找到面部区域。因为由kinect获取的深度和强度图是对齐的,深度图中对应位置也可提取面部区域。

s103,在每一张深度图及对应的强度图中人工标注66对深度图和强度图匹配的特征点对。

s200,clm-z模型构建(图3)

s201,clm-z模型定义:clm模型使用一种点分布模型,定义为其中xi=(x,y),表示第i个特征点在二维图像上的坐标;表示平均三维模型中第i个特征点的坐标,是第i个特征向量。s表示缩放因子,r表示旋转矩阵,t表示二维平移量,q表示人脸形状的非刚性变化参数。该模型使用参数集p=[s,r,q,t]来描述。

s202特征点旋转角分类器的训练

从数据集中选取全部数据,对每一对特征点在每一个角度利用svm训练器得到如下输出:

归一化:

其中ci,i(xi;i)和cz,i(xi;z)分别为第i个特征点在角度r的强度和深度分类器的输出,β0为逻辑回归器的截距,β1为回归系数,为强度、深度图中通过svm训练出的权重和偏置,w(xi;i)和w(xi;z)为以特征点xi为中心的n×n图像的邻域化表达,记作patch。p(c)是正则化函数,均值为0方差为1。

s300,clm-z模型匹配,拟合参数优化(图4)

s301,数据集平均协方差矩阵计算:

三维空间的66个特征点定义为:

x=(x1,…,x66,y1,…,y66,z1,…,z66)

定义三维模型均值如下:

其中,m表示训练集大小。

定义位置偏移:

其中,xj为第j个样本的形状向量,为均值,dxj表示形状偏导;

定义协方差:

协方差表示为训练集样本中非刚体形变的参数。计算协方差矩阵的特征值和特征向量,第k个特征向量表示第i个特征点的偏移向量(dxik,dyik,dzik)。通常,形变仅由其中几个特征向量所确定,因此选择具有最大特征值的特征向量子空间即可。

s302,patchexperts计算

为了使检测时特征点对齐,需要引入patchexperts。patch表示二维图中一个点周围n×n的块,特征点的匹配概率如下:

p是模型的参数,li∈{1,-1}表征第i个特征点是否对齐,1表示对齐,-1表示未对齐。p(p)为模型先验概率,是所有特征点的联合概率,其中p(li=1|xi,i,z)记作patchexperts,具体定义如下:

p(li|xi,i,z)=0.5×(p(li|xi,i)+p(li|xi,z))

s303,参数迭代优化:

第i个特征点的当前位置记作需要不断调整参数使落在最佳位置。考虑到因匹配到邻域内点发生的错误,特征点的匹配概率表示如下:

其中,πyi=p(li=1|yi,i,z)为第i特征点强度图和深度图中邻域参与点匹配的概率,n(xi;yi,ρi)为参与点匹配概率,n(xi;yi,ρi)=p(yi|xi)。ρ为点分布模型中使用主成分分析法得到的特征点位置的噪声方差,xi~n(xi;yi,ρi),服从同方差的各向同性的高斯分布,方差值为经验值。

上式表示为特征点正交子空间t的特征值均值。

对于第i特征点根据泰勒公式有:

ji为clm-z模型关于其参数偏导数的雅各比矩阵。δp用于调整参数以获取最佳位置。最优参数按如下推导计算:

p←p+δp

p为参数集,初始设定s=1,r=e,q=0,t=0.参数s和t通过使用三维模型和与其对应强度图的位置和比例确定。

对于δp有如下公式:

δp=j+v

其中:v=[v1;...;vn]为特征点的mean-shift向量的连接。j+为j的伪逆矩阵,vi衡量在所有候选点之中到最佳点的偏移,表示当前位置。计算公式:

其中ψi为特征点集合。上式表示最佳点为所有候选点的加权平均,每获取一个最佳位置,就可以更新模型参数,迭代计算,判断模型是否收敛。收敛即得到最优参数。

s400,拟合图像特征表述(图5):

s410,特征点邻域hog特征提取(图6):

s411,以定义20×20大小的图像为例,cell的大小为5×5,四个相邻的cell构成一个block。只需定义特征点周围的block和cells;

s412,计算像素点(x,y)的梯度,水平方向和垂直方向的梯度算子分别为kh=[-1,0,1]和kv=[-1,0,1]t

s413,计算每个点的梯度方向θ(x,y)和幅度m(x,y),计算公式为:

θ(x,y)=tan-1[v(x,y)/h(x,y))]

m(x,y)=[h(x,y)2+v(x,y)2[

s414,获取每个block的hogdescriptor:θ(x,y)取值范围为-90度到90度,我们把它平均分成9份。然后每个cell中按梯度方向投票,权重为m(x,y),这样每个cell就得到一个9维的向量,把同一个的block中的4个cell得到的向量连起来就得到了一个block的36维向量。最后把所有向量连起来就得到了该窗口的hog特征向量。图9为在特征点周围block的hog特征表示图。

s420,提取lbp特征和3dlbp特征:

3dlbp特征计算公式如下:

|dd|=22*i2+21*i3+i4

其中dd为以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即lbp码,共256种),即得到该窗口中心像素点的3dlbp值,上述|dd|计算公式也是lbp编码,可以用于获取lbp特征。

s500,根据拟合图像的综合特征分类:

根据人工标注的数据集和获取的hog、lbp、3dlbp特征,采用神经网络训练关于模型的分类器。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1