用于人脸识别的网络构建方法、识别方法及系统的制作方法

文档序号:9376214阅读:230来源:国知局
用于人脸识别的网络构建方法、识别方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机视觉及深度学习技术领域,特别涉及一种用于人脸识别的网络 构建方法、识别方法及系统。
【背景技术】
[0002] 人脸作为一个对计算机来说识别和分析都非常困难的物体,从20世纪90年代开 始就引起了研究者们的广泛关注。而成功有效的人脸分析在智能监控,视频索引以及人口 信息统计等领域又存在着巨大的应用前景。人脸分析主要包括人脸的性别识别和人脸的年 龄估计,性别分类的准确率和年龄估计的平均绝对误差分别是两者的关键性指标。
[0003] 目前存在的人脸分析领域的相关研究,都是基于人为"手工"确定特征描述子来 表示人脸,结合分类器算法或者回归算法展开。人工选定特征往往耗费大量的前期准备时 间,具有主观性,且选取出来的特征往往在某一类数据上表现良好,而扩展到另外的数据时 性能会有显著下降,泛化能力较弱。而实际应用时,传统方法的弱泛化能力恰好在质量较低 的图片(强光照图片、存在背景干扰图片、歪脸侧脸图片)上性能不佳,满足不了实际应用 的需求。目前人脸分析领域的研究受限于这一瓶颈而发展缓慢。另一方面,近年来,基于 深度学习思想的方法取得了极大的发展,为计算机科学向智能化方向发展提供了算法上的 支持。深度学习的基本思想就是构建深层的人工神经网络,模拟人脑的学习机制,采用非 监督学习的方式"自动"学习目标物体的特征,学习到的特征具有层次结构,从具体细节到 抽象概念,这样的特征对数据本身有着更本质的刻画。深度学习的方法在许多领域的应用 都取得了突破性的成功,美国多家银行的手写数字识别系统、Google的图像分类语音识别 综合项目Google Brain、微软的全自动同声传译系统都是基于深度学习的方法实现的。目 前深度学习的方法主要包括深层稀疏自编码算法,深度信念网络算法以及卷积神经网络算 法。其中卷积神经网络算法在图像处理的多个领域都取得了世界领先的水平,例如人脸检 测,行人检测以及人脸识别等;而深度信念网络算法主要在语音识别领域的应用较多,效果 较好;深层稀疏自编码算法则更多的被应用于数据降维类的问题。
[0004] 卷积神经网络本质是一种深层的神经网络结构,其算法的基本原理和特点是网络 结构由两种重要的部分组成:卷积处理单元构成的卷积层,以及下采样处理单元构成的下 采样层。卷积层和下采样层由神经元组成二维结构,对同样是二维结构的输入图像分别进 行卷积处理和下采样处理,然后重复卷积和下采样,直到提取出图像的"理想"(根据研究应 用需要确定)特征后,再进行分类或者回归或者检测。当输入图像为NXN大小时,首先连 接卷积层C 1A1中每一个神经元只与上一层的一块局部接收域(又称作卷积核,filter)相 连。假设卷积核的大小为mXm,那么C 1层将会用这mXm的卷积核卷积输入图片所有可能的 (N-m+1) X (N-m+1)位置的像素点,生成一张(N-m+1) X (N-m+1)的局郃特征图。输入图片每 一块mXm大小区域内的所有像素点与C1层中一个神经元相连,且这mXm个连接采取相同 的权值(即权值共享机制)。当使用多个不同权值的连接方式生成多张局部特征图时,C 1层 就提取出原图的不同局部特征。接着C1层的局部特征图连接至下一层的下采样层S1。假设 C1层有F1张特征图,那么对应C1层也有F1张下采样图,且与C 1层的特征图一一对应。S1层 每一张图中的每一个神经元连接这上一层的一块局部域,且没有重叠,然后计算这块区域 内所有值的平均值作为采样层的值。假设C 1层中每张特征图的大小为(N-m+1) X (N-m+1), 局部连接区域大小为ηΧη,那么51层每一张下采样图的大小即为(N-m+l)/nX(N-m+l)/n。 这样即实现了对上一层特征图的下采样,降低空间分辨率。然后S 1层再与一个新的卷积层 C2层连接,C2层与S2层连接,如此交叉反复,根据实际需要确定卷积层的个数和下采样层的 个数。最后网络的输出称作输出层,根据问题的不同可能是输出不同的类别,也可能是输出 回归估计的概率。
[0005] 然而,卷积神经网络的卷积+下采样处理方式虽然能够提取目标物体的高层、抽 象的特征,用于某些分类问题时取得了很好的效果,但忽略了一些低层却对分类有效的特 征和信息。且卷积+下采样处理提取到的特征图描述的主要是物体的局部特征和局部关联 性,缺少对物体整体特征的表现。解决人脸性别识别和人脸年龄估计问题时,恰恰需要对人 脸进行全方位、多层次的特征提取和描述,才能够获得准确、全面的信息。
[0006] 基于上述,在人脸分析领域应用传统的"手工"确定特征描述子的方法,或者直接 应用卷积神经网络(包括现有的其它深度学习的方法),它们性能和最终的效果都不能满 足实际应用的需要。本发明应用全新的基于多特征深度学习的方法进行人脸分析,构建训 练深层的网络,"自动"地学习、提取到人脸的分层次、全方位的特征,形成一种多特征(高 层、低层,抽象、具体)的结构描述表示人脸。这样的多特征结构应用于最终的性别分类和 年龄估计时取得了非常好的效果。
[0007] 在现有技术中尚缺乏此类方法或系统。

【发明内容】

[0008] 本发明的目的在于,为克服现有人脸分析的技术中的传统方法的性能满足不了实 际应用需要的缺陷,从而提出一种用于人脸识别的网络构建方法、及基于该构建网络的人 脸识别方法及系统。
[0009] 为了实现上述目的,本发明提供一种用于人脸性别识别或年龄估计的深层网络构 建方法,所述方法包含:
[0010] 步骤101)将所有的训练图片划分为若干组;
[0011] 步骤102)基于卷积神经网络提取一组训练图片的高层特征,进而得到由高层特 征向量组成的第一矩阵;同时基于人工神经网络提取同一组训练图片的低层和全局特征, 进而得到低层特征向量组成的第二矩阵;
[0012] 基于提取的第一矩阵、第二矩阵和如下判决公式得到一组性别识别或者年龄估计 的结果:
[0013] 〇 = sigm(W1^hfo+β Xw2*lfo+b)
[0014] 其中,hfo表示第一矩阵;Ifo表示第二矩阵;针对输入的第一组训练图片上述公 式中的第一权值矩阵W 1、第二权值矩阵W2、偏置矩阵b和调节权重β的初值采用随机初 始化方式获得;针对输入的其余各组的训练图片上述公式中的w 2、b和β的获取方法 为:利用误差反向传播算法计算判决结果〇与各组训练图片的实际标签矩阵Y的误差函数 J(W, b ; β ),再通过计算%、w2、b和β对误差函数J(W, b ; β )的梯度进而更新参数%、w2、 b和β的值;
[0015] 步骤103)再输入一组训练图片,并对再次输入的训练图片重复执行上述步骤 102),直至所有的分组均被进行了步骤102)的处理,完成一次训练迭代;
[0016] 步骤104)将所有的训练图片重新划分为若干组,并对重新划分的各组重复执行 上述步骤102)和步骤103),完成再次迭代;
[0017] 经过若干重新分组和迭代处理,直至最终输出的判决O满足设定的条件时,得到 最终的参数Wp w2、b和β的值,完成网络构建。
[0018] 可选的,进行低层特征提取时进一步包含:
[0019] 步骤102-11)将输入的一组训练图片的每一张训练图片由二维的图结构形式转 化为向量的形式,再对向量进行归一化,得到每一张训练图片的原始特征向量;
[0020] 步骤102-12)将得到的每一张训练图片的原始向量输入人工神经网络,进而得到 一组重建特征向量,即得到所述的第二矩阵;其中,所述人工神经网络包含L层,且层与层 之间采用全连接方式,每一层的各神经元采用sigmoid函数激活。
[0021] 可选的,针对一张输入训练图片的性别或年龄识别过程具体包含:
[0022] 步骤102-21)当提取的一张训练图片的高层特征向量为Hf维的高层特征向量,且 低层特征向量为L f维的特征向量时,构造一个包含"Hf+Lf"个神经元的联合表决层;
[0023] 步骤102-22)当用于性别识别时,将构造的联合表决层的各个神经元分别与输出 层的两个输出神经元相连,且每个输出神经元基于所述判决公式进行性别判别,输出训练 图片为男性或女性的概率;当用于年龄估计时,联合表决层的各个神经元与输出层的S个 输出神经元相连,其中每个输出神经元对应一岁。
[0024] 可选的,采用如下公式的误差反向传播算法更新第一权值矩阵W1的值:
[0025]
[0026] 其中,(Wl)_表示在每一次的误差反向传播时更新后的第一权值矩阵W1的 值,(W 1) ^对应更新前的第一权值矩阵W1的值,Od表示输出层灵敏度矩阵,该输出层灵敏 度矩阵采用误差函数J(W,b;i3)结合判决结果〇求出;α表示网络的学习率,其中将(!的 取值初始化为一个较大的值,然后随训练迭代次数的增加而逐渐减小;
[0027] 通过如下公式更新第二权值矩阵W2的值:
[0028]
[0029] 其中,(w2)_表示在每一次的误差反向传播时更新后的第二权值矩阵W2的值,(W 2) Clld
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1