人脸检测的方法及装置的制造方法

文档序号:10553295阅读:319来源:国知局
人脸检测的方法及装置的制造方法
【专利摘要】本发明适用于人脸识别技术领域,提供了人脸检测的方法及装置,包括:构建并训练级联的多层卷积神经网络;将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级的多层卷积神经网络;若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像,则判定所述图像为非人脸图像;若所述图像从所述级联的多层卷积神经网络的最后一级输出,则判定所述图像为人脸图像。在本发明中,由于使用了多种类型的监督信息,因此能够学习并使用到鲁棒性更强的特征,相比于传统的检测器,人脸检测的效果更好,且能够利用级联的多层卷积神经网络来同时保证人脸检测的效果和速度。
【专利说明】
人脸检测的方法及装置
技术领域
[0001] 本发明属于人脸识别技术领域,尤其涉及人脸检测的方法及装置。
【背景技术】
[0002] 在人脸识别应用领域,人脸检测和人脸关键点定位作为后续工作的基础,需要具 有很强的鲁棒性,才能保证后续工作正常、高效地执行。在实际应用场景中,人脸数据存在 着各种影响因素,例如光照、遮挡、姿态变化等,这些不可控制的因素会对人脸识别的效果 造成很大影响。
[0003] 目前,人脸检测技术主要采用基于手工设计的特征实现,例如Haar特征,H0G特征 等,这类方法在复杂环境以及人脸姿态、表情变化大的时候鲁棒性较差,对上述影响因素的 抗干扰能力差,导致有些时候只能通过牺牲计算速度来保证检测效果。

【发明内容】

[0004] 有鉴于此,本发明实施例提供了人脸检测的方法及装置,以解决现有技术对人脸 数据中的影响因素抗干扰能力差,鲁棒性不高的问题。
[0005] 第一方面,提供了 一种人脸检测的方法,包括:
[0006] 构建并训练级联的多层卷积神经网络;
[0007] 将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级的多层卷积神 经网络;
[0008] 若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像,则判定所述图像为 非人脸图像;
[0009] 若所述图像从所述级联的多层卷积神经网络的最后一级输出,则判定所述图像为 人脸图像。
[0010] 第二方面,提供了 一种人脸检测的装置,包括:
[0011] 构建单元,用于构建并训练级联的多层卷积神经网络;
[0012] 检测单元,用于将图像输入所述级联的多层卷积神经网络,并依次经过其中每一 级的多层卷积神经网络;
[0013] 第一判定单元,用于若所述级联的多层卷积神经网络的其中一级淘汰掉所述图 像,则判定所述图像为非人脸图像;
[0014] 第二判定单元,用于若所述图像从所述级联的多层卷积神经网络的最后一级输 出,则判定所述图像为人脸图像。
[0015] 在本发明实施例中,由于整个网络框架基于的都是卷积神经网络,因此能够学习 并使用到鲁棒性更强的特征,相比于传统的检测器,人脸检测的效果更好,且能够利用级联 的多层卷积神经网络来同时保证人脸检测的效果和速度。
【附图说明】
[0016] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。
[0017] 图1是本发明实施例提供的人脸检测的方法的实现流程图;
[0018] 图2是本发明实施例提供的多级联的卷积神经网络结构示意图;
[0019] 图3是本发明实施例提供的人脸检测的方法S101的具体实现流程图;
[0020] 图4是本发明实施例提供的人脸检测的方法S102的具体实现流程图;
[0021] 图5至图7是本发明实施例提供的方案与现有技术其他方案的对比效果图;
[0022]图8是本发明实施例提供的人脸检测的装置的结构框图。
【具体实施方式】
[0023] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具 体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体 细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电 路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
[0024] 本发明实施例基于级联的多层卷积神经网络实现,待测图像依次通过各级多层卷 积神经网络,每级多层卷积神经网络均进行非人脸图像的淘汰,被淘汰的图像无需进入下 一级多层卷积神经网络,最终,将通过各级多层卷积神经网络的图像判断为人脸图像。
[0025] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0026] 图1示出了本发明实施例提供的人脸检测的方法的实现流程,详述如下:
[0027]在S101中,构建并训练级联的多层卷积神经网络。
[0028]在S102中,将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级的 多层卷积神经网络。
[0029] 在S103中,若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像,则判定 所述图像为非人脸图像。
[0030] 在S104中,若所述图像从所述级联的多层卷积神经网络的最后一级输出,则判定 所述图像为人脸图像。
[0031] 在本发明实施例中,由于整个网络框架基于的都是卷积神经网络,因此能够学习 并使用到鲁棒性更强的特征,相比于传统的检测器,检测效果更好,且能够利用级联的多层 卷积神经网络来同时保证人脸检测的效果和速度。在该级联的多层卷积神经网络中,多个 卷积神经网络级联在一起,且每个卷积神经网络均包含多个层,不同层的作用有差异。在 此,以图2所示的三级网络为例,对级联的多层卷积神经网络的网络结构进行阐述,可以理 解的是,在实际应用的网络结构中,网络级联的级数不局限于三级。
[0032] 在图2所示的网络结构中,左上、右上的虚线框内分别为第一级网络、第二级网络, 下方虚线框为第三级网络。由于人脸检测属于一个二分类问题,即,判断输入图像为人脸图 像或者非人脸图像,因此,在本发明实施例中,输入图像依次经过三级网络,在经过每级网 络之后,淘汰掉该级网络所判定的非人脸图像,被淘汰的图像无需进入下一级网络,最终, 通过三级网络的图像即被判断为人脸图像。在网络参数的设置上,通过发明人的实验发现, 使用较少数量的卷积核并采用较深的网络结构,会达到比较好的人脸检测效果。具体地:
[0033] 第一级网络的输入为12x12x3,第二级网络的输入为24x24x3,第三级网络的输入 为48x48x3,,其中,3代表输入图像的色彩通道数目为3,即该图像为RGB图像。除了第一级网 络的最后一层外,其余卷积层均使用参数化的ReLU函数(Parametric Rectified Linear Units,PReLU)作为激活函数,除了第二级网络与第三级网络的最后一个全连接层外,其余 全连接层也均使用PReLU作为激活函数。第一级网络和第二级网络使用人脸与非人脸的二 分类信息、人脸候选框的位移信息、人脸关键点的位置信息作为监督信息,第三级网络在前 两级网络所采用的监督信息的基础上加入人脸属性(人脸属性包括但不限于人脸表情和人 脸性别中的至少一项)作为监督信息。测试阶段,第一级网络和第二级网络只输出人脸与非 人脸的判断结果以及人脸候选框的位移,第三级网络除了上述两个输出外,还输出人脸属 性和人脸关键点位置。
[0034] 如图2所示,第一级网络的网络结构从左至右依次为:第一层,卷积层,卷积核 (conv)大小为3x3,卷积核个数为10;第二层,最大池化层,池化区间(MP)为3x3;第三层,卷 积层,卷积核大小为3x3,卷积核个数为16;第四层,卷积层,卷积核大小为3x3,卷积核个数 为32;第五层分三个子层,分别与第四层串联,这三个子层均为卷积层,卷积核为1x1,使用 的监督信息分别为:人脸与非人脸的二分类信息、人脸候选框的位移信息、人脸关键点的位 置信息。
[0035] 第二级网络的网络结构从左至右依次为:第一层,卷积层,卷积核大小为3x3,卷积 核个数为28;第二层,最大池化层,池化区间为3x3;第三层,卷积层,卷积核大小为3x3,卷积 核个数为48;第四层,最大池化层,池化区间为3x3;第五层,卷积层,卷积核大小为2x2,卷积 核个数为64;第六层,全连接层,神经元个数为128;第七层分三个子层,分别与第六层串联, 这三个子层均为全连接层,使用的监督信息分别为:人脸与非人脸的二分类信息、人脸候选 框的位移信息、人脸关键点的位置信息。
[0036]第三级网络的网络结构从左至右依次为:第一层,卷积层,卷积核大小为3x3,卷积 核个数为32;第二层,最大池化层,池化区间为3x3;第三层,卷积层,卷积核大小为3x3,卷积 核个数为64;第四层,最大池化层,池化区间为3x3;第五层,卷积层,卷积核大小为3x3,卷积 核个数为64;第六层,最大池化层,池化区间为2x2;第七层,卷积层,卷积核大小为2x2,卷积 核个数为128;第八层,全连接层,神经元个数为256;第九层分3+n个子层,n的数量根据人脸 属性的数量确定),这多个子层分别与第八层串联,均为全连接层,使用的监督信息分别为: 人脸与非人脸的二分类信息、人脸候选框的位移信息、人脸关键点的位置信息、人脸属性信 息1、……人脸属性信息n。
[0037] 对于该卷积神经网络结构的训练可以使用随机梯度下降的优化方法,动量为0.9, 权重衰减为〇 ? 0005,其中,分类任务使用sof tmax损失函数,人脸候选框的位移任务和关键 点的定位任务使用欧式距离损失函数。
[0038] 在本发明实施例中,使用人脸数据和非人脸数据对级联的多层卷积神经网络进行 训练,训练样本的人脸数据部分包含姿态,光照,遮挡、人等较多的影响因素,而训练样本的 非人脸数据部分来自不包含人脸的背景区域。由于目前公开的人脸关键点数据集里人脸变 化较小,数据量也不大,因此,在本发明实施例中,使用了多个训练数据集融合的方法。训练 图片使用公开的人脸数据集WIDER FACE及CelebA上的图片,训练样本分为人脸A,人脸B,人 脸C,人脸D,背景,不参与指定任务的数据不在该任务计算损失函数,各类数据来源及数据 所参与的任务如表1所示:
[0039]表 1
[0041] 训练数据的准备过程为:1)在WIDER FACE数据集上随机抽取大小不定的区域构成 人脸A,B,C以及背景。在CelebA数据集上抽取人脸区域并使用旋转,平移,缩放来进行数据 增强,作为人脸D,以上数据作为第一级网络的训练数据;2)在WIDER FACE数据集上使用第 一级网络收集误检的图像,并将其分为人脸C与背景,同样地,在CelebA上收集检测到的人 脸作为人脸D,使用新收集的人脸C,D,背景以及原有的人脸A,B作为第二级网络的训练数 据;3)与第二级网络类似,使用第一级与第二级级联网络收集新的人脸C,D与背景,加上原 有的人脸A,B作为第三级网络的训练数据。
[0042] 作为本发明的一个实施例,在对级联的多层卷积神经网络的训练过程中,利用多 种类型的监督信息(包括人脸关键点的位置、人脸的属性等)对所述级联的多层卷积神经网 络进行训练,这些监督信息一方面有助于增强人脸检测任务的学习,另一方面也使得所训 练的网络具备关键点检测和属性检测的能力。与此同时,在训练过程中还使用反向传播算 法学习卷积神经网络的参数,并在反向传播过程中,选择困难样本训练参数,针对人脸与非 人脸的二分类任务使用Softmax损失函数,在每一次正向传播过程中,计算样本的损失函数 值之后,把计算出的损失函数的值进行排序,将其中较小的损失函数值设置为〇,以使这部 分样本不参与反向传播,也就是损失函数值较小的样本不参与反向传播。采取上述做法的 原因有两个:第一,损失函数值较小的样本比较容易区分,不利于提高网络鲁棒性和对复杂 情况的处理能力;第二,因为检测任务过程中要设置检测框得分通过的阈值,这个阈值往往 设置得比较低,例如,0.9与0.95的得分一样都能通过检测,同理,损失函数值较小的样本也 都能通过检测,因此,通过上述做法能够得到更好的训练效果。
[0043] 具体地,如图3所示:
[0044] 在S301中,在正向传播过程中,分别计算本次迭代的样本的损失函数值。
[0045] 在S302中,将计算出的损失函数值由小到大进行排序。
[0046] 在S303中,计算该次迭代中单样本的标注值/ = ^丨%,N为该次迭代的样本 总数,t为预设阈值,n为所述单样本在所述排序中的序号。
[0047]在S304中,令所述标注值f为1的样本参与反向传播。
[0048]此外,在本发明实施例中,采用了多任务学习机制,在第一级网络、第二级网络以 及第三级网络中加入了人脸关键点定位的任务,并以人脸关键点定位为辅助任务来提升人 脸检测的效果,在第三级网络加入了人脸属性识别的功能。因此,如图2所示,每个网络至少 存在三个任务,分别为人脸检测任务(即人脸与非人脸的二分类任务)、人脸候选框的位移 任务及人脸关键点的定位任务,但是,在实际的网络使用过程中,在第一级网络和第二级网 络并不输出人脸关键点,只在第三级网络输出人脸关键点的位置。
[0049] 在本发明实施例中,若网络级数超过三级,则在其中的每一级均加入人脸关键点 定位任务,在最后一级加入人脸属性识别任务。
[0050] 作为本发明的一个实施例,还可以实现多尺度的人脸检测。为了从输入图像中检 测出人脸的位置,可以利用滑动窗口的方法,将级联的多层卷积神经网络分别应用于各滑 动窗口。为提高检测效率,可以将第一级网络转变为全卷积神经网络,这样只需要通过该全 卷积神经网络对输入图像进行一次操作,而不需要对各滑动窗口分别处理。由于图像中包 含的人脸尺度大小不同,所以在本发明实施例中,将第一级网络的输入由原图缩放到不同 尺度构成的图像金字塔,具体做法如图4所示:
[0051] 在S401中,定义最小能检测到的人脸大小为m,缩放因子为C,构成多个缩放尺度 [ai,.",an],其中,a n=12/m ? cn-S且min(w,h) ? an>12,min(w,h) ? an+i〈12,w和h分别为所 述图像的宽和高。
[0052]在S402中,将所述图像分别缩放到各所述缩放尺度。
[0053]在S403中,当前级别的网络在经过候选检测框位移以及非极大值抑止后,将所有 所述候选检测框内的图像缩放并输入到其下一级网络,直至最后一级网络输出最终的所述 候选检测框。
[0054]例如,在经过S402的操作之后,第一级网络就得到了多尺度下的候选检测框。在经 过候选检测框位移以及非极大值抑止后,将所有候选检测框内的图像缩放到24x24并输入 到第二级网络,输出筛选过后的候选检测框。同理,在第二级网络候选检测框经过位移校准 和非极大值抑止后,将所有候选检测框内的图像缩放到48x48并输入到第三级网络,经过第 三级网络筛选,并经过位移校准和非极大值抑止后产生最终检测框,这样就实现了多尺度 下的人脸检测。其中,所述非极大值抑止,即对重叠率高的候选检测框进行合并。
[0055]为了验证本发明实施例提供的方案的可行性与准确性,在国际公开的数据集H)DB 和WIDER FACE上进行了人脸检测实验测试,在AFLW的一个测试子集中进行了人脸关键点定 位实验测试,并与其它方法进行了比较。
[0056]关于H)DB,其是国际公开的应用比较广泛的人脸检测测试集,包含2845张图片,共 5171个标定的人脸;关于WIDER FACE,其是国际公开的最大的人脸检测训练集与测试集,包 含32203张图片和393703个标定的人脸,其中40%用作训练集,10 %用作校验集,50 %用作 测试集;关于AFLW,其是国际公开的较大的人脸检测和关键点定位的数据集,在此,使用其 中一个被广泛用来测试的子集,该子集包含2995张图片,每张图片包含一个标定的人脸以 及5个人脸的关键点位置(左眼,右眼,鼻子,左嘴角,右嘴角)。在测试过程中,测试指标 meanerrOT是计算预测点与真实点的欧氏距离,然后除以双眼真实点的欧氏距离。
[0057]在上述测试集的实验结果表明,不论是在人脸检测还是在人脸关键点定位中,本 发明实施例提供的方案均优于现有技术中的其它方法,实验具体结果以及与其它方法的比 较如图5,图6,图7,其中,图5为本发明与现有技术在FDDB人脸检测测试集上的R0C曲线对 比;图6为本发明与现有技术在WIDER FACE人脸检测测试集上的对比,图(a)、图(b)、图(c) 分别代表由易到难的测试子集;图7为本发明与现有技术在AFLW人脸关键点定位测试集上 的对比,其中的平均误差通过双眼距离进行归一化。
[0058]应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程 的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限 定。
[0059]对应于上文实施例所述的人脸检测的方法,图8示出了本发明实施例提供的人脸 检测的装置的结构框图,所述人脸检测的装置可以是软件单元、硬件单元或者是软硬结合 的单元。为了便于说明,仅示出了与本实施例相关的部分。
[0060] 参照图8,该装置包括:
[0061 ]构建单元81,构建并训练级联的多层卷积神经网络。
[0062]检测单元82,将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级 的多层卷积神经网络。
[0063]第一判定单元83,若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像, 则判定所述图像为非人脸图像。
[0064]第二判定单元84,若所述图像从所述级联的多层卷积神经网络的最后一级输出, 则判定所述图像为人脸图像。
[0065] 可选地,所述构建单元81具体用于:
[0066] 利用多种类型的监督信息对所述级联的多层卷积神经网络进行训练;
[0067] 使用反向传播算法学习卷积神经网络的参数,并在反向传播过程中,选择困难样 本训练参数,包括:
[0068] 第一计算子单元,在正向传播过程中,分别计算本次迭代的样本的损失函数值;
[0069] 排序子单元,将计算出的损失函数值由小到大进行排序; (\ 71 > tN
[0070] 第二计算子单元,计算该次迭代中单样本的标注值f二< tiV,N为该次迭 代的样本总数,t为预设阈值,n为所述单样本在所述排序中的序号;
[0071] 反向传播单元,用于令所述标注值f为1的样本参与反向传播。
[0072] 可选地,在所述级联的多层卷积神经网络的每一级加入人脸关键点定位任务;
[0073] 在所述级联的多层卷积神经网络的最后一级加入人脸属性识别任务,所述人脸属 性包括以下至少一项:人脸的性别和人脸的表情。
[0074] 可选地,所述级联的多层卷积神经网络的第一级为全卷积神经网络。
[0075] 可选地,所述检测单元82包括:
[0076]构成单元,定义最小能检测到的人脸大小为m,缩放因子为c,构成多个缩放尺度
[ai,.",an],其中,an=12/m ? cn-S且min(w,h) ? an>12,min(w,h) ? an+i〈12,w和h分别为所 述图像的宽和高;
[0077] 第一缩放单元,将所述图像分别缩放到各所述缩放尺度;
[0078] 第二缩放单元,当前级别的网络在经过候选检测框位移以及非极大值抑止后,将 所有所述候选检测框内的图像缩放并输入到其下一级网络,直至最后一级网络输出最终的 所述候选检测框。
[0079] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功 能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的 功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上 描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可 以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的 单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单 元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统 中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0080] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单 元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟 以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员 可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出 本发明的范围。
[0081] 在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的 方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分, 仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以 结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论 的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或 通讯连接,可以是电性,机械或其它的形式。
[0082]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0083]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0084]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案 本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台 计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发 明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、 只读存储器(R〇M,Read_Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁 碟或者光盘等各种可以存储程序代码的介质。
[0085]以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实 施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各 实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改 或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应 包含在本发明的保护范围之内。
【主权项】
1. 一种人脸检测的方法,其特征在于,包括: 构建并训练级联的多层卷积神经网络; 将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级的多层卷积神经网 络; 若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像,则判定所述图像为非人 脸图像; 若所述图像从所述级联的多层卷积神经网络的最后一级输出,则判定所述图像为人脸 图像。2. 如权利要求1所述的方法,其特征在于,所述训练级联的多层卷积神经网络包括: 利用多种类型的监督信息对所述级联的多层卷积神经网络进行训练; 使用反向传播算法学习卷积神经网络的参数,并在反向传播过程中,选择困难样本训 练参数,包括: 在正向传播过程中,分别计算本次迭代的样本的损失函数值; 将计算出的损失函数值由小到大进行排序; 计算该次迭代中单样本的标注1I为该次迭代的样本总数,t为预设 阔值,n为所述单样本在所述排序中的序号; 令所述标注值f为1的样本参与反向传播。3. 如权利要求1所述的方法,其特征在于,在所述级联的多层卷积神经网络的每一级加 入人脸关键点定位任务; 在所述级联的多层卷积神经网络的最后一级加入人脸属性识别任务,所述人脸属性可 包括W下至少一项:人脸的性别和人脸的表情。4. 如权利要求1所述的方法,其特征在于,所述级联的多层卷积神经网络的第一级为全 卷积神经网络。5. 如权利要求1所述的方法,其特征在于,所述将图像输入所述卷积神经网络包括: 定义最小能检测到的人脸大小为m,缩放因子为C,构成多个缩放尺度[ai,…,n],其中, an=12/m ? ,且min(w,h) ? an〉12,min(w,h) ? an+:i<12,w和h分别为所述图像的宽和高; 将所述图像分别缩放到各所述缩放尺度; 当前级别的网络在经过候选检测框位移W及非极大值抑止后,将所有所述候选检测框 内的图像缩放并输入到其下一级网络,直至最后一级网络输出最终的所述候选检测框。6. -种人脸检测的装置,其特征在于,包括: 构建单元,用于构建并训练级联的多层卷积神经网络; 检测单元,用于将图像输入所述级联的多层卷积神经网络,并依次经过其中每一级的 多层卷积神经网络; 第一判定单元,用于若所述级联的多层卷积神经网络的其中一级淘汰掉所述图像,贝U 判定所述图像为非人脸图像; 第二判定单元,用于若所述图像从所述级联的多层卷积神经网络的最后一级输出,贝U 判定所述图像为人脸图像。7. 如权利要求6所述的装置,其特征在于,所述构建单元具体用于: 利用多种类型的监督信息对所述级联的多层卷积神经网络进行训练; 使用反向传播算法学习卷积神经网络的参数,并在反向传播过程中,选择困难样本训 练参数,包括:第一计算子单元,用于在正向传播过程中,分别计算本次迭代的样本的损失函数值; 排序子单元,用于将计算出的损失函数值由小到大进 第二计算子单元,用于计算该次迭代中单样本的标注值 4为该次迭代 的样本总数,t为预设阔值,n为所述单样本在所述排序中的序号; 反向传播单元,用于令所述标注值f为1的样本参与反向传播。8. 如权利要求6所述的装置,其特征在于,在所述级联的多层卷积神经网络的每一级加 入人脸关键点定位任务; 在所述级联的多层卷积神经网络的最后一级加入人脸属性识别任务,所述人脸属性包 括W下至少一项:人脸的性别和人脸的表情。9. 如权利要求1所述的装置,其特征在于,所述级联的多层卷积神经网络的第一级为全 卷积神经网络。10. 如权利要求1所述的装置,其特征在于,所述检测单元包括: 构成单元,用于定义最小能检测到的人脸大小为m,缩放因子为C,构成多个缩放尺度 [ai,...,n],其中,an=12/m ?广1,且min(w,h) ? an〉12,min(w,h) ? an+i<12,w和h分别为所述 图像的宽和高; 第一缩放单元,用于将所述图像分别缩放到各所述缩放尺度; 第二缩放单元,用于当前级别的网络在经过候选检测框位移W及非极大值抑止后,将 所有所述候选检测框内的图像缩放并输入到其下一级网络,直至最后一级网络输出最终的 所述候选检测框。
【文档编号】G06K9/00GK105912990SQ201610206093
【公开日】2016年8月31日
【申请日】2016年4月5日
【发明人】乔宇, 张凯鹏, 李志锋
【申请人】深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1