一种基于级联卷积神经网络的人脸遮挡检测方法

文档序号：10512660阅读：1010来源：国知局

一种基于级联卷积神经网络的人脸遮挡检测方法
【专利摘要】一种基于级联卷积神经网络的人脸遮挡检测方法，包括如下步骤：1)获取视频帧图像；2)对图像进行归一化处理，并复制保存两份；3)图像1进行灰度化，对亮度失衡图像进行直方图均衡化处理；4)采用三级级联网络以多尺度滑动窗口形式进行人头检测，并保存符合条件的窗口坐标及尺寸；5)对窗口坐标进行聚类分析，得到目标窗口方位；6)根据所得数据在图像2中截取出人头区域，进行归一化处理和亮度调节；7)分区域采用二级眼睛/嘴巴级联网络以多尺度滑动窗口形式分别进行眼睛和嘴巴检测，若均不符合设定条件，则判定为眼睛/嘴巴被遮挡，触发报警。本发明对光照、姿态鲁棒性强，适应多种遮挡物类型，检测精度较高。
【专利说明】
一种基于级联卷积神经网络的人脸遮挡检测方法
技术领域
[0001] 本发明涉及神经网络、计算机视觉、图像处理、模式识别等技术领域，尤其是一种针对视频信号进行处理、分析和理解，并对监控系统进行控制，实现人脸遮挡检测的方法，该方法可用于学校、银行、监狱、工厂等公共场合，对于私人住宅的门禁和周围区域同样适用。
【背景技术】
[0002] 生物特征识别技术是一种利用自动化技术检测个人生理特征或个人行为特征进行身份验证的技术，在商业领域、军事领域、刑侦领域等方面都得到了广泛应用。在众多的生物特征中，人脸识别技术以其主动性、非侵犯性、用户友好性、非接触性、不易察觉性和唯一性等优点，具有重要的学术研究价值以及广阔的应用前景，在近几十年中得到了飞速的发展，在中国就已广泛的应用于公安、安全、海关、金融、军队、机场、边防口岸、安防等多个重要行业及领域，以及智能门禁、门锁、考勤、手机、数码相机、智能玩具等民用市场。然而，在实际应用中，人脸识别依然面临着诸多的挑战。遮挡是众多影响人脸识别性能的因素中非常重要也是不可避免的一个因素，特别是在安全领域中尤其突出。造成遮挡的原因多种多样。随着人们日常生活中佩戴眼镜的比例增大，由眼镜遮挡造成的问题也就越来越普遍；环境污染造成了出门佩戴口罩也越来越普遍了；在实际应用中，比如智能门禁、视频监控、保安系统、罪犯识别等，基本均在非配合的环境下进行人脸图像的采集，易被其他人或者物所遮挡。
[0003]造成遮挡的这些干扰因素使得成像设备获取的人脸数据不完整，引起人脸部分信息甚至全部信息的丢失，导致人脸识别系统无法提取完整有效的人脸信息，影响了整个人脸认证系统中检测和识别的准确率。由于遮挡类型多样、位置随机、大小不确定，没有合适的方法对遮挡进行建模，导致遮挡问题处理起来非常困难。如何有效检测和去除遮挡物的影响，成为了人脸检测与识别技术中亟待解决的关键问题。
[0004] 随着实际生活场景人脸识别研究的深入，研究对遮挡鲁棒的人脸识别方法有着重要的理论意义和应用价值。特别是在安全领域，由于很多违法犯罪嫌疑人使用墨镜、围巾、口罩或者直接蒙面的方式来刻意遮挡自己的人脸特征，避免法律处罚。如果能够利用遮挡人脸检测算法构建预警机制，则可以有效的阻止犯罪，降低犯罪率。尤其是报警并阻止蒙面人进入银行、政府区域、商场或者其他公共场所能有效的阻止犯罪。

【发明内容】

[0005] 为了能够稳定适应环境的变化，及时主动的发现不同形式的人脸遮挡，同时又尽可能的减少误报，本发明提供了一种基于级联卷积神经网络的人脸遮挡检测方法。该方法拥有智能图像识别分析技术，使人脸认证系统拥有主动检测人脸关键区域遮挡的能力。该方法首先利用训练好的三级级联卷积神经网络进行人头检测，然后针对检测出的人头图像，分别建立面向人脸关键区域一一眼睛和嘴巴的二级级联卷积神经网络的检测系统。通过构建三种专门的级联卷积神经网络，该方法有效降低了系统的误报率，提高了系统的鲁棒性和准确率。
[0006] 本发明解决其技术问题所采用的技术方案是：
[0007] 一种基于级联卷积神经网络的人脸遮挡检测方法，所述检测方法包括如下步骤：
[0008] 1)获取连续视频帧中的第i帧图像Ii;
[0009] 2)对当前视频帧图像进行归一化处理，并将当前视频帧图像复制保存为两份，和（ *
[0010] 3)对图像4进行人头检测，具体过程如下；
[0011] 3.1)对图像if进行灰度变换，判断其全局亮度指数；
[0012] 3.2)对步骤3.1)中过亮或过暗的图片进行灰度直方图均衡化，得到图像 t
[0013] 3.3)将图像if通过滑动窗口进入三级联级卷积神经网络进行人头检测，具体过程如下：
[0014] 对视频帧图像if以多尺度窗口进行滑动，各窗口归一化后进入训练好的三级级联卷积神经网络进行判断；当前窗口在满足前一级人头检测网络设定阈值的情况下，进入下一级网络进行检测。最终记录符合级联网络各个条件窗口的坐标及尺寸；
[0015] 3.4)对各个符合条件的滑动窗口的坐标进行聚类分析，得到最终的目标窗口坐标与大小；
[0016] 4)对图像//进行眼睛与嘴巴检测，具体过程如下；
[0017] 4.1)根据步骤3.4)人头检测得出的坐标和尺寸在图像#中截选出人头区域图像
[0018] 4.2)对归一化处理后的图像先进行HSV变换，判断亮度情况，对过亮或过暗的图片进行gamma变换，得到图像々；
[0019] 4.3)对图像,f利用训练好的二级眼睛级联卷积神经网络和二级嘴巴级联卷积神经网络分区域并行进行眼睛和嘴巴检测，判断是否存在遮挡，具体过程如下：
[0020] 设定眼睛检测区域为图像if上方2/3区域，嘴巴检测区域为图像/f下方2/3区域，以多尺度窗口同时在两个区域进行滑动，各窗口归一化后批量进入第一级眼睛检测网络或嘴巴检测网络进行判断，当符合设定条件时，依次进入第二级进行判断。检测过程中如果没有符合条件的窗口出现，则输出眼睛被遮挡/嘴巴被遮挡，触发报警。
[0021] 进一步，所述步骤3.3)和4.3)中，训练人头检测网络、嘴巴检测网络和眼睛检测网络还包括以下步骤：
[0022] a)三级级联人头检测网络
[0023] i第一级检测网络正样本采用归一化至16X16的灰度人头图像，负样本为随机截取的风景图片、植物图片、建筑图片等，并归一化至16X16的灰度图，以包含一个卷积层、一个池化层和一个全连接层的卷积神经网络进行训练，最终以softmax回归进行二分类，即人头/非人头；
[0024] ii第二级检测网络正样本采用与第一级相同的图片进行，将图片归一化至32X32 的灰度图，负样本则为第一级网络测试后误判的样本，此网络包含两个卷积层、一个最大池化层和一个全连接层，同样以sof tmax回归进行二分类；
[0025] iii第三级检测网络将原有人头图片归一化至48X48的灰度图，负样本为第一级网络和第二级网络级联后测试的误判样本，此网络结构与第二级检测网络类似。
[0026] b)二级级联眼睛检测网络
[0027] i第一级检测网络正样本采用彩色图片，将眼睛样本归一化至25 X 25，负样本为随机截取的风景图片、植物图片等，以及人头区域非眼睛区域的图片和戴墨镜图片，同样归一化至25X25。眼睛检测第一级卷积网络由一个卷积层、一个最大池化层和一个全连接层组成，其输出为一个二分类。
[0028] ii第二级检测网络训练的正样本和负样本与第一级类似，网络结构中增加了一个卷积层。
[0029] c)二级级联嘴巴检测网络
[0030] i第一级检测网络正样本采用彩色图片，将嘴巴样本归一化至32X16,负样本为随机截取的风景图片、植物图片等，以及人头区域非嘴巴区域的图片和嘴巴被遮挡的图片，同样归一化至32X16。眼睛检测第一级卷积网络由一个卷积层、一个最大池化层和一个全连接层组成，其输出为一个二分类。
[0031] ii第二级检测网络中将训练样本均归一化至64X32,网络结构类似于眼睛第二级检测网络。
[0032]本发明的有益效果主要表现在:对光照、姿态、遮挡鲁棒性强，适应多种遮挡物类型，检测精度较高。
【附图说明】
[0033]图1是本发明实现的流程图；
[0034]图2是三级级联人头检测网络结构；
[0035]图3是二级级联眼睛检测网络结构；
[0036]图4是二级级联嘴巴检测网络结构；
【具体实施方式】
[0037] 下面结合附图对本发明作进一步描述。
[0038] 参照图1~图4,一种基于级联卷积神经网络的人脸遮挡检测方法，包括如下步骤：
[0039] 1)从摄像头获取连续视频中的第i帧图像11;
[0040] 2)将当前获取得到的视频图像进行大小归一化处理，并将归一化后的图像复制保存为两份，分别为J丨和
[0041] 3)如图1所示，在图像/丨中进行人头检测，具体过程如下；
[0042] 3.1)由于人头检测网络以灰度图进行训练，所以在检测初始对图像进行灰度化处理，得到灰度图像 ?
[0043] 3.2)为了增强图片在拍摄过程中对外界光线变化的鲁棒性，有效避免获取得到的图像存在的过亮或过暗，或者对比度过高或过低的情况，此时对图像if进行直方图均衡化处理，自适应增强图像对比度；
[0044] 3.3)对所述步骤3.2)得到的图像if以级联卷积神经网络进行人头检测；
[0045] 3.3.1)由于卷积神经网络是一种深层神经网络模型，其网络结构中独特的局部连接和权值共享特性使之更类似于生物的神经网络。卷积神经网络是一个为了识别2D图像而量身打造的多层感知器，以图像的局部感受区域作为层级结构的最底层输入，信息再依次传输到不同的层，每层通过一个数字滤波器去获得观测数据的最显著特征。此方法可有效获取对平移、缩放和旋转不变的观测数据的显著特征，因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征。为了人脸遮挡检测能够有效应对光照的变化以及噪声的影响，同时能够适应不同姿态、多种不同类型的遮挡物，本发明以级联卷积神经网络进行人头、眼睛和嘴巴检测。其中三级级联人头检测网络的训练过程具体如下：
[0046] a)训练样本的准备，其中训练第一级网络的正样本灰度化后归一化至16X16,负样本为随机截取的非人头图像;第二级网络正样本大小为32X32,负样本来自第一级网络测试后的误判样本；训练第三级网络的正样本大小归一化至48X48,负样本则为第一级和第二级网络级联测试的误判样本；
[0047] b)样本准备完毕，如图2所示为三级级联人头检测级联网络的结构框图。
[0048] 为了加快检测速度，快速确定检测图片中人头的大致方位，第一级网络仅包含一个卷积层、一个最大池化层和一个全连接层，为了降低提取特征的相关性，卷积层和池化层的连接方式为随机进行的非全连接；同时为了增强特征的稀疏性，网络中激活函数采用线性修正的ReLu(Rectified Linear Units)激活函数，较之sigmoid激活函数，ReLu更接近生物学的激活模型，其公式为：
[0049] relu(x) =max(0 ,χ)
[0050] 其中，X为输入的特征值。
[0051] 相较于第一级检测网络，第二级和第三级检测网络输入图像的大小逐级递增，这样有利于提取更多的识别特征，提高检测精度。同时，如图2中（b)、（c)所示，进入输出分类层的特征由最后一个卷积层的全连接输出和其前一池化层的全连接的输出特征共同组成，这是由于随着网络层数的递进，其感知区域更广阔，两者相结合，可以有效结合图像的局部特征和全局特征。
[0052] 3.3.2)为了提高人头检测的实时性，以多尺度滑动窗口逐级进入三级级联人头检测网络进行判断：当且仅当此窗口符合前一级网络检测设定阈值的情况下才能进入下一级网络进行判断，并记录符合所有设定条件窗口的坐标及尺寸；
[0053] 3.4)对所述步骤3.3)中各个符合条件的滑动窗口的坐标进行聚类分析，得到最终目标窗口的坐标及尺寸；
[0054] 4)如图1所示，在步骤3)的基础上，对Jf分别以不同的级联卷积神经网络进行各关键部位的遮挡检测，具体过程如下；
[0055] 4.1)根据所述步骤3.4)中得到的目标区域的坐标和尺寸在图像If中截选出人头区域图像冷：
[0056] 4.2)为了加快检测速度以及提高检测准确率，对图像Jf进行归一化处理；
[0057] 4.3)由于拍摄角度和外界环境的影响，图像可能存在亮度失衡的情况，因此对图像f转换至HSV彩色模型，并对亮度通道￥_(* &111161进行亮度判断，对过亮或过暗的图片进行gamma变换(如下式所示），最终又转回至RGB彩色模型，得到图像if进行后续操作；
[0058] gamma = cXI(i,j)Y
[0059] 其中，c和γ均为正常数，c为缩放系数，γ为幂律变换的系数，I(i，j)为亮度通道 V_channe 1在点（i，j)处的亮度值。
[0060] 4.4)判断图像if是否存在眼睛被遮挡、嘴巴被遮挡情况；
[0061] 4.4.1)眼睛和嘴巴检测网络的训练
[0062] ①二级级联眼睛检测网络的训练
[0063] a)准备训练检测网络的正负样本，其中正负样本均归一化至25X25;如图3所示为眼睛检测的网络结构；
[0064] b)为了有效提高检测准备率，眼睛检测网络采用彩色图像进行训练；由于随着网络结构的复杂化，其运行速度会减慢，为了满足检测的实时性要求，增加了一个结构简单的卷积网络作为第一级检测，这样可以快速排除非眼睛区域，大致确定目标区域;继而以网络较复杂的第二级进行进一步判断，这样不仅加快了检测速度，而且还确保了检测的准确度；
[0065]②二级级联嘴巴检测网络的训练
[0066] a)准备训练检测网络的正负样本，其中第一级网络正负样本均归一化至32X16; 第二级网络正负样本归一化至64X32如图4所示为嘴巴检测的网络结构；
[0067] b)为了有效提高检测准备率，嘴巴检测网络采用彩色图像进行训练;其网络设计模式类似于眼睛检测网络；
[0068] 4.4.2)对图像if并行进行眼睛遮挡检测和嘴巴遮挡检测，即图像/f上方2/3区域进行眼睛检测，下方2/3区域进行嘴巴检测。在两个区域分别以多尺度窗口进行滑动，并将待检测窗口归一化至所设定的大小，批量进入第一级网络进行检测，如果此窗口符合设定条件时，再进入第二级检测网络进行判断。
[0069] 4.5)当所述步骤4.4)没有检测到一个窗口可以同时满足眼睛/嘴巴级联检测网络的设定条件时，则判定为存在眼睛/嘴巴被遮挡情况，触发报警。
【主权项】
1. 一种基于级联卷积神经网络的人脸遮挡检测方法，所述检测方法包括如下步骤： 1) 获取连续视频中的第i帧图像I i的获取； 2) 对当前视频帧图像进行归一化处理，并复制保存为两份，J丨和€: 3) 对图像#利用训练好的三级人头级联卷积神经网络进行人头检测，具体过程如下： 3.1) 对图像I丨进行灰度变换，并判断其全局亮度指数λ; 3.2) 对步骤3.1)中过亮或过暗的图片进行直方图均衡化，得到图像 % 3.3) 将图像通过多尺度滑动窗口利用训练好的三级人头级联卷积神经网络进行人头检测，具体过程如下：对图像./f以多尺度窗口进行滑动，各窗口归一化后进入训练好的第一级人头卷积神经网络，如果当前窗口满足设定阈值，该窗口进入第二级网络进行检测。以此类推，如果当前窗口满足设定阈值"时，该窗口进入第三级网络进行检测。最终记录符合级联网络各个条件的检测窗口的坐标及尺寸； 3.4) 对各个符合条件的滑动窗口的坐标进行聚类分析，得到最终的目标窗口坐标与大小； 4) 对图像f进行眼睛与嘴巴检测，具体过程如下； 4.1) 根据步骤3.4)人头检测得出的坐标和尺寸在图像中截选出人头区域图像if: 4.2) 对归一化处理后的图像彳先进行HSV变换，判断亮度情况，对过亮或过暗的图片进行gamma变换，得到图像々： 4.3) 对图像if利用训练好的二级眼睛级联卷积神经网络、二级嘴巴级联卷积神经网络分区域并行进行眼睛和嘴巴检测，判断是否存在遮挡，具体过程如下：为了加快检测速度，设定眼睛检测区域为图像if上方2/3区域，嘴巴检测区域为图像下方2/3区域，以多尺度窗口同时在两个区域进行滑动，各窗口归一化后批量进入第一级眼睛卷积神经网络或嘴巴卷积神经网络进行判断，当符合设定条件时，依次进入第二级眼睛或嘴巴卷积神经网络进行判断。检测过程中如果没有符合条件的窗口出现，则输出眼睛被遮挡/嘴巴被遮挡，触发报警。2. 如权利要求1所述的一种基于级联卷积神经网络的人脸遮挡检测方法，其特征在于：所述步骤3)中，还包括三级人头检测级联卷积神经网络的设计，具体如下：为了加快检测速度，提高检测准确率，人头检测采用三级卷积神经网络进行级联判断。为了快速确定检测图片中人头的大致区域，第一级网络仅包含一个卷积层、一个最大池化层和一个全连接层，为了降低提取特征的相关性，卷积层和池化层的连接方式为随机进行的非全连接；同时为了增强特征的稀疏性，网络中激活函数采用线性修正的ReLu (Rectified Linear Units)激活函数，较之sigmoid激活函数，ReLu更接近生物学的激活模型。相较于第一级检测网络，第二级和第三级检测网络输入图像的大小逐级递增，这样有利于提取更多的识别特征，提高检测精度。同时，进入输出分类层的特征由最后一个卷积层的全连接输出和其前一池化层的全连接输出特征共同组成，这是由于随着网络层数的递进，其感知区域更广阔，两者相结合，可以有效提取图像的局部特征和全局特征。3.如权利要求1所述的一种基于级联卷积神经网络的人脸遮挡检测方法，其特征在于：所述步骤4)中，还包括眼睛和嘴巴检测两个二级级联卷积神经网络的设计，具体如下：为了有效提高检测率，眼睛/嘴巴检测级联卷积神经网络均以彩色图像进行训练；由于随着网络结构的复杂化，其运行速度会减慢。为了满足检测的实时性要求，增加了一个结构简单的卷积神经网络作为第一级检测网络，快速排除非眼睛/嘴巴区域，大致确定目标方位;继而以网络较复杂的第二级网络作进一步的判断，这样不仅加快了检测速度，而且还确保了检测的准确度，同时对于遮挡物类型的鲁棒性较强。
【文档编号】G06N3/04GK105868689SQ201610086496
【公开日】2016年8月17日
【申请日】2016年2月16日
【发明人】张永良, 陆洋, 姜晓丽, 金尚赟, 时瑜
【申请人】杭州景联文科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张永良;陆洋;姜晓丽;金尚赟;时瑜;
技术所有人：杭州景联文科技有限公司;
我是此专利的发明人

上一篇：识别驾驶员打手机行为的方法和装置的制造方法
上一篇：行驶路面检测装置和行驶路面检测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。