实时检测人脸的系统及其方法与流程

文档序号：12721042阅读：169来源：国知局

本发明涉及数字图像处理领域，尤其涉及人脸检测技术。

背景技术：

近些年来，人脸检测技术是数字图像处理领域中的一个研究热点之一，因为它在多种应用中都发挥着重要的作用。比如，在用数码相机拍照片时，通过实时检测人脸可以实现相机的自动对焦，进而使得在拍摄的照片中人脸部分比较清晰。此外，人脸检测技术也是人脸识别中必须使用的一种技术。因为只有在图像中准确定位了包含人脸的区域，才能从中提取到人脸器官的特征信息，进而实现人脸的识别。

“CVPR 2001”国际会议论文集中“Rapid Object Detection using a Boosted Cascade of Simple Features”一文介绍了一种利用级联分类器检测人脸的方法，该方法是由Paul Viola和Michael Jones提出的。级联分类器是一种由多个强分类器串联在一起而构成的分类器，其中的每级强分类器是利用AdaBoost方法由弱分类器训练而成。这种人脸检测方法的检测速度比较快，因为在检测人脸时，大多数的检测窗口被级联分类器中最初的几级分类器过滤掉了。此外在计算Harr特征的数值时，该方法还使用了积分图像技术，使Haar特征数值的计算效率也较高。但是，这种人脸检测方法的召回率不够高，尤其检测那些部分被遮挡的人脸和侧脸的效果不理想。自从Paul Viola和Michael Jones提出这种人脸检测方法后，人们试图从两个方面对它做进一步的改进：(1)采用不同的图像特征；(2)改变级联分类器的结构。

“ICB 2007”国际会议论文集中“Face Detection Based on Multi-Block LBP Representation”一文介绍了一种人脸检测方法，该方法把MB-LBP图像特征引入级联分类器中。“CVPR 2008”国际会议论文集中“Locally Assembled Binary(LAB)feature with feature-centric cascade for fast and accurate face detection”一文中也介绍了一种人脸检测方法，该方法把LAB图像特征引入级联分类其中。相对而言，这两种人脸检测方法的召回率有所提高，但是仍然不够理想。《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》学术期刊2016年第2期中“A Fast and Accurate Unconstrained Face Detector”一文中介绍的人脸检测方法，也是一种基于级联分类器的人脸检测方法。在这种方法中，采用了NPD图像特征，同时对级联分类器中的决策树也作了改进。这种方法的检测速度和召回率都比较理想，但是它的误报率相对较高。中国专利公告号CN105718868A，公告日是2016年06月29日，名称为“一种针对多姿态人脸的人脸检测系统及方法”中公开了一种人脸检测方法，该方法把基于LAB图像特征的级联分类器和基于SURF图像特征的多层感知机相结合，构造了一种漏斗式结构的人脸检测器。这种方法的召回率和误报率都比较理想，但是它的检测速度较慢。

除了基于级联分类器的人脸检测方法之外，人们也探索了其他类型的人脸检测方法。比如，“CVPR 2015”国际会议论文集中“A Convolutional Neural Network Cascade for Face Detection”一文介绍了一种基于卷积神经网络的(CNN)的人脸检测方法。“BTAS 2015”国际会议论文集中“A Deep Pyramid Deformable Part Model for Face Detection”一文介绍了一种基于可变形器官模型的人脸检测方法。这两种方法都是影响力较大的方法，它们的召回率很高、误报率很低，但是检测速度非常慢，使它们的实用价值受到限制。

综上所述，在现有的人脸检测方法中，还没有绝对令人满意的方法。有些方法检测速度慢；有些方法召回率不够理想；有些方法误检率较高。

技术实现要素：

本发明的目的是提供一种能够克服上述技术问题的人脸检测系统及其方法。

实现本发明目的之一采用的技术方案是：一种人脸检测系统，包括主检测器和支路检测器，所述主检测器包括前端主分类器和后端主分类器，所述前端主分类器和后端主分类器都是二类分类器，所述前端主分类器的人脸输出端与后端主分类器的输入端相连接，所述后端主分类器的非人脸输出端与支路检测器的输入端相连接。

优选地，所述支路检测器包括前端支路分类器和后端支路分类器，所述前端支路分类器和后端支路分类器都是二类分类器，所述前端支路分类器的人脸输出端与后端支路分类器的输入端相连接。

优选地，所述前端主分类器的正确拒绝率大于等于98.00％且小于等于99.98％、正确识别率大于等于98.50％且小于等于99.5％，所述后端主分类器的正确拒绝率大于等于99.60％且小于等于99.99％、正确识别率大于等于86.00％且小于等于99.20％，所述支路检测器的正确拒绝率和正确识别率都大于等于99.9％。

优选地，所述前端支路分类器的正确拒绝率大于等于80.00％且小于等于99.50％、正确识别率大于等于99.20％且小于等于99.80％，所述后端支路分类器的正确拒绝率和正确识别率都大于等于99.9％。

优选地，所述主检测器是一个n阶深级联分类器，其中第1至第m阶分类器被用作所述前端主分类器，第m+1至第n阶分类器被用作所述后端主分类器，所述m和n是两个整数，而且m＜n。

优选地，所述主检测器是一个n阶深级联分类器，其中第1至第m阶分类器被用作所述前端主分类器，第m+1至第n阶分类器被用作所述后端主分类器，所述m和n是两个整数，而且m＜n，所述前端支路分类器包括1个浅级联分类器，或者包括2个以上的串联在一起的浅级联分类器。

优选地，所述前端主分类器和后端主分类器采用能快速计算的图像特征，所述能快速计算的图像特征包括Haar特征、LBP特征、LAB特征或全局二进制特征。

优选地，所述前端主分类器、后端主分类器和前端支路分类器采用能快速计算的图像特征，所述能快速计算的图像特征包括Haar特征、LBP特征、LAB特征或全局二进制特征，所述前端主分类器和前端支路分类器采用不同类型的图像特征。

优选地，所述全局二进制特征是一种基于灰度图像像素灰度值的图像特征，它的数值计算步骤为：

步骤1，从灰度图像中，获取1个阈值像素和2个以上二值化像素的灰度值，所述阈值像素是图像中的任意一个像素，所述二值化像素是图像中依次相连的像素；

步骤2，按照以下公式，计算全局二进制特征的数值：

式中：GBF表示全局二进制特征的数值，m表示二值化像素的个数，I_bk表示第k个二值化像素的灰度值，I_t表示阈值像素的灰度值；

实现本发明目的之二采用的技术方案是：一种人脸检测方法，包括以下步骤：

步骤1101，缩放图像，形成图像金字塔；

步骤1102，在图像金字塔的每个图像中，按照指定的步长移动检测窗口，建立检测窗口集合；

步骤1103，利用本发明的人脸检测系统，判断检测窗口集合中的每个检测窗口是否包含人脸；

步骤1104，把包含人脸的检测窗口放在人脸窗口集合中；

步骤1105，合并人脸窗口集合中的检测窗口，

所述步骤1103包括以下步骤：

步骤1201，由前端主分类器判断检测窗口中是否包含人脸；

步骤1202，如果检测窗口中包含人脸则执行步骤1203，否则执行步骤1209；

步骤1203，由后端主分类器判断检测窗口中是否包含人脸；

步骤1204，如果检测窗口中包含人脸则执行步骤1210，否则执行步骤1205；

步骤1205，由前端支路分类器判断检测窗口中是否包含人脸

步骤1206，如果检测窗口中包含人脸则执行步骤1207，否则执行步骤1209；

步骤1207，由后端支路分类器判断检测窗口中是否包含人脸；

步骤1208，如果检测窗口中包含人脸则执行步骤1210，否则执行步骤1209；

步骤1209，滤除检测窗口，并执行步骤1211；

步骤1210，把检测窗口放在人脸窗口集合中；

步骤1211，结束。

由于采用上述技术方案，本发明提供的人脸检测系统及方法具有的有益效果是：既能保证检测速度足够快，还能使召回率足够高、误报率也足够低。

附图说明

图1示出的是根据本发明的实施例的人脸检测系统的示意图；

图2示出的是根据本发明的另一个实施例的人脸检测系统的示意图；

图3示出的是根据本发明的再一个实施例的人脸检测系统的示意图；

图4示出的是本发明的全局二进制特征的示意图；

图5示出的是本发明的四位正方形全局二进制特征的示意图；

图6示出的是本发明的四位水平线段全局二进制特征的示意图；

图7示出的是本发明的四位垂直线段全局二进制特征的示意图；

图8示出的是本发明的四位斜线段全局二进制特征的示意图；

图9示出的是本发明的四位反斜线段全局二进制特征的示意图；

图10示出的是根据本发明的又一个实施例的人脸检测系统的示意图；

图11示出的是根据本发明的实施例的人脸检测方法的流程图；

图12示出的是利用本发明的人脸检测系统判断检测窗口集合中的每个检测窗口是否包含人脸的方法的流程图。

具体实施方式

结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明的实施例的人脸检测系统的示意图。如图1所示，本发明的人脸检测系统包括主检测器11和支路检测器12。进一步的，主检测器11包括1个前端主分类器111和1个后端主分类器112。前端主分类器111和后端主分类器112都是二类分类器，它们的两个输出端是人脸输出端(输出包含人脸的检测窗口)和非人脸输出端(输出不包含人脸的检测窗口)。前端主分类器111的人脸输出端与后端主分类器112的输入端相连接，后端主分类器112的非人脸输出端与支路检测器12的输入端相连接。

在使用本发明的人脸检测系统时，首先要按照一定的比例缩放图像，形成图像金字塔。然后，在图像金字塔的每个图像中，以指定的步长，按照从上至下、从左至右的顺序移动检测窗口。在移动检测窗口的过程中，使用人脸检测系统分别检测窗口中是否包含人脸。最后，再使用诸如非最大值抑制(Non-maximum Suppression)方法合并检测窗口。

前端主分类器111的作用是滤除大部分的不包含人脸的检测窗口，它是一种运行速度较快、正确拒绝率适中、正确识别率较高的分类器，比如正确拒绝率大于等于98.00％且小于等于99.98％、正确识别率大于等于98.50％且小于等于99.5％。其中，正确拒绝率和正确识别率按照以下公式计算：

后端主分类器112是一种运行速度较快、正确拒绝率较高、正确识别率适中的分类器，比如正确拒绝率大于等于99.60％且小于等于99.99％、正确识别率大于等于86.00％且小于等于99.20％。它进一步地滤除不包含人脸的检测窗口，进而正确输出包含人脸的检测窗口。在那些被后端主分类器112滤除的检测窗口中，既包含非人脸窗口，也可能包含一些人脸窗口。通常，在这些被后端主分类器112滤除的人脸窗口中所包含的人脸都是比较难检测的，比如被部分遮挡的人脸或者侧脸。支路检测器12是一种正确拒绝率和正确识别率都很高的分类器，比如正确拒绝率大于等于99.9％、正确识别率大于等于99.9％，它用于从那些被后端主分类器112过滤掉的检测窗口中，进一步挑选包含人脸的检测窗口。

如前所述，前端主分类器111是一种运行速度较快、正确拒绝率适中、正确识别率较高的分类器，因此在滤除大部分不包含人脸的检测窗口的情况下，它能使绝大多数的包含人脸的检测窗口通过检测。后端主分类器112是一种运行速度较快、正确拒绝率较高、正确识别率适中的分类器，它能把大多数较容易检测的人脸窗口检测出来，同时使被错误检测的窗口(即把不包含人脸的检测窗口看作是包含人脸的检测窗口)的比例很小。支路分类器12是一种正确拒绝率和正确识别率都很高的分类器。支路检测器12的作用是，从那些被后端主分类器112过滤掉的那些检测窗口中，把包含人脸的检测窗口检测出来。这些检测窗口包含的人脸多数是比较难检测的人脸，比如部分被遮挡的人脸和侧脸。通常情况下，正确拒绝率和正确识别率都很高的分类器的运行速度都比较慢，但是由于前端主分类器111已经滤掉了大部分的不包含人脸的检测窗口，因此需要由支路检测器12检测的窗口数量是比较少的，比如小于200个。由此可见，按照上述方案设计的人脸检测系统，既能保证检测速度足够快，又能使正确拒绝率和正确识别率足够高。

如图2所示，根据本发明的另一个实施例，支路检测器12进一步地包括1个前端支路分类器121和1个后端支路分类器122。前端支路分类器121和后端支路分类器122都是二类分类器，它们的两个输出端是人脸输出端(输出包含人脸的检测窗口)和非人脸输出端(输出不包含人脸的检测窗口)。前端支路分类器121的人脸输出端与后端支路分类器122的输入端相连接。

前端主分类器111和前端支路分类器121的作用是相同的，都是用于滤除不包含人脸的检测窗口，进而减少由后续分类器处理的检测窗口的数量。它们既可以是同种类型的分类器，也可以不是同种类型的分类器。如果它们是同种类型的分类器，需要采用不同的图像特征集合，这样才能从不同的角度去考察检测窗口。

前端支路分类器121是一种运行速度较快、正确拒绝率适中、正确识别率较高的分类器，比如正确拒绝率大于等于80.00％且小于等于99.50％、正确识别率大于等于99.20％且小于等于99.80％，它用于进一步过滤那些被后端主分类器112过滤掉的检测窗口。后端支路分类器122是一种正确拒绝率和正确识别率都很高(比如都大于等于99.9％)的分类器。例如，可以使用以下几种分类器作为后端支路分类器122：(1)卷积神经网络；(2)基于SURF特征的多层感知机。也可以使用正确识别率很高、正确拒绝率很高的人脸检测器作为后端支路分类器122，比如基于可变形器官模型的人脸检测器。

如图3所示，根据本发明的人脸检测系统的再一个实施例，主检测器11是一个n阶的深级联分类器。其中，第1至第m阶分类器被当作前端主分类器111(m＜n)，第m+1至第n阶分类器被当作后端主分类器112。前端支路分类器121既可以是1个浅级联分类器，也可以是由2个以上的浅级联分类器串联在一起构成的分类器。深级联分类器是阶数较多的级联分类器，比如阶数为17～30的级联分类器。相反，浅级联分类器是阶数较少的级联分类器，比如阶数为3～10的级联分类器。

为了提高人脸检测的速度，本发明的人脸检测系统中的前端主分类器、后端主分类器和前端支路分类器均采用能够快速计算的图像特征，比如Haar特征、LBP特征、LAB特征或全局二进制特征(Global Binary Feature，GBF)。全局二进制特征是一种基于灰度图像像素灰度值的图像特征，它涉及两种类型的像素：(1)1个阈值像素；(2)m个二值化像素(m≥2)。阈值像素是图像中的任意一个像素，二值化像素是图像中依次相连的像素。全局二进制特征的数值按照以下步骤计算：

步骤1，从灰度图像中，获取1个阈值像素和m个二值化像素的灰度值(m≥2)。

如图4所示，阈值像素401是图像中的任意一个像素，二值化像素402a至402f是图像中依次相连的像素。

步骤2，按照以下公式，计算全局二进制特征的数值：

式中：GBF表示全局二进制特征的数值；I_bk表示第k个二值化像素的灰度值；I_t表示阈值像素的灰度值；

在训练级联分类器时，首先要构建一个图像特征集合，然后从图像特征集合中选择那些分辨能力较强的图像特征，用于建立级联分类器中的每一级分类器。由全局二进制特征数值的计算方法可知，不同的全局二进制特征的区别体现在3个方面：(1)阈值像素的位置；(2)二值化像素的数量；(3)二值化像素的位置。在构建全局二进制图像特征集合时，如果不指定限制条件，全局二进制图像特征集合所包含的图像特征的数量将会非常庞大，这样会使级联分类器的训练时间过长。因此，在构建全局二进制图像特征集合时，需要事先限定二值化像素的数量，以及二值化像素之间的相对位置关系。图5至图9示出了5种类型的全局二进制特征。如图5所示，二值化像素402a至402d依次相连形成了一个正方形，因此把这种全局二进制特征称为四位正方形全局二进制特征，简称QGBF_4特征。如图6所示，二值化像素402a至402d依次相连形成了一个水平线段，因此把这种全局二进制特征称为四位水平线段全局二进制特征，简称HLGBF_4特征。如图7所示，二值化像素402a至402d依次相连形成了一个垂直线段，因此把这种全局二进制特征称为四位垂直线段全局二进制特征，简称VLGBF_4特征。如图8所示，二值化像素402a至402d依次相连形成了一个斜线段，因此把这种全局二进制特征称为四位斜线段全局二进制特征，简称SLGBF_4特征。如图9所示，二值化像素402a至402d依次相连形成了一个反斜线段，因此把这种全局二进制特征称为四位反斜线段全局二进制特征，简称BSLGBF_4特征。

如图10所示，根据本发明的人脸检测系统的又一个实施例，主检测器11是一个基于QGBF_4特征的20阶深级联分类器。其中，第1阶至第9阶分类器被当作前端主分类器111，第10阶至第20阶分类器被当作后端主分类器112。前端支路分类器121包含2个串联在一起的级联分类器，即第一层前端支路分类器1211和第二层前端支路分类器1212。其中第一层前端支路分类器1211是一个基于VLGBF_4特征的5阶浅级联分类器，第二层前端支路分类器1212是一个基于HLGBF_4特征的5阶浅级联分类器。后端支路分类器122是一个基于SURF特征的多层感知机。主检测器11、第一层前端支路分类器1211和第二层前端支路分类器1212中的每一阶分类器都是使用Adaboost方法，由二叉决策树训练而成的。经过训练，使每一阶分类器的正确拒绝率大于等于45.00％且小于等于55.00％、正确识别率大于等于99.50％且小于等于99.90％。

如图11所示，根据本发明的人脸检测系统的实施实例，本发明的人脸检测方法包括以下步骤：