一种多特征多模型的行人检测方法

文档序号：10553307阅读：440来源：国知局

一种多特征多模型的行人检测方法
【专利摘要】本发明公开一种多特征多模型的行人检测方法，包括：用ICF+Adaboost分类器A处理视频帧RGB图像，用基于前景掩码行人检测分类器处理前景掩码；将2个分类器的检测结果合并，按阈值划分为高置信度行人检测结果和低置信度行人检测结果；采用ICF+Adaboost分类器B、DPM行人检测分类器分别对低置信度行人检测结果进行检测，将2个分类器检测结果合并，并将检测到的每个行人的检测计分、重叠率、宽高比、分类器序号和前景比率作为特征向量，输入1个裁决SVM中，判断检测到的行人是否为正确的行人检测，并输出新的行人检测结果，并将此结果与高置信度行人检测结果合并为一个合集作为最终检测结果。本发明有效地解决目前行人检测中存在的误判率较高问题，并提高检测率。
【专利说明】
一种多特征多模型的行人检测方法
技术领域
[0001]本发明涉及视频分析技术领域，具体涉及一种多特征多模型的行人检测方法。
【背景技术】
[0002]目前行人检测的方法较多，如集成通道特征(ICF:1ntegrated ChannelFeatures)+Adaboost,H0G+SVM(H0G:Histograms of Oriented Gradients ,SVM:SupportVector Machine) ,DPM(Deformable Part Model)模型，还有基于深度学习的检测和基于前景掩码的检测方法等，这些方法应用于实际的监控视频时，往往存在高检测率和低误判率之间的难以同时兼容的问题，从而给进一步的视频高级分析(如行人检索)带来困难。
[0003]对于单个的基于机器学习的行人检测方法，存在的主要问题是不能很好的适应各种实际场景，对于较为清晰的视频能得到较好的检测效果，而对于比较模糊的视频则漏检率较高;若加大训练集的数目，则对于一些场景检测效果较好，而对于另外一些场景则误判率较高。而基于前景掩码的行人检测方法往往导致较高的误判率。
[0004]目前，普遍使用的行人检测方法有:Piotr Dollar的toolbox(http://vis1n.ucsd.edu/ —pdollar/toolbox/doc/index.html)中的ICF+Adaboost，DPM(DPM:Deformable Part Mo del)模型(http:/ / www.cs.berkeley.edu/ —rbg/latent/index.html),H0G+SVM(Histograms of Oriented Gradients for Human Detect1n,Dalai)。其中ICF+Adaboost的速度最快，效果较好;DPM模型的效果好但是速度慢;而HOG+SVM则速度中等且效果较好。还有其他的很多行人检测方法被提出来，如H0G+LBP+IKSVM，在实际视频(如安防监控)中的应用效果和前述的3种方法相差不大。各种检测方法都存在高检测率和低误报率之间的难以兼容的矛盾，即用一种方法难以获得适应面较广、检测率高、误判率低、速度比较快的行人检测效果。
[0005]如何采用一种智能化的方法，能把各种检测方法很好的结合起来，达到适应面广、检测率高、误判率低、速度较快的比较理想的效果，是人们研究的方向。

【发明内容】

[0006]本发明的目的为了克服上述现有技术存在的缺陷和问题，提供一种多特征多模型的行人检测方法。本发明具有适应面较广、检测率高、误判率低、速度比较快的特点。
[0007]本发明的技术方案为:
[0008]一种多特征多模型的行人检测方法，基于P1tr DolIar的toolbox可以得到I个准确率较高的ICF+Adaboost分类器(即图3中的ICF+Adaboost分类器B)，它和DPM行人检测分类器有一个共同点，就是如果将视频帧rgb图像放大1.5 — 2倍后再检测，则可以达到高检测率、低误报率的效果;但是放大图像后检测速度会变慢；同时这2个检测方法有一定的互补性，即对于一些场景的视频，可能ICF+Adaboost分类器B的检测率高，而DPM行人检测分类器的检测率低。因此，本发明从提高行人检测效率的角度考虑，将检测分为2个阶段:1阶段和2阶段；I阶段(见图2)使用灵敏度较高的ICF+Adaboost分类器A和基于前景掩码的行人检测分类器，得到检测率较高但是可能误报率较高的行人检测结果，这个阶段的检测速度较快。接下来的2阶段主要用来删除I阶段的低置信度行人检测结果中的误判，由于I阶段的低置信度行人检测结果的行人数量不多，所以可以将这些检测detect1rubox(见图4)对应的rgb图像块延伸放大后再检测，这样可以达到高检测率和低误报率，同时也能达到较快的检测速度。行人检测2阶段使用了2个分类器:ICF+Adaboost分类器B和DPM行人检测分类器，并使用一个裁决SVM来删除行人检测2阶段的检测结果中的误判。
[0009]关于ICF+Adaboost分类器A和ICF+Adaboost分类器B的区别:对于同样的图像，分类器A的检测率较高，同时误报率也较高;分类器B的检测率不高，但是误报率较低。
[0010]—种多特征多模型的行人检测方法，其特征在于包括以下步骤:
[0011](I)提取前景掩码:对于输入的视频，采用高斯混合模型(GMM)的方法来建立背景模型，分析每一帧视频的前景，并采用形态学操作进行去噪处理，获得前景掩码；
[0012](2)行人检测I阶段的行人检测:参见图2，使用ICF+Adaboost分类器A处理视频流中的每一个视频帧的RGB图像得到行人检测结果;基于前景掩码行人检测分类器处理每一个视频帧对应的前景掩码，先进行形态学处理，然后提取连通域，并计算每个连通域的宽高比(wh_rat1)，然后将宽高比在一定阈值范围内的连通域作为行人检测结果;然后将上述的2个分类器处理的行人检测结果合并，再将合并后的行人检测结果按检测计分(score)划分置信度，设置一个score的阈值，大于此阈值的行人检测结果为高置信度行人检测结果，存入行人检测最终结果集，低于此阈值的行人检测结果为低置信度行人检测结果，作为行人检测2阶段的输入数据；
[0013](3)行人检测2阶段的行人检测:参见图3，输入为行人检测I阶段的低置信度行人检测结果，采用ICF+Adaboost分类器B和DPM行人检测分类器分别对输入的低置信度行人检测结果进行检测，并提取检测方框detect1rubox(见图4)重叠率、score、分类器序号、宽高比和前景比率组成裁决特征向量，利用一个裁决SVM进行分析，删除误判，得到行人检测的最终结果集；
[0014](4)将行人检测I阶段的高置信度行人检测结果和行人检测2阶段的行人检测结果合并，成为最终的行人检测结果集。
[0015]参见图3，步骤(3)行人检测2阶段的行人检测具体步骤为:对于行人检测I阶段的低置信度检测结果中的每个检测方框(detect1n_box)，向X和Y方向延伸，形成一个扩大的矩形区域，这样每个detect1n_box转换为一个扩大的矩形区域;接下来在每个矩形区域内进行检测，先提取此矩形区域对应的视频帧RGB图像块，并放大一定的倍数，这样使得各种颜色和边沿特征更加明显;然后分别用ICF+Adaboost分类器B和DPM行人检测分类器分别对上述的延伸并放大的RGB图像块进行检测，形成2个检测结果集，这2个结果集会存在一些重叠的detect 1n_box，此时若多个detect 1n_box的重叠率很高，则只保留I个;最后计算每个detect1n_box的检测情况并形成裁决特征向量，裁决特征向量包括:检测计分score、分类器编号、重叠率、宽高比和前景比率，将此裁决特征向量输入一个裁决SVM，若裁决SVM输出值大于0，则判断此detect1n_box为正确的行人检测，并保留，若输出值小于O，则认为是误判，并删除。
[0016]本发明有效地解决目前行人检测中存在的误判率较高的问题，并提高检测率。
【附图说明】
[0017]图1为本发明的行人检测整体流程图。
[0018]图2为本发明的行人检测I阶段流程图。
[0019]图3为本发明的行人检测2阶段流程图。
[0020]图4为detect1n_box和score不意图。
[0021 ] 图5为detect1n_box对应的前景示意图。
【具体实施方式】
[0022]下面对结构附图对本发明作进一步描述。如图1、图2、图3、图4、图5所示。
[0023](I)提取前景掩码
[0024]对于输入的视频，分析每一帧的前景掩码，分析方法为高斯混合模型(GMM)，若视频的分辨率较高，可以按原视频的尺寸比例将高度缩小为500像素，以加快分析速度。分析后，每一帧有2个数据，I个为视频帧rgb图像，另一个为以逻辑值表示的前景掩码。
[0025](2)行人检测I阶段的行人检测
[0026]参见图2，对于视频的每一帧rgb图像，采用“ICF+Adaboost分类器A”进行行人检测，得到行人检测结果集I。
[0027]下面对检测计分(S卩检测score)进行说明:
[0028]参见图4，对于以下3种分类器:10?+六(1&130081:分类器六、10?+六(1&130081:分类器13和DPM行人检测分类器，当分类器对视频帧rgb图像的每个滑动窗口进行特征计算和分类判断时，得到一个分类判断值，即为分类score，或称检测计分score，若score大于O，则认为滑动窗口内包含了行人，而对于不同的检测结果，score不同，一般范围为[-300,300] ,score的值越大，表示检测到行人的可能性也越大，即置信度越高。
[0029]“ICF+Adaboost分类器A”采用以下方法获得:选取公开的行人训练数据集，包括:INRIA、Caltech和ETH，选取高度超过60像素的行人作为正样本，并经过左右镜像、模糊化、加噪声的方法来获得更多正样本，这样得到约15000个正样本;然后以这些数据集中的负样本和网络采集的无行人的图片集一起，形成负样本集，大约100万个负样本；使用P1trDoIIar的tooIbox(http://vis1n.ucsd.edu/ —pdollar/toolbox/doc/index.html)中的ICF+Adaboost模型进行训练，得到分类器。
[0030]对于视频的每一帧rgb图像对应的前景掩码，采用“基于前景掩码的行人检测分类器”进行行人检测，主要判断依据为行人的轮廓特征，先对前景掩码进行形态学处理，包括:删除较小的噪声连通域，在y方向进行膨胀以连接分断的连通域。然后计算每个连通域的外接矩形宽高比，即:wh_rat1=width/height，若某个连通域的wh_rat1处在某个阈值范围中，如[0.3，0.8]，则认为此连通域为行人，并形成行人检测结果集2(见图2)，并将每个detect1n_box设置一个相同的较小的大于O的score，如0.1。
[0031]这样获得2个检测结果集，分别为“行人检测结果集I”和基于前景掩码的行人检测结果集2。
[0032]接下来对于上述2个结果集的相互重叠率大于一定阈值的多个detect1n_box，只保留I个，即保留“行人检测结果集I”中的detect1rubox。这样将2个结果集合并，形成I个合集。然后将此合集中的全部detect 1n_box按检测score分为2类，大于某个阈值的视为“高置信度行人检测结果”，其他的作为“低置信度行人检测结果”，设置的阈值使一部分“行人检测结果集I”的detect1n_box和全部“行人检测结果集2”的detect1n_box将作为“低置信度行人检测结果” ο “高置信度行人检测结果”直接存入最终行人检测结果集。
[0033](3)行人检测2阶段
[0034]在实践中发现，将视频帧rgb图像放大后，如放大1.5 — 2倍后，检测的准确率会增加；同时DPM(DPM:Deformable Part Model)行人检测分类器的准确率较高且误判率较低，但是检测速度较慢;所以本发明将行人检测分为2个阶段，在此阶段，只对行人检测I阶段产生的“低置信度行人检测结果集”再次检测，既满足高检测率、低误判率，又能达到较快的检测速度。
[0035]参见图3，对于“低置信度行人检测结果集”中的每个detect1rubox，根据detect 1n_box的X座标，y座标,width ,height确定在视频帧rgb图像上的位置，先在X和y轴的方向延伸形成一个更大的矩形区域，即包含更多的视频帧范围以获得更好的检测效果；然后将此矩形区域放大1.5 — 2倍，使得颜色和梯度更加明显；这样对于每个detect1n_box，获得一个延伸并放大的rgb图像块。
[0036]对于每个延伸并放大的rgb图像块，分别用“ICF+Adaboost分类器B”和“DPM行人检测分类器”进行检测，获得行人检测结果集I和行人检测结果集2(见图3)。
[0037]“ICF+Adaboost分类器B”具有检测率不高但是误判率低的特点，采用以下方法获得:选取公开的行人训练数据集INRIA，选取高度超过100像素的行人作为正样本，并经过左右镜像、模糊化、加噪声的方法来获得更多正样本，这样得到约3000个正样本；然后以INIRIA数据集中的负样本和网络采集的无行人的图片集一起，形成负样本集，大约3万个负样本；使用P1tr DoIIar的tooIbox(http: // vis1n.ucsd.edu/—pdollar/toolbox/doc/index.html)中的ICF+Adaboost模型进行训练，得到分类器。INRIA正样本的特点是图像清晰，彳丁人具有$父尚的尚度。
[0038]对于每个延伸并放大的rgb图像块，还用“DPM行人检测分类器”进行行人检测，直接使用开源的模型和行人检测分类器，可参见:http://www.cs.berkeley.edu/— rbg/latent/index.html。
[0039]这样由2种分类器获得2个检测结果集，然后合并为I个检测结果集;在这个结果集中，若存在多个相互重叠的detect1rubox，且重叠率超过一定阈值，则只保留I个，可保留任意一个。这样经过合并和“消除重叠detect1rubox”的处理之后，得到一个合并后的检测结果集。然后经过“裁决SVM”来消除其中的误判，得到一个新的检测结果集，作为行人检测2阶段的输出。
[0040](4)行人检测2阶段中的“裁决SVM”
[0041]行人检测2阶段有一个重要的分类器，ΒΓ裁决SVM”，用于判断上述“步骤(3)行人检测2阶段”中的“行人检测结果集I”和“行人检测结果集2”(见图3)中哪些是行人，SPTP(True Positive)，哪些是误判，即FP(False Positive)。下面详细说明“裁决SVM”的特征向量的产生和“裁决SVM”的训练方法。
[0042]“裁决SVM”的特征向量的产生方法如下:
[0043]对于上述的“步骤(3)行人检测2阶段”中的“行人检测结果集I”和“行人检测结果集2”中的每个detect1rubox，可以计算I个特征向量(下称裁决特征向量)，包括以下元素:
[0044][a]重叠率，若本(^丨6(31:;[011_1301和其他的(16丨6(31:;[011_1301存在重叠，可计算本detect1n_box和其他detect1n_box之间的重叠率，取最大重叠率作为此特征元素，可为[0,1)；
[0045][b]分类器序号，即此detect1rubox由哪种分类器检测得到，行人检测2阶段使用的分类器为“ICF+Adaboost分类器B”或“DPM行人检测分类器”；
[0046][c]检测score，这是分类器的输出值，可为O — 300;
[0047][d]宽高比，即:detect1n_box宽度/detect1n_box高度；
[0048][e]前景比率，detect1n_box内的前景像素点数目/总像素点数目，可参见图5 ；
[0049]这样将每个detect1rubox转换为I个特征向量，然后输入到裁决SVM，得出是否为行人(即TP)的最终判断，判断规则为:若裁决SVM输出值大于0，则认为是正确的行人(SPTP)，若裁决SVM输出值小于0，则认为是误判(即FP)。
[0050]本发明使用IKSVM( ,http: //ttic.uchicag0.edu/ —smaji/pro jects/f iksvm/)，比经典SVM(如libsvm)的速度更快，且支持非线性，可以得到更好的分类效果。
[0051 ] “裁决SVM”的训练方法如下:
[0052]选择一些典型场景的视频，如:学校，小区，街道，车站，商场，工厂，并选择包含各种季节(如夏、冬)，各种气候条件(晴天、阴天、雨天)，各种时段(早、中、晚)的视频。对于这些视频，按照上述的2个阶段(即行人检测I阶段和行人检测2阶段)进行行人检测，由于训练时没有“裁决SVM”，对于“行人检测2阶段”得到的行人检测detect1rubox，采用人工来辨别是否为正确的行人(即TP)，将属于正确行人检测的detect1rubox作为正样本，而将属于错误行人检测(即FP)的detect1n_box作为负样本，搜集约3000个正样本和3000个负样本，计算上述的“裁决特征向量”，输入IKSVM进行训练得到“裁决SVM”。
[0053]下面对裁决SVM的输出值进行说明:
[0054]SVM的输出值可以为实数，将大于O的检测认为是正确的行人检测，并保留；而将小于O的检测认为是错误的行人检测，并被删除。
[0055](5)最后阶段
[0056]将行人检测I阶段得到的高置信度行人检测结果集(见图2)和行人检测2阶段得到的行人检测结果(见图3)合并，成为行人检测最终结果集。
【主权项】
1.一种多特征多模型的行人检测方法，其特征在于包括以下步骤: (1)提取前景掩码:对于输入的视频，采用高斯混合模型(GMM)的方法来建立背景模型，分析每一帧视频的前景，并采用形态学操作进行去噪处理，获得前景掩码； (2)行人检测I阶段的行人检测:使用ICF+Adaboost分类器A处理视频流中的每一个视频帧的RGB图像得到行人检测结果;基于前景掩码行人检测分类器处理每一个视频帧对应的前景掩码，先进行形态学处理，然后提取连通域，并计算每个连通域的宽高比(wh_rat1)，然后将宽高比在一定阈值范围内的连通域作为行人检测结果;然后将上述的2个分类器处理的行人检测结果合并，再将合并后的行人检测结果按检测计分(score)划分置信度，设置一个score的阈值，大于此阈值的行人检测结果为高置信度行人检测结果，存入行人检测最终结果集，低于此阈值的行人检测结果为低置信度行人检测结果，作为行人检测2阶段的输入数据； (3)行人检测2阶段的行人检测:对于输入的低置信度行人检测结果，采用ICF+Adaboost分类器B和DPM行人检测分类器分别对输入的行人检测结果进行检测，并提取检测方框(detect1rubox)重叠率、score、分类器序号、宽高比和前景比率组成裁决特征向量，利用一个裁决SVM进行分析，删除误判，得到一个新的行人检测结果； (4)将行人检测I阶段的高置信度行人检测结果和行人检测2阶段的行人检测的最终结果合并，成为行人检测最终结果集。2.根据权利要求1所述的多特征多模型的行人检测方法，其特征在于:步骤(3)行人检测2阶段的行人检测具体步骤为:对于行人检测I阶段的低置信度检测结果中的每个检测方框(detect1n_box)，向X和Y方向延伸，形成一个扩大的矩形区域，这样每个detect1n_box转换为一个扩大的矩形区域;接下来在每个矩形区域内进行检测，先提取此矩形区域对应的视频帧RGB图像块，并放大一定的倍数，这样使得各种颜色和边沿特征更加明显;然后分别用ICF+Adaboost分类器B和DPM行人检测分类器分别对上述的延伸并放大的RGB图像块进行检测，形成2个检测结果集，这2个结果集会存在一些重叠的detect1n_box，此时若多个detect1n_box的重叠率很高，则只保留I个;最后计算每个detect1n_box的检测情况并形成裁决特征向量，裁决特征向量包括:检测计分score、分类器编号、重叠率、宽高比和前景比率，将此裁决特征向量输入一个裁决SVM，若裁决SVM输出值大于0，则判断此detect1n_box为正确的行人检测，并保留，若输出值小于0，则认为是误判，并删除。
【文档编号】G06K9/00GK105913003SQ201610212821
【公开日】2016年8月31日
【申请日】2016年4月7日
【发明人】陈昌海
【申请人】国家电网公司, 湖北科能电力电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈昌海;
技术所有人：国家电网公司;湖北科能电力电子有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。