一种基于多特征回归式集成学习的人群密度估计方法

文档序号：10687553阅读：270来源：国知局

一种基于多特征回归式集成学习的人群密度估计方法
【专利摘要】本发明涉及一种基于多特征回归式集成学习的人群密度估计方法，以人的头部宽度作为参照对场景帧图像进行多层次的图像分块，对块进行图像放缩和Gamma矫正以实现图像的尺度和光照一致性；利用预处理的样本构建密度估计模型，提取D?SIFT、GLCM和GIST三种特征构建第一层支持向量机回归(SVR)粗预测模型，对粗预测结果作为新的特征构建第二层SVR细预测模型，将所有子图像的细预测结果相加根据场景设定的人数分级进行密度估计。本发明克服了场景光照变化、相机高度角度变化以及行人遮挡的问题，利用多个场景样本采取多种特征并应用回归的方式集成学习构建模型，来适用于多个不同场景以实现人群密度估计。
【专利说明】
一种基于多特征回归式集成学习的人群密度估计方法
技术领域
[0001] 本发明涉及一种属于数字图像处理、模式识别技术领域，特别涉及一种基于多特征回归式集成学习的人群密度估计方法。
【背景技术】
[0002] 随着人们生活水平的提高，城市化进度的不断加快，大规模公共场所集体性活动日益频繁，因而近年来的因人群密集所产生的事故屡见不鲜。因此，如何使用计算机视觉对人群进行实时的智能监控，及时做出人群密度估计，并采取有效的措施，对于保障社会稳定和人群安全具有重要意义。
[0003] 目前人群密度估计的方法可分为两大类：
[0004] 1)直接法:直接法使用一些分类器试图分割或者检测人群中的每个个体，然后进行计数来获取人群密度。这些方法可以进一步分成两小类:①基于模型的方法:通过模型或者人的形状轮廓来进行检测或者分割。如Lin等人提出的一种基于Haar小波变换提取人头部轮廓特征并结合支持向量机进行行人检测的方法（Lin S F，Chen J Y, Chao H X. Estimation of number of people in crowded scenes using perspective transformation[J]. Systems,Man and Cybernetics,Part A:Systems and Humans，IEEE Transactions on，2001，31(6) :645-654)，Felzenszwalb等提出一种基于部件和改进的梯度直方图（Histogram of oriented gradient，H0G)特征的DPM(Deformable parts model) 检测算法（Felzenszwalb P F，Girshick R B，McAllester D，et al .Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence，IEEE Transactions on，2010,32(9):1627-1645)，Ga11和 Lempitsky提出一种使用霍夫森林框架对行人的各个部件进行检测并打分来判断行人以及其位置的方法（Gall J, Lempitsky V. Class-specific hough forests for object detection[M]·Decision forests for computer vision and medical image analysis . Springer London ,2013:143-157)等等，Gardz inski 等人（Gardz inski P， Kowalak K,Kaminski L，et al.Crowd density estimation based on voxel model in multi-view surveillance systems[C]. Systems , Signals and Image Processing (IWSSIP)，2015International Conference on. IEEE，2015:216-219)则是利用多个视角的相机进行3D前景建模，根据人体的形状来提取人体并判断人群人数;②基于轨迹聚类的方法:通过长时间的跟踪聚类行人身上的兴趣点来检测每个个体。如Rabaud和Belongie提出了一种使用Kanade-Lucas-Tomasi (KLT)跟踪器和一系列底层特征来聚类轨迹线并推测场景人数的方法（Rabaud V，Belongie S.Counting crowded moving objects[C] .Computer Vision and Pattern Recognition,2006IEEE Computer Society Conference on.IEEE, 2006，l:705_711)，Rao等人（Rao A S，Gubbi J，Marusic S，et al.Estimation of crowd density by clustering motion cues[J].The Visual Computer，2015，31(11):1533-1552)通过光流法来跟踪获取人群轮廓，从运动信息中筛选出人的轨迹线，然后聚类分析人群密度。直接法在场景人数较少的情况下效果较好，但是其缺点也很明显，在拥挤的情况下人群出现严重的重叠，直接法的性能直线下降。
[0005] 2)间接法：间接法把人群作为整体看待，通过对人群提取纹理等特征并结合回归模型来获取人群密度。间接法也可以分为三类:①基于像素的分析:这些方法首先移除场景背景，然后使用一些非常底层的特征来估计人群密度。Davies等(Davies A C，Yin J H， Velastin S A . Crowd monitoring using image processing[J].Electronics& Communication Engineering Journal ,1995,7(1) :37-47)通过提取前景并分析人群前景和边缘像素，并加入视角纠正，通过线性关系来估计人数。Hussasin等(Hussain N,Yatim H S M1Hussain N L,et al.CDES:A pixel-based crowd density estimation system for Mas jid al_Haram[J] · Safety Science, 2011,49(6): 824-833)在通过缩放来纠正透视畸变的前景像素上提取底层特征然后使用后向神经网络来监督训练，训练的模型对稀疏人群估计很准确，但随着密度升高出现人群遮挡，错误的估计则直线上升;②基于纹理和梯度的方法:相比基于像素的方法，纹理和梯度特征能更好的表达场景中的人数。使用在人群密度估计中的纹理和梯度特征包括灰度共生矩阵(Gray-level co-occurrence matrix,GLCM)， ULBP特征（Uniform local binary Pattern)，H0G特征，和梯度方向共生矩阵（Gradient orientation co-occurrence matrix，G0CM)等等;③基于特征点的方法:特征点即感兴趣的特征像素，例如在图像中检测到的角点。如Conte等人(Conte D,Foggia P,PercannelIa G,et al. Counting moving persons in crowded scenes[J]·Machine vision and Applications ,2013,24 (5):1029-1042)使用了一种加速鲁棒特征（Speeded-up robust features ,SURF)来检测角点，移动的角点数则被用来估计人群密度，Liang等人(Liang R, Zhu Y,ffang H.Counting crowd flow based on feature points[J].Neurocomputing, 2014，133:377-384)通过三帧差分算法和二值化形成前景蒙版，再使用SURF提取特征点，最后结合光流来判断人群行走的方向和密度。Kishor等人(Kishore P V V，Rahul R,Sravya K,et al. Crowd Density Analysis and tracking[C].Advances in Computing, Communications and Informatics(ICACCI),2015International Conference on. IEEE, 2015:1209-1213)则是在光流图上检测FAST(Features for accelerated segment test) 角点，然后根据角点数形成密度估计图。间接法通常需要提取前景或运动信息来减少背景干扰，而在实际的应用中，由于光照变化、行人持续拥挤和各种背景因素等等，使得前景和运动信息的提取成为一项较难的工作，因而导致这些方法在实际应用中难以做出准确的估计

【发明内容】

[0006] 本发明的目的在于提供一种基于多特征回归式集成学习的人群密度估计方法。
[0007] 为实现上述目的，本发明采用以下技术方案:一种基于多特征回归式集成学习的人群密度估计方法，包括以下步骤：
[0008] 图像分块步骤:获取场景的视频监控帧图像，以人的头部宽度作为参照对场景进行多层次的图像分块，对多层次块图像进行缩放处理统一大小并经Gamma矫正预处理获得子图像样本；
[0009] 人群密度估计步骤:采用第一层支持向量回归模型对子图像样本的D_SIFT、GLCM 和GIST三种特征进行粗预测;将粗预测结果作为新的特征使用第二层支持向量回归模型进行细预测，将所有子图像样本的细预测结果相加，根据场景设定的人群密度分级进行密度估计。
[0010]优选地，所述多层次图像分块的具体步骤为：
[0011]首先划定场景兴趣区域，然后确定第一层块图像的大小，选定参照行人，当其头部恰好进入兴趣域底部边界内后，测量其头部宽度为w像素，则设定第一层块图像的宽度为头部宽度w*128/42像素，然后参照行人继续向前移动，直至头部宽度为w*21/42=w/2像素时，其头顶到兴趣域底部边界的长度即为第一层块图像的高度；
[0012]再行确定第二层块图像的大小，选定参照行人，当其头部恰好越过第一层块图像上边时，测量其头部宽度为Wi像素，则设定第二层块的宽度为头部宽度wi*128/42像素，然后参照行人继续向前移动，直至头部宽度为《021/42 = ^/2像素时，其头顶到第一层块图像上边的长度即为第二层块图像的高度；
[0013]以此类推，再行确定第三层块图像的大小，直至多层次块图像对场景兴趣区域完成无重叠的全部覆盖。
[0014]优选地，所述多层次块图像进行缩放处理统一大小后的宽高均为128像素。
[0015]优选地，多层次块图像经Gamma矫正预处理获得子图像的步骤包括:首先将像素值 0~255分为三个区间，然后将像素值转换为角度，具体表述如下：
[0016]
[0017]其中X为像素值，XQ和Xl分别为设定的像素阈值，El= [0, XQ]，E2= [XQ，X1]，E3= [XI， 255]，树幻则是转换后的角度；
[0018]然后利用三角函数关系确定gamma值γ (X)，定义如下：
[0019] f .(X) =..:.1+a (2)
[0020] 单纯靠权值a来调整Ga_a值会使其起伏过大，于是引入了权值b并采用了公式(3) 所示的线性修正函数来进行修正
[0021]
[0022] 最终修正后的Gamma值定义为
[0023]
(4)
[0024]像素矫正后的值为
[0025]
(5)
[0026] 优选地，所述人群密度估计步骤包括：
[0027] 对子图像样本分别提取D-SIFT、GLCM和GIST特征；
[0028] 对提取的特征分别利用第一层支持向量回归模型训练粗预测模型，对于测试样本集，通过粗预测模型得到D-SIFT、GLCM和GIST三个特征对应的不同的人数粗预测值；
[0029] 把人数粗预测值作为新的特征利用第二层支持向量回归模型训练细预测模型，人数粗预测的结果通过细预测模型，得到更为准确的子图像样本人数预测，即细预测值；
[0030] 将一幅帧图像的所有子图像样本的细预测值相加，统计场景兴趣区域的人数，
[0031] 根据场景兴趣区域的密度分类标准，即可得到当前帧的人群密度估计值。
[0032] 本发明与现有技术相比的有益效果是:本发明克服了场景光照变化、相机高度角度变化以及行人遮挡的问题，利用多个场景样本采取多种特征并应用回归的方式集成学习构建模型，来适用于多个不同场景以实现人群密度估计。
[0033]下面结合附图和具体实施例对本发明作进一步描述。
【附图说明】
[0034]图1为本发明的流程不意图；
[0035]图2为块图像大小确定示意图；
[0036]图3为多层次块图像与场景兴趣区域对应关系示意图；
[0037]图4为回归式集成学习的流程图。
【具体实施方式】
[0038]为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明。
[0039]如图1所示，为本发明的流程示意图，一种基于多特征回归式集成学习的人群密度估计方法，包括以下步骤为：
[0040] 图像分块步骤:获取场景的视频监控帧图像，以人的头部宽度作为参照对场景进行多层次的图像分块，对多层次块图像进行缩放处理统一大小并经Gamma矫正预处理获得子图像样本；
[0041] 人群密度估计步骤:采用第一层支持向量回归模型对子图像样本的D_SIFT、GLCM 和GIST三种特征进行粗预测;将粗预测结果作为新的特征使用第二层支持向量回归模型进行细预测，将所有子图像样本的细预测结果相加，根据场景设定的人群密度分级进行密度估计。
[0042] 进一步，如图2所示，为块图像大小确定示意图；如图3所示，为多层次块图像与场景兴趣区域对应关系示意图；在上述技术方案中，多层次图像分块的具体步骤为：
[0043] 首先划定场景兴趣区域，然后确定第一层块图像的大小，选定参照行人，当其头部恰好进入兴趣域底部边界内后，测量其头部宽度为w像素，则设定第一层块图像的宽度为头部宽度w*128/42像素，然后参照行人继续向前移动，直至头部宽度为w*21/42=w/2像素时，其头顶到兴趣域底部边界的长度即为第一层块图像的高度；
[0044] 再行确定第二层块图像的大小，选定参照行人，当其头部恰好越过第一层块图像上边时，测量其头部宽度为Wi像素，则设定第二层块的宽度为头部宽度wi*128/42像素，然后参照行人继续向前移动，直至头部宽度为《021/42 = ^/2像素时，其头顶到第一层块图像上边的长度即为第二层块图像的高度；
[0045] 以此类推，再行确定第三层块图像的大小，直至多层次块图像对场景兴趣区域完成无重叠的全部覆盖。
[0046] 采用以人头部宽度为参照的图像分块的方法，通过对帧图像进行由近及远多个层次的不同大小的块划分，以块为基本元素来进行模型的构建和人数的预测，能够克服透视投影效应的问题。
[0047] 经过图像分块后，我们得到了很多远近不同、大小不同、不同时间和天气下的多层次块图像，在提取特征前，需要对其进行预处理来减少环境干扰以及减少训练量，
[0048]首先将多层次块图像进行缩放处理统一大小，统一大小后的宽高均为128像素，这样归一化大小可以将不同距离的块图像统一为同一大小的样本进行训练，而不需要对远近的样本分开训练，大大减少了训练量。
[0049] 其次，为了减少由于环境光照所带来的影响，需要对块图像进行Gamma矫正，多层次块图像经Gamma矫正预处理获得子图像，具体步骤包括:首先将像素值0~255分为三个区间，然后将像素值转换为角度，具体表述如下：
[0050]
[0051 ]其中X为像素值，XQ和Xl分别为设定的像素阈值，El = [ 0，XQ ]，E2 = [ XQ，Xl ]，E3 = [ Xl， 255]，沐X)则是转换后的角度；
[0052] 然后利用三角函数关系确定gamma值γ (X)，定义如下：
[0053] 7(x) = 1 +? cos (φ(χ)) (7)
[0054] 单纯靠权值a来调整Gamma值会使其起伏过大，于是引入了权值b并采用了公式(3) 所示的线性修正函数来进行修正
[0055]
[0056] 最终修正后的Gamma值定义为
[0057]
(9)
[0058]像素矫正后的值为
[0059]
(1.0)
[0060] 进一步，如图4所示，为回归式集成学习的流程图，人群密度估计步骤包括：
[0061 ] 对子图像样本分别提取D-SIFT、GLCM和GIST特征，设为xD-siFT、xacM和xcisT;
[0062]对提取的特征分别利用第一层支持向量回归模型训练粗预测模型，对于测试样本集，通过第一层支持向量回归模型回归拟合得到三个模型f I(XD-SIFT)、f2(XGLXM)和f3(XGIST)，模型输出D-SIFT、GLCM和GIST三个特征的预测值yD-siFT、yGL?和ycisT，对应不同人数的粗预测值，将这三个预测值组成为新的特征：
[0063] Xall= [yd-sift,YglcmjYgist] (11)
[0064] 把这一新的特征利用第二层支持向量回归模型训练细预测模型fFinal(XA^)，人数粗预测的结果通过细预测模型，得到更为准确的子图像样本人数预测y Finai，即细预测值；回归式集成学习包括两个部分：训练(学习）部分和预测(应用）部分，如图4所示，训练部分则是训练回归模型，首先对若干个子图像提取特征，并计数每个子图像的人数作为其人数标签，组成训练部分的样本集，然后分为训练集和测试集，通过训练集训练三种特征对应的粗回归模型，测试集通过粗回归模型可以得到相应的预测输出，即粗预测值。将三个模型的粗预测值作为新的特征结合人数标签组成新的样本集，对新的样本集继续分为新训练集和新测试集。通过新训练集训练细回归模型，而新测试集通过细回归模型得到细预测值来判断模型是否准确。
[0065] 预测部分则是通过训练好的模型来预测人数。在未知人数的测试样本上提取特征，然后结合训练部分已训练好的粗回归模型得到粗预测值，将三个粗预测值作为新的特征，输入到细回归模型中，即可得到细预测值，即最终的人数预测。
[0066] 考虑到不同的特征对人群密度的敏感性不一致，因此采用两层回归能够弥补彼此的不足，也就能提高预测精度。
[0067] 将一幅帧图像的所有子图像样本的细预测值相加，统计场景兴趣区域的人数，
[0068] 根据场景兴趣区域的密度分类标准，即可得到当前帧的人群密度估计值。例如:假设当前场景能够容纳的最大人数nmax为标准，采用平均分类，分为五级：[0，n max/5 ]、[nmax/5， 2nmax/5 ]、[ 2nmax/5，3nmax/5 ]、[ 3nmax/5，4nmax/5 ]和[4nmax/5，①），分别记为VL(彳艮低）、L(低）、M (中等）、H(高)和VH(很高），根据统计场景兴趣区域的人数对照上述标准即可完成人群密度估值。
[0069]以上所述仅以实施例来进一步说明本发明的技术内容，以便于读者更容易理解，但不代表本发明的实施方式仅限于此，任何依本发明所做的技术延伸或再创造，均受本发明的保护。
【主权项】
1. 一种基于多特征回归式集成学习的人群密度估计方法，其特征在于，包括以下步骤：图像分块步骤:获取场景的视频监控帧图像，以人的头部宽度作为参照对场景进行多层次的图像分块，对多层次块图像进行缩放处理统一大小并经Gamma矫正预处理获得子图像样本；人群密度估计步骤：采用第一层支持向量回归模型对子图像样本的D-SIFT、GLCM和 GIST三种特征进行粗预测;将粗预测结果作为新的特征使用第二层支持向量回归模型进行细预测，将所有子图像样本的细预测结果相加，根据场景设定的人群密度分级进行密度估计。2. 根据权利要求1所述基于多特征回归式集成学习的人群密度估计方法，其特征在于，所述多层次图像分块的具体步骤为：首先划定场景兴趣区域，然后确定第一层块图像的大小，选定参照行人，当其头部恰好进入兴趣域底部边界内后，测量其头部宽度为w像素，则设定第一层块图像的宽度为头部宽度w*128/42像素，然后参照行人继续向前移动，直至头部宽度为w*21/42 = w/2像素时，其头顶到兴趣域底部边界的长度即为第一层块图像的高度；再行确定第二层块图像的大小，选定参照行人，当其头部恰好越过第一层块图像上边时，测量其头部宽度为像素，则设定第二层块的宽度为头部宽度W1*128/42像素，然后参照行人继续向前移动，直至头部宽度为《021/42=^/2像素时，其头顶到第一层块图像上边的长度即为第二层块图像的高度；以此类推，再行确定第三层块图像的大小，直至多层次块图像对场景兴趣区域完成无重叠的全部覆盖。3. 根据权利要求2所述基于多特征回归式集成学习的人群密度估计方法，其特征在于，所述多层次块图像进行缩放处理统一大小后的宽高均为128像素。4. 根据权利要求3所述基于多特征回归式集成学习的人群密度估计方法，其特征在于，多层次块图像经Gamma矫正预处理获得子图像的步骤包括:首先将像素值0~255分为三个区间，然后将像素值转换为角度，具体表述如下：其中X为像素值，XQ和XI分别为设定的像素阈值，Ει= [0，XQ]，E2= [XQ，X1]，E3= [XI， 255]，河.τ)则是转换后的角度；然后利用三角函数关系确定8&_8值γ (X)，定义如下： v(x) = 1 + a cos (^(-v)) (2) 单纯靠权值a来调整Gamma值会使其起伏过大，于是引入了权值b并采用了公式(3)所示的线性修正函数来进行修正最终修正后的Gamma值定义为 Ρ(λ) = f{x) + χ(χ) (4) 像素矫正后的值为 χ?, = 255[(χ/255)1/Λ'?, (5)5.根据权利要求1、2、3或4任一所述基于多特征回归式集成学习的人群密度估计方法，其特征在于，所述人群密度估计步骤包括：对子图像样本分别提取D_SIFT、GLCM和GIST特征；对提取的特征分别利用第一层支持向量回归模型训练粗预测模型，对于测试样本集，通过粗预测模型得到D-SIFT、GLCM和GIST三个特征对应的不同的人数粗预测值；把人数粗预测值作为新的特征利用第二层支持向量回归模型训练细预测模型，人数粗预测的结果通过细预测模型，得到更为准确的子图像样本人数预测，即细预测值；将一幅帧图像的所有子图像样本的细预测值相加，统计场景兴趣区域的人数，根据场景兴趣区域的密度分类标准，即可得到当前帧的人群密度估计值。
【文档编号】G06K9/00GK106056078SQ201610374700
【公开日】2016年10月26日
【申请日】2016年5月31日
【发明人】郑宏, 张洞明
【申请人】武汉大学深圳研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑宏;张洞明;
技术所有人：武汉大学深圳研究院;
我是此专利的发明人

上一篇：一种图像采集设备及人脸五官的遮挡检测方法
上一篇：一种集成电路器件、显示面板及显示设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。