基于深度学习的密集人数估计方法

文档序号:9274967阅读:360来源:国知局
基于深度学习的密集人数估计方法
【技术领域】
[0001]本发明属于图像处理与计算机视觉领域,涉及一种基于深度学习的密集人数估计方法。
【背景技术】
[0002]密集场合中的人数估计有着许多潜在实际应用价值,包括监测(例如,检测异常大的拥挤人群,或者控制在一个地区内的人的数量),安全管理(记录进入或离开某个区域的人数),城市规划(例如,分析某个区域的人流量)等。因此,人数统计在计算机视觉及其相关领域是一个重要的研宄课题。
[0003]密集场景中的人数估计主要存在两个难点:
[0004](I)场景中物体的相互遮挡,场景的透视失真,光照条件引起的视觉模糊和复杂人群活动等因素。
[0005](2)当人群趋于拥挤时,人数信息很难用传统的特征(如HOG,Haar小波,灰度共生矩阵)来表示,使得基于特征提取并定位检测的方法很难适用于人数超过一百的场景中。
[0006]与本发明相关的现有技术一:基于人头及人脸检测的人数统计算法。
[0007]现有技术一的技术方案:此方法包含人脸检测和人头检测,用Haar-1ike特征模板来检测图像中的人脸,用BP人工神经网络来进行人头检测,两种检测方法结合。最后检测到的人的个数就是估计出来的人数。
[0008]现有技术一的缺点:(I)该方法只能用于检测几十人的场景,当场景中的人数超过一百时,就很难有效进行的检测,如图1所示;(2)基于检测的方法需要使用滑动窗口,这是一个很耗时的过程。
[0009]与本发明相关的现有技术二:基于灰度共生矩阵与分形维数的人群密度估计方法。
[0010]现有技术二的技术方案:采用于纹理分析的方法提取人群密度特征,利用灰度共生矩阵提取统计特征值如熵、对比度以及能量等,采用差分盒维数法计算图像的分形维数。最后通过非线性分类方法实现对人数密度的估计。
[0011]现有技术二的缺点:只能对场景中的人数密度等级进行估计,而不能给出具体的人数估计值。

【发明内容】

[0012]本发明要解决的技术问题是:基于上述问题,本发明提供一种基于深度学习的密集人数估计方法。
[0013]本发明解决其技术问题所采用的一个技术方案是:一种基于深度学习的密集人数估计方法,包括以下步骤:
[0014](I)选择一幅密集场景的图像作为测试图像,然后对测试图像进行分块操作,分块的比例要保证与原图像的宽高比近似相同;
[0015](2)将分得的图像块进行归一化操作,归一化成32X32的像素块,作为我们的测试样本,并附上对应的真实人数标签;
[0016](3)将像素块批量送入已经训练好的深度网络中,对于每个像素块,网络都会反馈一个预测结果;
[0017](4)将每个像素块的预测结果求和,所得到的结果就是我们需要估计的测试图像中的总人数。
[0018]进一步地,步骤(3)中在像素块批量送入已经训练好的深度网络之前需要采用水平镜像和水平竖直偏移的方法对训练样本进行数据增强。
[0019]进一步地,步骤(3)中深度网络训练需要训练一个多层卷积神经网络,多层卷积神经网络包含四层,其中前三层为卷积层,最后一层为全连接层,跟随在每个卷积层后面的还包括了池化层和ReLU层,池化层采用最大值池化方法,ReLU是一种线性纠正函数,最后一层全连接层包含有100个神经元,这100个神经元与第二层以及第三层的输出进行全连接,这100个神经元的输出就是我们最终所提取的100维特征向量。
[0020]进一步地,步骤(3)中网络反馈每个图像块预测结果是通过构造一个包含两路信号的回归模型用来估计出每个输入图像块中的具体人数,这两路信号分别是人群密度信号和人群计数信号,人群密度信号是将得到的100维特征根据图像块中的密度等级进行分类,人群计数信号是将得到的100维特征向量和单个神经元进行全连接,再经过一个线性变换,得出一个数值,这个数值就是所估计出的人数。
[0021]本发明的有益效果是:当我们将给定的密集图像送入到预先训练好的深度网络时,网络可以返回估计出的具体人数,估计结果在人数从几十到两千的场景中,都具有一定的准确性;其速度也明显优于传统的基于检测的方法;将深度学习的方法引入到了人数统计这一具体问题之中;构造的包含两路信号的回归模型,从一定程度上降低了出现过拟合的可能性。
【附图说明】
[0022]下面结合附图对本发明进一步说明。
[0023]图1是本发明的【背景技术】中用来解释现有技术一的方法缺陷的图组;
[0024]图2是本发明的【具体实施方式】中图像块进行分块操作示意图;
[0025]图3是本发明的【具体实施方式】中多层卷积神经网络的框架示意图;
[0026]图4是本发明的【具体实施方式】中人群密度信号softmax连接示意图;
[0027]图5是本发明的【具体实施方式】中人数计数信号的连接示意图;
[0028]图6是本发明的整体流程图;
[0029]图7是具有代表性的人数估计结果图。
【具体实施方式】
[0030]现在结合具体实施例对本发明作进一步说明,以下实施例旨在说明本发明而不是对本发明的进一步限定。
[0031]一、数据采集
[0032]数据来源于谷歌图像搜索引擎,从中选择了 107张密集场景的图像作为数据集,该数据集中所包含的人数从58-2201,接着对图像中的人群进行手工标注(每个人用一个点来表示),最后我们对图像进行切块,并把每个块归一化到32X32的小像素块,附上相应的标签,标签包含图像块中的具体人数以及对应的密度等级(密度等级根据图像块中的人数来划定),如图2所示。
[0033]接着采用了水平镜像和水平、竖直偏移的方法对图像进行数据增强,产生了486576个训练样本,是原始样本的8倍。这种数据增强可以使训练出的网络对形变有更好的鲁棒性,并抑制了过拟合的产生。
[0034]二、深度网络的训练
[0035](I)卷积神经网络学习特征
[0036]首先需要训练一个多层卷积神经网络,用于提取密集人群特征。整个网络的框架如图3所示。该网络包含四层,其中前三层为卷积层,最后一层为全连接层。跟随在每个卷积层后面的还包括了池化层和ReLU层。其中,池化层都采用最大值池化方法,而ReLU则是一种线性纠正函数。当训练数据比较大时,ReLU作为激活函数比传统的sigmoid的函数具有更好的适应能力。最后一层全连接层包含有100个神经元,这100个神经元与第二层以及第三层的输出进行全连接,而这一百个神经元的输出就是我们最终所提取的100维特征向量。这样的一种全连接方式,会让我们学习到人群特征中的一些多尺度的信息,比如纹理特征,以及
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1