基于多列卷积神经网络的单张图像人群计数算法

文档序号：9766181阅读：495来源：国知局

基于多列卷积神经网络的单张图像人群计数算法
【技术领域】
[0001] 本发明设及一种依据单张图像进行精确的人群计数或者人群密度估计的算法。
【背景技术】
[0002] 现有人群计数算法存在对图像分割技术依赖性比较大、计数规模较小、输入图片大小固定等诸多限制，很多算法对于人数变化很大，或者背景复杂的图像的计数精度很低。如今，室外广场、街道基本都配备了摄像头，但是人群信息处理还没有得到有效应用，因此精确的人群计数或者人群密度估计算法对于监控中人群异常事件检测具有重要意义。

【发明内容】

[0003] 本发明的目的是提供一种依据单张图像进行精确的人群计数或者人群密度估计的算法。
[0004] 为了达到上述目的，本发明的技术方案是提供了一种基于多列卷积神经网络的单张图像人群计数算法，包括W下步骤：
[000引建立多列卷积神经网络，利用样本集对该多列卷积神经网络进行训练，得到待学习参数0的估计，使得通过该多列卷积神经网络得到的样本集中任意输入图像X的人群密度估计图F(x;0)与该输入图像X的实际人群密度图M(X)间的欧式距离最小，其特征在于：
[0006] 所述多列卷积神经网络包括子网络一、子网络二、子网络=，同一张输入图像X输入子网络一、子网络二、子网络=后均经过四次卷积和两次池化得到=组不同的特征图，子网络一的卷积的卷积核大小为化X化，子网络二的卷积的卷积核大小为化X化，子网络=的卷积的卷积核大小为化X化，化>化>化，=组特征图在通道维度上链接在一起，再用一个1 X 1的核卷积得到人群的估计密度图，该多列卷积神经网络的损失函数是估计密度图F(xi; 0 )和实际密度图M(Xi)之间的欧氏距离L( 0 )，
式中，N为输入多列卷积神经网络的图像数量，Xi为多列卷积神经网络的第i幅输入图像，M(Xi)表示第 i幅输入图像的标准密度图矩阵，为多列卷积神经网络的参数设定一个初始值后，根据实际的标准密度图算出输入图片的损失:L(0)，然后在每一次优化迭代中更新整个网络的参数 0，直到损失值收敛到一个较小的值。
[0007] 优选地，采用随机梯度下降法在每一次优化迭代中更新整个网络的参数0。
[000引优选地，输入图像X对应的实际人群密度图M(X)表示为：
式中，N为图像中的人数，i；；表示输入图像X中每个像素的位置，Xi为第i个人头在输入图像X 中的位置，S( ?)为单位冲击函数，*为卷积操作，技4(?为标准差为Oi的高斯核。
[0009]本发明在=个公共数据集上W及一个发明人自己提出的数据集上与其他方法进行了比较，公共数据集包括UCF_CC_50 ,UCSD和Worl祀XPO。各个数据集的信息如下表所示：
[0011]上表中，Num为图像数量，Max、Min分别表示图像中出现的最大人数和最小人数， Ave表示图像的平均人数，Total是数据集中所有的人数。
[001引发明采用平均绝对误差（MAE):
和均方误差（MSE):
(N为图片数量，Zi为第i幅图像中实际的人头数，为第i幅图像通过本发明提供的网络输出的人头数)来衡量算法的准确性。在UCF_CC_50数据集上，本发明方法与现有技术的对比，如下表所示(MO^N为本发明的算法）：
[0014]在UCSD数据集上，本发明方法与现有技术的对比，如下表所示：
[0016]在Worl祀XPO数据集上，本发明方法与现有技术对比，如下表所示：
[0018]在发明人自己的数据集上，本发明方法与现有技术的对比，如下表所示：

【附图说明】
[0020]图1为本发明中的多列卷积神经网络的网络结构，图中，Conv代表卷积操作，Conv 后的数字代表卷积核的大小，Pooling代表最大池化操作，Pooling后的数字代表池化区域的大小，Merged fea化re maps为各组特征图按"通道"维度链接起来总的特征图；
[0021 ]图2a)及图2c)为输入图像，图化)为图2a)对应的实际人群密度图，图2d)为图2c) 对应的实际人群密度图；
[0022] 图3a)为输入图像，图3b)为图3a)对应的实际人群密度图，图3c)为通过本发明估算到的图3a)的人群密度图；
[0023] 图3d)为输入图像，图3e)为图3d)对应的实际人群密度图，图3f)为通过本发明估算到的图3d)的人群密度图。
【具体实施方式】
[0024] 为使本发明更明显易懂，兹W优选实施例，并配合附图作详细说明如下。
[0025] 本发明需要解决给定一张人群图像或者视频中的一帖，然后估计该图像各个区域人群的密度W及总人数。
[0026] 已知输入图像可W表示为m X n的矩阵:X e Rmxn，则该输入图像X所对应的实际人群密度可W表示为：站似-i>x;…如巧，病，式中:N为图像中的人数，、;表示图像中每个像素的位置，Xi为第i个人头在图像中的位置，s(.)为单位冲击函数，*为卷积操作，为标准差为Oi的高斯核。基于多列卷积神经网络的单张图像人群计数算法的目标是学习一个由输入图像X到该图像中的人群密度（如图2a)至图d)所示）的映射函数F:F:x^F(x) -M(X), 式中，F(X)为估计人群密度图。为了学习 F，需要解决如下问题：
[0027] r ;ax篡鸣4則>)-/'如较)|，式中，FU; 0 )为估计人群密度图，0为待学习参数。一般来说，F是一个复杂非线性的映射。
[0028] 在本发明中，利用如图1所示的多列卷积神经网络来学习非线性函数F。其结构如图1所示。多列卷积神经网络有=个子网络，每个子网络用到卷积核的大小不同。第一个子网络用到的卷积核的大小为7X7,第二个子网络用到的卷积核的大小为5X5,第=个子网络用到的卷积核的大小为7X7。同一张输入图像I吨Ut image输入S个子网络后先经过S 次不同的卷积。输入图像I吨Ut image在第一个子网络内先经过一次卷积核大小为9X9的卷积后再进行S次卷积和两次池化，S次卷积的卷积核大小均为7 X 7;输入图像Input image在第二个子网络内先经过一次卷积核大小为7X7的卷积后再进行=次卷积和两次池化，S次卷积的卷积核大小均为5X5;输入图像Input image在第S个子网络内先经过一次卷积核大小为5 X 5的卷积后再进行=次卷积和两次池化，=次卷积的卷积核大小均为3 X 3。图像在=个子网络中经过四次卷积和两次池化后，输出=张特征图。=个子网络的池化区域大小均为2 X 2。；张特征图在"通道"维度上链接在一起，形成总特征图Merged feature maps,随后再用一个卷积核大小为1 X 1的卷积得到人群的密度估计图Density map。图1中，每个子网络每一层左上角的数字表示通道数，例如对于第一个子网络而言，其第一层的通道数为16。
[0029]上述多列卷积神经网络的损失函数是估计密度图和实际密度图之间的欧氏距离：
，式中，F(Xi; 0 )为第i幅输入图像的人群密度估计图，Xi为第 i幅输入图像的图像矩阵，0为待学习参数，N为输入图像的总数量，Fi为第i幅输入图像的标准密度图矩阵。首先给网络中的参数设定一个初始值(卷积层的核用标准差为0.01的高斯核初始化，偏置初始化为0)，给定初始值之后，根据实际的标准密度图算出输入图片的损失:U 0 )。然后采用随机梯度下降法在每一次优化迭代中更新整个网络的参数:U 0 )，直到损失值收敛到一个较小的值。
【主权项】
1. 一种基于多列卷积神经网络的单张图像人群计数算法，包括以下步骤：建立多列卷积神经网络，利用样本集对该多列卷积神经网络进行训练，得到待学习参数θ的估计，使得通过该多列卷积神经网络得到的样本集中任意输入图像X的人群密度估计图F(x;?)与该输入图像X的实际人群密度图M(X)间的欧式距离最小，其特征在于：所述多列卷积神经网络包括子网络一、子网络二、子网络三，同一张输入图像X输入子网络一、子网络二、子网络三后均经过四次卷积和两次池化得到三组不同的特征图，子网络一的卷积的卷积核大小为N1 XN1，子网络二的卷积的卷积核大小为N2 XN2,子网络三的卷积的卷积核大小为N3 X N3，N1 >N2>N3，三组特征图在通道维度上链接在一起，再用一个I X 1的核卷积得到人群的估计密度图，该多列卷积神经网络的损失函数是估计密度图F(Xl; Θ )和实际密度图M(X1)之间的欧氏距离L( Θ )，^式中，N为输入多列卷积神经网络的图像数量，Xl为多列卷积神经网络的第i幅输入图像，M(X1)表示第i幅输入图像的标准密度图矩阵，为多列卷积神经网络的参数设定一个初始值后，根据实际的标准密度图算出输入图片的损失：L(?)，然后在每一次优化迭代中更新整个网络的参数 Θ，直到损失值收敛到一个较小的值。2. 如权利要求1所述的一种基于多列卷积神经网络的单张图像人群计数算法，其特征在于:采用随机梯度下降法在每一次优化迭代中更新整个网络的参数Θ。3. 如权利要求1所述的一种基于多列卷积神经网络的单张图像人群计数算法，其特征在于:输入图像X对应的实际人群密度图M(X)表示为：式中，N为图像中的人数，?表示输入图像X中每个像素的位置，X1为第i个人头在输入图像X中的位置，S (·)为单位冲击函数，*为卷积操作，Gff (X)为标准差为〇i的高斯核。
【专利摘要】本发明提供了一种基于多列卷积神经网络的单张图像人群计数算法，其中的多列卷积神经网络有三个子网络，每个子网络用到卷积核的大小不同，每个子网络的输入为同一张图像，在经过四次卷积和两次池化后，三个子网络输出的特征图在“通道”维度上链接在一起，再用一个1×1的核卷积得到人群的密度图。本发明得到的人群密度优于现有算法。
【IPC分类】G06K9/00
【公开号】CN105528589
【申请号】CN201511030645
【发明人】高盛华, 张营营, 马毅
【申请人】上海科技大学
【公开日】2016年4月27日
【申请日】2015年12月31日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高盛华;张营营;马毅;
技术所有人：上海科技大学;
我是此专利的发明人

上一篇：一种快速报警的报警装置的制造方法
上一篇：一种车道线识别方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。