一种结合卷积神经网络和轨迹预测的人数统计方法与流程

文档序号:14175901阅读:646来源:国知局
一种结合卷积神经网络和轨迹预测的人数统计方法与流程

本发明涉及目标识别领域,特别是涉一种结合卷积神经网络和轨迹预测的人数统计方法,本方法主要应用于以深度学习和轨迹预测进行目标检测为代表的视频人数统计中。



背景技术:

人数统计是近年来智能视频监控领域的一个具有现实意义的研究方向,其主要分为基于目标检测的人数统计方法和基于特征回归的人数统计方法,这两类方法均用到了有监督的机器学习思想,此外还有基于无监督学习的跟踪轨迹聚类方法等。在有监督学习方法中,基于hog算法检测行人是被广泛使用的方法之一,该方法通过计算和统计图像局部区域的梯度方向直方图来构成行人特征,此外还有使用人头,人脸或模板匹配来提取行人特征的方法,如lbp算法,dpm算法,再使用机器学习中svm(支持向量机)以及adaboost(级联分类器)方法训练出行人分类器进而识别和检测行人。此类方法在行人遮挡严重以及光照不足时,精度较差;基于特征回归的方法则通过提取区域的纹理等特征,然后采用核函数实现纹理特征到人数的回归映射。此类方法可以有效的降低行人互相遮挡对检测的影响,但是人群分布特征很难使用数学特征完全描述,影响统计准确性。

近几年,随着深度学习理论的日趋成熟以及硬件设备性能的提升,使得cnns成为计算机视觉与模式识别领域的一个有力研究工具。2012年hinton将卷积神经网络结构优化后应用于目标分类,在imagenet图像数据库上的测试中取得了令人满意的结果。在2014年,girshick等人提出了r-cnn(regionproposal-cnn)算法并创建了在gpu上运行的caffe框架,成为近年深度学习中实现目标检测的经典算法之一。2015年,zhang等人采用cnns将人群的分布特征提取后投入训练,用网络生成的模型估计视频中行人数量,成为深度学习应用于行人检测的一个实例。这些算法虽然提取到了有效和优质的行人特征并建立了精确的预测模型,但仍然不能很好的解决遮挡和光照变化以及人群分布不均等因素对检测的影响。



技术实现要素:

针对监控视频中行人的遮挡和光照变化对行人检测和统计的影响,本发明提供一种人数统计方法,通过在不同颜色空间提取行人特征并且采用栅极损失函数识别被遮挡行人的局部区域的方法,提高算法统计精度。技术方案如下:

一种结合卷积神经网络和轨迹预测的人数统计方法,包括下列步骤:

步骤1采用帧差法分割视频中所含的人群团块(blob);

步骤2根据各个团块面积像素数和周长,确定阈值,将视频中的人群团块依据密度分类,分为稀疏人群团块和密集人群团块;

步骤3对稀疏人群团块,将rgb图像由公式变换后得到的hsv颜色空间,在两个不同颜色空间中使用选择搜索算法预先确定行人位置,合并去除两个空间的重复区域后得到行人区域位置。

步骤4使用卷积神经网络提取特征,选取栅极损失函数gridloss分块训练网络以实现对包括被遮挡行人的面部和躯干在内的局部位置的识别;

步骤5对密集人群团块,提取人群密度分布图的特征,建立多元回归模型并估计人数;

步骤6对于遮挡行人采用马尔可夫模链预测其行走轨迹,再锁定其位置并统计该行人。

步骤7累加各团块中计数结果,统计场景中包含的行人数目。

本发明的有益效果如下:

1.本算法针对人群分布不均和聚集不规律的情况,提出了目标检测与特征回归相结合的方法分别应对稀疏和密集人群场景,以解决单一算法无法适应不同行人密度的问题。

2.针对遮挡的情况,采用栅极损失函数分块训练cnns,以增加对行人面部、躯干等局部位置的检测率,有效减少了遮挡对识别的影响;针对算法的精度问题,在检测算法中使用选择搜索算法预判行人位置,避免cnns提取到冗余特征,

3.在特征回归算法中提取人群密度分布图特征建立从人群密度到实际人数的映射模型,借助其良好的描述人群分布信息的能力增加统计的精确度。

4.利用视频帧间相关性,采取马尔科夫模型轨迹预测法锁定被遮挡行人,增加了对被遮挡行人的识别率。

附图说明

图1是本发明的结合卷积神经网络和轨迹预测的人数统计方法在ucsd数据集上实验结果图。

其中,(a)为测试结果;(b)为统计结果。

图2是本发明的结合卷积神经网络和轨迹预测的人数统计方法在pets2009数据集实验结果图。

其中,(a)为在测试结果;(b)为统计结果。

图3是栅极损失函数分块训练神经网络检测行人脸部示意图;

其中,(a)为全局损失函数示意图;(b)为局部栅极损失函数示意图;(c)为cnns框架图;(d)、(e)为密度分布特征图

图4是马尔可夫模型轨迹预测图。

其中,(a)为被遮挡行人前20帧的运动轨迹示意图,(b)为被遮挡行人的预测轨迹和锁定示意图。

图5是本发明的结合卷积神经网络和轨迹预测的人数统计方法基本框架

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

请参阅图3、图4和图5,本发明实施例包括:

首先将视频中的人群依据密度分割成若干团块(blob),统计各团块的像素数和周长,取中值作为阈值θ,像素数和周长小于该阈值则记为稀疏人群团块,反之为密集人群团块。

对稀疏人群,在rgb和hsv不同颜色空间使用选择搜索算法预先确定行人位置,避免冗余特征干扰。该算法在rgb和经公式变换后的hsv空间中找好候选区域,并使用过分割的方法分割图像为若干小区域,并通过颜色直方图、纹理直方图以及面积和位置相近规则进行目标区域的选择与合并,得到一个目标的整体区域和位置。将两个颜色空间判断出的行人位置去除重复区域合并后即为行人区域。

接下来使用卷积神经网络提取特征并使用栅极损失函数训练神经网络。传统的损失函数是直接根据整个图片的信息特征计算损失函数,如图3(a),使得训练出的神经网络适于全局目标的识别。而栅极损失函数整合局部与整体特征,将最后一个卷基层的特征图划分为n×n的小栅极,每个小栅极看成一个单独的区域(blocks),单独按同样的方式计算每一个小区域的铰链损失函数(hingeloss),将整个区域的损失函数加和作为最终损失函数,以强化每个小栅极区域的独立判别能力。如果行人的身体或者脸的一部分被遮挡住,其余子小块可以将该区域没有遮挡住的其余部分输入检测器,这样降低了遮挡对检测的影响,如图3(a)、(b)。设定x表示f×r×c维的最后一层卷基层r列c行的特征向量图,f表示滤波器的数量,我们将x分割为f×n×n格非重叠的小栅极区域fi,i=1,…n,其中并选用铰链损失函数(hingeloss)

其中θ=[ω1,ω2,…,ωn,b1,b2,…,bn],m为常数1/n,表示每个栅极区域对分类贡献相等,y∈{-1,1}是分类标签,ωi和bi是第i块的权值向量和偏置参数。为了避免每个局部子分类器输出相似冗余的分类结果,于是把每个分类器赋予相应权重将每个局部区域的损失函数联结起来,通过局部分类器共享权值的方法。设定权重参数ω=[ω1,ω2,…,ωn],偏置参数b=∑ibi,最终的损失函数定义为:

其中,n代表栅极的个数,ωi与bi是最后一个特征图对应的整体权值参数,b=b1+b2+...+bn为其对应偏置项。这样,公式的第一项代表了特征图上的整个损失,第二项代表了每一个栅极的损失。λ是一个平衡系数,权衡全局与局部损失的大小。在最后采用随机梯度下降法优化该损失函数。

本发明在行人数据集上对神经网络进行反复迭代训练并调整权值参数后确定了针对提取行人特征的网络结构。该网络结构包含了2个5×5卷基层,分别有64和128个卷积核,1个4×4池化层,从原始帧中随机抠取的子图像块均为64×64大小,在每层卷积后利用纠正线性单元(rectifiedlinearunit,relu)函数激活,增加模型训练时的收敛速度。选用高斯零均值标准差为0.01的随机数初始化权重,在卷基层后加入约束上限为0.1的弃权算法(dropout),将不满足权值l2范数上限约束的隐含层节点舍弃,以减弱神经元节点间的联合适应性,增强网络的泛化能力;引入栅极损失函数作为神经网络的损失函数来增加检测对遮挡的鲁棒性。卷积神经网络的框架如图3(c)。

对于密集团块提取行人密度分布特征进行回归统计人数。密度分布图的构建步骤如下:

定义点密度分布函数psf(pointspreadfunction),本发明将此函数用于表示行人像素点的密度。

其中(p,q)为要计算的像素点所在位置,(x,y)是其周围邻域的点,是高斯核,代表了点(x,y)周围的行人特征点的密集程度。图3(d)为行人密度分布特征图。

加和各个稀疏和密集团块即为统计人数。在视频中,本发明利用行人轨迹预测来解决遮挡的影响。

在ucsd数据集中,本发明记录了行人被遮挡前的20帧轨迹的移动方向,见表1:

表1遮挡行人的行进方向统计

由于行人的行走方向无大偏转,设行人下一步有三种移动状态,e1(左转向10°以内),e2(直线行走),e3(右转向10°以内),

表2遮挡行人轨迹的状态转移矩阵

得到行人的一步、二步状态转移概率矩阵如下:

由此预测行人接下来的轨迹状态,如图4所示。当行人不再被遮挡且在预测轨迹位置处出现,则锁定并统计该行人目标。

最终累加各团块中计数结果,统计得到场景中包含的行人数目。

实验1本算法在不同数据集的测试结果

算法在ucsd和pets2009数据集上的统计结果如图1、图2所示。通过图1(a)可以看出,本文算法识别出了最左侧被遮挡住的行人。

实验2、不同检测特征的性能比较

表3、表4是现有的其他算法和本文算法在ucsd、pets2009两个数据集上测试的比较结果。通过对比实验结果可以得出,相比较于近年人数统计领域内其他学者提出的算法,本发明方法在pets2009和ucsd数据集上的测试结果在准确率上有显著的提升,相比较于zhang等人的研究结果,精度提高了12%,验证了所提算法的有效性。

表3

表4

[1]zhangc,lih,wangx,etal.cross-scenecrowdcountingviadeepconvolutionalneuralnetworks[c]//computervisionandpatternrecognition.ieee,2015:833-841.

[2]chenk,gongs,xiangt,etal.cumulativeattributespaceforageandcrowddensityestimation[c]//computervisionandpatternrecognition.ieee,2013:2467-2474.

[3]conted,foggiap,percannellag,etal.amethodforcountingmovingpeopleinvideosurveillancevideos[j].eurasipjournalonadvancesinsignalprocessing,2010,2010(1):1-10.

[4]raoas,gubbij,marusics,etal.estimationofcrowddensitybyclusteringmotioncues[j].thevisualcomputer,2015,31(11):1533-1552.

[5]subburamanvb,descampsa,carincottec.countingpeopleinthecrowdusingagenericheaddetector[c]//ieeeninthinternationalconferenceonadvancedvideoandsignal-basedsurveillance.ieee,2012:470-475.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1