一种基于深度网络的多策略全局人群分析方法与流程

文档序号:15776438发布日期:2018-10-30 15:24阅读:229来源:国知局
一种基于深度网络的多策略全局人群分析方法与流程

本发明涉及一种人群计数和密度估计方法,尤其涉及一种基于深度网络的多策略全局人群分析方法,属于机器视觉人工智能技术领域。



背景技术:

随着指数级的人口增长,都市化程度加深,大规模集会活动的人数和频率急剧增加,如法定假日的景区旅游,运动会,政治集会,公开展览等。为更好的管理,确保环境安全和人身安全,分析人群是十分必要的,行人检测和人群计数是目前的研究重点。目前检测和计数方法主要有:

1、基于个体统计的方法

通过摄像机的俯视图,检测人头,有效抗遮挡;人的身躯检测,通过各个人体部位的做检测;头肩模型,根据头肩的“ω”形状检测。基本方法有hog提取特征svm用于特征分类。其他常用特征还有haar特征,hough变换,类圆检测,使用的特创新之处一般在特征分析中加入多种特征。在分类中研究重点在于改进svm,boosting分类器,或者使用各种分类器的组合。这类方法胡研究难点在于光线变化,人群拥挤时个体特征缺失。

2、基于人群特征的分析

基于人群特征的分析主要是针对个体分析中人群拥挤个体检测不精确的情况,直接提取人权特征,特征提取之后,进行特征回归。回归的方法一般为svr、高斯回归、最小二乘法、岭回归等。现在的研究集中于通过特征提取,对不同的特征进行特征结合或者特征聚类,在聚类方法上做创新,回归过程的创新主要体现在对不同的特征选用不同的和核函数回归。光线变化,高密度人流或者开阔场景下导致计数不精确,行人检测处理时间较长;摄像头“远小近大”造成的透视是这类方法的研究难点。

3、基于卷积神经网络的人数统计方式

利用深度网络学习的图像特征,使其相较于传统图像特征有更强的泛化性、代表性,可以利用较多特征表征目标,计算量较大。比如安徽大学一篇硕士论文采用包含三层卷积和一层全连接层,其中每层卷积后都跟随有池化操作而激活函数则选用relu函数。

在监控场景中,人群稀疏和密集情况是同时存在的,且人群分布呈不均匀趋势,同一监控摄像头下在不同时间呈现不同的分布态势。针对监控视频的这些特点,为更好的刻画监控场景的人群分布,针对同一场景在不同时间不同区域人群的表现形式,实现不同的目标(检测,计数),本发明提供一种基于深度网络的多策略全局人群分析方法。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的不足,提供一种基于深度网络的多策略全局人群分析方法,用以克服复杂场景背景干扰以及行人遮挡等问题,进而实现对场景中人群密度的准确估计。

为解决上述技术问题,本发明采用如下技术方案,一种基于深度网络的多策略全局人群分析方法,包括以下步骤:

步骤s1,数据准备,包括如下子步骤,

s11、对于同一场景下人群图片,选取同一摄像头一天的监控视频截取大量包含不同人群的帧;

s12、选取单人步行通过监控区域的连续帧,根据人体头部目标中心点、人体高度、道路宽度及长度信息,估计透视模型,生成场景透视图模型;

s13、对每帧的人群个体进行标记,采集的方法是在人的头部定点进行点标注,对于稀疏的可辨识行人头部,或完整躯干的图像采用标记框标记;

s14、将标记图位置生成密度图;

步骤s2,模型设计及训练阶段,包括如下子步骤,

s21,训练数据选取,随机选取n张图片及对应的密度图,划分为k块不重叠区域的子图,将人均距离小于a1米或人均面积小于a2平方米的子图标记为密集,其余子图标记为稀疏;

s22、构建神经网络模型,包括用于获得子图特征的顶层网络、用于将子图分为密集和稀疏两类的等级密度分类网络、用于预测密集区域人群密度的密度估计子网络r1、用于检测稀疏区域行人位置的行人检测子网络r2;

s23、等级密度分类网络训练,根据s21中图像划分区域的范围,通过步幅映射从顶层网络的输出中提取对应子图的特征,将每块子图特征及在s21中定义的对应特征的密集和稀疏两类标签输入到等级密度分类网络中进行训练;

s24,将密集子图特征以及密集子图对应的人群密度图输入到密度估计子网络r1中进行训练;

s25,将稀疏子图特征特征以及对应的人头和躯干的包围框输入到行人检测子网络r2中进行训练;

步骤s3,模型测试阶段,具体实现方式如下;

对于一张输入测试图像,将图像分为不重叠的k块子图,经由步幅映射选取顶层网络输出中对应子图的特征,各块特征经训练好的全局密度等级分类网络,将图像中密集和稀疏区域分开,将分块的密集区域输入密度估计子网络r1中提取人群的密度图像,将稀疏区域输入到子网络r2中进行人体检测;然后将密度估计子网络r1的密度图输出结果拼接成原图像的密度图,将行人检测子网络r2中检测的标记框的顶部中心点进行标记,并将标记结果加入到拼接密度图中,场景人数表达为密度图各像素点累加结果;

s4,数据分析使用,具体实现方式如下;;

根据密度估计得到人群密度估计,采用各场景对应的透视模型投影映射,将各监控的密度图进行变换矫正视角畸变,根据现有的密度等级分类方法,将密度图分为极密集,密集,中等,稀疏,极稀疏五种,创建景区全局地图图层,根据监控相机的覆盖范围,以m米长度的距离作为分割将监控范围划分为若干块,每一块在地图图层的对应区域,分别计算密集等级并以不同色彩表征,将测试结果显示在对应的地图道路图层上,实现全局景区的整体人群密集情况分布图。

进一步的,步骤s14中使用真实标记图与高斯核的卷积表示密度图,计算公式xi表示人头标记位置,δ(x-xi)表示人头位置的冲击函数,n表述人数总数,g为高斯核。

进一步的,步骤s22中所述顶层网络包括通过迁移学习使用vgg16网络中的前10个固定参数的卷积层。

进一步的,步骤s22中所述等级密度分类网络的结构为全局平均池化层、全连接层fc521、全连接层fc3,以及softmax层。

进一步的,步骤s22中所述密度估计子网络r1的网络结构为conv3-512-2,conv3-512-2,conv3-512-2,conv3-256-2,conv3-128-2,conv3-64-2,conv1-1-1;其中conv3-512-2表示为卷积核大小为3,滤波器数量为512,空洞卷积结构步长为2。

进一步的,步骤s22中所述行人检测子网络r2的网络结构为max-pool,conv3-512,conv3-512,conv3-512,conv6-4096,conv1-4096,conv1-1000。

进一步的,步骤s23中初始参数使用0.01标准差的高斯初始化,并使用随机梯度下降法训练等级密度分类网络。

进一步的,步骤s24中所述密度估计网络r1使用真实密度图的欧式距离作为损失函数训练网络,获得网络参数,损失函数的表达式为n表示训练块尺寸,z(xi;θ)表示在网络参数θ下的网络输出,xi表示输入图像,表示根据标记得到的密度图。

进一步的,步骤s25中行人检测子网络r2通过交叉熵损失和边界损失训练网络,返回区域中检测到的目标,对同一人体头部,躯干标记为1人。

本发明的优点和有益效果如下,

本发明通过迁移学习使用vgg16网络中的前10个固定参数的卷积层获得子图特征,利用等级密度分类网络将图像分为密集估计块和行人检测块,提高同一场景下,密集和稀疏情况的行人计数和密度估计的鲁棒性。此外通过密度图在真实世界的投影,多摄像头图层拼接的方法,实现较大区域的联动监控。

附图说明

图1为本发明实施例流程图。

图2为本发明实施例密度估计子网络r1中的空洞卷积示意图。

具体实施方式

下面结合附图和实施例对本发明作更加详细的描述。

s1、数据准备

对于同一场景下人群图片,从监控视频截取约1500帧包含从6:30-17:00的不同光线不同人群数量的图片。使用工具在每帧的行人头部打点标记,生成每张人群位置的真实点集数据。对每帧的人群个体进行标记,采集的方法是在人的头部定点进行点标注,对于稀疏的可辨识行人头部,或完整躯干的图像采用标记框标记。将标记图位置通过高斯卷积生成近似的密度图。xi表示人头标记位置xi,δ(x-xi)表示人头位置的冲击函数,n表述人数总数,g为高斯核。

s2、训练阶段

s21、训练数据准备,随机选取1000张图片及对应的密度图,划分为9块不重叠区域的子图。通过个人舒适距离相邻两人直线距离1米,场景人均面积2平方米,将场景区域分为密集(人均距离小于1米或人均面积小于2平方米)和稀疏两类。

s22、构建神经网络模型,包括用于获得子图特征的顶层网络、用于将子图分为密集和稀疏两类的等级密度分类网络、用于预测密集区域人群密度的密度估计子网络r1、用于检测稀疏区域行人位置的行人检测子网络r2;网络顶层是通过迁移学习使用vgg16网络中的前10个固定参数的卷积层。

s23、根据图像划分的9个不重叠区域的范围,通过步幅映射,从vgg16网络的输出中提取对应图像块的特征。每块特征及在s21中定义的对应特征的密集和稀疏两类标签训练等级密度分类网络。等级密度分类网络由全局平均池化层,全连接层fc521,全连接层fc3,以及softmax层组成,初始参数使用0.01标准差的高斯初始化,并使用随机梯度下降法训练网络。

s24、密度估计子网络r1的网络结构为conv3-512-2,conv3-512-2,conv3-512-2,conv3-256-2,conv3-128-2,conv3-64-2,conv1-1-1,conv3-512-2表示为卷积核大小为3,滤波器数量为512,空洞卷积结构步长为2,如附图2所示,在空洞步长为2的情况下,即将紧凑的3×3结构延展为带有16个空洞的5×5结构。密度估计子网络r1的输入数据为密集子图特征以及密集子图对应的人群密度图,该子图特征为密集子图对应的vgg16网络输出特征。密度估计网络r1使用真实密度图的欧式距离作为损失函数n表示训练块尺寸,z(xi;θ)表示在网络参数θ下的网络输出,xi表示输入图像,表示根据标记得到的密度图。

s25、行人检测子网络r2训练的网络结构为max-pool,conv3-512,conv3-512,conv3-512,conv6-4096,conv1-4096,conv1-4096,conv1-1000,输入的训练数据为人头和躯干的包围框以及稀疏子块图像的特征,子图特征是vgg16网络输出中稀疏子图对应的特征,网络初始参数使用0.01标准差的高斯随机,使用随机梯度下降法训练网络。行人检测子网络r2通过交叉熵损失和边界损失训练网络,返回区域中检测到的目标,对同一人体头部,躯干标记为1人。

s3、测试阶段

对于一张输入测试图像,将图像分为不重叠的9块子图,输入测试图像到vgg16网络中,根据预定义的分块,经由步幅映射选取分块的子图特征,各块经过全局密度等级分类网络,将图像中密集和稀疏区域分开,将分块的密集区域输入密度估计子网络r1中提取人群的密度图像,将稀疏区域输入到子网络r2中进行人体检测,利用盒回归和非极大值抑制来进行修正。子网络r1的密度图输出结果拼接成原图像的密度图。行人检测子网络r2返回区域中检测到的目标,对同一人体头部,躯干记为1人。检测结果取检测框顶部中心点标记,并将标记结果加入到拼接密度图中,场景人数表达为密度图各像素点累加结果。

s4、数据分析使用

根据密度估计得到人群密度估计,通过透视模型投影校准检测目标因相机视角及透视造成的畸变。在多摄像头大范围监控下,将所有监控图像变化到同一视角进行拼接很困难,但是将抽象的人群密度和已检测到人位置信息变换到俯瞰视角可以一定程度上实现,我们直接采用各场景对应的透视模型投影映射,将各监控的密度图进行变换矫正视角畸变,根据公认的密度等级分类方法,将密度图分为极密集,密集,中等,稀疏,极稀疏五种,创建景区全局地图图层,根据每个监控相机的覆盖范围,以实际的10米距离为标准将监控范围划分为若干块,每一块在地图图层的对应区域,设置使用深红对应极密集,红色对应密集,橙色对应中等,绿色对应稀疏,根据实验结果将在地图图层上显示相应的人群密集情况,实现全局景区的整体人群密集情况分布图。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1