基于视频图像的人群计数方法与流程

文档序号:22325680发布日期:2020-09-25 17:54阅读:184来源:国知局
基于视频图像的人群计数方法与流程

本发明属于计算机视觉中的人群图像处理领域,具体来说是一种涉及图像中的人群计数以及行人背景分割的方法。



背景技术:

人群计数,是对图像或是视频图像序列中的行人进行数量统计。在现实生活中,有效的行人计数在安全管控、区域规划、行为分析等领域有着重要的意义,比如在防止踩踏、交通线路设计、广告位投放、建筑选址等方面提供一定的数据支撑。

目前的行人计数方法主要可以分为三大类:早期的基于检测的方式、基于回归的方式以及如今密度图回归的方式。基于检测的方式是通过一个滑动窗口,并利用边缘等特征进行行人的检测,此类方法受限于行人遮挡,适用于目标较为分散的场合。基于回归的方法在一定程度上提高了遮挡人群中的计数准确度,但是并不能很好地得到行人分布的空间信息。

随着计算机视觉领域的不断发展,行人计数开始转向了密度图回归的方法。相较于上述两种方法,利用密度图回归的方式能够在处理遮挡问题的同时给出了行人的分布情况,从而获得具体的空间分布信息。

如今,行人计数依旧保留着大量计算机视觉领域所共有的问题。例如,视角变换所带来的透视问题使得人群在不同尺度下的检测变得更加困难。现有的计数方法大多采用了深度学习提取多尺度特征的形式,其优势在于利用多层或是多列卷积提取不同尺度的行人特征,在一定程度上解决了透视问题,但是仍旧有提升的空间。

事实上,在针对固定场景的行人计数情况下,常常会出现大量冗余信息。例如周围的环境建筑、停驻的车辆,往往在一定的时间段内都是不发生变化的。在现有的利用深度学习生成密度图的方法中,对干扰数据进行计算会占用一定的资源并导致计算速度变慢。针对这些背景信息的干扰,在处理视频流中可以通过在线背景更新以及背景分割的形式,事先过滤掉冗余信息。

综合以上思路,本发明提出了一种基于视频图像和在线背景分割的人群计数方法。



技术实现要素:

针对现有行人计数领域存在的问题,本发明提出一种基于视频图像的人群计数方法。该方法具有以下优点:

在训练模型阶段,1)选择成熟的多层小卷积核神经网络(convolutionalneuralnetwork,cnn),例如vgg-16结构,做初步特征提取,在保证对图像具有强大表征能力的同时减少参数,使得模型更为简洁,通用性强;2)利用获得的多尺度特征对图像进行密度估计。在行人间存在相似性,密集程度较大的情况下,以低级特征为主可以更有效地进行统计;在密集程度较小的情况下,行人的高级特征会使得计数更为精准。因此利用密度分类的形式,可以针对不同的遮挡情况进行统计,增加计数的准确度。

在应用过程中,利用背景分割法分离环境干扰,保留关键信息,以稀疏矩阵的形式简化了图像参与计算的部分,加快了后续行人计数回归的速度;利用行人检测的空间信息以及背景分割法保留的信息实现背景的不断更新,最终实现完整背景的分离。

一种基于视频图像的人群计数方法,步骤如下:

步骤一、选取具有标注信息的行人图像数据集,测试集与训练集数量定为6:4,可以根据实际数据集对比例进行修改,然后根据图像自带的人头标注像素点进行高斯函数处理,生成原图像对应的初始真值密度图;

步骤二、搭建基于密度分类的编码-解码卷积网络模型。

所述的基于密度分类的编码-解码卷积网络模型分为一个骨干网络与两个分支:以vgg-16网络作为骨干网络,使用其全部层数提取对应不同尺度特征。通过密度回归分支对提取的不同尺度特征进行融合输入,通过回归实现密度分类,获得解码分支的权重;解码分支利用各尺度特征,上采样解码还原图像,生成各尺度特征对应的人群密度估计图,利用密度回归分支获得的权重进行加权,得到最终密度估计图。

步骤三、通过训练集对步骤二搭建的基于密度分类的编码-解码卷积网络模型进行训练,采用随机梯度下降算法来优化参数,并使用欧几里德距离来计算密度估计图和真值密度图之间的损失。保留效果较优的完整模型,用于实际检测;

步骤四、利用背景分离的预处理方法,实现输入图像的缩减,完成稀疏矩阵的生成,再通过步骤三得到的基于密度分类的编码-解码卷积网络模型,实现最终的计数结果。

背景分离的方法:通过对采集的连续视频帧与给定的背景图像进行像素减法,采用阈值划分的形式保留所有无关背景的信息的图像内容,实现输入图像内容的缩减,提高卷积效率;并通过编码-解码卷积网络模型生成的最终密度估计图,对含有行人部分进行提取,其余部分以背景形式更新至背景图层,实现背景的实时更新。

所述步骤一的具体内容为:

利用二维高斯卷积核将数据集中的带有人头位置标注的行人图像转换为真值密度图,用于损失差计算。选择基于几何适应高斯核的密度图,公式表示如下:

真值密度图通过delta脉冲函数与一个高斯函数卷积获得,先卷积后求和。xi表示人头在图像中的像素位置;δ(x-xi)表示图像中人头位置的冲激函数;n为图像中的人头总数;为距离xi人头最近m个人头的平均距离;β为定值,用于生成高斯函数的宽度参数。

进一步的,β=0.3。

通过以上运算将带有人头标注的行人图像转换成真值密度图,并作为卷积神经网络的输出比对进行后续训练。

所述步骤三的具体内容为:

利用测试集图像作为输入对步骤二搭建的基于密度分类的编码-解码卷积网络模型,进行训练,并保留模型参数。使用欧几里得距离计算最终密度估计图和真值密度图之间的损失。采用随机梯度下降算法优化参数,直到损失值收敛到预计值。

采用欧氏距离测量生成的密度图与真实值的距离时,损失函数定义如下:

其中,n表示输入编码-解码卷积网络模型的图片数量,z(xi;θ)为第i幅输入图片对应的最终密度估计图,zgt表示真值密度图。θ表示网络待学习参数。

采用均方误差(mse)和平均绝对误差(mae)对编码-解码卷积网络模型进行评估。mse用来描述编码-解码卷积网络模型的准确度,mse越小则准确度越高,mae能反映出预测值的误差情况。

其中,ci表示对图片的预测人数,表示真实人数。

测试过程:选择测试集输入到训练好的模型中进行测试,输出最终人群密度图,统计结果。取最佳结果作为模型参数进行封装。

所述步骤四的具体内容为:

利用背景分离方法,将背景图像从采集的连续视频帧中减去,即输入的初始图像与背景图像做像素减法的方式得到一张差异图。该差异图包含了所有无关背景的信息,所述的所有无关背景的信息包括来往的行人、车辆、光线照射导致的阴影变化。对差异图进行阈值划分滤去光照等细小干扰,得到分离背景的感兴趣区域(roi,regionofinterest)。保留的roi图像,即为输入步骤三模型中的有效图像。上述过程中实现了冗余信息的过滤,以稀疏矩阵的形式,提高了编码-解码卷积网络模型的卷积速率。

得到roi图像的最终密度估计图后,通过人工标定的形式(根据实际情况给定)构造行人掩膜模板,利用行人掩膜模板与最终密度估计图进行数字图像处理形态学变化的膨胀操作(密度图中的高亮点与掩膜模板进行卷积,得到一个扩大后的区域,代表这当前区域存在行人)得到行人图像,对行人图像进行像素值取反的得到背景更新掩膜;利用背景更新掩膜与初始图像做点乘,得到更新背景图像,用于更新参与背景减法的背景图像,实现背景图像的在线更新。

通过步骤四对采集信息进行预处理,再通过步骤三中所选择的最佳模型进行行人检测计数。实现高效率的行人计数并回馈空间信息。

本发明有益效果如下:

本发明采用了基于密度分类的编码-解码网络用于生成最终密度估计图;利用背景分离方法实现了图像的预处理,加快最终密度估计图的生成。

输入数据为连续视频帧图像,通过对采集的连续视频帧与给定的背景图像做像素减法分离冗余信息得到预处理后的输入图像;将经过预处理的图像输入基于密度分类的编码-解码网络。该网络针对当行人密集程度具有相似性这一特点,使用主干网络提取多尺度特征,并对其进行特征融合用于密度回归给出权重;同时利用提取的多尺度特征上采样得到对应的密度估计图,最终实现不同尺度特征对应的密度图加权得到最终密度估计图。相比较于目前存在的人群计数技术,本发明提出的方法针对视频图像的人群计数,在一定程度上利用了行人间的相似性,并利用了冗余信息的过滤,不仅可以得到实时的行人计数,并且能够实时地保留背景图片。此外,单独利用基于密度分类的编码-解码网络也能实现单张图像的行人计数。

附图说明

图1为本发明方法流程图;

图2为基于密度分类的编码-解码卷积网络模型;

图3为本发明网络模型训练流程图;

图4为背景分离方法示意图;

图5为本发明实际应用流程图。

具体实施方式

以下结合附图与实施例对本发明方法进行进一步描述。

如图1所示,一种基于视频图像的人群计数方法,步骤如下:

步骤一、选取具有标注信息的行人图像数据集,测试集与训练集数量定为6:4,可以根据实际数据集对比例进行修改,然后根据图像自带的人头标注像素点进行高斯函数处理,生成原图像对应的初始真值密度图;

具体内容为:

利用二维高斯卷积核将数据集中的带有人头位置标注的行人图像转换为真值密度图,用于损失差计算。为了使得密度图能够更好地与不同视角且人群很密集的图像对应起来,选择基于几何适应高斯核的密度图,公式表示如下:

真值密度图通过delta脉冲函数与一个高斯函数卷积获得,先卷积后求和。xi表示人头在图像中的像素位置;δ(x-xi)表示图像中人头位置的冲激函数;n为图像中的人头总数;为距离xi人头最近m个人头的平均距离;β为定值,用于生成高斯函数的宽度参数。

进一步的,β=0.3。

通过以上运算将带有人头标注的行人图像转换成真值密度图,并作为卷积神经网络的输出比对进行后续训练。

步骤二、搭建基于密度分类的编码-解码卷积网络模型。

如图2所示,所述的基于密度分类的编码-解码卷积网络模型分为一个骨干网络与两个分支:以vgg-16网络作为骨干网络,使用其全部层数提取对应不同尺度特征。通过密度回归分支对提取的不同尺度特征进行融合输入,通过回归实现密度分类,获得解码分支的权重;解码分支利用各尺度特征,上采样解码还原图像,生成各尺度特征对应的人群密度估计图,利用密度回归分支获得的权重进行加权,得到最终密度估计图。

步骤三、通过训练集对步骤二搭建的基于密度分类的编码-解码卷积网络模型进行训练,采用随机梯度下降算法来优化参数,并使用欧几里德距离来计算密度估计图和真值密度图之间的损失。保留效果较优的完整模型,用于实际检测;

如图3所示,具体内容为:

利用测试集图像作为输入对步骤二搭建的基于密度分类的编码-解码卷积网络模型,进行训练,并保留模型参数。使用欧几里得距离计算最终密度估计图和真值密度图之间的损失。采用随机梯度下降算法优化参数,直到损失值收敛到预计值。

采用欧氏距离测量生成的密度图与真实值的距离时,损失函数定义如下:

其中,n表示输入编码-解码卷积网络模型的图片数量,z(xi;θ)为第i幅输入图片对应的最终密度估计图,zgt表示真值密度图。θ表示网络待学习参数。

采用均方误差(mse)和平均绝对误差(mae)对编码-解码卷积网络模型进行评估。mse用来描述编码-解码卷积网络模型的准确度,mse越小则准确度越高,mae能反映出预测值的误差情况。

其中,ci表示对图片的预测人数,表示真实人数。

测试过程:选择测试集输入到训练好的模型中进行测试,输出最终人群密度图,统计结果。取最佳结果作为模型参数进行封装。

步骤四、利用背景分离的预处理方法,实现输入图像的缩减,完成稀疏矩阵的生成,再通过步骤三得到的基于密度分类的编码-解码卷积网络模型,实现最终的计数结果。

如图4所示,背景分离的方法:通过对采集的连续视频帧与给定的背景图像进行像素减法,采用阈值划分的形式保留所有无关背景的信息的图像内容,实现输入图像内容的缩减,提高卷积效率;并通过编码-解码卷积网络模型生成的最终密度估计图,对含有行人部分进行提取,其余部分以背景形式更新至背景图层,实现背景的实时更新。

具体内容为:

利用背景分离方法,将背景图像从采集的连续视频帧中减去,即输入的初始图像与背景图像做像素减法的方式得到一张差异图。该差异图包含了所有无关背景的信息,所述的所有无关背景的信息包括来往的行人、车辆、光线照射导致的阴影变化。对差异图进行阈值划分滤去光照等细小干扰,得到分离背景的感兴趣区域(roi,regionofinterest)。保留的roi图像,即为输入步骤三模型中的有效图像。上述过程中实现了冗余信息(背景干扰)的过滤,以稀疏矩阵的形式,提高了编码-解码卷积网络模型的卷积速率。

得到roi图像的最终密度估计图后,通过人工标定的形式(根据实际情况给定)构造行人掩膜模板,利用行人掩膜模板与最终密度估计图进行数字图像处理形态学变化的膨胀操作(密度图中的高亮点与掩膜模板进行卷积,得到一个扩大后的区域,代表这当前区域存在行人)得到行人图像(仅含行人,每一个行人以一个掩膜模板替代,可以理解为行人掩膜,注意这里已经不是模板了),对行人图像进行像素值取反(二值化后0变成1,1变成0)的得到背景更新掩膜;利用背景更新掩膜与初始图像做点乘,得到更新背景图像,用于更新参与背景减法的背景图像,实现背景图像的在线更新。

如图5所示,通过步骤四对采集信息进行预处理,再通过步骤三中所选择的最佳模型进行行人检测计数。实现高效率的行人计数并回馈空间信息。

以上所述仅为本发明的优先实施例而已,并不用于限制本发明,对本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同的替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1