基于尺度自适应网络的人群人数计数方法及系统与流程

文档序号:18466842发布日期:2019-08-17 02:33阅读:185来源:国知局
基于尺度自适应网络的人群人数计数方法及系统与流程

本发明属于图像处理领域,尤其涉及一种基于尺度自适应网络的人群人数计数方法及系统。



背景技术:

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

人群计数(crowdcounting)是指针对视频或图像中的人群,统计个体目标数目。近年来,基于模式识别和机器学习的人群计数被广泛的研究和应用在智能监控领域,如:机场车站等地的人流量监控及大型商场区域性人群分布等。通过监控某场所的人数能为管理机构提供实时密度信息,有效控制人流量,从而提供给管理者准确的人数及其分布信息,可防止因人群密度过大而造成的潜在危机。然而,由于人头尺寸差异,人群无规律分布以及复杂背景等问题,人群计数仍面临着很大的挑战。

发明人发现,现有的人群计数方法大部分着重在输出单一数字来表示人数,无法展示人群分布等细节信息,因此现实应用意义不大。自2015年开始,逐渐出现了输出密度图并基于密度图得到人数的人群计数方法,但应对多尺度目标及复杂背景的能力较弱,计算耗时也相对较长。



技术实现要素:

为了解决上述问题,本发明提出一种基于尺度自适应网络的人群人数计数方法及系统,针对图像中人头尺寸差异及复杂背景设计了由基础网络、尺度扩大单元、单元密集连接模式和通道注意力单元组成的尺度自适应网络,对每幅图像输出其对应的密度图及人数。

在一些实施方式中,采用如下技术方案:

基于尺度自适应网络的人群人数计数方法,包括:

获取包含人群的原始图像,对原始图像进行缩放处理,并根据样本的人数标签生成对应的密度图;所述样本的人数标签指的是原始图像中标出的人头中心在图像中的位置;

从缩放后的图像中截取设定数量的图像块,从密度图中截取设定数量的密度图像块;

基于扩张卷积神经网络及通道注意力机制构建尺度自适应人群计数网络;

利用所述图像块和密度图像块训练尺度自适应人群计数网络;

利用训练完成的尺度自适应人群计数网络,计算每幅待测图像的密度图,并将密度图中的所有像素进行累加得到待测图像中的人数。

在另一些实施方式中,采用如下技术方案:

基于尺度自适应网络的人群人数计数系统,包括:

用于获取包含人群的原始图像,对原始图像进行缩放处理的模块;

用于根据样本的人数标签生成对应的密度图的模块;所述样本的人数标签指的是原始图像中标出的人头中心在图像中的位置;

用于从缩放后的图像中截取设定数量的图像块的模块,用于从密度图中截取设定数量的密度图像块的模块;

用于基于扩张卷积神经网络及通道注意力机制构建尺度自适应人群计数网络的模块;

用于利用所述图像块和密度图像块训练尺度自适应人群计数网络的模块;

用于利用训练完成的尺度自适应人群计数网络,计算每幅待测图像的密度图,并将密度图中的所有像素进行累加得到待测图像中的人数的模块。

在另一些实施方式中,采用如下技术方案:

一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-4任一项所述的基于尺度自适应网络的人群人数计数方法。

在另一些实施方式中,采用如下技术方案:

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行权利要求1-4任一项所述的基于尺度自适应网络的人群人数计数方法。

与现有技术相比,本发明的有益效果是:

(1)本发明针对图像中背景复杂,人头尺寸差异等特点设计了尺度自适应网络。其中由传统卷积分支和空洞卷积分支组成的尺度扩大单元可提取具有两种不同感受野的特征;采用密集连接模式将多个尺度扩大单元进行连接,进一步增大了感受野范围,同时使感受野在一定范围内分布更密集,因此可有效处理图像或视频中人头尺寸差异问题;通道注意力单元来针对输入图像中不同的人头尺寸有选择性地增强具有合适感受野的特征通道,有效缓解了不同特征通道间的竞争所导致的负面影响。

(2)借助深度卷积神经网络自动学习图像特征,从而避免了设计特征提取器以对图像进行手动特征提取的复杂任务。

(3)输出为密度图,可提供人群分布等细节信息,且根据密度图的像素加和可直接得到人数。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1是尺度自适应网络的结构图;

图2是尺度扩大单元结构图;

图3是扩张卷积和传统卷积对比;

图4是通道注意力单元结构图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

鉴于深度学习在机器视觉领域的广泛应用(跟踪,检测,定位等)以及卷积神经网络在图像处理,特征学习方面的强大性能。

在一个或多个实施方式中,公开了一种基于尺度自适应网络的人数计数方法,该方法针对人头尺寸差异和背景复杂等问题,利用扩张卷积神经网络和传统卷积神经网络的结合,获取具有多个感受野的特征输出密度图并进行人群计数:

采用了传统卷积神经网络和扩张卷积神经网络进行人群计数;为获取具有更多感受野的特征以应对人头尺寸差异和复杂背景,将多个单元采取密集链接模式;为降低多个特征通道间的竞争性,设计了通道注意力单元。

基于尺度自适应网络的人数计数方法,具体包括:

步骤1:获取包含人群的原始图像,对原始图像进行放缩处理。具体操作为将获取的原始图像的长和宽各重置为与原图尺寸最接近的16的倍数。这样便于为网络训练样本的分割以及网络训练中的降维。

根据样本的人数标签生成对应的密度图;样本的人数标签指的是原始图像中标出的人头中心在图像中的位置;

密度图d的生成方法见公式(1)。

其中j为图像中人群位置的个数,xi表示人头具体位置的坐标。g(·)和σi则分别表示高斯核和其方差。当数据为密集人群时,σi由根据目标与离其最近的两个目标的距离通过k近邻算法计算而来。数据为稀疏人群时,将σi直接选定一个固定值。

步骤2:随机对每幅图像截取9个原图的长、宽1/4大小的图像块,对密度图进行相同的操作;

步骤3:利用图像块和对应的密度图像块来训练尺度自适应网络;

步骤4:利用训练完成的尺度自适应网络,计算每幅图像的密度图,并对密度图中的所有像素进行累加得到图像中的人数。将待测图像输入到已经训练好的尺度自适应人群计数网络,输出对应的密度图。将密度图中所有的像素进行加和,得到待测图像中的人数。

其中,尺度自适应网络训练模块可进一步细分为4个单元,分别是基础网络、尺度扩大单元、单元密集连接模式和通道注意力单元。其中基础网络为传统的卷积层,用来提取初级特征。尺度扩大单元由传统卷积分支和扩张卷积分支组成,可提取具有不同感受野大小的特征图。单元密集连接模式为将每个尺度扩大单元输出的密度图进一步输入到其下一个及其之后的每个尺度扩大单元。通道注意力单元的目的是为不同的图像选择具有合适感受野特征的密度图通道,从而降低多个特征通道间的竞争性。

图1为尺度自适应网络结构图。该网络首先由三个卷积层进行浅层特征提取,然后将提取的特征继续传送到3个堆叠的尺度扩大单元(scaleexpansionunit,seu)进行多尺度特征提取。每个尺度扩大单元均由简单的卷积分支组成,在扩大特征感受野数量的同时有效控制了参数量。另外,尺度扩大单元之间采用密集连接模式(denseconnectivitypattern,dcp),从而可以获取具有分布较密集且范围较大感受野的特征。但具有不同大小感受野的特征通道间存在竞争,为了针对不同的输入选取具有相对应尺寸感受野的特征,在每个尺度扩大单元后插入了通道注意力单元(residualchannel-wiseattentionunit,rcau)对特征通道分配不同的权重以针对不同的输入来加强具有合适感受野的特征通道。

尺度扩大单元由两个分支组成,分别是传统卷积分支和空洞卷积分支。在空洞卷积分支中,采用了两层空洞卷积操作。通过在卷积核中插入空洞,使其获得较大的感受野。由图2可知,尺度扩大单元所提取的特征图中每个像素所对应的原图范围在传统卷积分支中为3×3个像素(白色区域),而在空洞卷积分支中对应的原图范围大小则为9×9个像素(浅灰色部分)。因此,传统卷积分支和空洞卷积分支分别具有3×3和9×9的感受野大小。两个分支所提取的特征进行融合,然后传送到下个尺度扩大单元或特征提取层进一步进行特征提取,在这种方式下,单个尺度扩大单元将感受野数量增加了一倍。另外,需要注意的是,尺度扩大单元中的传统卷积和空洞卷积操作均增加了填充项来保证输出与输入特征图的大小保持一致,因此两个分支所提取的特征可直接进行堆叠,无需进行特征图尺寸的调整。

图3是卷积核都为3×3的传统卷积和空洞卷积操作对比示意图。图中浅灰色部分为待卷积的原图。其中深灰色像素为卷积核,均为3×3,而空洞卷积通过插入空白,其卷积模板大小变为5×5。最终经过卷积操作得到的特征图大小也不同。

在进行人群计数时,所提取特征的感受野对能输出高准确度的密度图至关重要。若感受野太小,则仅能覆盖目标的一部分,易导致漏计;而感受野太大则易提取到不相关的背景信息,这不利于进行计数。通过对多个尺度扩大单元进行密集连接,计数网络可提取到具有在较大范围内密集分布的感受野的特征,但对于人群计数这一任务,并非所有特征均有必要,因为具有不同感受野的特征通道间存在竞争关系,其中对输入图像来说具有不合适感受野的特征应尽量进行抑制来获取更准确的密度图。为此,本实施例设计了通道注意力单元来自适应加强或减弱相关通道特征的权重,其结构见图4;通道注意力单元针对输入的特征,首先学习其不同通道的重要性,即为不同的通道分配权重。其流程为:首先采用全局池化层,对每个特征图计算其平均值得到1×1的输出,因此n个通道的特征图最终将形成1×n的向量;然后通过两个卷积层进一步进行处理;最终由sigmoid函数获得每个通道的权重。接下来每个特征图分别乘以其所分配到的权重并与原特征图相加。

在shanghaitech-b数据集上进行实验。

4.1shanghaitech-b数据集:

该数据集共含400幅训练图像和316幅测试图像,图像中人数目标最少9,最多为578,平均每幅图像中有123个人。其图像大小均为768×1024像素。

采用平均预测绝对误差mae和平均平方预测误差mse两个指标作为评价标准,mae的值越低,则该方法准确性越高,mse的值越低,则该方法的鲁棒性越好。

实验结果较仅包含基础网络(bn)以及分别加入尺度扩大单元(seu)、密集连接模式(dcp)和通道注意力单元(rcau)的网络结构对比如下:

实施例二

在一个或多个实施方式中,公开了一种基于尺度自适应网络的人数计数系统,包括:

用于获取包含人群的原始图像,对原始图像进行缩放处理的模块;

用于根据样本的人数标签生成对应的密度图的模块;所述样本的人数标签指的是原始图像中标出的人头中心在图像中的位置;

用于从缩放后的图像中截取设定数量的图像块的模块,用于从密度图中截取设定数量的密度图像块的模块;

用于基于扩张卷积神经网络及通道注意力机制构建尺度自适应人群计数网络的模块;

用于利用所述图像块和密度图像块训练尺度自适应人群计数网络的模块;

用于利用训练完成的尺度自适应人群计数网络,计算每幅待测图像的密度图,并将密度图中的所有像素进行累加得到待测图像中的人数的模块。

实施例三

在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于扩张卷积神经网络的人群人数计数方法。为了简洁,在此不再赘述。

应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1