一种基于内容感知模块的人群密度估计方法及系统

文档序号:29070760发布日期:2022-03-01 21:17阅读:113来源:国知局
一种基于内容感知模块的人群密度估计方法及系统

1.本发明涉及人群密度估算技术领域,尤其是涉及一种基于内容感知模块的人群密度估计方法及系统。


背景技术:

2.近年来人类人口增加、公共场所的人群密集程度在大幅提高,世界范围内都出现人群由于过度密集而导致的踩踏事故,造成了巨大的人身财产损失。随着计算机视觉领域技术的迅猛发展,根据监控图像、视频的人群计数任务对安保和交通控制有着至关重要的作用。同时,多变的环境、拍摄角度、密集人群的遮挡又给这项任务带了巨大的挑战。
3.随着深度学习、卷积神经网络(cnn)的发展,研究人员开始利用cnn从图像和视频中准确的估计人群的数量。当前绝大部分先进的cnn方法都是利用加载了预训练模型(vgg、resnet)结合复杂的功能模块(注意力模块)来预测输入图像的人群密度图,此外还有一些方法设计了多列结构(mcnn)、多任务结构(pccnet)来提升任务的准确度。但是当前应用在人群领域的网络都是在预测时加载固定参数不够灵活,很难应对人群图像拍摄视角多变、人群分布不规则、具有透视和遮挡的特点。


技术实现要素:

4.针对上述问题,本发明提供了一种基于内容感知模块的人群密度估计方法及系统,设计基于内容感知模块的人群密度估计网络,通过内容感知模块根据图像语义信息动态生成参数加载到模型中,使模型能够在复杂多变的场景下得到更好的预测结果。
5.为实现上述目的,本发明提供了一种基于内容感知模块的人群密度估计方法,包括:
6.对待预测的图像数据进行预处理;
7.根据处理后的所述图像数据提取深层语义信息和多层融合上下文信息;
8.基于内容感知模块根据所述深层语义信息动态生成内容感知参数;
9.将根据所述内容感知参数对人群密度估计模块卷积层的权重和偏移量进行初始化;
10.将所述多层融合上下文信息输入初始化后的所述人群密度估计模块,得到人群密度图像。
11.作为本发明的进一步改进,将处理后的所述数据输入卷积神经网络模型;
12.所述卷积神经网络模型包括特征提取模块、内容感知模块和人群密度估计模块;
13.所述特征提取模块根据处理后的所述图像数据提取深层语义信息和多层融合上下文信息。
14.作为本发明的进一步改进,所述特征提取模块包括主干网络和特征融合网络;
15.所述主干网络包括一层卷积层和四层残差层,对处理后的所述图像数据进行一系列卷积、下采集、上采集,得到了所述深层语义信息;
16.所述特征融合网络采用特征金字塔网络,通过特征拼接方式融合所述主干网络中一层卷积层和四层残差层的输出特征,得到所述特征融合上下文信息。
17.作为本发明的进一步改进,所述卷积神经网络模型的训练过程包括:
18.对训练用图像数据进行数据预处理、数据增强处理和多尺度变换;
19.对主干网络、特征融合网络和内容感知模块的参数进行初始化;
20.将变换后的所述图像数据送入所述卷积神经网络模型,经特征提取模块获得深层语义信息和多层融合上下文信息;
21.经所述内容感知模块将所述深层语义信息转化为卷积层的权重和偏移量,并加载到所述人群密度估算模块的卷积层;
22.将多层融合上下文信息送入人群密度估算模块得到人群密度图像;
23.通过均方误差函数训练人群密度图像,得到主干网络、特征融合网络和内容感知模块的参数。
24.作为本发明的进一步改进,所述多尺度变化方法为:
25.利用自适应高斯核生成图像的真值人群密度图;
26.对图像和真值人群密度图每隔5个epoch进行一次双线性插值缩放;
27.对于缩放后的图像估计得到的所述人群密度图像,最后需通过公式进行像素值变换处理,公式为:
[0028][0029]
其中,
[0030]
ratio为变换系数;
[0031]
表示双线性插值缩放前人群密度图像像素值总和;
[0032]
表示双线性插值缩放后人群密度图像像素值总和;
[0033]
表示最终得到的人群密度图像的像素值。
[0034]
作为本发明的进一步改进,所述数据增强处理包括对图像数据进行随机裁剪、随机平移、随机水平翻转、随机亮度和随机擦除。
[0035]
作为本发明的进一步改进,所述内容感知模块包括三层1
×
1卷积和四组参数生成模块,每组所述参数生成模块包括3
×
3卷积和平均池化层;
[0036]
所述深层语义信息经过三层1
×
1卷积和四组参数生成模块得到四组内容感知参数。
[0037]
作为本发明的进一步改进,所述人群密度预测模块包括四组1
×
1卷积;
[0038]
根据四组所述内容感知参数分别对人群密度预测模块的四组所述1
×
1卷积的权重和偏移量进行初始化。
[0039]
作为本发明的进一步改进,所述人群密度预测模块的四组1
×
1卷积,通道数分别为512、256、128、2;
[0040]
四组所述1
×
1卷积依次对所述多层融合上下文信息进行图像通道降维,得到通道
数为2的人群密度特征图;
[0041]
对所述人群密度特征图进行热力图分析与整体积分,得到所述人群密度图像和图像中的人群总数。
[0042]
本发明还提供了一种基于内容感知模块的人群密度估计系统,包括:图像数据处理模块、特征提取模块、内容感知模块和人群密度估计模块;
[0043]
所述信息获取模块,用于:
[0044]
对待预测的图像数据进行预处理;
[0045]
所述特征提取模块,用于:
[0046]
根据处理后的所述图像数据提取深层语义信息和多层融合上下文信息;
[0047]
所述内容感知模块、用于:
[0048]
根据所述深层语义信息动态生成内容感知参数;
[0049]
所述人群密度估计模块,用于:
[0050]
根据所述内容感知参数对卷积层的权重和偏移量进行初始化;
[0051]
根据所述多层融合上下文信息进行人群密度估计,得到人群密度图像。
[0052]
与现有技术相比,本发明的有益效果为:
[0053]
本发明相较于传统的mcnn、csrnet、pccnet、can等人群密度估计方法在训练之后参数固定的情况,在每次预测人群密度时,获取该图片数据的深层语义信息,动态生成人群密度估计模块卷积层的参数,进而更加灵活地、有针对性的进行人群密度估计,在复杂多变的场景下能够得到更好的预测结果。
附图说明
[0054]
图1为本发明一种实施例公开的基于内容感知模块的人群密度估计方法流程图;
[0055]
图2为本发明一种实施例公开的基于内容感知模块的人群密度估计系统示意图;
[0056]
图3为本发明一种实施例公开的卷积神经网络模型组成结构示意图;
[0057]
图4为本发明一种实施例公开的卷积神经网络模型中特征提取模块示意图;
[0058]
图5为本发明一种实施例公开的卷积神经网络模型详细结构示意图。
具体实施方式
[0059]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]
下面结合附图对本发明做进一步的详细描述:
[0061]
实施例:
[0062]
如图1所示,本发明提供的一种基于内容感知模块的人群密度估计方法,包括:
[0063]
s1、对待预测的图像数据进行预处理;
[0064]
其中,
[0065]
预处理是为了能够输入卷积神经网络模型进行预测,需要对图像进行预处理;输入图像的宽高限制必须为512
×
512,为了保证图像不会变形所以不选择直接resize到512
×
512的方式,而是选择填充和随机裁剪的方式,小于该尺寸的图像在右下角填充黑色像素将尺寸补全到512
×
512,大于该尺寸的图像先进行随机裁剪,并对裁剪之后尺寸不足的部分进行黑色像素的填充。
[0066]
s2、将处理后的数据输入卷积神经网络模型;
[0067]
其中,
[0068]
如图3、5所示,卷积神经网络模型包括特征提取模块、内容感知模块和人群密度估计模块,特征提取模块包括主干网络和特征融合网络;
[0069]
主干网络包括一层卷积层和四层残差层,特征融合网络采用特征金字塔网络;
[0070]
s3、特征提取模块根据处理后的图像数据提取深层语义信息和多层融合上下文信息;
[0071]
其中,
[0072]
通过主干网络的一层卷积层和四层残差层对处理后的图像数据进行一系列卷积、下采集、上采集,得到深层语义信息;
[0073]
如图4所示,通过特征融合网络,采用特征拼接方式融合主干网络中一层卷积层和四层残差层的输出特征,得到特征融合上下文信息。
[0074]
s4、基于内容感知模块根据深层语义信息动态生成内容感知参数,如图4所示;
[0075]
其中,
[0076]
内容感知模块包括三层1
×
1卷积和四组参数生成模块,每组参数生成模块包括3
×
3卷积和平均池化层;
[0077]
深层语义信息经过三层1
×
1卷积和四组参数生成模块得到四组内容感知参数。
[0078]
s4、将根据内容感知参数对人群密度估计模块卷积层的权重和偏移量进行初始化;
[0079]
其中,
[0080]
如图5所示,人群密度预测模块包括四组1
×
1卷积;
[0081]
根据四组内容感知参数分别对人群密度预测模块的四组1
×
1卷积的权重和偏移量进行初始化。
[0082]
s5、将多层融合上下文信息输入初始化后的人群密度估计模块,得到人群密度图像。
[0083]
其中,
[0084]
人群密度预测模块的四组1
×
1卷积,通道数分别为512、256、128、2;
[0085]
四组1
×
1卷积依次对多层融合上下文信息进行图像通道降维,得到通道数为2的人群密度特征图;
[0086]
对人群密度特征图进行热力图分析与整体积分,得到人群密度图像和图像中的人群总数。
[0087]
进一步的,人群密度图像的生成公式为:
[0088][0089]
其中,
[0090]
i表示第i个人头索引;
[0091]
n表示总人头数;
[0092]
δ(x-xi)表示图像中人头位置的函数;
[0093]gσi
表示自适应高斯核;
[0094]
σi为高斯核标准差;
[0095]
表示图像中该人头与其相邻的三个人头的欧式距离和的平均值;
[0096]
β是权重系数。
[0097]
本发明中卷积神经网络模型的配置和训练过程包括:
[0098]
步骤1、对训练用图像数据进行数据预处理、数据增强处理和多尺度变换;
[0099]
其中,
[0100]
本发明使用了shanghaitech-a、shanghaitech-b、ucf-qnrf三个公开数据集;
[0101]
为了能够输入网络进行训练,需要对图像进行预处理,输入图像的宽高限制必须为512
×
512,为了保证图像不会变形所以不选择直接resize到512
×
512的方式,而是选择填充和随机裁剪的方式,小于该尺寸的图像在右下角填充黑色像素将尺寸补全到512
×
512,大于该尺寸的图像先进行随机裁剪,并对裁剪之后尺寸不足的部分进行黑色像素的填充;
[0102]
为了丰富数据集样本,本发明采取了随机裁剪、随机平移、随机水平翻转、随机亮度的数据增强方法,此外,为了提升模型的鲁棒性还增加了随机擦除。
[0103]
为了进一步丰富数据样本,本发明设计了一种适用于人群密度估计的多尺度训练方法,利用自适应高斯核生成真值人群密度图,然后对图像和真值人群密度图每隔5个epoch进行一次双线性插值缩放,缩放的范围在[0.5,0.75,1,1.25,1.5]序列中随机选取,由于双线性插值缩放会导致最后得到的人群密度图像中所有像素值的总和(代表了图像中行人的数目)发生变化,所以对于这部分数据,我们在最后需要对变化后的每一个像素值进行像素值变换处理,公式为:
[0104][0105]
其中,
[0106]
ratio为变换系数;
[0107]
表示双线性插值缩放前人群密度图像像素值总和;
[0108]
表示双线性插值缩放后人群密度图像像素值总和;
[0109]
表示最终得到的人群密度图像的像素值。
[0110]
步骤2、对主干网络、特征融合网络和内容感知模块进行配置和参数进行初始化;
[0111]
其中,
[0112]
主干网络是基于resnet18修改得到,主要修改包括:1)去掉了resnet18网络最后的全连接层;2)将resnet18第一层7
×
7尺寸卷积核、步长为2、填充为3的卷积层替换为了3
×
3尺寸卷积核、步长为1、填充为1的卷积层,减少一次图像下采样。即:主干网络由第一卷积层和四个残差层组成,每一个残差层均具有两个残差块,每个残差块具有两组卷积操作,
结构均为3
×
3卷积、批处理、relu激活函数,残差块之间由相加的方式连接。主干网络第四残差层输出深层语义信息(特征图尺寸为512
×
16
×
16),作为内容感知模块的输入。
[0113]
特征融合模块采用了特征金字塔模块,特征金字塔模块的输入为主干网络的第一层卷积层、最大池化层输出(特征图维度64
×
256
×
256)、第一残差层输出(特征图维度64
×
128
×
128)、第二残差块输出(特征图维度128
×
64
×
64)、第三残差层输出(特征图维度512
×
32
×
32)。特征融合模块对前三层残差层的输出进行双线性插值上采样,统一特征图宽高到256
×
256,然后通过拼接方式融合特征得到特征融合上下文信息(特征图维度512
×
256
×
256)。
[0114]
内容感知模块利用深度语义信息动态生成卷积层的权重和偏移量并加载到人群密度估计模块的卷积层。内容感知模块前段为三层1
×
1卷积(输出特征图维度512
×
16
×
16),后段为四组内容感知生成层由3
×
3尺寸卷积核、步长为1、填充为1的卷积层、全连接、平均池化层组成。经过内容感知层得到四组权重和偏移量。第一组,权重维度512
×
512
×1×
1,偏移量维度512
×
1;第二组,权重维度256
×
512
×1×
1,偏移量维度256
×
1;第三组,权重维度128
×
256
×1×
1,偏移量维度128
×
1;第四组,权重维度2
×
128
×1×
1,偏移量维度2
×
1;
[0115]
最后,使用了resnet18的预训练模型对主干网络的参数进行了初始化,使用xavier方法对内容感知模块与特征融合网络进行参数初始化。
[0116]
步骤3、将变换后的图像数据送入配置好并参数初始化后的卷积神经网络模型,经特征提取模块获得深层语义信息和多层融合上下文信息;
[0117]
其中,
[0118]
将ucf-qnrf数据集1201张图片用于训练,334张图像用于测试,拥有复杂的场景、较高的人群密度和多变的拍摄角度,更加真实和困难;
[0119]
将shanghaitech-a数据集,300张用于训练,182张用于测试,图像尺寸变化幅度大,人群数量稠密,场景变化大;
[0120]
将shanghaitech-b数据集,400张用于训练,316张用于测试,图像尺寸固定,人群分布不规律,场景和拍摄角度相对单一;
[0121]
步骤4、经内容感知模块将深层语义信息转化为卷积层的权重和偏移量,并加载到人群密度估算模块的卷积层;
[0122]
其中,
[0123]
人群密度预测模块由四层卷积组成,卷积核尺寸分别为1
×1×
512,1
×1×
256,1
×1×
128,1
×1×
2和内容感知模块产生的权重与偏移量相对应,四层卷积卷积由内容感知模块产生的权重和偏移量进程初始化。
[0124]
步骤5、将多层融合上下文信息送入人群密度估算模块得到人群密度图像;
[0125]
其中,
[0126]
采用均方误差损失函数用于训练人群密度图像,优化器使用动量自适应优化器,初始学习率设为0.001,总共迭代200次以上。
[0127]
步骤6、通过测试数据测试卷积神经网络模型的准确率,准确率达到目标要求,即可得到主干网络、特征融合网络和内容感知模块的参数。
[0128]
通常,卷积神经网络模型的评价指标为平均绝对误差(mae)、均方误差(mse),公式
如下:
[0129][0130][0131]
在ucf-qnrf、shanghaitech-a和shanghaitech-b数据集上评估了算法预测性能,本发明的人群密度估计方法预测性能与常规方法预测性能对比结果如下表,本发明方法获得了具有竞争力的结果。
[0132][0133]
如图2所示,本发明还提供了一种基于内容感知模块的人群密度估计系统,包括:图像数据处理模块、特征提取模块、内容感知模块和人群密度估计模块;
[0134]
信息获取模块,用于:
[0135]
对待预测的图像数据进行预处理;
[0136]
特征提取模块,用于:
[0137]
根据处理后的图像数据提取深层语义信息和多层融合上下文信息;
[0138]
内容感知模块、用于:
[0139]
根据深层语义信息动态生成内容感知参数;
[0140]
人群密度估计模块,用于:
[0141]
根据内容感知参数对卷积层的权重和偏移量进行初始化;
[0142]
根据多层融合上下文信息进行人群密度估计,得到人群密度图像。
[0143]
本发明的优点:
[0144]
相较于传统的mcnn、csrnet、pccnet、can等人群密度估计方法在训练之后参数固定的情况,在每次预测人群密度时,获取该图片数据的深层语义信息,动态生成人群密度估计模块卷积层的参数,进而更加灵活地、有针对性的进行人群密度估计,在复杂多变的场景下能够得到更好的预测结果。
[0145]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1