基于自监督的人群密度统计方法、装置、设备及介质与流程

文档序号:31171177发布日期:2022-08-17 09:27阅读:54来源:国知局
基于自监督的人群密度统计方法、装置、设备及介质与流程

1.本发明涉及数据统计技术领域,更具体地说是一种基于自监督的人群密度统计方法、装置、设备及介质。


背景技术:

2.随着社会的发展,人群计数或者统计是目前工业界和学界的一个研究热点和难点,其在实际生活中有重要应用价值。针对人群密度的统计目前有以下几种方式。
3.第一种是通过基于空洞卷积与原始卷积进行不同感受野信息的特征融合,以及不同感受野信息的特征融合,以及融合不同分辨率下特征图不同的层级语义信息,从而生产具有更高质量的人群密度图。该专利使用了大量的空洞卷积,这样对图片特征中的连续性信息有所损失,对于密度统计有很大的影响,同时忽略了人群密度近大远小的空间信息。
4.第二种是通过使用alexnet网络将人群图片数据集分为密度与稀疏两类,并对两类图像密度特征的不同将其送入对应的特征提取网络。对于密度图像采用注意力机制的方法进行人员密度统计,对于稀疏的人群密度采用空洞卷积的方式进行人员密度统计。该专利首先需要对图片人员密度进行分析需要判断图片中的人员密度是稀疏还是密集,在针对其进行密度分析。该专利无法直接进行人群密度判断,需要对其进行密度稀疏及密集先进行判断,才能进行判断,网络臃肿,无法适应不同程度的人员密度分类。
5.第三种是基于卷积神经网络进行人群密及数量估计方法,该方法仅仅通过卷积神经网络没有采用多尺度的方法,无法兼容不同尺度大小目标的特征信息,模型预测效果差,识别结果不精准。
6.第四种是通过目标检测网络来检测人头数,根据人头数来判断人群密度。该方法基于目标价检测人头来判断人群密度对于人体遮挡以及人头遮挡会有漏检的情况,同时对于远处密集的小目标检测召回率低凑儿最终会导致人群密度评估不准的情况。
7.因此,有必要设计一种统计精准、高效、适用性强的新的人群密度统计方法。


技术实现要素:

8.本发明的目的在于克服现有技术的不足,提供基于自监督的人群密度统计方法、装置、设备及介质,以实现精准、高效地人群密度统计。
9.为实现上述目的,本发明采用以下技术方案:
10.第一方面,基于自监督的人群密度统计方法,包括:
11.获取图像数据;
12.对图像数据进行处理,以得到样本图;
13.将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图;
14.根据人群密度图累加求和得出人的数量。
15.其进一步技术方案为:所述将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图,所述人群密度统计模型的处理方法包括:
16.将样本图输入到可变形卷积和最大池化,以得到第一处理特征;
17.将样本图输入到动态滤波卷积和最大池化,以得到第二处理特征;
18.将样本图输入到vanilla卷积和最大池化,以得到第三处理特征;
19.将样本图输入到可转换的空洞卷积,以得到第四处理特征;
20.将第一处理特征、第二处理特征、第三处理特征与第四处理特征进行concate融合,以得到第一融合特征;
21.将第一融合特征输入到自我纠正卷积,以得到纠正特征;
22.将第一融合特征输入到vanilla卷积和最大池化,以得到第五处理特征;
23.将第五处理特征输入到aspp,以得到第六处理特征;
24.将第六处理特征输入到cbam,以得到第七处理特征;
25.将第五处理特征输入到bam,以得到第八处理特征;
26.将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征;
27.将纠正特征、第七处理特征以及八处理特征进行concate融合,以得到第二融合特征;
28.将第二融合特征与第九处理特征的相乘的结果输入到转置卷积进行上采样,以得到第一上采样特征;
29.将第一上采样特征通过双线性差值进行上采样,以得到第二上采样特征;
30.将第二上采样特征输入到1
×
1卷积并且结合sigmoid激活函数,以得到注意力图;
31.将第二融合特征输入到can,以得到第十处理特征;
32.将第十处理特征输入到反卷积进行上采样,以得到第三上采样特征;
33.将第三上采样特征通过双线性差值进行上采样,以得到密度图;
34.将注意力图与密度图结合,以得到人群密度图。
35.其进一步技术方案为:所述对图像数据进行处理,以得到样本图,包括:
36.对图像数据进行切分,以得到切分图像数据;
37.从切分图像数据中选取一帧图片作为样本图。
38.其进一步技术方案为:所述将样本图输入到可转换的空洞卷积,以得到第四处理特征,包括:
39.将样本图输入到全局平均池化和1
×
1卷积,以得到第一结果;
40.将第一结果与样本图相加得到第二结果;
41.将第二结果输入到3
×
3空洞率为1的空洞卷积,以得到第三结果;
42.将第二结果输入到3
×
3空洞率为3的空洞卷积,以得到第四结果;
43.将第二结果输入到全局池化和1
×
1卷积,以得到第五结果;
44.将第五结果与第三结果相乘,以得到第六结果;
45.将第五结果与第四结果相乘,以得到第七结果;
46.将第六结果与第七结果相加,以得到第八结果;
47.将第八结果输入到全局池化和1
×
1卷积,以得到第九结果;
48.将第九结果与第八结果相加,以得到第四处理特征。
49.其进一步技术方案为:所述将第五处理特征输入到bam,以得到第八处理特征,包括:
50.将第五处理特征的张量通过bam的分支一输入到全局池化并连接两个全连接层,以得到分支一处理结果;
51.将第五处理特征的张量通过bam的分支二输入到1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积,以得到分支二中间处理结果;
52.将分支二中间处理结果与分支一处理结果相加得到的结果输入到sigmoid激活函数,以得到分支二处理结果;
53.将第五处理特征的张量通过bam的分支三与分支二处理结果相乘,以得到分支三处理结果;
54.将分支三处理结果与第五处理特征的张量相加,以得到第八处理特征。
55.其进一步技术方案为:所述将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征,所述卷积块由卷积、batch normalization以及relu激活函数构成。
56.第二方面,基于自监督的人群密度统计装置,包括获取单元、处理单元、统计单元以及计算单元;
57.所述获取单元,用于获取图像数据;
58.所述处理单元,用于对图像数据进行处理,以得到样本图;
59.所述统计单元,用于将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图;
60.所述计算单元,用于根据人群密度图累加求和得出人的数量。
61.其进一步技术方案为:所述统计单元包括第一输入模块、第二输入模块、第三输入模块、第四输入模块、第一融合模块、第五输入模块、第六输入模块、第七输入模块、第八输入模块、第九输入模块、第十输入模块、第二融合模块、第一上采样模块、第二上采样模块、处理模块、第十一输入模块、第三上采样模块、第四上采样模块以及结合模块;
62.所述第一输入模块,用于将样本图输入到可变形卷积和最大池化,以得到第一处理特征;
63.所述第二输入模块,用于将样本图输入到动态滤波卷积和最大池化,以得到第二处理特征;
64.所述第三输入模块,用于将样本图输入到vanilla卷积和最大池化,以得到第三处理特征;
65.所述第四输入模块,用于将样本图输入到可转换的空洞卷积,以得到第四处理特征;
66.所述第一融合模块,用于将第一处理特征、第二处理特征、第三处理特征与第四处理特征进行concate融合,以得到第一融合特征;
67.所述第五输入模块,用于将第一融合特征输入到自我纠正卷积,以得到纠正特征;
68.所述第六输入模块,用于将第一融合特征输入到vanilla卷积和最大池化,以得到第五处理特征;
69.所述第七输入模块,用于将第五处理特征输入到aspp,以得到第六处理特征;
70.所述第八输入模块,用于将第六处理特征输入到cbam,以得到第七处理特征;
71.所述第九输入模块,用于将第五处理特征输入到bam,以得到第八处理特征;
72.所述第十输入模块,用于将第八处理特征输入到卷积块以及反池化处理,以得到
第九处理特征;
73.所述第二融合模块,用于将纠正特征、第七处理特征以及八处理特征进行concate融合,以得到第二融合特征;
74.所述第一上采样模块,用于将第二融合特征与第九处理特征的相乘的结果输入到转置卷积进行上采样,以得到第一上采样特征;
75.所述第二上采样模块,用于将第一上采样特征通过双线性差值进行上采样,以得到第二上采样特征;
76.所述处理模块,用于将第二上采样特征输入到1
×
1卷积并且结合sigmoid激活函数,以得到注意力图;
77.所述第十一输入模块,用于将第二融合特征输入到can,以得到第十处理特征;
78.所述第三上采样模块,用于将第十处理特征输入到反卷积进行上采样,以得到第三上采样特征;
79.所述第四上采样模块,用于将第三上采样特征通过双线性差值进行上采样,以得到密度图;
80.所述结合模块,用于将注意力图与密度图结合,以得到人群密度图。
81.第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于自监督的人群密度统计方法步骤。
82.第四方面,一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的基于自监督的人群密度统计方法步骤。
83.本发明与现有技术相比的有益效果是:本发明通过对获取到的图像数据进行处理后得到样本图,再将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图,根据人群密度图累加求和得出人的数量。本发明的人群密度统计模型基于可变形卷积,动态滤波卷积,空洞卷积等多种特征提取算子对图像进行特征提取,加大了人群密度统计模型对图像信息的抽取,能更好的提取图像特征。多种自注意力机制并结合ap损失函数不仅提升模型对图片中不同尺度大小目标的识别兼容程度,同时强化了对远目标,小目标的注意力,提升了模型识别的精准度,适用性强。基于注意力图和密度图进行人群密度统计,加大了模型监督信息,从而更好的加快模型训练收敛,提高了模型的准确度。
84.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
85.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
86.图1为本发明具体实施例提供的基于自监督的人群密度统计方法的应用场景示意图;
87.图2为本发明具体实施例提供的基于自监督的人群密度统计方法的流程图;
88.图3为本发明具体实施例提供的基于自监督的人群密度统计装置的示意性框图;
89.图4为本发明具体实施例提供的一种计算机设备的示意性框图。
具体实施方式
90.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
91.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
92.还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
93.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
94.请参阅图1和图2,图1为本发明实施例提供的基于自监督的人群密度统计方法的应用场景示意图;图2为本发明具体实施例提供的基于自监督的人群密度统计方法的流程图,该基于自监督的人群密度统计方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
95.如图1所示,基于自监督的人群密度统计方法,包括以下步骤s10-s40。
96.s10、获取图像数据。
97.在本实施例中,通过地铁车厢内的监控设备收集车厢内人群的视频数据(即图像数据),监控设备采用市面上常见的即可,本技术对此不做限定。为了收集每节车厢的视频数据,可在每节车厢内均安装监控设备,每节车厢安装的监控设备所采集到的视频数据可通过有线或者无线的方式汇总到地铁的数据后台中,通过访问数据后台便可查询每节车厢的视频数据情况。
98.s20、对图像数据进行处理,以得到样本图。
99.在一实施例中,步骤s20具体包括以下步骤:s201-s202。
100.s201、对图像数据进行切分,以得到切分图像数据。
101.在本实施例中,由于地铁需要停靠在不同的站点,所以,每节车厢在每个站点的停靠后上车或下车的情况基本上会发生变化的,因此,可以按照每节车厢对应的每个站点的方式来对图像数据进行切分,便可得到每节车厢对应到每个站点的切分图像数据。
102.s202、从切分图像数据中选取一帧图片作为样本图。
103.在本实施例中,由于切分图像数据中包括了多帧图片,因此可从切分图像数据中选取一帧图片作为样本图i
image
进行人群密度的统计。
104.s30、将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图。
105.在一实施例中,步骤s30,人群密度统计模型的处理方法包括以下步骤:s301-s319。
106.s301、将样本图输入到可变形卷积和最大池化,以得到第一处理特征。
107.在本实施例中,将样本图i
image
输入到可变形卷积(deformable convolution)和最大池化进行处理,得到特征f
dcm1

108.可变形卷积的是相对于标准卷积的概念而来,在标准卷积操作中卷积核作用区域始终为中心点周围标准卷积核大小的矩形区域内,而可变形卷积则可以是不规则的区域。
109.使用可变形卷积,可以提升对样本图检测和分割上的性能。只需增加较少的计算量,就可以得到性能的提升。
110.s302、将样本图输入到动态滤波卷积和最大池化,以得到第二处理特征。
111.在本实施例中,将样本图i
image
输入到动态滤波卷积(dynamic convolution)和最大池化进行处理,得到特征f
dcm2

112.s303、将样本图输入到vanilla卷积和最大池化,以得到第三处理特征。
113.在本实施例中,将样本图i
image
输入到vanilla卷积(vanilla convolution)和最大池化进行处理,得到特征f
vm

114.s304、将样本图输入到可转换的空洞卷积,以得到第四处理特征。
115.在本实施例中,将样本图i
image
输入到可转换的空洞卷积(switchableatrous convolution)进行处理,得到特征f
sacm

116.在一实施例中,步骤s304具体包括以下步骤:s3041-s3050。
117.s3041、将样本图输入到全局平均池化和1
×
1卷积,以得到第一结果。
118.在本实施例中,将样本图i
image
输入到全局平均池化和1
×
1卷积进行处理,得到第一结果。
119.s3042、将第一结果与样本图相加得到第二结果。
120.在本实施例中,将第一结果与样本图i
image
进行相加运算,以得到特征f
igc

121.s3043、将第二结果输入到3
×
3空洞率为1的空洞卷积,以得到第三结果。
122.在本实施例中,将得到的特征f
igc
输入到3
×
3空洞率为1的空洞卷积中进行处理,以得到特征f
ac1

123.s3044、将第二结果输入到3
×
3空洞率为3的空洞卷积,以得到第四结果。
124.在本实施例中,将得到的特征f
ac1
输入到3
×
3空洞率为3的空洞卷积进行处理,以得到特征f
ac2

125.s3045、将第二结果输入到全局池化和1
×
1卷积,以得到第五结果。
126.在本实施例中,将得到的特征f
ac1
输入到全局池化和1
×
1卷积进行处理,以得到特征f
apc

127.s3046、将第五结果与第三结果相乘,以得到第六结果。
128.在本实施例中,将特征f
apc
与特征f
ac1
相乘得到特征f
mac1

129.s3047、将第五结果与第四结果相乘,以得到第七结果。
130.在本实施例中,将特征f
apc
与特征f
ac2
相乘得到特征f
mac2

131.s3048、将第六结果与第七结果相加,以得到第八结果。
132.在本实施例中,将特征f
mac1
与特征f
mac2
进行相加得到特征f
mac12

133.s3049、将第八结果输入到全局池化和1
×
1卷积,以得到第九结果。
134.在本实施例中,将得到的特征f
mac12
通过全局池化以及1
×
1卷积处理,得到特征f
igc2

135.s3050、将第九结果与第八结果相加,以得到第四处理特征。
136.在本实施例中,将特征f
igc2
与特征f
mac12
相加得到特征f
sacm

137.s305、将第一处理特征、第二处理特征、第三处理特征与第四处理特征进行concate融合,以得到第一融合特征。
138.在本实施例中,将特征f
dcm1
,特征f
dcm2
,特征f
vm
,与特征f
sacm
进行concate融合得到新的特征f
fusion

139.s306、将第一融合特征输入到自我纠正卷积,以得到纠正特征。
140.在本实施例中,将特征f
fusion
输入到自我纠正卷积(self-calibrated convolution)进行处理,得到特征f
scc

141.s307、将第一融合特征输入到vanilla卷积和最大池化,以得到第五处理特征。
142.在本实施例中,将特征f
fusion
输入至vanilla卷积(vanillaconvolution)以及最大池化进行处理,得到特征f
cp

143.s308、将第五处理特征输入到aspp,以得到第六处理特征。
144.在本实施例中,将f
cp
特征输入到aspp(atrous spatialpyramidpooling)进行处理,得到特征f
aspp

145.s309、将第六处理特征输入到cbam,以得到第七处理特征。
146.在本实施例中,将特征f
aspp
输入到cbam(convolution block attention module)进行处理,得到特征f
cbam

147.s310、将第五处理特征输入到bam,以得到第八处理特征。
148.在本实施例中,将特征f
cp
输入至bam(bottleneckattentionmodule)进行处理,得到特征f
bam
。采用bam机制进行处理,可以大大降低计算开销。
149.在一实施例中,步骤s310具体包括以下步骤:s3101-s3105。
150.s3101、将第五处理特征的张量通过bam的分支一输入到全局池化并连接两个全连接层,以得到分支一处理结果。
151.在本实施例中,bam机制有三个分支,分别为分支一、分支二和分支上。
152.分支一通过将输入的特征f
cp
的张量input
tensor
输入到全局池化并连接两个全连接层,以得到特征f
channelattentation
,该特征f
channelattentation
的尺寸大小为r
channel
×1×1。
153.s3102、将第五处理特征的张量通过bam的分支二输入到1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积,以得到分支二中间处理结果。
154.在本实施例中,分支二将输入的特征f
cp
的张量input
tensor
通过1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积进行处理,得到特征f
cdc

155.s3103、将分支二中间处理结果与分支一处理结果相加得到的结果输入到sigmoid激活函数,以得到分支二处理结果。
156.在本实施例中,将得到的特征f
cdc
与f
channelattentation
相加得到的结果输入到sigmoid激活函数进行处理,得到特征f
add-sigmoid。
157.s3104、将第五处理特征的张量通过bam的分支三与分支二处理结果相乘,以得到
分支三处理结果。
158.在本实施例中,分支三将输入的特征f
cp
的张量input
tensor
乘上f
add-sigmoid,得到分支三处理结果。
159.s3105、将分支三处理结果与第五处理特征的张量相加,以得到第八处理特征。
160.在本实施例例中,分支三处理结果与特征f
cp
的张量input
tensor
,得到特征f
bam

161.s311、将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征。
162.在本实施例中,将得到的特征f
bam
通过卷积块以及反池化处理,得到特征f
cb1

163.在本实施例中,卷积块由卷积、batch normalization以及relu激活函数构成。
164.s312、将纠正特征、第七处理特征以及八处理特征进行concate融合,以得到第二融合特征。
165.在本实施例中,将得到的特征f
scc
、特征f
cbam
以及特征f
bam
进行concate得到特征f
bf

166.s313、将第二融合特征与第九处理特征的相乘的结果输入到转置卷积进行上采样,以得到第一上采样特征。
167.在本实施例中,将特征f
bf
与特征f
cb1
相乘的结果输入到转置卷积(transposed convolution)进行上采样,得到特征f
up-tc

168.s314、将第一上采样特征通过双线性差值进行上采样,以得到第二上采样特征。
169.在本实施例中,将得到的f
up-tc
通过双线性差值进行上采样,得到特征f
up-bu1

170.s315、将第二上采样特征输入到1
×
1卷积并且结合sigmoid激活函数,以得到注意力图。
171.在本实施例中,特种f
up-bu1
输入到1
×
1卷积并且结合sigmoid激活函数的处理,得到注意力图attentionmap。
172.s316、将第二融合特征输入到can,以得到第十处理特征。
173.在本实施例中,将特征f
bf
输入到can(context-awarenetwork)模块得到特征f
bf-can

174.s317、将第十处理特征输入到反卷积进行上采样,以得到第三上采样特征。
175.在本实施例中,将特征f
bf-can
输入到反卷积模块(deconvolution)进行上采样,得到特征f
dc

176.s318、将第三上采样特征通过双线性差值进行上采样,以得到密度图。
177.在本实施例中,将得到的特征f
dc
通过双线性差值进行上采样处理,得到密度图density map。
178.s319、将注意力图与密度图结合,以得到人群密度图。
179.在本实施例中,将注意力图attention map与密度图density map结合得到最终的人群密度图crowd densitymap。
180.基于注意力图和密度图进行人群密度统计,加大了模型监督信息,从而更好的加快模型训练收敛,提高了模型的准确度。
181.另外,人群密度统计模型所使用到的损失函数为aploss的损失函数,该损失函数如下所示:
[0182][0183][0184]
该计算方式是将真实密度图通过将其划分为2
×
2的子网络,看其每个子网络的人群密度是否低于阈值t,如果没有则继续将其划分为2
×
2的子网络一直递归下去,直至保证每个子网络的人群密度小于阈值t。公式中,预测密度图为真实的密度图n为5,最终将各自的局部损失进行相加得到损失函数l
aploss

[0185]
对于模型的评估函数分别为mae评估函数以及rmse评估函数。
[0186][0187][0188]ci
以及分别代表着真实的人群数量,表示的是预测的人群数量。
[0189]
s40、根据人群密度图累加求和得出人的数量。
[0190]
在本实施例中,对人群密度图上每个像素的概率密度进行累加求和后取整,从而得到画面内人员数量的预测值。
[0191]
本发明基于可变形卷积,动态滤波卷积,空洞卷积等多种特征提取算子对图像进行特征提取,加大了人群密度统计模型对图像信息的抽取,能更好的提取图像特征。
[0192]
另外,多种自注意力机制并结合ap损失函数不仅提升模型对图片中不同尺度大小目标的识别兼容程度,同时强化了对远目标,小目标的注意力,提升了模型识别的精准度,适用性强。
[0193]
图3是本发明实施例提供的基于自监督的人群密度统计装置100的示意性框图。对应于上述的基于自监督的人群密度统计方法,本发明具体实施例还提供了基于自监督的人群密度统计装置100。该基于自监督的人群密度统计装置100包括用于执行上述基于自监督的人群密度统计方法的单元和模块,该装置可以被配置于服务器中。
[0194]
如图3所示,基于自监督的人群密度统计装置100,包括获取单元110、处理单元120、统计单元130以及计算单元140。
[0195]
获取单元110,用于获取图像数据。
[0196]
在本实施例中,通过地铁车厢内的监控设备收集车厢内人群的视频数据(即图像数据),监控设备采用市面上常见的即可,本技术对此不做限定。为了收集每节车厢的视频数据,可在每节车厢内均安装监控设备,每节车厢安装的监控设备所采集到的视频数据可通过有线或者无线的方式汇总在地铁的数据后台中,通过数据后台可查询每节车厢的视频数据情况。
[0197]
处理单元120,用于对图像数据进行处理,以得到样本图。
[0198]
在一实施例中,处理单元120包括切分模块和选取模块。
[0199]
切分模块,用于对图像数据进行切分,以得到切分图像数据。
[0200]
在本实施例中,由于地铁需要停靠在不同的站点,所以,每节车厢在每个站点的停靠后上车或下车的情况基本上会发生变化的,因此,可以按照每节车厢对应的每个站点的方式来对图像数据进行切分,便可得到每节车厢对应到每个站点的切分图像数据。
[0201]
选取模块,用于从切分图像数据中选取一帧图片作为样本图。
[0202]
在本实施例中,由于切分图像数据中包括了多帧图片,因此可从切分图像数据中选取一帧图片作为样本图i
image
进行人群密度的统计。
[0203]
统计单元130,用于将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图。
[0204]
在一实施例中,统计单元130包括第一输入模块、第二输入模块、第三输入模块、第四输入模块、第一融合模块、第五输入模块、第六输入模块、第七输入模块、第八输入模块、第九输入模块、第十输入模块、第二融合模块、第一上采样模块、第二上采样模块、处理模块、第十一输入模块、第三上采样模块、第四上采样模块以及结合模块。
[0205]
第一输入模块,用于将样本图输入到可变形卷积和最大池化,以得到第一处理特征。
[0206]
在本实施例中,将样本图i
image
输入到可变形卷积(deformable convolution)和最大池化进行处理,得到特征f
dcm1

[0207]
可变形卷积的是相对于标准卷积的概念而来,在标准卷积操作中卷积核作用区域始终为中心点周围标准卷积核大小的矩形区域内,而可变形卷积则可以是不规则的区域。
[0208]
使用可变形卷积,可以提升对样本图检测和分割上的性能。只需增加较少的计算量,就可以得到性能的提升。
[0209]
第二输入模块,用于将样本图输入到动态滤波卷积和最大池化,以得到第二处理特征。
[0210]
在本实施例中,将样本图i
image
输入到动态滤波卷积(dynamic convolution)和最大池化进行处理,得到特征f
dcm2

[0211]
第三输入模块,用于将样本图输入到vanilla卷积和最大池化,以得到第三处理特征。
[0212]
在本实施例中,将样本图i
image
输入到vanilla卷积(vanilla convolution)和最大池化进行处理,得到特征f
vm

[0213]
第四输入模块,用于将样本图输入到可转换的空洞卷积,以得到第四处理特征。
[0214]
在本实施例中,将样本图i
image
输入到可转换的空洞卷积(switchableatrous convolution)进行处理,得到特征f
sacm

[0215]
在一实施例中,第四输入模块包括第一输入子模块、第一运算子模块、第二输入子模块、第三输入子模块、第四输入子模块、第二运算子模块、第三运算子模块、第四运算子模块、第五输入子模块以及第五运算子模块。
[0216]
第一输入子模块,用于将样本图输入到全局平均池化和1
×
1卷积,以得到第一结果。
[0217]
在本实施例中,将样本图i
image
输入到全局平均池化和1
×
1卷积进行处理,得到第一结果。
[0218]
第一运算子模块,将第一结果与样本图相加得到第二结果。
[0219]
在本实施例中,将第一结果与样本图i
image
进行相加运算,以得到特征f
igc

[0220]
第二输入子模块,用于将第二结果输入到3
×
3空洞率为1的空洞卷积,以得到第三结果。
[0221]
在本实施例中,将得到的特征f
igc
输入到3
×
3空洞率为1的空洞卷积中进行处理,以得到特征f
ac1

[0222]
第三输入子模块,用于将第二结果输入到3
×
3空洞率为3的空洞卷积,以得到第四结果。
[0223]
在本实施例中,将得到的特征f
ac1
输入到3
×
3空洞率为3的空洞卷积进行处理,以得到特征f
ac2

[0224]
第四输入子模块,用于将第二结果输入到全局池化和1
×
1卷积,以得到第五结果。
[0225]
在本实施例中,将得到的特征f
ac1
输入到全局池化和1
×
1卷积进行处理,以得到特征f
apc

[0226]
第二运算子模块,用于将第五结果与第三结果相乘,以得到第六结果。
[0227]
在本实施例中,将特征f
apc
与特征f
ac1
相乘得到特征f
mac1

[0228]
第三运算子模块,用于将第五结果与第四结果相乘,以得到第七结果。
[0229]
在本实施例中,将特征f
apc
与特征f
ac2
相乘得到特征f
mac2

[0230]
第四运算子模块,用于将第六结果与第七结果相加,以得到第八结果。
[0231]
在本实施例中,将特征f
mac1
与特征f
mac2
进行相加得到特征f
mac12

[0232]
第五输入子模块,用于将第八结果输入到全局池化和1
×
1卷积,以得到第九结果。
[0233]
在本实施例中,将得到的特征f
mac12
通过全局池化以及1
×
1卷积处理,得到特征f
igc2

[0234]
第五运算子模块,用于将第九结果与第八结果相加,以得到第四处理特征。
[0235]
在本实施例中,将特征f
igc2
与特征f
mac12
相加得到特征f
sacm

[0236]
第一融合模块,用于将第一处理特征、第二处理特征、第三处理特征与第四处理特征进行concate融合,以得到第一融合特征。
[0237]
在本实施例中,将特征f
dcm1
,特征f
dcm2
,特征f
vm
,与特征f
sacm
进行concate融合得到新的特征f
fusion

[0238]
第五输入模块,用于将第一融合特征输入到自我纠正卷积,以得到纠正特征。
[0239]
在本实施例中,将特征f
fusion
输入到自我纠正卷积(self-calibrated convolution)进行处理,得到特征f
scc

[0240]
第六输入模块,用于将第一融合特征输入到vanilla卷积和最大池化,以得到第五处理特征。
[0241]
在本实施例中,将特征f
fusion
输入至vanilla卷积(vanillaconvolution)以及最大池化进行处理,得到特征f
cp

[0242]
第七输入模块,用于将第五处理特征输入到aspp,以得到第六处理特征。
[0243]
在本实施例中,将f
cp
特征输入到aspp(atrous spatialpyramidpooling)进行处
理,得到特征f
aspp

[0244]
第八输入模块,用于将第六处理特征输入到cbam,以得到第七处理特征。
[0245]
在本实施例中,将特征f
aspp
输入到cbam(convolution block attention module)进行处理,得到特征f
cbam

[0246]
第九输入模块,用于将第五处理特征输入到bam,以得到第八处理特征。
[0247]
在本实施例中,将特征f
cp
输入至bam(bottleneckattentionmodule)进行处理,得到特征f
bam
。采用bam机制进行处理,可以大大降低计算开销。
[0248]
在一实施例中,第九输入模块包括第六输入子模块、第七输入子模块、第八输入子模块、第六运算子模块以及第七运算子模块。
[0249]
第六输入子模块,用于将第五处理特征的张量通过bam的分支一输入到全局池化并连接两个全连接层,以得到分支一处理结果。
[0250]
在本实施例中,bam机制有三个分支,分别为分支一、分支二和分支上。
[0251]
分支一通过将输入的特征f
cp
的张量input
tensor
输入到全局池化并连接两个全连接层,以得到特征f
channelattentation
,该特征f
channelattentation
的尺寸大小为r
channel
×1×1。
[0252]
第七输入子模块,用于将第五处理特征的张量通过bam的分支二输入到1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积,以得到分支二中间处理结果。
[0253]
在本实施例中,分支二将输入的特征f
cp
的张量input
tensor
通过1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积进行处理,得到特征f
cdc

[0254]
第八输入子模块,用于将分支二中间处理结果与分支一处理结果相加得到的结果输入到sigmoid激活函数,以得到分支二处理结果。
[0255]
在本实施例中,将得到的特征f
cdc
与f
channelattentation
相加得到的结果输入到sigmoid激活函数进行处理,得到特征f
add-sigmoid

[0256]
第六运算子模块,用于将第五处理特征的张量通过bam的分支三与分支二处理结果相乘,以得到分支三处理结果。
[0257]
在本实施例中,分支三将输入的特征f
cp
的张量input
tensor
乘上f
add-sigmoid
,得到分支三处理结果。
[0258]
第七运算子模块,用于将分支三处理结果与第五处理特征的张量相加,以得到第八处理特征。
[0259]
在本实施例例中,分支三处理结果与特征f
cp
的张量input
tensor
,得到特征f
bam

[0260]
第十输入模块,用于将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征。
[0261]
在本实施例中,将得到的特征f
bam
通过卷积块以及反池化处理,得到特征f
cb1

[0262]
在本实施例中,卷积块由卷积、batchnormalization以及relu激活函数构成。
[0263]
第二融合模块,用于将纠正特征、第七处理特征以及八处理特征进行concate融合,以得到第二融合特征。
[0264]
在本实施例中,将得到的特征f
scc
、特征f
cbam
以及特征f
bam
进行concate得到特征f
bf

[0265]
第一上采样模块,用于将第二融合特征与第九处理特征的相乘的结果输入到转置卷积进行上采样,以得到第一上采样特征。
[0266]
在本实施例中,将特征f
bf
与特征f
cb1
相乘的结果输入到转置卷积(transposed convolution)进行上采样,得到特征f
up-tc

[0267]
第二上采样模块,用于将第一上采样特征通过双线性差值进行上采样,以得到第二上采样特征。
[0268]
在本实施例中,将得到的f
up-tc
通过双线性差值进行上采样,得到特征f
up-bu1

[0269]
处理模块,用于将第二上采样特征输入到1
×
1卷积并且结合sigmoid激活函数,以得到注意力图。
[0270]
在本实施例中,特种f
up-bu1
输入到1
×
1卷积并且结合sigmoid激活函数的处理,得到注意力图attentionmap。
[0271]
第十一输入模块,用于将第二融合特征输入到can,以得到第十处理特征。
[0272]
在本实施例中,将特征f
bf
输入到can(context-awarenetwork)模块得到特征f
bf-can

[0273]
第三上采样模块,用于将第十处理特征输入到反卷积进行上采样,以得到第三上采样特征。
[0274]
在本实施例中,将特征f
bf-can
输入到反卷积模块(deconvolution)进行上采样,得到特征f
dc

[0275]
第四上采样模块,用于将第三上采样特征通过双线性差值进行上采样,以得到密度图。
[0276]
在本实施例中,将得到的特征f
dc
通过双线性差值进行上采样处理,得到密度图densitymap。
[0277]
结合模块,用于将注意力图与密度图结合,以得到人群密度图。
[0278]
在本实施例中,将注意力图attentionmap与密度图densitymap结合得到最终的人群密度图crowddensitymap。
[0279]
基于注意力图和密度图进行人群密度统计,加大了模型监督信息,从而更好的加快模型训练收敛,提高了模型的准确度。
[0280]
另外,人群密度统计模型所使用到的损失函数为aploss的损失函数,该损失函数如下所示:
[0281][0282][0283]
该计算方式是将真实密度图通过将其划分为2
×
2的子网络,看其每个子网络的人群密度是否低于阈值t,如果没有则继续将其划分为2
×
2的子网络一直递归下去,直至保证每个子网络的人群密度小于阈值t。公式中,预测密度图为真实的密度图n为5,最终将各自的局部损失进行相加得到损失函数l
aploss

[0284]
对于模型的评估函数分别为mae评估函数以及rmse评估函数。
[0285][0286][0287]ci
以及分别代表着真实的人群数量,表示的是预测的人群数量。
[0288]
计算单元140,用于根据人群密度图累加求和得出人的数量。
[0289]
在本实施例中,对人群密度图上每个像素的概率密度进行累加求和后取整,从而得到画面内人员数量的预测值。
[0290]
本发明基于可变形卷积,动态滤波卷积,空洞卷积等多种特征提取算子对图像进行特征提取,加大了人群密度统计模型对图像信息的抽取,能更好的提取图像特征。
[0291]
另外,多种自注意力机制并结合ap损失函数不仅提升模型对图片中不同尺度大小目标的识别兼容程度,同时强化了对远目标,小目标的注意力,提升了模型识别的精准度,适用性强。
[0292]
上述基于自监督的人群密度统计装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0293]
请参阅图4,图4是本技术实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
[0294]
如图4所示,该计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的基于自监督的人群密度统计方法步骤。
[0295]
该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
[0296]
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种基于自监督的人群密度统计方法。
[0297]
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
[0298]
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种基于自监督的人群密度统计方法。
[0299]
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现以下步骤:
[0300]
获取图像数据;
[0301]
对图像数据进行处理,以得到样本图;
[0302]
将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图;
[0303]
根据人群密度图累加求和得出人的数量。
[0304]
其中,所述将样本图输入到人群密度统计模型中进行人群密度统计,以得到人群密度图,所述人群密度统计模型的处理方法包括:
[0305]
将样本图输入到可变形卷积和最大池化,以得到第一处理特征;
[0306]
将样本图输入到动态滤波卷积和最大池化,以得到第二处理特征;
[0307]
将样本图输入到vanilla卷积和最大池化,以得到第三处理特征;
[0308]
将样本图输入到可转换的空洞卷积,以得到第四处理特征;
[0309]
将第一处理特征、第二处理特征、第三处理特征与第四处理特征进行concate融合,以得到第一融合特征;
[0310]
将第一融合特征输入到自我纠正卷积,以得到纠正特征;
[0311]
将第一融合特征输入到vanilla卷积和最大池化,以得到第五处理特征;
[0312]
将第五处理特征输入到aspp,以得到第六处理特征;
[0313]
将第六处理特征输入到cbam,以得到第七处理特征;
[0314]
将第五处理特征输入到bam,以得到第八处理特征;
[0315]
将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征;
[0316]
将纠正特征、第七处理特征以及八处理特征进行concate融合,以得到第二融合特征;
[0317]
将第二融合特征与第九处理特征的相乘的结果输入到转置卷积进行上采样,以得到第一上采样特征;
[0318]
将第一上采样特征通过双线性差值进行上采样,以得到第二上采样特征;
[0319]
将第二上采样特征输入到1
×
1卷积并且结合sigmoid激活函数,以得到注意力图;
[0320]
将第二融合特征输入到can,以得到第十处理特征;
[0321]
将第十处理特征输入到反卷积进行上采样,以得到第三上采样特征;
[0322]
将第三上采样特征通过双线性差值进行上采样,以得到密度图;
[0323]
将注意力图与密度图结合,以得到人群密度图。
[0324]
其中,所述对图像数据进行处理,以得到样本图,包括:
[0325]
对图像数据进行切分,以得到切分图像数据;
[0326]
从切分图像数据中选取一帧图片作为样本图。
[0327]
其中,所述将样本图输入到可转换的空洞卷积,以得到第四处理特征,包括:
[0328]
将样本图输入到全局平均池化和1
×
1卷积,以得到第一结果;
[0329]
将第一结果与样本图相加得到第二结果;
[0330]
将第二结果输入到3
×
3空洞率为1的空洞卷积,以得到第三结果;
[0331]
将第二结果输入到3
×
3空洞率为3的空洞卷积,以得到第四结果;
[0332]
将第二结果输入到全局池化和1
×
1卷积,以得到第五结果;
[0333]
将第五结果与第三结果相乘,以得到第六结果;
[0334]
将第五结果与第四结果相乘,以得到第七结果;
[0335]
将第六结果与第七结果相加,以得到第八结果;
[0336]
将第八结果输入到全局池化和1
×
1卷积,以得到第九结果;
[0337]
将第九结果与第八结果相加,以得到第四处理特征。
[0338]
其中,所述将第五处理特征输入到bam,以得到第八处理特征,包括:
[0339]
将第五处理特征的张量通过bam的分支一输入到全局池化并连接两个全连接层,以得到分支一处理结果;
[0340]
将第五处理特征的张量通过bam的分支二输入到1
×
1卷积处理后再输入到3
×
3的空洞卷积以及1
×
1卷积,以得到分支二中间处理结果;
[0341]
将分支二中间处理结果与分支一处理结果相加得到的结果输入到sigmoid激活函数,以得到分支二处理结果;
[0342]
将第五处理特征的张量通过bam的分支三与分支二处理结果相乘,以得到分支三处理结果;
[0343]
将分支三处理结果与第五处理特征的张量相加,以得到第八处理特征。
[0344]
其中,所述将第八处理特征输入到卷积块以及反池化处理,以得到第九处理特征,所述卷积块由卷积、batch normalization以及relu激活函数构成。
[0345]
应当理解,在本技术实施例中,处理器720可以是中央处理单元(central processing unit,cpu),该处理器720还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0346]
本领域技术人员可以理解,图4中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0347]
在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于自监督的人群密度统计方法。
[0348]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0349]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形
式连接。
[0350]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0351]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0352]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0353]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1