1.一种基于人体表观结构的人群数量预测方法,其特征在于,包括以下步骤:
S1、获取用于训练人群数量预测模型的监控图像数据集,并定义算法目标;
S2、对监控图像数据集中行人身体的表观语义结构进行建模,并对行人的密度分布和身体形状进行联合建模;
S3、根据步骤S2中的建模结果建立人群数量的预测模型;
S4、使用所述预测模型预测场景图像中的人群数量。
2.如权利要求1所述的基于人体表观结构的人群数量预测方法,其特征在于,步骤S1中,所述的用于训练人群数量预测模型的监控图像数据集,包括场景图像人工标注的行人头部位置Ptrain和场景深度图
定义算法目标为:预测一幅场景图像中的行人数量C。
3.如权利要求2所述的基于人体表观结构的人群数量预测方法,其特征在于,步骤S2中,对行人身体的表观语义结构进行建模具体包括:
S21、根据监控图像数据集中所有行人头部位置Ptrain及其各自的场景深度值确定每个行人图像边界框的位置和大小,以此从场景图像集
中裁剪得行人图像Itrain;
S22、将行人图像Itrain分别输入单个行人语义分割系统进行语义分割;
S23、对每幅场景图像将其中所有行人的分割结果按原尺寸和位置还原,得到场景图像
的人群语义结构图
反映场景图像
中所有行人的身体部分的语义结构信息。
4.如权利要求3所述的基于人体表观结构的人群数量预测方法,其特征在于,步骤S2中,对行人的密度分布和身体形状进行联合建模具体包括:
S24、对场景图像中的行人的密度分布和身体形状进行联合建模,得到结构化人群密度图
其中,p是上的像素位置,
是二维高斯核用以近似人头的形状,
是二维高斯核用以近似人身体的形状,
和
分别是第i个人头和人身体的中心位置,
取自Ptrain,
由
和场景深度值
估算得出,σh和σb分别是
和
的方差,分别由
和
估算得到,
由人群语义结构图
二值化得到,C是场景中的行人数量,Z是归一化系数使每一个行人在
上的密度和为1,结构化人群密度图
反映场景图像
中所有行人的密度分布和身体形状信息。
5.如权利要求4所述的基于人体表观结构的人群数量预测方法,其特征在于,步骤S3中,建立人群数量的预测模型具体包括:
S31、建立深度卷积神经网络,神经网络的输入为一幅场景图像输出为对应
的人群语义结构图
结构化人群密度图
以及
中的行人数量
从而,神经网络的结构可以表示为映射
S32、子映射使用软最大(Softmax)损失函数,表示为
其中是神经网络的输出之一,
表示
中像素位置(h,w)和通道i的值,
由步骤S23所述方法生成,
表示
中像素位置(h,w)的值;
S33、子映射使用欧几里得损失函数,表示为
其中是神经网络的输出之一,
由步骤S24所述方法生成;
S34、子映射使用欧几里得损失函数,表示为
其中是神经网络的输出之一,C是人工标注的人群数量;
S35、整个神经网络的损失函数为
L=Lc+λdLd+λbLb 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
6.如权利要求5所述的基于人体表观结构的人群数量预测方法,其特征在于,步骤S4中,预测场景图像中的人群数量包括:将待预测的场景图像输入训练好的神经网络,其输出的人群数量C即为人群数量预测的结果。