一种基于人体表观结构的人群数量预测方法与流程

文档序号：12597275阅读：来源：国知局

技术特征：

1.一种基于人体表观结构的人群数量预测方法，其特征在于，包括以下步骤：

S1、获取用于训练人群数量预测模型的监控图像数据集，并定义算法目标；

S2、对监控图像数据集中行人身体的表观语义结构进行建模，并对行人的密度分布和身体形状进行联合建模；

S3、根据步骤S2中的建模结果建立人群数量的预测模型；

S4、使用所述预测模型预测场景图像中的人群数量。

2.如权利要求1所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S1中，所述的用于训练人群数量预测模型的监控图像数据集，包括场景图像人工标注的行人头部位置P_train和场景深度图

定义算法目标为：预测一幅场景图像中的行人数量C。

3.如权利要求2所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S2中，对行人身体的表观语义结构进行建模具体包括：

S21、根据监控图像数据集中所有行人头部位置P_train及其各自的场景深度值确定每个行人图像边界框的位置和大小，以此从场景图像集中裁剪得行人图像I_train；

S22、将行人图像I_train分别输入单个行人语义分割系统进行语义分割；

S23、对每幅场景图像将其中所有行人的分割结果按原尺寸和位置还原，得到场景图像的人群语义结构图反映场景图像中所有行人的身体部分的语义结构信息。

4.如权利要求3所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S2中，对行人的密度分布和身体形状进行联合建模具体包括：

S24、对场景图像中的行人的密度分布和身体形状进行联合建模，得到结构化人群密度图

其中，p是上的像素位置，是二维高斯核用以近似人头的形状，是二维高斯核用以近似人身体的形状，和分别是第i个人头和人身体的中心位置，取自P_train，由和场景深度值估算得出，σ_h和σ_b分别是和的方差，分别由和估算得到，由人群语义结构图二值化得到，C是场景中的行人数量，Z是归一化系数使每一个行人在上的密度和为1，结构化人群密度图反映场景图像中所有行人的密度分布和身体形状信息。

5.如权利要求4所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S3中，建立人群数量的预测模型具体包括：

S31、建立深度卷积神经网络，神经网络的输入为一幅场景图像输出为对应的人群语义结构图结构化人群密度图以及中的行人数量从而，神经网络的结构可以表示为映射

S32、子映射使用软最大(Softmax)损失函数，表示为

其中是神经网络的输出之一，表示中像素位置(h，w)和通道i的值，由步骤S23所述方法生成，表示中像素位置(h，w)的值；

S33、子映射使用欧几里得损失函数，表示为

其中是神经网络的输出之一，由步骤S24所述方法生成；

S34、子映射使用欧几里得损失函数，表示为

其中是神经网络的输出之一，C是人工标注的人群数量；

S35、整个神经网络的损失函数为

L＝L_c+λ_dL_d+λ_bL_b 公式(5)

使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。

6.如权利要求5所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S4中，预测场景图像中的人群数量包括：将待预测的场景图像输入训练好的神经网络，其输出的人群数量C即为人群数量预测的结果。

完整全部详细技术资料下载

当前第2页1 2 3