一种基于伸缩卷积神经网络的引导区域密集人群计数方法与流程

文档序号：23055086发布日期：2020-11-25 17:33阅读：来源：国知局

技术特征：

1.一种基于伸缩卷积神经网络的引导区域密集人群计数方法，其特征在于该方法包括以下步骤：

步骤一、人群计数数据集等级划分

将图像熵定义为随机量的度量，对人群计数数据集中图片进行熵滤波处理，具体如下：

从人群计数数据集任意选取一张图片，假定选取的图片尺寸大小为m*n，图片记为a，a所对应的直方图是一种离散的频率分布，直方图中每个矩形框的数值描述为相应灰度值的频率，直方图中所有矩形框代表的数值之和为图片中的像素总数量，即h(j)：

e为矩形框的个数，j表示为随机变量的概率分布，归一化直方图p(j)表示为：

则图像熵表示为：

对人群计数数据集中所有图片都进行图像熵运算，统计得到所有的图片的熵值，按熵值对相应的人群计数数据集图片进行排序，由于图像熵值反映图片内部信息的均匀程度，根据先验设置图像熵的阈值，对人群计数数据集进行等级划分，收集人群计数数据集中图像熵大于阈值的图片，生成新的密集人群数据集，即分布极其不均匀、遮挡严重、尺度差异较大的区域图片，也是在人群计数数据集中预测误差比较大的场景；

步骤二、引导区域选取

针对步骤一处理后的密集人群数据集，需获取重要区域信息，抑制干扰信息，得到适用于密集人群数据集的引导区域，这里提出一种算法来提取密集人群数据集中引导区域和保留更多的密集人群数据集上下文结构信息，具体如下：

2.1特征提取

针对密集人群数据集中每张训练图片，此处图片尺寸为512*512*3，分别依次通过卷积操作和池化模块，首先，将当前的训练图片输入到两个3*3的卷积核中，通道为64，得到512*512*64的特征图，512*512*64的特征图经过池化得到256*256*64的特征图；

然后，将256*256*64的特征图输入到两个3*3的卷积核中，通道为128，得到256*256*128的特征图，256*256*128的特征图经过池化得到128*128*128的特征图，将128*128*128的特征图c0按通道划分为两个128*128*64的特征图c1、c2；

对于密集人群数据集中512*512*3的训练图片，缩小一倍为256*256*3训练图片，将当前图片输入到三个3*3的卷积核中，通道为64，得到256*256*64的特征图，256*256*64的特征图经过池化得到128*128*64的特征图c3；

最后，特征图c2与特征图c3结合得到一个新的128*128*128的特征图c4，将c0和c4输入到1*1的卷积核中得到特征图o和引导图i；

上述所有卷积核的步距为1，补丁为1；池化的尺寸为2，步距为2；

2.2构造引导规则

使用1*1*1的卷积核对特征图o和引导图i做线性变换得到o1和i1，对o1和i1进行按像素累加结合，再经过relu激活函数，再输入到1*1*1卷积核中做线性变换，最后通过sigmoid激活函数得到关注图g；则ii是对i进行下采样得到的与o相同尺寸的低分辨率特征图，在特征图o中对每个位置h，构造一个半径为r的窗口wh，窗口系数定义分别为：

其中λ是正则化系数，gi是位置i的关注图权重，nh是窗口wh处的像素数量，oi是位置i的像素，()′表示()的平均值，为了确定窗口系数，这里定义ili是ii的像素点，则通过线性变换得到窗口wh的输出为：

ohi＝ahili+bh，i∈wh

计算窗口中所有像素点的差异性：

由于不同位置i涉及多个窗口wh的系数不同，将不同窗口中所有的ohi取平均值得到o′hi，公式如下：

这里的wi是包含位置i所有窗口的集和区域，然后对al和bl进行上采样得到对ah和bh，得出高分辨率的引导密度图

o′＝ah*i+bh

将引导密度图进行反卷积操作，得到与密集人群数据集尺寸大小相同密度图的引导区域；

步骤三、调整引导区域尺度一致

针对步骤二中密度图的引导区域进行分割，使其密集人群数据集图片的各部分尺度一致，将密度图的引导区域一级划分为2*2的四块，分别为q1、q2、q3、q4，由于图片远处人头较小，近处较大，再二级划分q1和q2，分别为q11、q12、q13、q14；q21、q22、q23、q24；计算每一块的平均密度，公式为

这里rd表示第d块面积，v(d)是第d块的引导像素点数；

二级分块区域与相应的一级分块区域进行对比，一级分块区域与整张图片进行对比，决定一级分块与二级分块区域放缩程度，放缩系数选取根据分块区域平均密度；

用每一块乘以相应的系数得到放缩后的每一块引导区域，此时将每一块引导区域拼接，以每一分块级别中尺寸最大的引导区域为基准，若尺寸不一致，则进行补丁操作，获得尺度一致的引导区域密度图，将引导区域密度图和密集人群数据集训练图片进行对应像素点乘，得到新的引导区域人群数据集；

步骤四、伸缩卷积神经网络

在原有的卷积操作上添加了偏移量来适应人头标注带来的误差，每个卷积核的偏移量根据当前位置误差自行学习优化，针对步骤三获取的引导区域人群数据集训练图片，输入到三列伸缩卷积核中，三列卷积核的大小分别为3*3、2个3*3、3个3*3，通道数为256，经过一个过滤器连接，得到特征图s1；

使用伸缩卷积核为1*1，通道为256的卷积对s1进行处理，再输入到三列伸缩卷积核中，三列卷积核的大小分别为3*3、2个3*3、3个3*3，通道数为128，经过一个过滤器连接，得到特征图s2；

使用伸缩卷积核为1*1，通道为128的卷积对s2进行处理，再输入到三列伸缩卷积核中，三列卷积核的大小分别为3*3、2个3*3、3个3*3，通道数为64，经过一个过滤器连接，得到特征图s3；

最后经过一个的伸缩卷积核1*1，通道为1的卷积生成密度图，对生成密度图进行积分求和得到最终的人群数目预测。

2.根据权利要求1所述的一种基于伸缩卷积神经网络的引导区域密集人群计数方法，其特征在于：还包括采用损失函数融合优化模型，所述损失函数选用欧氏距离、自适应分块损失和感知损失。

技术总结
本发明涉及一种基于伸缩卷积神经网络的引导区域密集人群计数方法。本发明首先进行人群计数数据集等级划分；其次进行引导区域选取；然后调整引导区域尺度一致；最后通过伸缩卷积神经网络得到最终的人群数目预测。本发明有效的提取了人群计数数据集的密集人群区域，提高了图片的抗干扰能力，且对网络模型深度进行了加强，有效的解决了尺度不均匀、遮挡严重等场景，加入了自适应分块损失函数与感知损失、欧式损失融合来优化模型，提高了密度图的分辨率质量，提升密集人群计数的准确性。

技术研发人员：张硕;孔亚广;陈张平;郑小青;张帆;赵晓东;陈云
受保护的技术使用者：杭州电子科技大学
技术研发日：2020.08.13
技术公布日：2020.11.24

完整全部详细技术资料下载

当前第2页1 2