一种基于改进的YOLOv3网络的人数识别统计方法及系统与流程

文档序号：30069792发布日期：2022-05-18 01:48阅读：586来源：国知局

一种基于改进的yolov3网络的人数识别统计方法及系统
技术领域
1.本发明属于图像识别领域，尤其涉及一种基于改进的yolov3网络的人数识别统计方法及系统。

背景技术：

2.人数识别统计在早期主要是以人工检测为主，这种人工目检的方式效率低且检测速度慢，劳动强度大，检测准确性和实时性比较差。近几十年来，随着机器视觉领域的发展，利用机器学习算法很好的克服了人工目测的缺点，机器视觉的快速检测技术得到了越来越多人的青睐，例如一些研究者将模板匹配算法应用在人数识别统计。
3.随着机器学习的发展，各种用于人数识别统计的算法也相继被提出，特别是近几年来深度学习的崛起，卷积神经网络在图像识别方向取得了很大的成功，由其衍生的目标检测算法广泛应用于缺陷检测领域，例如yolov3系列算法以及以faster-rcnn为代表的检测算法，使缺陷检测的实时性和准确性得到进一步的提高。
4.目前cnn(convolutional neural networks)已经广泛应用于机器学习、语音识别、图像识别等多个领域。以cnn为基础的目标检测算法、人群计数算法的发展也趋于稳定，在大部分场景中已有实际运用。在传统的人群计数方法中，常用的有基于检测的方法和基于回归的方法。基于检测的方法通常会利用svm和随机森林等传统机器学习方法训练一个分类器，利用人体的整体或部分结构，如头部、肩膀等提取hog(his－tograms of oriente gradients)、边缘等特征来检测并统计人数。但该方法并不适用于人群遮挡的场景，针对不同尺度大小目标的检测效果并不理想。基于回归的方法，其思想是学习一种特征到人群数量的映射，通常是学习一个回归模型来估计人群的数量。相较于传统机器学习的方法，深度学习在计算机视觉的识别、检测方面取得了很大的进步，识别精度有了很大的提高。无论是使用目标检测的方法还是基于回归的方法在cnn上都能得到优于传统机器学习方法的结果，随着深度学习的不断发展，在目标检测等多领域体现出明显。优势已经逐渐开始取代传统的机器学习方法。
5.yolo(you only look once)是joseph redmon等人于2015年提出的目标检测算法，最初的版本最多只能检测49个目标。当前，已有yolov1、yolov2和yolov3等多个版本。最新的版本中yolov3调整了网络结构，利用多尺度特征进行对象检测并且借鉴了残差网络结构，形成更深的网络层次。相较于前两个版本，yolov3可分类的目标更多、检测的目标更多、检测速度更快并且检测精度也更高。在精确度相当的情况下，yolov3的速度是其它目标检测模型的3、4倍。
6.yolov3通过融合当前检测领域的最新成果，可以实现精度与速度的良好平衡。yolov3使用的是全卷积层，通过修改卷积层的尺寸来实现特征图尺寸的修改。yolov3网络使用的主干特征提取网络为darknet53结构，其共有5个大残差块，每个大残差块所包含的小残差单元个数为1、2、8、8、4。yolov3主干部分由5个残差模块构成，降低梯度爆裂的破坏性，增强网络的学习能力。
7.但是yolov3的最小特征图尺寸为13
×
13，仍然偏大，对于部分中型尺寸甚至较大尺寸物体的检测结果精确度不尽人意。同时具有梯度组合不够丰富、计算量较大、特征提取网络感受野较小等缺点。

技术实现要素：

8.有鉴于此，本发明的目的之一在于提供一种基于改进的yolov3网络的人数识别统计方法，用于实现人数识别统计等功能，通过对yolov3网络模型的改进，提高了检测的准确性和实时性。
9.本发明的另一目的还在于提供一种能够实现上述基于改进的yolov3网络的人数识别统计方法的系统。
10.为实现上述目的，本发明第一方面提供了一种基于改进的yolov3网络的人数识别统计方法，包括如下步骤：
11.采集人物图像，对所述人物图像进行标注生成数据集，将所述数据集分为训练集和测试集；
12.对所述训练集进行聚类分析，确定目标锚值；
13.将yolov3网络模型中的主干特征提取网络darknet53改进为cspdarknet53，加入空间金字塔池化spp模块，生成yolov3目标检测优化模型；
14.将经过聚类分析后的所述训练集输入到所述yolov3目标检测优化模型中进行训练，生成人数识别统计模型，并通过所述测试集对所述人数识别统计模型进行测试。
15.优选的，所述对所述人物图像进行标注生成数据集，包括：
16.对所述人物图像中的人物和人数进行标注生成数据集。
17.优选的，所述将所述数据集分为训练集和测试集，包括：
18.所述训练集和测试集的选取比例为2∶1。
19.优选的，所述对所述训练集进行聚类分析，确定目标锚值，包括：
20.利用k-mean++算法对所述训练集进行聚类分析，选取初始聚类中心，计算iou和度量值d，确定目标锚值。
21.优选的，所述将yolov3网络模型中的主干特征提取网络darknet53改进为csp darknet53，包括：
22.对所述主干特征提取网络darknet53的resblock_body的结构进行修改，改进为cspdarknet53。
23.优选的，所述将经过聚类分析后的所述训练集输入到所述yolov3目标检测模型中进行训练，包括如下步骤：
24.将所述训练集中的人物图像归一化到416
×
416，输入到所述yolov3目标检测优化模型中；
25.将所述人物图像输入到cspdarknet53中进行下采样，经过卷积和残差块的堆叠进行特征提取，对最后一层的特征层进行四种不同尺度的最大池化处理，极大增加感受野，分离出上下文特征，再对深层信息进行上采样，通过concat函数将深层信息与较浅层信息不断堆叠和拼接实现特征融合；
26.在特征融合过后得到四个尺度的特征图，分别为13
×
13，26
×
26，52
×
52，104
×
104；
27.根据四个尺度的特征图可以得到预测框位置信息以及其对应的类别概率、置信度，剔除掉置信度小于设定阈值对应的预测框，得到置信度比较高的预测框。
28.优选的，所述预测框的位置信息通过以下公式确定：
29.b
x
＝σ(t
x
)+c
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)
30.by＝σ(ty)+cyꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.2)
[0031][0032][0033]
其中，(bw,bh)为预测框的中心点坐标，而(b
x
,by)为预测框的宽和高，(t
x
,ty)是预测的坐标偏移值经过sigmoid函数缩放到[0,1]区间，σ(x)为sigmoid函数，公式为(tw，th)为宽和高的尺度缩放，(pw,ph)为锚框经过缩小后，映射到特征图中宽和高；c
x
、cy是feature map中grid cell的左上角坐标，在yolov3中每个grid cell在feature map中的宽和高均为1。
[0034]
优选的，所述预测框的置信度c可以利用逻辑回归的方法进行计算，计算公式为：
[0035]
c＝pr*iou
ꢀꢀꢀꢀ
(1.5)
[0036]
其中，pr为预测框内存在晶圆缺陷对象的概率，iou为预测框与真实框的交并比。
[0037]
本发明中所公开的一种基于改进的yolov3网络的人数识别统计系统，包括：
[0038]
数据采集模块，用于采集人物图像，将所述人物图像进行标注生成数据集，将所述数据集分为训练集和测试集；
[0039]
聚类分析模块，用于对所述训练集进行聚类分析，确定目前锚值；
[0040]
模型改进模块，用于将yolov3网络模型中的主干特征提取网络darknet53改进为cspdarknet53，加入空间金字塔池化spp模块，生成yolov3目标检测优化模型；
[0041]
模型训练模块，用于将聚类分析后的所述训练集输入到所述yolov3目标检测优化模型中进行训练，生成人数识别统计模型，并通过所述测试集对所述人数识别统计模型进行测试。
[0042]
本发明中所公开的基于改进的yolov3网络的人数识别统计方法，通过对yolov3网络模型的改进，提高了检测的准确性和实时性。本发明将yolov3网络模型中的主干特征提取网络darknet53改进为cspdarknet53，用来提取图像的特征，不仅能减少算法计算量，而且能完成更加多样的梯度组合。
[0043]
本发明加入了空间金字塔池化spp模块，整个池化过程对于输入的尺寸大小完全无关，因此可以处理任意尺寸的候选框，能够极大的增加网络的感受野，分理出最显著的上下文特征。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以
根据这些附图获得其他的附图。
[0045]
图1为本发明一实施例中基于改进的yolov3网络的人数识别统计方法的步骤流程图；
[0046]
图2为本发明一实施例中改进的yolov3网络结构图；
[0047]
图3为本发明一实施例中新增结构spp池化层。
具体实施方式
[0048]
本发明的核心之一在于提供一种基于改进的yolov3网络的人数识别统计方法，用于实现人数识别统计等功能，通过对yolov3网络模型的改进，提高了检测的准确性和实时性。
[0049]
本发明的另一核心在于提供一种能够实现上述基于改进的yolov3网络的人数识别统计方法的系统。
[0050]
请首先参考图1，本实施例中所公开的基于改进的yolov3网络的人数识别统计方法，用于实现人数识别统计等功能，包括如下步骤：
[0051]
s1)采集人物图像，对人物图像进行标注生成数据集，将数据集分为训练集和测试集。
[0052]
在本实施例中，使用摄像头，采集特定小区不同时间段的人物聚集图像，将采集到的人物图像以voc格式进行命名，通过标注工具对人物图像中的人物和人数进行标注生成数据集。优选的，所述训练集和测试集的选取比例为2∶1。
[0053]
s2)对训练集进行聚类分析，确定目标锚值。
[0054]
利用k-mean++算法对训练集进行聚类分析，根据初始聚类中心尽可能远的原则选取12个初始聚类中心，计算iou和度量值d，生成12个目标锚值。
[0055]
s3)将yolov3网络模型中的主干特征提取网络darknet53改进为cspdarknet53，加入空间金字塔池化spp模块，生成yolov3目标检测优化模型。
[0056]
本实施例对yolov3网络模型中的主干特征提取网络darknet53的resblock_body的结构进行修改，改进为cspdarknet53。cspdarknet53用来提取图像的特征，不仅能减少算法计算量，而且能完成更加多样的梯度组合，如图2所示。
[0057]
空间金字塔池化spp模块能够极大的增加网络的感受野，分理出最显著的上下文特征。
[0058]
图3中，最左侧表示卷积得到的256维特征图，对于每个区域(厚度为256)，通过三种方式进行池化：
[0059]
(a)直接对整个特征图池化，每一维得到一个池化后的值，构成一个1x256的向量；
[0060]
(b)将特征图分成2x2共4份，每份单独进行池化得到一个1x256的向量，最终得到4个1x256的向量；
[0061]
(c)将特征图分成4x4共16份，每份单独进行池化得到一个1x256的向量，最终得到16个1x256的向量；
[0062]
将上述三种划分方式池化得到的结果进行拼接，得到(1+4+16)x256＝21256的特征。
[0063]
上述整个池化过程对于输入的尺寸大小完全无关，因此可以处理任意尺寸的候选
框。
[0064]
s4)将经过聚类分析后的训练集输入到yolov3目标检测优化模型中进行训练，生成人数识别统计模型，并通过测试集对所述人数识别统计模型进行测试。
[0065]
其中，将经过聚类分析后的训练集输入到yolov3目标检测模型中进行训练，包括如下步骤：
[0066]
s4-1)将训练集中的人物图像归一化到416
×
416，输入到所述yolov3目标检测优化模型中。
[0067]
s4-2)将人物图像输入到cspdarknet53中进行下采样，经过卷积和残差块的堆叠进行特征提取，对最后一层的特征层进行四种不同尺度的最大池化处理，极大增加感受野，分离出上下文特征，再对深层信息进行上采样，通过concat函数将深层信息与较浅层信息不断堆叠和拼接实现特征融合。
[0068]
s4-3)在特征融合过后得到四个尺度的特征图，分别为13
×
13，26
×
26，52
×
52，104
×
104。
[0069]
s4-4)根据四个尺度的特征图可以得到预测框位置信息以及其对应的类别概率、置信度，剔除掉置信度小于设定阈值对应的预测框，得到置信度比较高的预测框。
[0070]
其中，预测框的位置信息通过以下公式确定：
[0071]bx
＝σ(t
x
)+c
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)
[0072]by
＝σ(ty)+cyꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.2)
[0073][0074][0075]
其中，(bw,bh)为预测框的中心点坐标，而(b
x
,by)为预测框的宽和高，(t
x
,ty)是预测的坐标偏移值经过sigmoid函数缩放到[0,1]区间，σ(x)为sigmoid函数，公式为(tw，th)为宽和高的尺度缩放，(pw,ph)为锚框经过缩小后，映射到特征图中宽和高；c
x
、cy是feature map中grid cell的左上角坐标，在yolov3中每个grid cell在feature map中的宽和高均为1。
[0076]
预测框的置信度c可以利用逻辑回归的方法进行计算，计算公式为：
[0077]
c＝pr*iou
ꢀꢀꢀꢀ
(1.5)
[0078]
其中，pr为预测框内存在晶圆缺陷对象的概率，iou为预测框与真实框的交并比。
[0079]
除此之外，本发明实施例中还公开了一种基于改进的yolov3网络的人数识别统计系统，包括：
[0080]
数据采集模块，用于采集人物图像，将所述人物图像进行标注生成数据集，将所述数据集分为训练集和测试集；
[0081]
聚类分析模块，用于对所述训练集进行聚类分析，确定目前锚值；
[0082]
模型改进模块，用于将yolov3网络模型中的主干特征提取网络darknet53改进为cspdarknet53，加入空间金字塔池化spp模块，生成yolov3目标检测优化模型；
[0083]
模型训练模块，用于将聚类分析后的所述训练集输入到所述yolov3目标检测优化模型中进行训练，生成人数识别统计模型，并通过所述测试集对所述人数识别统计模型进
行测试。
[0084]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。
[0085]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛阳王翔何文许恒
技术所有人：上海申视信科技有限公司
我是此专利的发明人

上一篇：一种用于森林防火监控中的防太阳误报方法与流程
上一篇：一种层状超亲水性Ti-Cu-MOFs及其制备方法和应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。