一种人流密集区域行人检测方法及系统

文档序号:24696537发布日期:2021-04-16 11:55阅读:186来源:国知局
一种人流密集区域行人检测方法及系统

1.本发明涉及目标检测技术领域,尤其涉及一种人流密集区域行人检测方法及系统。


背景技术:

2.近年来,经济社会的不断发展和城市化的不断推进,使得越来越多的人离开家乡,涌入大城市。人群的高度聚集,使得公共场所对密集区域行人检测的需求日益增加。对于城市轨道交通调度而言,实时对站内行人进行检测可以及时掌握站内客流密度,更好地调配车辆,缓解高峰期客运压力;对于地铁站内安防而言,准确快速地检测密集区域的行人可以有效的了解人群的聚集情况,方便安保调度,防范可能发生的踩踏等安全事故。
3.目前用于行人检测的方法大致可以分为两类:手工设计模型和深度学习模型。
4.手工设计模型又称为传统方法。vj等采用adaboost和多尺度haar小波过完备基结合的方式进行行人检测,并利用用积分图来完达到快速特征计算的目的。dalal等提出了hog特征用于行人的特征描述,并通过实验证明hog比基于灰度的特征更富有信息,同时利用线性svm作为分类器达到速度与效果的平衡。2007年,pedrofelzenszwalb等提出了dpm模型,作为hog特征检测的变种方法,采用多种额外策略,达到了非深度学习方法中的最优效果。但由于传统方法依赖人工、步骤复杂且准确度与实时性差,慢慢被深度学习模型所取代。
5.深度学习模型模拟了人脑的视觉感知系统,从原始图片中直接提取特征,特征通过逐层传递,获得图片的高维信息,使得其在计算机视觉领域取得了巨大的成功。行人检测领域的深度学习模型主要分为两类:一类是two

stage的方法,如r

cnn,spp

net,faster r

cnn等。其特点是精度高,但其训练时间长、推理速度慢。第二类是one

stage的方法,如yolo系列和ssd系列算法。其特点是速度快且易学习物体的泛化特征,但精度低且对小尺度物体检测效果不好。基于这些模型,许多研究人员又进行了进一步的研究。zhang提出了一种检测失真行人的网络,根据失真程度的不同,可以将视场中的行人视为不同类型的目标。基于更快的r

cnn神经网络,它由一个训练分类器组成。对不同层次的扭曲行人进行分类;ren使用了快速并行的rcnn和ssd等深度学习技术,成功地对rgb图像中的人进行了检测;在chen开展的工作中,他们提出了一种深度学习方法,结合了两种模型(卷积神经网络和cnn)来检测行人,这个模型被称为两个并行深度卷积神经网络(tpdcnn)。每个cnn都能够解决一个特定的并行分类任务。然后,将这些模型整合起来,建立一个更健壮的行人检测器。然而,这些行人检测方法多是由基于two

stage的技术改进而来,虽然达到了较高的准确度,但其推理速度慢,很难满足实时性的要求,进而阻碍了将其部署到实际的生产生活中。而单纯的one

stage技术精度低、在低分辨率下对小尺度行人识别效果不好,难以满足实际应用的精度需求。


技术实现要素:

6.基于现有技术的上述情况,本发明的目的在于提供一种人流密集区域行人检测方法及系统,通过对已构建的速度较快的yolov4标检测网络进行改进,并将其用于行人检测,以解决现有技术中的检测方法速度与准确率不平衡造成的实际应用困难的问题。
7.为达到上述目的,根据本发明的一个方面,提供了一种人流密集区域行人检测方法,包括步骤:构建目标检测网络yolov4,所述目标检测网络yolov4包括骨干网络、颈部网络和头部网络;采集人流密集区域的行人数据,建立行人数据集;采用骨干网络对所述行人数据集中的行人特征进行学习,并利用注意力机制对所学习到的行人特征进行数据增强;利用导向锚框改进头部网络,自适应调整锚框的大小;训练改进后的yolov4网络,并基于改进后的yolov4对行人进行检测。
8.进一步的,所述利用注意力机制对所学习到的行人特征进行数据增强,包括:利用卷积算子对行人特征进行全局平均池化操作,得到聚合后的特征;计算得到自适应的卷积核大小,利用该卷积核大小进行一维卷积,保持数据特征的维度1
×1×
c不变;通过激活函数将得到的数据特征规范到[0,1]的范围内,并与表示原始行人特征的矩阵w
×
h
×
c相乘,实现对行人特征权重的重新分配,完成特征增强;其中,w为矩阵的宽度,h为矩阵的高度,c为通道数。
[0009]
进一步的,所述利用导向锚框改进头部网络,自适应调整锚框的大小,包括:利用导向锚框模块和锚框形状的损失函数,对每个位置预测锚框的形状并计算锚框形状的损失函数,以自适应学习锚框的形状参数。
[0010]
进一步的,所述导向锚框模块包括卷积层和可变卷积层。
[0011]
进一步的,所述锚框形状的损失函数包括:其中,为锚框形状的损失函数,是经典损失函数smooth l1,w和h为预测锚框的宽度和高度,和是基准框的宽度和高度。
[0012]
进一步的,所述训练改进后的yolov4网络,并基于改进后的yolov4对行人进行检测,包括:使用所述行人数据集对改进后的yolov4网络进行训练,以最小化损失函数;将待检测的图像输入改进的yolov4网络中,得到行人的识别结果。
[0013]
根据本发明的另一个方面,提供了一种人流密集区域行人检测系统,包括目标检测网络构建模块、数据集建立模块、数据学习模块、头部网络改进模块、以及检测模块;其中,所述目标检测网络构建模块,构建目标检测网络yolov4,所述目标检测网络yolov4包括骨干网络、颈部网络和头部网络;
所述数据集建立模块,采集人流密集区域的行人数据,建立行人数据集;所述数据学习模块,采用骨干网络对所述行人数据集中的行人特征进行学习,并利用注意力机制对所学习到的行人特征进行数据增强;所述头部网络改进模块,利用导向锚框改进头部网络,自适应调整锚框的大小;所述检测模块,训练改进后的yolov4网络,并基于改进后的yolov4对行人进行检测。
[0014]
进一步的,所述数据学习模块,利用注意力机制对所学习到的行人特征进行数据增强,包括:利用卷积算子对行人特征进行全局平均池化操作,得到聚合后的特征;计算得到自适应的卷积核大小,利用该卷积核大小进行一维卷积,保持数据特征的维度1
×1×
c不变;通过激活函数将得到的数据特征规范到[0,1]的范围内,并与表示原始行人特征的矩阵w
×
h
×
c相乘,实现对行人特征权重的重新分配,完成特征增强;其中,w为矩阵的宽度,h为矩阵的高度,c为通道数。
[0015]
进一步的,所述头部网络改进模块,利用导向锚框改进头部网络,自适应调整锚框的大小,包括:利用导向锚框模块和锚框形状的损失函数,对每个位置预测锚框的形状并计算锚框形状的损失函数,以自适应学习锚框的形状参数。
[0016]
进一步的,所述锚框形状的损失函数包括:其中,为锚框形状的损失函数,是经典损失函数smooth l1,w和h为预测锚框的宽度和高度,和是基准框的宽度和高度。
[0017]
综上所述,本发明提供了一种人流密集区域行人检测方法及系统,通过对已构建的速度较快的yolov4标检测网络进行改进,在其中添加注意力机制模块增加行人特征的权重,同时增加导向锚框模块自适应地调整锚框的形状,以在保证网络推理速度的情况下提高行人检测的准确率,以解决现有技术中的检测方法速度与准确率不平衡造成的实际应用困难的问题。与现有技术相比,本申请具有如下有益的技术效果:(1)本发明在yolov4网络的基础上改进而来,保留了yolov4网络本身速度快、易学习目标泛化特征的优点,有效提高了行人检测的速度,更加符合实际的应用场景。
[0018]
(2)本发明基于注意力机制,通过引入注意力机制模块,完善了对不同尺度行人特征在样本中所占的权重,实现了行人身体部位的特征增强,减少了无效特征信息的干扰,有效提高了复杂环境下行人识别的精度。
[0019]
(3)本发明基于导向锚框方法,自适应地调整锚框的大小,从而生成更符合人体大小的锚框,可以有效提高行人识别的精度,同时使得模型有了很好的泛化性。
附图说明
[0020]
图1是本发明人流密集区域行人检测方法的流程图;
图2是eca模块的结构示意图;图3是ga模块的结构示意图;图4是改进的yolov4网络结构示意图;图5是本发明人流密集区域行人检测系统的构成框图。
具体实施方式
[0021]
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0022]
下面结合附图对本发明的技术方案进行详细说明。根据本发明的一个实施例,提供了一种人流密集区域行人检测方法,该方法的流程图如图1所示,包括步骤:s1、构建目标检测网络yolov4,所述目标检测网络yolov4可以包括骨干网络cspdarknet53、颈部网络和头部网络;该骨干网络的数据结构为(w
×
h
×
c)矩阵,其中,w为矩阵的宽度,h为矩阵的高度,c为通道数。
[0023]
s2、采集人流密集区域的行人数据,建立行人数据集。根据本实施例提供的方法,其中人流密集区域以地铁为例,采集地铁行人数据建立行人数据集,具体可以采用如下方式:在真实地铁场景下,通过地铁监控摄像头分不同时段采集多角度的地铁行人视频流信息,每隔固定帧数后对视频流抽取一帧获取地铁行人图片数据。本实施例中,挑选了地铁运行时段的监控录像,每隔900帧抽取1帧作为图片数据;监控视频数据格式为mp4,分辨率为1920
×
1080像素;抽取的图片数据格式为jpg,分辨率为1920
×
1080像素。
[0024]
对获取的图片数据基于角度、光线条件、行人数量、遮挡程度等因素进行筛选后,运用图像标注工具labelimg进行标注,建立地铁行人数据集。本实施例中,共采集8856个图片数据,图片标注格式可以参照kitti数据集。
[0025]
s3、采用骨干网络对所述行人数据集中的行人特征进行学习,并利用注意力机制对所学习到的行人特征进行数据增强,该步骤通过注意力机制重新分配行人在样本中所占的权重,以实现行人特征增强。可以通过在yolov4网络中增加注意力(efficient channel attention,以下简称eca)模块来实现利用注意力机制对所学习到的行人特征进行数据增强,eca模块的结构示意图如图2所示,其中包括一个全局平均池化层,一个卷积层和一个sigmoid函数层,其进行数据增强的步骤可以如下:使用eca模块中的卷积算子对行人的特征向量进行全局平均池化操作;全局平均池化操作如下式所示:上式中,令一个卷积块的输出为,其中r为实数集,w为矩阵的宽度,h为矩阵的高度,c为通道数。表示一个通道中特征向量编码的全局平均值,表示矩阵中第j行,第i列特征向量的编码。
[0026]
计算得到可应用于一维卷积的自适应的卷积核大小;操作如下式所示:上式中,k为卷积核大小,c为通道数, 是选择最近的奇数;本实施例中,γ=2,b=1。
[0027]
通过卷积核大小为k的一维卷积增加通道间信息的交互,同时数据特征的维度(1
×1×
c)保持不变,具体包括:应用k于一维卷积中,将全局平均池化后(1
×1×
c)维的数据特征经过卷积层后,依然保持(1
×1×
c)维。
[0028]
通过sigmoid激活函数将卷积层得到的数据特征规范到[0,1]的范围内,并与表示原始行人特征的矩阵(w
×
h
×
c)相乘,实现对行人特征权重的重新分配,完成特征增强,输出特征的维度为(w
×
h
×
c)。
[0029]
s4、利用导向锚框改进头部网络,自适应调整锚框的大小。该步骤基于导向锚框(guided anchoring,以下简称ga)方法,改进yolov4的头部网络,自适应地调整锚框的大小;通过引入ga模块和锚框损失函数,自适应地调整锚框的大小,从而生成更符合人体大小的锚框,可以有效提高行人识别的精度,同时使得模型有了很好的泛化性。其中,锚框损失函数可以采用以下公式:其中,即为锚框形状的损失函数,是经典损失函数smooth l1,w和h为预测锚框的宽度和高度,和分别是基准框(groud truth box)的宽度和高度。
[0030]
ga模块的结构示意图如图3所示,其中包括一个1
×
1卷积层和一个3
×
3可变卷积层。对锚框的宽度和高度进行自学习,可以采用以下步骤:ga模块接收来自pan层的特征图,输入维度为(w
×
h
×
c),经1
×
1卷积层后得到对锚框形状的预测,维度为(w
×
h
×
2);为平衡不同大小锚框的感受野,使用特征适应方法来对每个独立的基于潜在的锚框形状的位置上特征做变换,具体方法为:其中为可变卷积算子,是每个位置上变换前的特征,和是预测获得的锚框的宽度和高度,是该位置上变换后的特征,该特征融入了锚框的形状信息。
[0031]
变换后的特征图经历后续运算后,与预测得到的锚框宽度和高度一同计算损失函数,其中改进yolov4网络的损失函数具体为:其中,为前述锚框形状损失函数,为原yolov4网络损失函数,为经验权重系数,在本实施例中为1。
[0032]
经过改进后的yolov4网络结构示意图如图4所示,如图4,通过在所构建的目标检
测网络yolov4中,采用eca模块对利用骨干网络cspdarknet53学习到的行人特征进行数据增强,并且采用ga模块改进yolov4的头部网络,自适应地调整锚框的大小,从而得到改进后的yolov4网络,既保留了yolov4网络本身速度快、易学习目标泛化特征的优点,又通过改进完善了对不同尺度行人特征在样本中所占的权重,并且通过自适应地调整锚框的大小,生成更符合人体大小的锚框,使得模型有了很好的泛化性。
[0033]
s5、训练改进后的yolov4网络,并基于改进后的yolov4对行人进行检测,可以采用以下方式:使用所述建立的地铁行人数据集对改进后的yolov4网络进行训练,以最小化损失函数。在训练过程中,可以使用数据增广方法扩增地铁行人数据集。本实施例中用mosaic数据增强方法,对数据集进行了增广。
[0034]
将待检测的图像输入改进的yolov4网络中,得到地铁行人的识别结果。
[0035]
根据本发明的另一个实施例,提供了一种人流密集区域行人检测系统,该系统的构成框图如图5所示,包括目标检测网络构建模块、数据集建立模块、数据学习模块、头部网络改进模块、以及检测模块。
[0036]
目标检测网络构建模块,构建目标检测网络yolov4,所述目标检测网络yolov4包括骨干网络、颈部网络和头部网。
[0037]
数据集建立模块,采集人流密集区域的行人数据,建立行人数据集。
[0038]
数据学习模块,采用骨干网络对所述行人数据集中的行人特征进行学习,并利用注意力机制对所学习到的行人特征进行数据增强,包括:利用卷积算子对行人特征进行全局平均池化操作,得到聚合后的特征;计算得到自适应的卷积核大小,利用该卷积核大小进行一维卷积,保持数据特征的维度1
×1×
c不变;通过激活函数将得到的数据特征规范到[0,1]的范围内,并与表示原始行人特征的矩阵w
×
h
×
c相乘,实现对行人特征权重的重新分配,完成特征增强;其中,w为矩阵的宽度,h为矩阵的高度,c为通道数。
[0039]
头部网络改进模块,利用导向锚框改进头部网络,自适应调整锚框的大小,包括:利用导向锚框模块和锚框形状的损失函数,对每个位置预测锚框的形状并计算锚框形状的损失函数,以自适应学习锚框的形状参数。
[0040]
其中,所述锚框形状的损失函数包括:其中,为锚框形状的损失函数,是经典损失函数smooth l1,w和h为预测锚框的宽度和高度,和是基准框的宽度和高度。
[0041]
所述检测模块,训练改进后的yolov4网络,并基于改进后的yolov4对行人进行检测。
[0042]
该系统中各模块功能实现的具体原理以及步骤均与本发明第一个实施例中的相同,在此不再赘述。
[0043]
综上所述,本发明涉及一种人流密集区域行人检测方法及系统,通过对已构建的
速度较快的yolov4标检测网络进行改进,在其中添加注意力机制模块增加行人特征的权重,同时增加导向锚框模块自适应地调整锚框的形状,以在保证网络推理速度的情况下提高行人检测的准确率,以解决现有技术中的检测方法速度与准确率不平衡造成的实际应用困难的问题。本发明在yolov4网络的基础上改进而来,既保留了yolov4网络本身速度快、易学习目标泛化特征的优点,有效提高了行人检测的速度,更加符合实际的应用场景,又通过引入注意力机制模块,完善了对不同尺度行人特征在样本中所占的权重,实现了行人身体部位的特征增强,减少了无效特征信息的干扰,有效提高了复杂环境下行人识别的精度;同时,本发明基于导向锚框方法,自适应地调整锚框的大小,从而生成更符合人体大小的锚框,可以有效提高行人识别的精度,使得模型有了很好的泛化性。
[0044]
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1