一种抗遮挡重叠与尺度变化的行人检测方法及装置

文档序号:40165507发布日期:2024-11-29 15:58阅读:37来源:国知局
一种抗遮挡重叠与尺度变化的行人检测方法及装置

本发明涉及计算机视觉,具体提供一种抗遮挡重叠与尺度变化的行人检测方法及装置。


背景技术:

1、在计算机视觉领域中,行人检测技术是应用广泛的热门研究方向之一。行人检测任务主要指通过计算机视觉相关技术将图像、视频和视频流数据中的行人目标实例精准地检测出来并对其进行定位,该任务本质上是一个分类和回归的过程。在实际生活中,行人检测在自动驾驶、智能监控、智能机器人以及人机交互等领域发挥着重要的作用并具有较高的应用价值。其中,在自动驾驶领域和辅助安全驾驶领域,利用行人检测技术可以实时检测车辆前方是否有行人突然闯入,从而根据实际情况及时做出调整,以此来确保行人安全和行车安全。特别是在拥堵路段和人群密集场景,行人检测技术对自动驾驶安全的辅助作用更加明显。在智能监控领域,现今多数公共场所都会利用摄像头来对整个场景进行监控并且实时统计人群流量数据。特别是在疫情期间,多数大型公共场所都会严格控制行人流量密度,利用行人检测技术可以实时准确地统计场所中的行人流量,并且通过对这些数据进行分析和预测,进而有助于管理者采取相应调整措施。在智能机器人领域,摄像机等传感器为智能机器人传入对应的环境场景信号,行人检测算法作为智能机器人大脑中的重要思维感知网络,可以帮助智能机器人快速准确地感知到行人目标并及时做出相应的决策来进行调整。在人机交互领域,校园和餐饮店中的智能送餐车、智能快递投递车等设备中均融合了行人检测算法等多种功能,并且通过与行人之间进行交互的方式达到利用人工智能技术更好地为人们日常生活服务的目的。

2、基于深度学习的行人检测算法按照检测思路可划分为单阶段行人检测算法和两阶段行人检测算法。其中,单阶段行人检测算法主要以yolo系列网络模型为代表,两阶段行人检测算法则以rcnn系列网络模型为代表。然而,这两类算法均缺乏对特定检测场景的研究与设计,对于较远视角处的小尺度行人目标和遮挡重叠严重的行人目标的检测能力较弱,主要表现在检测精度较低和漏检率较高。因此,设计一种抗遮挡重叠与尺度变化的行人检测方法是非常必要的。

3、针对上述需求,目前,国内外也有很多相关的解决方案。

4、中国专利公布号cn111767882a,公布日2020年10月13日中提出一种基于改进yolo模型的多模态行人检测方法。通过融合cbam注意力机制并对损失函数进行优化,以此来提升行人检测效果。但也存在一些问题如:(1)在特征提取环节对于多尺度行人目标的灵敏度不够高,尤其是对较远视角处的小尺度行人的特征信息学习能力较弱;(2)对于遮挡重叠严重的行人目标的漏检现象仍有一定改进的空间。中国专利申请公布号cn115082855a,公布日2022年09月20日的基于改进yolox 算法的行人遮挡检测方法和公布号cn111767882a,公布号2020年10月13日的一种基于改进yolo模型的多模态行人检测方法类似,也同样存在相同的问题。中国专利公布号cn113989939a,公布日2022年01月28日中提出一种检测小尺度行人目标的方法,但实际检测场景中难免存在行人密集拥挤现象,因而该方法对于遮挡行人目标的检测能力较弱,在实际应用时存在一定的局限性。中国专利申请公布号cn114882527a,公布日2022年08月09日中提出一种基于动态分组卷积的行人检测算法及系统,主要利用分组卷积实现行人检测,但缺乏对行人检测特定场景的考虑,在复杂人群密集场景下的执行效率存在一定的局限性。

5、对于现有行人检测技术而言,更多的方案还是依托经典的目标检测算法来检测场景中的行人目标,依据检测思路可分为以yolo系列网络模型为代表的单阶段检测算法和以faster rcnn网络模型为代表的两阶段检测算法。然而经典的目标检测算法大多缺乏对于检测场景的特定考虑,尤其是复杂人群密集场景下,这些主流检测算法的鲁棒性受到了影响,主要包括以下两点:

6、(1)行人目标尺度不一导致检测器的综合性能受到影响。由于当前行人检测数据集大多数是基于摄像头拍摄并进行标定处理得到的,而摄像头在拍摄时存在“近大远小”的规律,较近视角处的行人目标整体尺度较大,较远视角处的行人目标整体尺度较小。由于小尺度行人目标的分辨率相对较低,因此算法在进行特征提取的过程中容易出现学习到的特征信息有限或者特征表达能力较弱的问题,难以对不同尺度的行人目标均具备较高的灵敏度,进而容易引起漏检或者误检现象。

7、(2)行人目标受遮挡严重导致检测器的综合性能受到影响。在复杂人群密集场景下的行人检测任务中,行人目标往往受到一定的遮挡现象。通过对行人检测数据集中的图像进行分析可知,行人遮挡问题主要包括两种情况:类内遮挡和类间遮挡。其中,类内遮挡是指行人目标之间相互遮挡。类间遮挡是指行人受背景信息干扰,背景信息主要包括建筑物、树木、车辆、行人自身携带的物品和附近其他行人携带的物品等。类内遮挡和类间遮挡导致了行人全身可见区域部分所占比例降低,会对算法的特征提取环节造成困难,并且算法检测模块推理所需的信息也随之减少,此外还会影响行人目标定位的准确性,从而影响行人检测算法的综合性能。


技术实现思路

1、本发明为解决上述问题,提供了一种抗遮挡重叠与尺度变化的行人检测方法及装置,可以提升对较远视角处小尺度行人目标与遮挡严重行人目标的检测精度,并降低其漏检率。

2、第一方面,本发明提供的一种抗遮挡重叠与尺度变化的行人检测方法,包括:

3、构建faster rcnn网络模型;

4、将所述faster rcnn网络模型的骨干网络融合改进后的特征提取网络,并将待检测图像输入至所述faster rcnn网络模型进行特征提取,得到提取特征图;

5、通过区域建议网络生成行人头部候选框集合,并基于数据集中标定的行人头部区域与所述行人头部区域对应的整体区域组合进行统计计算,得到头身比例关系,并依据该头身比例关系生成行人整体候选框集合;

6、构建行人头部检测分支模块和行人整体检测分支模块,并通过所述行人头部检测分支模块和所述行人整体检测分支模块获得所述待检测图像中的初步目标检测结果;

7、对于得到的所述初步目标检测结果中行人头部检测框和行人整体检测框进行初步后处理得到初步后处理检测结果,筛除冗余检测结果;

8、构建行人头身匹配模块,并将所述初步后处理检测结果输入行人头身匹配模块,对头部检测框和整体检测框进行匹配绑定;

9、构建基于头部抑制与全身召回的二次后处理模块,并利用所述二次后处理模块对所述初步后处理检测结果中未能匹配成功的头部检测框进行二次校验处理,恢复被错误抑制的行人整体框并剔除误检出的行人头部框,进而得到最终的行人检测结果。

10、作为一种优选的方案,所述将所述faster rcnn网络模型的骨干网络融合改进后的特征提取网络,并将待检测图像输入至所述faster rcnn网络模型进行特征提取,得到提取特征图,包括:

11、将resnet50网络作为faster rcnn网络模型的骨干网络;

12、将所述改进后的特征提取网络与faster rcnn网络模型进行融合;

13、构建特征重构模块,所述特征重构模块包括特征尺度缩放模块和特征变换模块;

14、构建混合注意力增强模块,通过在通道和空间两个维度上侧重关注小尺度行人目标特征,增加所述小尺度行人目标特征在训练过程中所占的权重,同时抑制背景特征;

15、所述混合注意力增强模块由通道注意力模块和空间注意力模块串联组成,利用所述通道注意力模块对输入特征图进行通道注意力信息提取,利用所述空间注意力模块进行空间注意力增强,并且学习空间权重信息,最后进行加权相乘操作来得到最终的特征图。

16、作为一种优选的方案,所述将所述改进后的特征提取网络与faster rcnn网络模型进行融合,包括:

17、利用骨干网络resnet50学习所述待检测图像的特征信息;

18、对所述骨干网络resnet50获取的特征信息进行特征融合。

19、作为一种优选的方案,将所述骨干网络resnet50获取的特征信息进行特征融合,包括:

20、通过特征金字塔fpn结构进行特征融合,具体过程用公式(1)和公式(2)表示:

21、(1)

22、(2)

23、其中,表示骨干网络第个阶段的卷积操作,表示特征金字塔网络自顶向下的第阶段特征融合操作,为第层网络学习到的特征,为特征金字塔第阶段输出的特征,为特征图层数。

24、结合循环递归思想,在特征金字塔fpn结构的基础上增添一条从后向前的反馈拼接通道,构建循环递归特征金字塔,所述循环递归特征金字塔用于将所述特征金字塔fpn结构输出的特征信息反馈拼接至所述骨干网络中,使得所述骨干网络能够对特征进行二次提纯处理,具体过程用公式(3)和公式(4)表示:

25、(3)

26、(4)

27、其中,表示将学习到的特征反馈拼接至骨干网络之前的特征变换操作,用于实现两个阶段的级联连接,重复第一阶段的特征提取与融合操作,得到第二阶段的输出特征,循环递归特征金字塔中两个阶段输出的特征和用公式(5)~公式(8)表示:

28、(5)

29、(6)

30、(7)

31、(8)

32、将学习到的特征反馈拼接至所述骨干网络之前的特征变换操作的具体执行过程为:

33、对变换后的特征进行的卷积操作;

34、与骨干网络中各个阶段第一个残差块输出的特征进行融合,完成反馈拼接操作;而对于反馈拼接至骨干网络前的特征变换处理环节,采用融合了空洞卷积的空间金字塔池化模块aspp来实现,用于实现两个阶段的级联连接,其中,所述空间金字塔池化模块aspp中包括四个并行分支,其中,前三个分支均采用卷积层结构,卷积核的尺寸分别为1×1、3×3和3×3,并设置逐次增大的空洞率,在后面连接relu层,用于增大感受野范围。第四个分支中基于全局平均池化操作,并且在后面连接1×1普通卷积层和relu层,用于均衡地提取有效信息并降低局部信息损失;将四个分支输出的特征沿通道维度连接起来生成一个与第二阶段输入特征尺度相同的特征,完成特征变换处理操作;

35、所述骨干网络对所述待检测图像的图像特征进行二次学习获取,并将两阶段输出的特征和进行融合,具体过程为:构建自适应特征融合方式,为两阶段输出的特征各自分配权重,权重由第二阶段输出特征的后接卷积层和sigmoid函数计算得到,依据权重对两阶段特征进行加权融合,具体用公式(9)表示:

36、(9)

37、其中,和分别为两阶段输出特征分配到的权重,且权重和之间的关系满足,为特征提取网络最终输出的特征。

38、作为一种优选的方案,所述构建特征重构模块,所述特征重构模块包括特征尺度缩放模块和特征变换模块,包括:

39、特征尺度缩放模块通过上采样或下采样操作来生成不同尺度的特征;

40、利用所述特征变换模块将所有尺度相同的特征进行串联组合,形成新的特征,具体方式为:对于中间层次特征,利用所述特征尺度缩放模块分别对中间层次特征生成当前层特征尺度的特征、当前层上一层特征尺度的特征和当前层下一层特征尺度的特征;对于最深层特征,分别对最深层特征生成当前层特征尺度的特征和当前层下一层特征尺度的特征;对于最浅层特征,则分别对最浅层特征生成当前层特征尺度的特征和当前层上一层特征尺度的特征,沿通道维度将具有相同尺度的特征进行串联拼接。

41、作为一种优选的方案,所述构建混合注意力增强模块,通过在通道和空间两个维度上侧重关注小尺度行人目标特征,增加所述小尺度行人目标特征在训练过程中所占的权重,同时抑制背景特征,包括:

42、在通道注意力模块中,首先对输入的特征分别进行最大池化和平均池化操作来获得压缩后的一维特征向量和,并且对和进行逐元素加和操作,以使得一维特征向量能够获得空间全局感受野,进行两次卷积操作分别得到尺度为和的一维特征向量,其中为压缩系数,以此来学习得到通道权重信息,将通道权重信息与输入特征进行加权乘法运算,得到融合通道注意力的通道注意力特征图;

43、在空间注意力模块中,对所述通道注意力特征图分别进行平均池化和最大池化操作得到压缩后的二维特征向量和,将所述二维特征向量沿通道维度进行拼接,使所述二维特征向量能够获得通道全局感受野,进行一次卷积操作得到尺度为的二维特征向量并获取空间权重信息,将空间权重信息与所述通道注意力特征图进行加权乘法操作,得到处理后的最终特征。

44、作为一种优选的方案,所述对于得到的所述初步目标检测结果中头部检测框和行人整体检测框进行初步后处理得到初步后处理检测结果,筛除冗余检测结果,包括:

45、基于非极大值抑制算法对头部检测结果进行非极大值抑制处理;

46、构建基于目标遮挡重叠率补偿的非极大值抑制算法,对行人整体检测结果进行非极大值抑制处理,通过计算感兴趣区域对应的行人目标的遮挡重叠率,使得实际的抑制阈值随着遮挡重叠程度的变化而自适应调整,第个目标框对应的遮挡重叠率的计算方法可表示为:

47、(12)

48、(13)

49、其中,表示第个目标框受到的重叠面积,重叠面积的值为所述目标框与其余所有目标框重叠面积的最大值,表示第个目标框的自身面积;

50、将计算得到的第个目标框对应的遮挡重叠率与nms算法中的预设阈值进行比较,将二者之间的较大值作为非极大值抑制处理的判定阈值。

51、作为一种优选的方案,所述构建行人头身匹配模块,并将所述初步后处理检测结果输入行人头身匹配模块,对头部检测框和整体检测框进行匹配绑定,包括:

52、行人头身匹配模块包括三个约束条件,具体表示为:

53、计算行人头部框与行人整体框之间的重叠比例,具体方式为:

54、(14)

55、其中,表示头部框与行人整体框之间的重叠面积,表示行人头部框的面积,若重叠比例低于预设阈值,则判定头部与整体之间无法配对,若重叠比例高于预设阈值,则进入下面步骤;

56、构建行人虚拟缩放整体框,并计算所述行人虚拟缩放整体框与行人整体框之间的交并比值,设定行人头部框坐标信息为,所述行人头部框的宽度和高度分别用和来表示,则所述行人头部框对应的虚拟缩放整体框的坐标信息可表示为:

57、(15)

58、(16)

59、(17)

60、(18)

61、计算所述虚拟缩放整体框与整体框之间的交并比值,若低于预设阈值,则判定头部与整体之间无法配对;若高于预设阈值,则继续判断两框尺度之间的l1距离,具体方式可表示为:

62、(19)

63、其中,和分别表示行人整体框的宽度和高度,和分别表示虚拟缩放整体框的宽度和高度,若值大于预设阈值,说明头部框与整体框在尺度方面存在着较大差异,故无法匹配,否则进入下一步骤;

64、计算行人头部与整体关系的判别分数,通过构建一个由三个堆叠的全连接层构成的关系判别模块,并为关系判别模块提取每个头部对应整体匹配对的信息,计算头部与整体之间的关系匹配分数,若关系匹配分数的最大值低于预设阈值或者关系匹配分数集合为空集时,则说明所述头部框无法匹配到对应的整体框。

65、作为一种优选的方案,所述构建基于头部抑制与全身召回的二次后处理模块,并利用所述二次后处理模块对所述初步后处理检测结果中未能匹配成功的头部检测框进行二次校验处理,得到最终的行人检测结果,包括:

66、将在未能匹配成功的头部框集合中的元素与未进行非极大值抑制处理的整体框集合再次进行头身匹配,在同时满足前两个匹配约束条件后,在关系判别环节计算得到的分数大于一个较高的预设阈值时,视为成功匹配;

67、如果头部与整体成功配对,则恢复之前被非极大值抑制的行人整体检测结果,如果关系匹配分数的最大值仍低于预设阈值或者关系匹配分数集合为空集时,则判定该头部检测结果为误检,得到最终的行人检测结果。

68、第二方面,本发明提供一种抗遮挡重叠与尺度变化的行人检测装置,包括:

69、构建单元,用于构建faster rcnn网络模型;

70、融合单元,用于将所述faster rcnn网络模型的骨干网络融合改进后的特征提取网络,并将待检测图像输入至所述faster rcnn网络模型进行特征提取,得到提取特征图;

71、构建单元,用于通过区域建议网络生成行人头部候选框集合,并基于数据集中标定的行人头部区域与其对应的整体区域组合进行统计计算,得到行人目标头身比例关系,并依据所述比例关系生成行人整体候选框集合;

72、初步检测单元,构建行人头部检测分支模块和行人整体检测分支模块,并通过所述行人头部检测分支模块和所述行人整体检测分支模块获得所述待检测图像的初步目标检测结果;

73、后处理检测单元,用于对于得到的所述初步目标检测结果中头部检测框和行人整体检测框进行初步后处理得到初步后处理检测结果,筛除冗余检测结果;

74、输入单元,用于构建行人头身匹配模块,并将所述初步后处理检测结果输入行人头身匹配模块,对头部检测框和整体检测框进行匹配绑定;

75、二次检验单元,用于构建基于头部抑制与全身召回的二次后处理模块,并利用所述二次后处理模块对所述初步后处理检测结果中未能匹配成功的头部检测框进行二次校验处理,得到最终的行人检测结果。

76、与现有技术相比,本发明能够取得如下有益效果:

77、本发明实施例中提供的抗遮挡重叠与尺度变化的行人检测方法及装置,在特征提取环节通过增强特征融合并引入注意力增强模块的策略,提升了特征提取网络获取图像特征信息的能力与特征信息的表达能力,并且使得特征信息中包含的语义信息和细节纹理信息更加均衡,并且利用特征重构模块使得获取到的特征信息中涵盖的语义信息和细节纹理信息更加均衡,进而提升算法对多尺度行人目标的检测能力。在模型的核心部分设计了头部和整体双检测分支进行联合检测,进而充分利用头部检测辅助行人检测以提升对密集遮挡行人目标的检测能力。在模型的后处理环节为遮挡重叠较为严重的行人整体检测框构建了更为合理的抑制判别机制,然后利用构建的行人头身匹配策略对行人头部检测框和整体检测框进行匹配绑定,并对未能匹配成功的头部检测框进行二次匹配校验,用于恢复被错误抑制的行人整体检测框并剔除误检出的头部检测框,以此来进一步提升行人目标的检测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1