一种基于全局信息的扶梯场景中乘客行为检测方法及装置

文档序号:32402928发布日期:2022-12-02 19:38阅读:70来源:国知局
一种基于全局信息的扶梯场景中乘客行为检测方法及装置

1.本发明涉及安全监控技术领域,特别涉及一种基于全局信息的扶梯场景中乘客行为检测方法及装置。


背景技术:

2.自动扶梯是带有循环运行梯级,用于向上或向下倾斜输送乘客的固定电力驱动设备,是公共场所中最为常见的运输行人交通工具,大量应用于商场,火车站,地铁等人流量密集的场所。自动扶梯处于一种乘客暴露在外运行情况中,很难媲美电梯所能带来的安全性,因此发生意外事故时死亡率居高不下,造成重大的社会经济损失和人员伤亡。扶梯伤人事件多为跌倒、坠落事故,以及与物体发生碰撞、挤压事故,若能快速发现行人在乘坐自动扶梯时的不安全行为,并做出及时的保护措施,则能够尽可能的降低事故危险程度,减少对乘客的二次伤害。
3.电动扶梯在运行时传送带移动平面彼此折叠,形成倾斜向上一个楼梯平台,这样的设计在扶梯入口或出口处的监控角度中会呈现一个角度上的乘客遮挡的情况,即前排乘客遮挡住后排的乘客大部分身体。当扶梯上乘客数量较多时,会造成监控画面中的前排乘客对后排乘客的大面积遮挡。
4.由此造成神经网络提取特征较为困难,在行人不安全行为检测时,对过于接近的多个目标最终生成的目标框十分靠近,重叠部分很大,因此目标框之间存在相互抑制问题,检测的结果往往较差,造成了重叠目标的误检和漏检,严重损害了检测的准确性。


技术实现要素:

5.本发明要解决的技术问题,在于提供一种基于全局信息的扶梯场景中乘客行为检测方法及装置,实现对扶梯场景中存在遮挡问题的乘客行为检测的优化,提高模型对重叠目标的注意力,从全局信息获取注意力目标,提高检测的识别率和准确性。
6.第一方面,本发明提供了一种基于全局信息的扶梯场景中乘客行为检测方法,包括:
7.步骤10、获取扶梯中乘客不安全行为数据集,标注出数据集中不安全行为的类别以及位置,生成标注图像数据集;
8.步骤20、创建目标检测模型,以标注图像数据集作为目标检测模型的训练样本输入;
9.步骤30、在卷积神经网络的backbone部分对所述标注图像数据集逐层提取特征信息,通过缩小图像尺寸并加深图像维度,生成高维语义特征图;通过坐标注意力模块对所述高维语义特征图的水平和垂直两个方向的信息进行全局编码,对相邻像素点之间构建远程依赖关系,得到全局信息特征图;
10.步骤40、在卷积神经网络的neck部分通过panet自下而上的对所述全局信息特征图上采样融合多个低维度特征图,增加每个维度上特征信息的表达,再通过多层卷积注意
力模块融合坐标注意力特征图在空间与通道上的特征信息;通过fpn自下而上的对panet的输出特征图与多个高维特征图再次融合得到包括低维特征图、中维特征图和高维特征图的多个维度特征图;
11.步骤50、在卷积神经网络的head部分通过多尺度特征融合多个维度特征图再通过卷积神经网络输出基于全局信息预测的图像。
12.进一步地,所述步骤30中,坐标注意力模块的具体处理过程为:
13.对于给定输入特征图x,使用两个空间范围的池化内核(h,1)和(1,w)分别沿水平坐标和垂直坐标对每个通道进行编码;
14.高度h处的第c个通道的输出表示为:
[0015][0016]
宽度为w的第c个通道的输出表示为:
[0017][0018]
上述两个变换分别沿两个空间方向聚合特征,产生一对方向感知特征图和使得坐标注意力模块块沿一个空间方向捕获远程依赖关系,并沿另一个空间方向保留精确的位置信息。
[0019]
进一步地,所述步骤40中,多层卷积注意力模块包括通道注意力mc(f)和空间注意力ms(f);
[0020]
所述通道注意力mc(f)利用特征的通道间关系来生成通道注意图,同时使用最大池化和平均池化聚合特征图的空间信息,然后将两个池化结果转发到共享网络mlp以生成通道注意力图,使用逐元素求和来合并输出特征向量;
[0021]
所述空间注意力ms(f)利用特征的空间关系生成空间注意力图,编码要强调或抑制的位置,通过使用平均池化和最大池化两个池化操作聚合特征图的通道信息,生成两个二维图像,分别表示通道中的平均池化特征和最大池化特征;然后将它们连接起来并通过标准卷积层进行卷积,生成二维空间注意力图。
[0022]
进一步地,所述步骤40中,fpn通过concat方式将上一维度的特征图上采样并裁剪维度,并与下一维度的特征图在空间和维度匹配后进行拼接。
[0023]
进一步地,所述步骤10还包括,对所述乘客不安全行为数据集进行mosaic数据增强,随机选择数据集中4张图片,对其进行随机裁剪、缩放、旋转操作,以第一张输入图片尺寸的1/3-3/2范围内随机选择一点作为中心点拼接,合成1张图像。
[0024]
第二方面,本发明提供了一种基于全局信息的扶梯场景中乘客行为检测装置,包括:训练样本处理模块、模型创建模块、第一处理模块、第二处理模块以及第三处理模块;
[0025]
所述训练样本处理模块,用于获取扶梯中乘客不安全行为数据集,标注出数据集中不安全行为的类别以及位置,生成标注图像数据集;
[0026]
所述模型创建模块,用于创建目标检测模型,以标注图像数据集作为目标检测模型的训练样本输入;
[0027]
所述第一处理模块,用于在卷积神经网络的backbone部分对所述标注图像数据集逐层提取特征信息,通过缩小图像尺寸并加深图像维度,生成高维语义特征图;通过坐标注
意力模块对所述高维语义特征图的水平和垂直两个方向的信息进行全局编码,对相邻像素点之间构建远程依赖关系,得到全局信息特征图;
[0028]
所述第二处理模块,用于在卷积神经网络的neck部分通过panet自下而上的对所述全局信息特征图上采样融合多个低维度特征图,增加每个维度上特征信息的表达,再通过多层卷积注意力模块融合坐标注意力特征图在空间与通道上的特征信息;通过fpn自下而上的对panet的输出特征图与多个高维特征图再次融合得到包括低维特征图、中维特征图和高维特征图的多个维度特征图;
[0029]
所述第三处理模块,在卷积神经网络的head部分通过多尺度特征融合多个维度特征图再通过卷积神经网络输出基于全局信息预测的图像。
[0030]
进一步地,所述第一处理模块中,坐标注意力模块的具体处理过程为:
[0031]
对于给定输入特征图x,使用两个空间范围的池化内核(h,1)和(1,w)分别沿水平坐标和垂直坐标对每个通道进行编码;
[0032]
高度h处的第c个通道的输出表示为:
[0033][0034]
宽度为w的第c个通道的输出表示为:
[0035][0036]
上述两个变换分别沿两个空间方向聚合特征,产生一对方向感知特征图和使得坐标注意力模块块沿一个空间方向捕获远程依赖关系,并沿另一个空间方向保留精确的位置信息。
[0037]
进一步地,所述多层卷积注意力模块包括通道注意力mc(f)和空间注意力ms(f);
[0038]
所述通道注意力mc(f)利用特征的通道间关系来生成通道注意图,同时使用最大池化和平均池化聚合特征图的空间信息,然后将两个池化结果转发到共享网络mlp以生成通道注意力图,使用逐元素求和来合并输出特征向量;
[0039]
所述空间注意力ms(f)利用特征的空间关系生成空间注意力图,编码要强调或抑制的位置,通过使用平均池化和最大池化两个池化操作聚合特征图的通道信息,生成两个二维图像,分别表示通道中的平均池化特征和最大池化特征;然后将它们连接起来并通过标准卷积层进行卷积,生成二维空间注意力图。
[0040]
进一步地,所述第二处理模块中,fpn通过concat方式将上一维度的特征图上采样并裁剪维度,并与下一维度的特征图在空间和维度匹配后进行拼接。
[0041]
进一步地,所述训练样本处理模块还用于,对所述乘客不安全行为数据集进行mosaic数据增强,随机选择数据集中4张图片,对其进行随机裁剪、缩放、旋转操作,以第一张输入图片尺寸的1/3-3/2范围内随机选择一点作为中心点拼接,合成1张图像。
[0042]
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0043]
1、通过在卷积神经网络的主干网络部分引入坐标注意力模块(ca)保持长距离特征提取后像素之间的依赖关系,建立被被遮挡的人体部位在水平和垂直方向上空间关系,ca缓解了远距离特征提取后特征位置上下文信息丢失的问题,这对网络定位被遮挡的部位信息有所帮助;通过多层卷积注意力模块(c3cbam)提高特征图在局部的通道注意力和空间
注意力,强化图片中被遮挡的人体部位信息,使之成为网络注意力聚焦的信息;c3cbam增强了ca提供的被遮挡部位的位置信息在通道和空间上的注意力,结合特征位置信息提高生成预测目标框时小目标和遮挡目标的关注度,有效反馈出被遮挡部位的位置和通道,提高网络对被遮挡目标的检测性能。
[0044]
2、通过在卷积神经网络的neck部分使用fpn和pan的结构,fpn层自顶向下传达强语义特征,高层语义是经过特征提取后得到的特征信息,感受野较大,提取的特征抽象,有利于物体的分类,但会丢失细节信息,不利于精确分割。高层语义特征是抽象的特征。而特征金字塔则自底向上传达强定位特征,两两联手,从不同的主干层对不同的检测层进行参数聚合,进一步提高特征提取的能力。
[0045]
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
[0046]
下面参照附图结合实施例对本发明作进一步的说明。
[0047]
图1为本发明实施例的网络整体结构示意图;
[0048]
图2为本发明实施例坐标注意力模块(ca)示意图;
[0049]
图3为本发明实施例多层卷积注意力模块(c3cbam)结构示意图;
[0050]
图4本发明实施例多尺度特征融合示意图;
[0051]
图5为本发明实施例一中方法中的流程图;
[0052]
图6为本发明实施例二中装置的结构示意图。
具体实施方式
[0053]
本发明实施例通过提供一种基于全局信息的扶梯场景中乘客行为检测方法及装置,实现对扶梯场景中存在遮挡问题的乘客行为检测的优化,提高模型对重叠目标的注意力,从全局信息获取注意力目标,提高检测的识别率和准确性。
[0054]
本发明实施例中的技术方案,总体思路如下:
[0055]
获取扶梯中乘客不安全行为数据集;标注数据集中不安全行为行为的类别,位置,生成对应标签集;创建目标检测模型,以数据集和标签集作为卷积神经网络输入提取图像高级语义特征,并通过多层卷积注意力模块保留特征图之间的空间关系;将高级语义特征图作为坐标注意力模块的输入,建模特征图的远程依赖关系;通过多尺度特征融合输出预测图像,即可获得训练好的全局信息的扶梯场景中乘客行为的检测模型。本发明的优点在于坐标注意力模块和多层卷积注意力模块的结合能反应感兴趣处的信息和位置,用于增强网络对被遮挡目标的部分身体信息的识别能力,构建被遮挡目标与遮挡目标位置信息的远程依赖,缓解了前景目标抑制被遮挡目标的问题,改善扶梯场景下目标重叠的造成的目标遗漏问题,进而提高了检测精确度。
[0056]
检测模型的训练步骤如下:
[0057]
s1、获取扶梯中乘客不安全行为数据集,包括乘客跌倒、逆行,攀爬扶梯等不安全行为图像;标注出所述数据集以及按不安全行为的类别以及位置,生成标注图像集。
[0058]
为了扩充训练样本,可以对数据集进行mosaic数据增强,随机选择数据集中4张图片,对其进行了随机裁剪、缩放、旋转等操作,以第一张输入图片尺寸的1/3-1/2范围内随机选择一点作为中心点拼接,合成1张图像。
[0059]
s2、创建目标检测模型,模型的整体结构示意图可以如图1所示,以标注图像集作为目标检测模型的训练样本输入。
[0060]
s3、通过卷积神经网络(比如yolov5)对所述标注图像集的每个训练样本进行训练,backbone部分提取样本每一处的特征信息,以2倍率向下缩减5次图像尺寸,从64维度以2倍率增加4次图像维度,生成20
×
20
×
1024的高维语义特征图,通过坐标注意力模块(coordinate attention)对高维语义特征图的水平和垂直两个方向的信息全局编码,对相邻像素点之间构建远程依赖关系,得到全局信息特征图。
[0061]
如图2所示,步骤s3的执行流程可以如下:
[0062]
s31、输入二维特征图;
[0063]
s32、使用自适应池化操作分别沿水平坐标方向和垂直坐标方向对每个通道进行池化,两个方向的变换产生一对方向感知特征图;
[0064]
给定特征图f∈r
c*h*w
作为输入,缩小到1/2(h
×
w)大小,再还原特征图大小,缩小感受野,扩大卷积核再特征图上滑过的区域;对输入的特征图同时运用最大池化和平均池化操作,对特征图空间上的信息进行压缩,通过池化操作生成的特征信息通过共享网络,生成关于通道方向上的注意力图mc∈r
c*1*1
;最后送入共享网络的两个池化特征再进行逐元素求和,其生成的特征向量即为通道注意力图mc(f),计算方式如下:
[0065][0066]
其中,f表示输入的特征图,avgpool表示平均池化操作,maxpool表示最大池化操作,mlp表示多层感知机,且两个ml共享p权重w0和w1,w0∈r
c/r*c
,w1∈r
c*r/c
σ,σ表示sigmoid函数,表示通道方向上平均池化操作后生成的特征图,表示通道方向上最大池化操作后生成的特征图。
[0067]
空间注意力利用特征的空间关系生成空间注意力图,编码了要强调或抑制的位置,空间注意力集中在“哪里”是一个信息部分,这是对通道注意力的补充;通过使用平均池化和最大池化两个池化操作聚合特征图的通道信息,生成两个二维图像,分别表示通道中的平均池化特征和最大池化特征;然后将它们连接起来并通过标准卷积层进行卷积,生成二维空间注意力图;计算方式如下:
[0068][0069]
其中,mc(f)为通道注意力图,7*7表示需要进行大小为7
×
7的卷积计算,表示空间方向上平均池化操作后生成的特征图,表示空间方向上最大池化操作后生成的特征图。
[0070]
s33、对两个方向感知特征图拼接进行卷积;
[0071]
s34、经过归一层和非线性映射激活函数;
[0072]
s35、对特征图分割开来分别进行卷积,也就是同时在水平和垂直方向对特征图中感兴趣区域进行关注;
[0073]
s36、最后进入sigmoid激活函数,生成全局信息特征图。
[0074]
通过卷积神经网络对所述标注图像集逐层提取特征信息,缩小图像尺寸,加深图像维度,同时使用最大池输出和平均池聚合特征图的空间信息,然后将两个池化结果转发到共享网络以生成通道注意力图,使用逐元素求和来合并输出特征向量,通过坐标注意力模块对高维语义特征图的空间信息进行全局编码,对像素点之间的远程依赖建模。
[0075]
s4、neck部分由panet和fpn网络组成,通过panet自下而上的对所述全局信息特征图上采样融合多个低维度特征图,增加每个维度上特征信息的表达,再通过多层卷积注意力模块(c3cbam)融合坐标注意力特征图在空间与通道上的特征信息。fpn自下而上的对panet的输出特征图与多个高维特征图再次融合得到三种维度特征图,分别为80
×
80
×
256、40
×
40
×
512、20
×
20
×
1024。
[0076]
如图4所示,步骤s4的执行流程可以如下:
[0077]
s41、获取backbone的全局信息特征图作为panet中的输入;
[0078]
s42、将输入的高维特征图p3经过一次上采样扩大空间尺度,缩减维度数量,和40
×
40
×
512维度特征图匹配后进行维度拼接,经过多层卷积注意力模块(c3cbam)完成特征融合,生成中维特征融合图p2;
[0079]
s43、中维特征图p2继续上采样与80
×
80
×
256维度特征图匹配后融合,生成低维特征图融合图p1;
[0080]
s44、特征图p1作为fpn的输入f1,进行下采样缩小空间尺度,扩大维度后与特征图p2进行特征融合,生成中尺度预测输出特征图f2;
[0081]
s45、将特征图f2进行下采样缩小空间尺度,扩大维度后与特征图p3行特征融合,生成特征图f3。
[0082]
其中,如图3所示,步骤s42中的多层卷积注意力模块(c3cbam)的处理过程包括:
[0083]
s421、将给定特征图作为输入,缩小到1/2大小,再还原特征图大小,缩小感受野,扩大卷积核在特征图上滑过的区域;对输入的特征图同时运用全局最大池化和全局平均池化操作,对特征图空间上的信息进行压缩,通过池化操作生成的特征信息通过共享网络,生成关于通道方向上的注意力图;最后送入共享网络的两个池化特征再进行拼接,其生成的特征向量经过卷积和激活后即为通道的注意力图;
[0084]
s422、通道注意力模块沿着通道轴按行向量求每一行的平均值和最大值进行空间池化,并被一个7
×
7的标准卷积层卷积、归一化和激活后,与通道注意力图进行残差连接,生成的特征图即为多层卷积注意力(c3cbam)特征图。
[0085]
panet自下而上的对全局信息特征图上采样融合多个低维度特征图增加每个维度上特征信息的表达,通过多层卷积注意力生成的高维语义特征图有效反应出特征图中什么信息是感兴趣和感兴趣的区域在哪里。
[0086]
s5、通过多尺度特征融合低维特征图和高维特征图再通过卷积神经网络输出基于全局信息预测的图像。head部分对fpn的三个结果可以经过一个1
×1×
(5+识别类别总量)
×
3的卷积,输出预测结果。
[0087]
实施例一
[0088]
本实施例提供一种基于全局信息的扶梯场景中乘客行为检测方法,如图5所示,包括;
[0089]
步骤10、获取扶梯中乘客不安全行为数据集,标注出数据集中不安全行为的类别以及位置,生成标注图像数据集;
[0090]
步骤20、创建目标检测模型,以标注图像数据集作为目标检测模型的训练样本输入;
[0091]
步骤30、在卷积神经网络的backbone部分对所述标注图像数据集逐层提取特征信息,通过缩小图像尺寸并加深图像维度,生成高维语义特征图;通过坐标注意力模块对所述高维语义特征图的水平和垂直两个方向的信息进行全局编码,对相邻像素点之间构建远程依赖关系,得到全局信息特征图;
[0092]
步骤40、在卷积神经网络的neck部分通过panet自下而上的对所述全局信息特征图上采样融合多个低维度特征图,增加每个维度上特征信息的表达,再通过多层卷积注意力模块融合坐标注意力特征图在空间与通道上的特征信息;通过fpn自下而上的对panet的输出特征图与多个高维特征图再次融合得到包括低维特征图、中维特征图和高维特征图的多个维度特征图;
[0093]
步骤50、在卷积神经网络的head部分通过多尺度特征融合多个维度特征图再通过卷积神经网络输出基于全局信息预测的图像。
[0094]
在一种可能的实现方式中,所述步骤30中,坐标注意力模块的具体处理过程为:
[0095]
对于给定输入特征图x,使用两个空间范围的池化内核(h,1)和(1,w)分别沿水平坐标和垂直坐标对每个通道进行编码;
[0096]
高度h处的第c个通道的输出表示为:
[0097][0098]
宽度为w的第c个通道的输出表示为:
[0099][0100]
上述两个变换分别沿两个空间方向聚合特征,产生一对方向感知特征图和使得坐标注意力模块块沿一个空间方向捕获远程依赖关系,并沿另一个空间方向保留精确的位置信息。
[0101]
所述步骤40中,多层卷积注意力模块包括通道注意力mc(f)和空间注意力ms(f);
[0102]
所述通道注意力mc(f)利用特征的通道间关系来生成通道注意图,同时使用最大池化和平均池化聚合特征图的空间信息,然后将两个池化结果转发到共享网络mlp以生成通道注意力图,使用逐元素求和来合并输出特征向量;
[0103]
所述空间注意力ms(f)利用特征的空间关系生成空间注意力图,编码要强调或抑制的位置,通过使用平均池化和最大池化两个池化操作聚合特征图的通道信息,生成两个二维图像,分别表示通道中的平均池化特征和最大池化特征;然后将它们连接起来并通过标准卷积层进行卷积,生成二维空间注意力图。
[0104]
所述步骤40中,fpn通过concat方式将上一维度的特征图上采样并裁剪维度,并与
下一维度的特征图在空间和维度匹配后进行拼接。
[0105]
所述步骤10还包括,对所述乘客不安全行为数据集进行mosaic数据增强,随机选择数据集中4张图片,对其进行随机裁剪、缩放、旋转操作,以第一张输入图片尺寸的1/3-3/2范围内随机选择一点作为中心点拼接,合成1张图像。
[0106]
基于同一发明构思,本技术还提供了与实施例一中的方法对应的装置,详见实施例二。
[0107]
实施例二
[0108]
在本实施例中提供了一种基于全局信息的扶梯场景中乘客行为检测装置,如图6所示,包括:训练样本处理模块、模型创建模块、第一处理模块、第二处理模块以及第三处理模块;
[0109]
所述训练样本处理模块,用于获取扶梯中乘客不安全行为数据集,标注出数据集中不安全行为的类别以及位置,生成标注图像数据集;
[0110]
所述模型创建模块,用于创建目标检测模型,以标注图像数据集作为目标检测模型的训练样本输入;
[0111]
所述第一处理模块,用于在卷积神经网络的backbone部分对所述标注图像数据集逐层提取特征信息,通过缩小图像尺寸并加深图像维度,生成高维语义特征图;通过坐标注意力模块对所述高维语义特征图的水平和垂直两个方向的信息进行全局编码,对相邻像素点之间构建远程依赖关系,得到全局信息特征图;
[0112]
所述第二处理模块,用于在卷积神经网络的neck部分通过panet自下而上的对所述全局信息特征图上采样融合多个低维度特征图,增加每个维度上特征信息的表达,再通过多层卷积注意力模块融合坐标注意力特征图在空间与通道上的特征信息;通过fpn自下而上的对panet的输出特征图与多个高维特征图再次融合得到包括低维特征图、中维特征图和高维特征图的多个维度特征图;
[0113]
所述第三处理模块,在卷积神经网络的head部分通过多尺度特征融合多个维度特征图再通过卷积神经网络输出基于全局信息预测的图像。
[0114]
在一种可能的实现方式中,所述第一处理模块中,坐标注意力模块的具体处理过程为:
[0115]
对于给定输入特征图x,使用两个空间范围的池化内核(h,1)和(1,w)分别沿水平坐标和垂直坐标对每个通道进行编码;
[0116]
高度h处的第c个通道的输出表示为:
[0117][0118]
宽度为w的第c个通道的输出表示为:
[0119][0120]
上述两个变换分别沿两个空间方向聚合特征,产生一对方向感知特征图和使得坐标注意力模块块沿一个空间方向捕获远程依赖关系,并沿另一个空间方向保留精确的位置信息。
[0121]
所述多层卷积注意力模块包括通道注意力mc(f)和空间注意力ms(f);
[0122]
所述通道注意力mc(f)利用特征的通道间关系来生成通道注意图,同时使用最大池化和平均池化聚合特征图的空间信息,然后将两个池化结果转发到共享网络mlp以生成通道注意力图,使用逐元素求和来合并输出特征向量;
[0123]
所述空间注意力ms(f)利用特征的空间关系生成空间注意力图,编码要强调或抑制的位置,通过使用平均池化和最大池化两个池化操作聚合特征图的通道信息,生成两个二维图像,分别表示通道中的平均池化特征和最大池化特征;然后将它们连接起来并通过标准卷积层进行卷积,生成二维空间注意力图。
[0124]
所述第二处理模块中,fpn通过concat方式将上一维度的特征图上采样并裁剪维度,并与下一维度的特征图在空间和维度匹配后进行拼接。
[0125]
所述训练样本处理模块还用于,对所述乘客不安全行为数据集进行mosaic数据增强,随机选择数据集中4张图片,对其进行随机裁剪、缩放、旋转操作,以第一张输入图片尺寸的1/3-3/2范围内随机选择一点作为中心点拼接,合成1张图像。
[0126]
由于本发明实施例二所介绍的装置,为实施本发明实施例一的方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
[0127]
本发明通过在卷积神经网络的主干网络部分引入坐标注意力模块(ca)保持长距离特征提取后像素之间的依赖关系,建立被被遮挡的人体部位在水平和垂直方向上空间关系,ca缓解了远距离特征提取后特征位置上下文信息丢失的问题,这对网络定位被遮挡的部位信息有所帮助;通过多层卷积注意力模块(c3cbam)提高特征图在局部的通道注意力和空间注意力,强化图片中被遮挡的人体部位信息,使之成为网络注意力聚焦的信息;c3cbam增强了ca提供的被遮挡部位的位置信息在通道和空间上的注意力,结合特征位置信息提高生成预测目标框时小目标和遮挡目标的关注度,有效反馈出被遮挡部位的位置和通道,提高网络对被遮挡目标的检测性能。通过在卷积神经网络的neck部分使用fpn和pan的结构,fpn层自顶向下传达强语义特征,高层语义是经过特征提取后得到的特征信息,感受野较大,提取的特征抽象,有利于物体的分类,但会丢失细节信息,不利于精确分割。高层语义特征是抽象的特征。而特征金字塔则自底向上传达强定位特征,两两联手,从不同的主干层对不同的检测层进行参数聚合,进一步提高特征提取的能力。
[0128]
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0129]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0130]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0131]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0132]
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1