一种基于视频监控的违规丢地垃圾检测方法与流程

文档序号:31529490发布日期:2022-09-14 18:03阅读:151来源:国知局
一种基于视频监控的违规丢地垃圾检测方法与流程

1.本发明涉及智能视频监控技术领域,具体涉及一种基于视频监控的违规丢地垃圾检测方法。


背景技术:

2.垃圾分类站点中违规丢地垃圾是指不按要求投进站点内相应的垃圾桶中而是直接丢弃在垃圾分类站点附近地面上的垃圾。此类违规丢地的垃圾普遍存在于各个社区中的垃圾分类站点,这种现象不仅与垃圾分类站点设立的目的背道而驰,而且垃圾大量堆积容易滋生病菌,对社区卫生安全埋下隐患。因此,对垃圾分类站点实施智能监控,及时对违规丢地垃圾进行抓拍并现场语音提醒是社区卫生安全的重要基础,可有效提高社区垃圾管理及处理的效率与服务质量。
3.目前使用最广泛的监管方式仍然是传统的人工监督方式。需要指定专门的工作人员到社区中各垃圾分类站点进行人为监督。此方法虽然实施简单,无需依靠各类设备,但垃圾分类站点数量庞大,其人力成本过高,难以覆盖所有社区。同时,工作人员难以做到24小时对垃圾分类站点进行监管,难以维持监管的及时性。人工监督方式往往过度依赖于工作人员的工作态度,主观性强,也是导致其监管效能低下的局限之一。
4.基于静态边缘的遗留物检测算法在垃圾检测中也有应用。其通过对视频帧建立基于边缘的背景模型以获取场景中静止前景物体的边缘掩膜,并以时间积累作为特征以检测前景物体的静态边缘,再对检测到的稳定边缘进行聚类,以获取遗留于场景中垃圾的边界框。然而,这种方法算法流程复杂,计算量庞大,在算力较低的边缘设备上难以实现实时性检测,且易受光照变化的影响,误报率高,不适用于实际应用和推广。不仅如此,该方法仅能够识别出遗留于场景中的物体,而并非直接检测出违规丢地垃圾,在实际应用于垃圾分类站点场景时,容易导致大量误检。
5.基于目标检测的垃圾识别系统,通过将目标检测模型,如yolo(you only look once),ssd(single shot detector)部署于边缘设备对垃圾进行检测,该类方法识别率有所提升,但多应用于诸如河道,街道等干扰较少的开放场景中。而垃圾分类站点场景中,需要将违规丢地的垃圾以及非违规垃圾(如人正在投放的垃圾或者手持的垃圾)进行区分,而上述单纯的目标检测算法无法将二者区分出来,因此无法应用于垃圾分类站点场景中对违规丢地垃圾的检测。


技术实现要素:

6.针对现有技术中的上述不足,本发明提供的一种基于视频监控的违规丢地垃圾检测方法解决了以下问题:
7.1、现有检测方法检测准确率低;
8.2、现有检测方法无法将违规丢地的垃圾以及非违规垃圾进行区分。
9.为了达到上述发明目的,本发明采用的技术方案为:一种基于视频监控的违规丢
地垃圾检测方法,包括以下步骤:
10.s1、采用目标检测器检测出视频中的垃圾目标框;
11.s2、对垃圾目标的运动轨迹进行跟踪,得到垃圾目标框的跟踪框;
12.s3、根据垃圾目标框的跟踪框在连续视频帧中的静止程度,检测出违规丢弃的垃圾。
13.进一步地,所述步骤s1中目标检测器包括:输入端、backbone模块、neck模块和输出端;
14.所述backbone模块包括:focus层、第一cbl层、csp1_1层、第二cbl层、第一csp1_3层、第三cbl层、第一cbam层、第二csp1_3层、第二cbam层、第四cbl层、第五cbl层、spp层、第六cbl层和第三cbam层;
15.所述focus层的输入端作为backbone模块的输入端,其输出端与第一cbl层的输入端连接;所述第一cbl层的输出端与csp1_1层的输入端连接;所述csp1_1层的输出端与第二cbl层的输入端连接;所述第二cbl层的输出端与第一csp1_3层的输入端连接;所述第一csp1_3层的输出端与第三cbl层的输入端连接;所述第三cbl层的输出端与第一cbam层的输入端连接;所述第一cbam层的输出端与第二csp1_3层的输入端连接,并作为backbone模块的第一输出端;所述第二csp1_3层的输出端与第二cbam层的输入端连接;所述第二cbam层的输出端与第四cbl层的输入端连接,并作为backbone模块的第二输出端;所述第四cbl层的输出端与第五cbl层的输入端连接;所述第五cbl层的输出端与spp层的输入端连接;所述spp层的输出端与第六cbl层的输入端连接,所述第六cbl层的输出端与第三cbam层的输入端连接;所述第三cbam层的输出端作为backbone模块的第三输出端;所述backbone模块的第一输出端、backbone模块的第二输出端和backbone模块的第三输出端依次与neck模块的三个输入端连接。
16.进一步地,所述neck模块包括3个bifpn层。
17.上述进一步方案的有益效果为:在垃圾分类站点场景下,违规丢地垃圾的位置往往分布不均,倾向于集中在一处,本发明通过引入cbam层重新构建backbone,对模型生成的中间特征图进了重构,将权重分布集中到特征图中垃圾聚集的位置,能更好地适应垃圾分类站点场景下对丢地垃圾的检测任务,可以显著提高准确率。同时还以加权双向特征金字塔网络bifpn构建检测器的neck部分,对backbone提取到的三个不同尺度的特征进行加权多尺度特征融合,进一步加强了检测器的特征检测能力。
18.进一步地,所述步骤s1中目标检测器的损失函数为:
[0019][0020]
其中,l1为目标检测器的损失函数,iou为真实框与预测框的交并比,ρ2(b,b
gt
)为预测框的中心点b与真实框中心点b
gt
的平方欧式距离,c为真实框与预测框最小封闭矩形的对角线长度,ρ2(w,w
gt
)为预测框的宽度w与真实框的宽度w
gt
的平方欧式距离,ρ2(h,h
gt
)为预测框的高度h与真实框的高度h
gt
的平方欧式距离,cw为真实框与预测框最小封闭矩形的宽,ch为真实框与预测框最小封闭矩形的高。
[0021]
上述进一步方案的有益效果为:该损失函数同时考虑到了三个重要的几何因素,
预测框与真实值之间的相交面积,中心点之间的距离以及纵横比。并将预测值与真实值之间的纵横比差异进行了具体的定义,避免了当预测值与真实值的长,宽值不同但因纵横比相同导致的纵横比差异也相同的极端情况,并且能够更加直接将真实值与预测值之间的宽高差进行最小化,从而使得模型的收敛速度更快,定位效果更好。
[0022]
进一步地,所述步骤s2包括以下分步骤:
[0023]
s21、将目标检测器首次检测到的垃圾目标框初始化为对应目标的轨迹;
[0024]
s22、采用卡尔曼滤波预测目标的轨迹在下一帧中的状态,得到预测轨迹;
[0025]
s23、计算目标检测器在当前帧中得到的垃圾目标框与预测轨迹的diou值;
[0026]
s24、根据diou值,构建第一代价矩阵;
[0027]
s25、根据第一代价矩阵,对当前帧的垃圾目标框与上一帧中预测轨迹进行线性匹配,删除匹配失败的预测轨迹,并为匹配失败的垃圾目标框建立待确认轨迹,将待确认轨迹作为目标的轨迹,并跳转至步骤s22中;
[0028]
s26、在步骤s25中连续多次匹配成功时,得到确认轨迹;
[0029]
s27、根据确认轨迹和当前帧的垃圾目标框的运动信息及外观信息,构建第二代价矩阵;
[0030]
s28、根据第二代价矩阵,对当前帧的垃圾目标框与确认轨迹进行级联匹配,在匹配失败时,将确认轨迹作为预测轨迹,并跳转至步骤s23中;
[0031]
s29、在匹配成功时,将匹配成功的确认轨迹作为垃圾目标框的跟踪框。
[0032]
进一步地,所述步骤s23中计算垃圾目标框与预测轨迹的diou值的公式为:
[0033][0034]
其中,s
diou
为垃圾目标框与预测轨迹的diou值,sa为垃圾目标框的面积,sb为预测轨迹的面积,c
*
为预测轨迹与垃圾目标框的最小封闭矩形的对角线长度,ρ2(b

,b
gt

)为预测轨迹的中心点b

与垃圾目标框的中心点b
gt

的平方欧式距离。
[0035]
上述进一步方案的有益效果为:同时考虑了目标框与预测轨迹之间的交并比、中心点距离以及纵横比,在垃圾分类站点场景下,违规丢地垃圾聚集处,目标重叠现象严重,以diou计算代价矩阵,能够有效提升其追踪效果。
[0036]
进一步地,所述步骤s27中计算第二代价矩阵的公式为:
[0037][0038]
其中,c
i,j
为当前帧中第i条确认轨迹与第j个垃圾目标框之间的第二代价矩阵,λ为关联权重参数,dj为第j个垃圾目标框的位置,yi为第i条确认轨迹对垃圾目标的预测位置,rj为第j个垃圾目标框通过残差卷积神经网络所提取的用以描述外观信息的128维特征描述子,ri是第i个跟踪框最近匹配成功的100个特征描述子集,为第i个跟踪框最近匹配成功的特征描述子集ri中的第k个特征描述子,s
i,j
为第j个目标框与第i条确认轨迹对垃圾目标的预测位置的协方差矩阵,t为矩阵的转置。
[0039]
进一步地,所述残差卷积神经网络的损失函数为:
[0040][0041]
其中,l2为残差卷积神经网络的损失函数,nb为一个批次中的样本数量,yi为一个批次中第i个样本所属类别,h
l
为残差卷积神经网络输出的特征向量中第l类的分量,为残差卷积神经网络输出的特征向量中第i个样本所属类别yi的分量,γ为平衡权重参数,xi为输入残差卷积神经网络的第i个样本的图像特征,为类别yi的特征中心,为二范数平方。
[0042]
上述进一步方案的有益效果为:在连续视频帧中,角度变化,遮挡等问题可能造成目标垃圾形态的变化,导致类内差异较大,该损失函数在考虑了类间差异的同时,减小了类内差异,提升了网络对目标垃圾特征的辨别能力,以此提高对目标垃圾的跟踪效果。
[0043]
进一步地,所述步骤s3包括以下分步骤:
[0044]
s31、对每个垃圾目标分配一个id,以在连续视频帧中唯一标识该目标,并为其设置运动状态标签,初值为1;
[0045]
s32、每10帧获取一次视频中跟踪框的坐标信息,计算同一id所对应的跟踪框每10帧之间的交并比;
[0046]
s33、判断步骤s32中交并比是否小于第一交并比阈值,若是,则垃圾目标发生了位移,对该跟踪框的运动状态标签赋予1,对该垃圾目标的静态分数sc赋予惩罚值p,若否,则垃圾目标保持静止,对该跟踪框的运动状态标签赋予0,该垃圾目标的静态分数sc赋予奖励值b;
[0047]
s33、判断该跟踪框的运动状态标签与上次记录的运动状态标签是否不同,若是,对该跟踪框的运动状态标签赋予2,若否,保持其运动状态标签不变;
[0048]
s34、判断步骤s33中跟踪框此前状态标签是否为1,若是,对该跟踪框的静态分数sc继续赋予惩罚值p,若为0,则将该跟踪框的静态分数sc置0;
[0049]
s35、判断运动状态标签为0的跟踪框的静态分数是否大于分数阈值,若是,则跳转至步骤s36,若否,则跳转至步骤s32,对下一帧视频进行处理;
[0050]
s36、计算该id的垃圾目标当前帧的跟踪框与该id的垃圾目标首次被跟踪到的跟踪框之间的交并比;
[0051]
s37、判断步骤s36中的交并比是否小于第二交并比阈值,若是,则该垃圾目标为刚丢弃的违规垃圾,若否,该垃圾目标为历史丢弃的违规垃圾。
[0052]
上述进一步方案的有益效果为:本发明为场景中每一个检测到的垃圾分配了id以在连续视频帧中唯一标识该目标。为了从检测出的所有垃圾目标中,筛选出违规丢地垃圾,本发明以其在连续视频帧中的静止程度为特征,设定阈值,当且仅当其静止程度大于相应阈值时,将其判定为违规丢地垃圾,并进行抓拍及提示。
[0053]
综上,本发明的有益效果为:
[0054]
1、本发明在目标检测器中加入cbam注意力机制模块,使得权重分布集中到特征图中垃圾聚集的位置,提高违规丢地垃圾的检测准确度,同时以加权双向特征金字塔网络bifpn构建检测器的neck部分,对backbone提取到的三个不同尺度的特征进行加权多尺度
特征融合,加强了检测器的特征检测能力。
[0055]
2、本发明采用l1作为模型的损失函数,加快了模型在训练中的收敛速度,并获得了更准确的目标定位效果。
[0056]
3、以l2作为垃圾重识别网络的损失函数,提升了模型对垃圾特征的辨别能力,以提升跟踪算法的效果。
[0057]
4、本发明在检测出垃圾目标框后,对垃圾目标的运动轨迹进行跟踪,找到垃圾目标框的跟踪框,根据跟踪框的静止程度,判定其是否为违规丢地的垃圾,又根据当前跟踪框与垃圾目标首次被跟踪到的跟踪框之间的交并比,进一步的确定,其为刚丢弃的垃圾或历史丢弃的垃圾。
附图说明
[0058]
图1为一种基于视频监控的违规丢地垃圾检测方法的流程图;
[0059]
图2为目标检测器的结构示意图;
[0060]
图3为目标检测器的检测效果图;
[0061]
图4为连续视频帧中垃圾跟踪效果示意图;
[0062]
图5为违规丢地垃圾检测最终效果示意图。
具体实施方式
[0063]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0064]
如图1所示,一种基于视频监控的违规丢地垃圾检测方法,包括以下步骤:
[0065]
s1、采用目标检测器检测出视频中的垃圾目标框;
[0066]
因为垃圾分类站点中的违规丢地垃圾往往长期存在于场景中,为了避免重复抓拍,造成计算资源浪费,目标检测器还将同时对人进行检测,仅当监控画面中检测出人时,才进入违规丢地垃圾的检测流程,否则进入休眠状态,以节省计算资源、降低系统功耗。
[0067]
目标检测器需先采用图像训练集进行训练,训练完成后的目标检测器为步骤s1中使用的目标检测器。
[0068]
本发明设置输入图片尺寸为640
×
640,输出类别为2(人和垃圾,其中人的检测仅作为触发的条件)。为了使目标检测器在各时间段(白天,夜晚),各天气场景下(雨天,雾天等)具有更好的鲁棒性,采集了真实场景下各个时间段,各类天气条件下,各种角度的监控视频帧约20000张进行人工标注,采用随机裁剪,水平翻转,马赛克数据增强等方式对其进行数据增强以作为训练集。
[0069]
在训练集基础上,人工对训练集进行筛选以及裁剪,并使用水平翻转,随机裁剪,随机调整hsv参数等方式对其进行数据增强,制成垃圾重识别训练数据集用于后续残差卷积神经网络的训练。
[0070]
如图2所示,步骤s1中目标检测器包括:输入端、backbone模块、neck模块和输出端;
[0071]
所述backbone模块包括:focus层、第一cbl层、csp1_1层、第二cbl层、第一csp1_3层、第三cbl层、第一cbam层、第二csp1_3层、第二cbam层、第四cbl层、第五cbl层、spp层、第六cbl层和第三cbam层;
[0072]
所述focus层的输入端作为backbone模块的输入端,其输出端与第一cbl层的输入端连接;所述第一cbl层的输出端与csp1_1层的输入端连接;所述csp1_1层的输出端与第二cbl层的输入端连接;所述第二cbl层的输出端与第一csp1_3层的输入端连接;所述第一csp1_3层的输出端与第三cbl层的输入端连接;所述第三cbl层的输出端与第一cbam层的输入端连接;所述第一cbam层的输出端与第二csp1_3层的输入端连接,并作为backbone模块的第一输出端;所述第二csp1_3层的输出端与第二cbam层的输入端连接;所述第二cbam层的输出端与第四cbl层的输入端连接,并作为backbone模块的第二输出端;所述第四cbl层的输出端与第五cbl层的输入端连接;所述第五cbl层的输出端与spp层的输入端连接;所述spp层的输出端与第六cbl层的输入端连接,所述第六cbl层的输出端与第三cbam层的输入端连接;所述第三cbam层的输出端作为backbone模块的第三输出端;所述backbone模块的第一输出端、backbone模块的第二输出端和backbone模块的第三输出端依次与neck模块的三个输入端连接。
[0073]
本发明考虑到垃圾分类站点场景下,违规丢地垃圾的位置往往分布不均,倾向于集中在一处,cbam层的引入,将模型生成的中间特征图进行了重构,将权重分布集中到特征图中垃圾聚集的位置,相较于原始模型更加适应于垃圾分类站点场景下对丢地垃圾的检测任务。
[0074]
所述neck模块包括3个bifpn层。本发明通过用加权双向特征金字塔网络bifpn来构建检测器的neck部分,进行加权多尺度特征融合,增强了检测器的特征检测能力。
[0075]
所述步骤s1中目标检测器的损失函数为:
[0076][0077]
其中,l1为目标检测器的损失函数,iou为真实框与预测框的交并比,ρ2(b,b
gt
)为预测框的中心点b与真实框中心点b
gt
的平方欧式距离,c为真实框与预测框最小封闭矩形的对角线长度,ρ2(w,w
gt
)为预测框的宽度w与真实框的宽度w
gt
的平方欧式距离,ρ2(h,h
gt
)为预测框的高度h与真实框的高度h
gt
的平方欧式距离,cw为真实框与预测框最小封闭矩形的宽,ch为真实框与预测框最小封闭矩形的高。
[0078]
使用pytorch深度学习框架对上述目标检测器的网络结构进行搭建,并以采集的数据集进行训练,训练完成后,得到垃圾目标检测器,其检测效果如图3所示。
[0079]
s2、对垃圾目标的运动轨迹进行跟踪,得到垃圾目标框的跟踪框;
[0080]
在本实施例中,本发明对检测出的垃圾目标框的追踪过程如下:将目标检测器所输出的垃圾目标框作为输入,以8维状态空间描述某时刻所跟踪到的垃圾目标在场景下的运动状态,其中(u,v)为目标框的中心,是目标框的纵横比,h是目标框的高度,x
*
,y
*

*
,h
*
分别是其各自在图像坐标中的速度信息。
[0081]
所述步骤s2包括以下分步骤:
[0082]
s21、将目标检测器首次检测到的垃圾目标框初始化为对应目标的轨迹;
[0083]
s22、采用卡尔曼滤波预测目标的轨迹在下一帧中的状态,得到预测轨迹;
[0084]
s23、计算目标检测器在当前帧中得到的垃圾目标框与预测轨迹的diou值;
[0085]
所述步骤s23中计算垃圾目标框与预测轨迹的diou值的公式为:
[0086][0087]
其中,s
diou
为垃圾目标框与预测轨迹的diou值,sa为垃圾目标框的面积,sb为预测轨迹的面积,c
*
为预测轨迹与垃圾目标框的最小封闭矩形的对角线长度,ρ2(b

,b
gt

)为预测轨迹的中心点b

与垃圾目标框的中心点b
gt

的平方欧式距离。
[0088]
s24、根据diou值,构建第一代价矩阵;
[0089]
s25、根据第一代价矩阵,对当前帧的垃圾目标框与上一帧中预测轨迹进行线性匹配,删除匹配失败的预测轨迹,并为匹配失败的垃圾目标框建立待确认轨迹,将待确认轨迹作为目标的轨迹,并跳转至步骤s22中;
[0090]
s26、在步骤s25中连续多次匹配成功时,得到确认轨迹;
[0091]
s27、根据确认轨迹和当前帧的垃圾目标框的运动信息及外观信息,构建第二代价矩阵;
[0092]
所述步骤s27中计算第二代价矩阵的公式为:
[0093][0094]
其中,c
i,j
为当前帧中第i条确认轨迹与第j个垃圾目标框之间的第二代价矩阵,λ为关联权重参数,dj为第j个垃圾目标框的位置,yi为第i条确认轨迹对垃圾目标的预测位置,rj为第j个垃圾目标框通过残差卷积神经网络所提取的用以描述外观信息的128维特征描述子,ri是第i个跟踪框最近匹配成功的100个特征描述子集,为第i个跟踪框最近匹配成功的特征描述子集ri中的第k个特征描述子,s
i,j
为第j个目标框与第i条确认轨迹对垃圾目标的预测位置的协方差矩阵,t为矩阵的转置。
[0095]
所述残差卷积神经网络的损失函数为:
[0096][0097]
其中,l2为残差卷积神经网络的损失函数,nb为一个批次中的样本数量,yi为一个批次中第i个样本所属类别,h
l
为残差卷积神经网络输出的特征向量中第l类的分量,为残差卷积神经网络输出的特征向量中第i个样本所属类别yi的分量,γ为平衡权重参数,xi为输入残差卷积神经网络的第i个样本的图像特征,为类别yi的特征中心,为二范数平方。
[0098]
在本实施例中,残差卷积神经网络的训练时,采用上述目标检测器的训练集的数据制作成垃圾重识别训练数据集,对残差卷积神经网络进行训练,能够更好地提取目标框的外观特征信息。
[0099]
s28、根据第二代价矩阵,对当前帧的垃圾目标框与确认轨迹进行级联匹配,在匹
配失败时,将确认轨迹作为预测轨迹,并跳转至步骤s23中;
[0100]
s29、在匹配成功时,将匹配成功的确认轨迹作为垃圾目标框的跟踪框。
[0101]
s3、根据垃圾目标框的跟踪框在连续视频帧中的静止程度,检测出违规丢弃的垃圾。
[0102]
所述步骤s3包括以下分步骤:
[0103]
s31、对每个垃圾目标分配一个id,以在连续视频帧中唯一标识该目标,并为其设置运动状态标签,初值为1;
[0104]
s32、每10帧获取一次视频中跟踪框的坐标信息,计算同一id所对应的跟踪框每10帧之间的交并比;
[0105]
s33、判断步骤s32中交并比是否小于第一交并比阈值,若是,则垃圾目标发生了位移,对该跟踪框的运动状态标签赋予1,对该垃圾目标的静态分数sc赋予惩罚值p,若否,则垃圾目标保持静止,对该跟踪框的运动状态标签赋予0,该垃圾目标的静态分数sc赋予奖励值b;
[0106]
s33、判断该跟踪框的运动状态标签与上次记录的运动状态标签是否不同,若是,对该跟踪框的运动状态标签赋予2,若否,保持其运动状态标签不变;
[0107]
s34、判断步骤s33中跟踪框此前状态标签是否为1,若是,对该跟踪框的静态分数sc继续赋予惩罚值p,若为0,则将该跟踪框的静态分数sc置0;
[0108]
s35、判断运动状态标签为0的跟踪框的静态分数是否大于分数阈值,若是,则跳转至步骤s36,若否,则跳转至步骤s32,对下一帧视频进行处理;
[0109]
s36、计算该id的垃圾目标当前帧的跟踪框与该id的垃圾目标首次被跟踪到的跟踪框之间的交并比;
[0110]
s37、判断步骤s36中的交并比是否小于第二交并比阈值,若是,则该垃圾目标为刚丢弃的违规垃圾,若否,该垃圾目标为历史丢弃的违规垃圾。
[0111]
图4为连续视频帧中垃圾跟踪效果示意图,图5为违规丢地垃圾检测最终效果示意图。
[0112]
本发明为场景中每一个检测到的垃圾分配了id,以在连续视频帧中唯一标识该目标。为了从检测出的所有垃圾目标中,筛选出违规丢地垃圾,本发明以其在连续视频帧中的静止程度为特征,设定阈值,当且仅当其静止程度大于该阈值时,将其判定为违规丢地垃圾,并进行抓拍及提示。
[0113]
若目标为刚丢弃于场景中的违规丢地垃圾,进行抓拍及现场语音提醒,否则为历史违规丢地的垃圾,进行抓拍并上传至服务器,并通知相关工作人员进行清理,筛选后的最终检测效果如图5所示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1