工地现场的安全帽佩戴检测方法、装置、设备和存储介质

文档序号:32508298发布日期:2022-12-10 06:51阅读:80来源:国知局
工地现场的安全帽佩戴检测方法、装置、设备和存储介质

1.本发明涉及视频识别技术领域,具体而言,涉及一种工地现场的安全帽佩戴检测方法、装置、设备和存储介质。


背景技术:

2.在先技术中,工地现场通过部署人员进行专门的安全监督,不仅难以保证全天候无死角的监督,而且成本较高。
3.安全帽的识别非常容易受镜头模糊、遮挡、人物相似度高、小目标等多种因素影响,导致现有的安全帽识别方法无法精确的定位目标位置,确定违规人员身份。此外,工地现场往往存在光线变化,物体遮挡,相似物干扰等因素,阻碍了智能安全帽检测的识别与预警在现实场景中的应用。
4.有鉴于此,申请人在研究了现有的技术后特提出本技术。


技术实现要素:

5.本发明提供了一种工地现场的安全帽佩戴检测方法、装置、设备和存储介质,以改善上述技术问题中的至少一个。
6.第一方面、
7.本发明实施例提供了一种工地现场的安全帽佩戴检测方法,其包含步骤s1至步骤s6。
8.s1、获取工人的当日外观信息,并和数据库中已有的外观信息组成施工人员查询数据集。其中,当日外观信息包括的面部信息和服饰信息,
9.s2、获取包含工人的监控视频。
10.s3、将监控视频输入预先训练好的安全帽检测模型,获取多组预测向量。
11.s4、根据多组预测向量,判断监控视频中的工人是否佩戴安全帽。
12.s5、当判断到监控视频中的工人未佩戴安全帽时,将监控视频输入预先训练好的施工人员识别模型,获取未佩戴安全帽的工人的特征向量。
13.s6、根据工人的特征向量和施工人员查询数据集,获取未佩戴安全帽的工人信息。
14.安全帽检测模型包括第一特征提取网络、特征金字塔网络和第一预测网络。第一特征提取网络,用于通过分割模块根据输入的监控视频获取32
×
320
×
320的第一输入向量。通过第一卷积模块和第一连接模块根据第一输入向量获取128
×
80
×
80的第一层输出向量。通过第二卷积模块和第二连接模块根据第一层输出向量获取256
×
40
×
40的第二层输出向量。通过第三卷积模块和第三连接模块根据第二层输出向量获取512
×
20
×
20的第三层输出向量。特征金字塔网络,用于通过第四卷积模块和第七连接模块根据第三层输出向量获取大小为512
×
20
×
20的第六层输出向量。通过第四卷积模块和第一采样模块根据第三层输出向量获取大小为256
×
40
×
40的第一中间向量,将第一中间向量和第二层输出向量进行通道维度的向量拼接,拼接后的向量通过第四连接模块、第五卷积模块和第六连
接模块获取大小为256
×
40
×
40的第五层输出向量。通过第四连接模块、第五卷积模块和第二采样模块根据第一中间向量获取大小为128
×
80
×
80的第二中间向量,将第二中间向量和第一层输出向量进行特征图拼接,拼接后的向量通过第五连接模块获取大小为128
×
80
×
80的第四层输出向量。第一预测网络,用于通过第一卷积分支根据第四层输出向量获取大小为24
×
80
×
80的第一预测向量。通过第二卷积分支根据第五层输出向量获取大小为24
×
40
×
40的第二预测向量。通过第三卷积分支根据第六层输出向量获取大小为24
×
20
×
20的第三预测向量。
15.施工人员识别模型包括第二特征提取网络、特征聚合网络和第二预测网络。第二特征提取网络,用于通过第一卷积层根据输入的监控视频获取大小为3
×
128
×
64的第一输出向量。通过第一池化层根据第一输出向量获取大小为3
×
64
×
32的第二输出向量。通过第八卷积模块根据第二输出向量获取大小为3
×
32
×
16的第三输出向量。通过第九卷积模块根据第三输出向量获取大小为3
×
16
×
8的第四输出向量。通过过第十卷积模块根据第四输出向量获取大小为3
×
16
×
8的第五输出向量。特征聚合网络,用于通过第一全局平均池化层根据第五输出向量获取大小为1
×
16
×
1的局部特征向量。通过第二卷积层根据第五输出向量获取大小为12
×
16
×
8的第三中间向量,然后通过第二全局平均池化层根据第三中间向量获取大小为12
×1×
1的全局特征向量。通过局部损失层将局部特征向量传递给全局特征向量获取大小为12
×1×
1的第六输出向量。第二预测网络,用于通过归一化层根据第六输出向量获取大小为12
×1×
1的第四中间向量。通过无偏置的分类器全连接层根据第四中间向量获取大小为12
×1×
1的工人的特征向量。
16.第二方面、
17.本发明实施例提供了一种工地现场的安全帽佩戴检测装置,其包含:
18.外观获取模块,用于获取工人的当日外观信息,并和数据库中已有的外观信息组成施工人员查询数据集。其中,当日外观信息包括的面部信息和服饰信息,
19.监控视频模块,用于获取包含工人的监控视频。
20.第一识别模块,用于将监控视频输入预先训练好的安全帽检测模型,获取多组预测向量。
21.第一判断模块,用于根据多组预测向量,判断监控视频中的工人是否佩戴安全帽。
22.第二识别模块,用于当判断到监控视频中的工人未佩戴安全帽时,将监控视频输入预先训练好的施工人员识别模型,获取未佩戴安全帽的工人的特征向量。
23.第二判断模块,用于根据工人的特征向量和施工人员查询数据集,获取未佩戴安全帽的工人信息。
24.安全帽检测模型包括第一特征提取网络、特征金字塔网络和第一预测网络。第一特征提取网络,用于通过分割模块根据输入的监控视频获取32
×
320
×
320的第一输入向量。通过第一卷积模块和第一连接模块根据第一输入向量获取128
×
80
×
80的第一层输出向量。通过第二卷积模块和第二连接模块根据第一层输出向量获取256
×
40
×
40的第二层输出向量。通过第三卷积模块和第三连接模块根据第二层输出向量获取512
×
20
×
20的第三层输出向量。特征金字塔网络,用于通过第四卷积模块和第七连接模块根据第三层输出向量获取大小为512
×
20
×
20的第六层输出向量。通过第四卷积模块和第一采样模块根据第三层输出向量获取大小为256
×
40
×
40的第一中间向量,将第一中间向量和第二层输出
向量进行通道维度的向量拼接,拼接后的向量通过第四连接模块、第五卷积模块和第六连接模块获取大小为256
×
40
×
40的第五层输出向量。通过第四连接模块、第五卷积模块和第二采样模块根据第一中间向量获取大小为128
×
80
×
80的第二中间向量,将第二中间向量和第一层输出向量进行特征图拼接,拼接后的向量通过第五连接模块获取大小为128
×
80
×
80的第四层输出向量。第一预测网络,用于通过第一卷积分支根据第四层输出向量获取大小为24
×
80
×
80的第一预测向量。通过第二卷积分支根据第五层输出向量获取大小为24
×
40
×
40的第二预测向量。通过第三卷积分支根据第六层输出向量获取大小为24
×
20
×
20的第三预测向量。
25.施工人员识别模型包括第二特征提取网络、特征聚合网络和第二预测网络。第二特征提取网络,用于通过第一卷积层根据输入的监控视频获取大小为3
×
128
×
64的第一输出向量。通过第一池化层根据第一输出向量获取大小为3
×
64
×
32的第二输出向量。通过第八卷积模块根据第二输出向量获取大小为3
×
32
×
16的第三输出向量。通过第九卷积模块根据第三输出向量获取大小为3
×
16
×
8的第四输出向量。通过过第十卷积模块根据第四输出向量获取大小为3
×
16
×
8的第五输出向量。特征聚合网络,用于通过第一全局平均池化层根据第五输出向量获取大小为1
×
16
×
1的局部特征向量。通过第二卷积层根据第五输出向量获取大小为12
×
16
×
8的第三中间向量,然后通过第二全局平均池化层根据第三中间向量获取大小为12
×1×
1的全局特征向量。通过局部损失层将局部特征向量传递给全局特征向量获取大小为12
×1×
1的第六输出向量。第二预测网络,用于通过归一化层根据第六输出向量获取大小为12
×1×
1的第四中间向量。通过无偏置的分类器全连接层根据第四中间向量获取大小为12
×1×
1的工人的特征向量。
26.第三方面、
27.本发明实施例提供了一种工地现场的安全帽佩戴检测设备,其包括处理器、存储器,以及存储在存储器内的计算机程序。计算机程序能够被处理器执行,以实现如第一方面任意一段所说的工地现场的安全帽佩戴检测方法。
28.第四方面、
29.本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如第一方面任意一段所说的工地现场的安全帽佩戴检测方法。
30.通过采用上述技术方案,本发明可以取得以下技术效果:
31.通过本发明实施例的安全帽佩戴检测方法通过计算机视觉目标检测技术,配合施工现场摄像头,可以实现全天候实时动态地分析视频流画面,自动识别施工作业现场未佩戴安全帽的作业人员,具有很好的实际意义。
附图说明
32.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
33.图1是安全帽佩戴检测方法的流程示意图。
34.图2是用于训练安全帽检测模型和施工人员识别模型的训练集的示意图。
35.图3是安全帽检测模型的模型示意图。
36.图4是安全帽检测模型的网络结构示意图。
37.图5是分割模块的网络结构示意图。
38.图6是第一卷积模块的网络结构示意图。
39.图7是第四卷积模块的网络结构示意图。
40.图8是第一连接模块的网络结构示意图。
41.图9是第三连接模块的网络结构示意图。
42.图10是第五连接模块的网络结构示意图。
43.图11是施工人员识别模型的网络结构示意图。
44.图12是安全帽佩戴检测装置的结构示意图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.实施例一、
47.请参阅图1,本发明第一实施例提供一种工地现场的安全帽佩戴检测方法,其可由工地现场的安全帽佩戴检测设备来执行(以下简称:检测设备)。特别地,由检测设备中的一个或多个处理器来执行,以实现步骤s1至步骤s6。
48.s1、获取工人的当日外观信息,并和数据库中已有的外观信息组成施工人员查询数据集。其中,当日外观信息包括的面部信息和服饰信息,
49.具体的,在施工现场入口处采集施工人员当日面部信息和服饰信息,和施工人员数据库信息采集信息照片共同构成施工人员查询数据集,针对每位施工人员,构造查询数据集中的照片作为查询集合,即每个施工人员对应查询比较的基准照片。
50.优选地,工地入口可以采用人脸识别设备来控制人员的进出。当日外观信息可由工人当天第一次进入工地时,在工地入口处通过人脸识别设备进行拍摄录入,或者通过安装在工地入口处的摄像头进行拍摄录入。本发明对如何获取工人的当日外观信息不做具体限定。通过每日录入最新的外观信息能够大大的提高人员信息的识别准确率,具有很好的实际意义。
51.可以理解的是,所述检测设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。
52.s2、获取包含工人的监控视频。
53.具体的,监控视频通过设置在工地现场的摄像头获取。
54.s3、将监控视频输入预先训练好的安全帽检测模型,获取多组预测向量。
55.s4、根据多组预测向量,判断监控视频中的工人是否佩戴安全帽。优选地,步骤s4具体包括步骤s41至步骤s44。
56.s41、根据多组预测向量,按照分类概率由高到低进行排序,获取概率最大的预测
值及其对应框,记为b1。其中,每组预测向量包含不同尺度的预测框、预测边框置信度和预测边框坐标。
57.s42、遍历剩余的预测框bi,分别计算b1和bi的iou值
58.s43、当ioui值大于第一阈值时,排除bi对应的预测框,直到所有预测框遍历完成。在本实施例中,第一阈值为0.5,是预先设置的数值。在其它实施例中,阈值可以根据实际需要设为其它任意值,本发明对此不做具体限定。
59.s44、从遍历后剩余的预测框中选取最大概率对应的预测框,重复上述步骤,最后得到最佳预测框,从而判断监控视频中的工人是否佩戴安全帽。
60.s5、当判断到监控视频中的工人未佩戴安全帽时,将监控视频输入预先训练好的施工人员识别模型,获取未佩戴安全帽的工人的特征向量。
61.可以理解的是,在其它实施例中,可以将监控功能视频同时输入安全帽检测模型和施工人员识别模型进行安全帽佩戴检测和人员身份检测,本发明对此不做具体限定。
62.s6、根据工人的特征向量和施工人员查询数据集,获取未佩戴安全帽的工人信息。优选地,步骤s6具体包括步骤s61至步骤s62。
63.s61、根据工人的特征向量和施工人员查询数据集,计算工人的特征向量和施工人员查询数据集的度量矩阵d
*
(p,gi)。d
*
(p,gi)=(1-λ)dj(p,gi)+λd(p,gi),式中,p为工人的特征向量,gi为施工人员查询数据集中的图片,λ是超参数,dj(p,gi)为改进的jaccard距离,d(p,gi)为马氏距离。
64.具体的,度量矩阵的计算中,记p为经过模型预测得到的待判断图片,为包含n张图片的施工人员查询数据集,定义表示待判断图片和查询集中图片的k-相互近邻的集合的交集,可以得到如下式所示:
[0065][0066][0067]
因此,在本实施例中,改进的jaccard距离dj(p,gi)的计算模型为:
[0068][0069]
式中,表示待判断图片和查询集中图片的增强k-相互近邻的集合,表示查询集中第i张图片与其余图片的增强k-相互近邻的集合。
[0070]
s62、根据度量矩阵,选择与查询数据集最匹配的结果,从而获取未佩戴安全帽的工人信息。
[0071]
通过本发明实施例的安全帽佩戴检测方法通过计算机视觉目标检测技术,配合施工现场摄像头,可以实现全天候实时动态地分析视频流画面,自动识别施工作业现场未佩戴安全帽的作业人员,具有很好的实际意义。
[0072]
此外,通过本发明实施例的安全帽检测模型和施工人员识别模型,能够缓解小目标检测和模糊遮挡带来的识别不准确的问题,使安全帽检测预警模型能够自适应地实际不同工作场景下的安全帽违规佩戴情况,提高了安全帽检测预警模型的鲁棒性和准确性;同时克服了模型所需设备繁杂,部署困难的问题,仅需少量资源即可满足部署要求,有助于高效监督监管。这种方法识别速度快、识别率高,部署便利,可及时预警,有助于保障施工作业人员的安全,进一步降低工地安全隐患。
[0073]
如图4所示,安全帽检测模型包括第一特征提取网络、特征金字塔网络和第一预测网络。具体的,目标检测是包含分类和回归两项任务的多任务学习过程,需要同时给出目标判别信息和定位信息,安全帽检测阶段需要检测施工人员的安全帽位置,采用检测边界框定位目标位置,同时输出是否佩戴安全帽的类别判断,其中预测边界框为给定左下角坐标和宽高的矩形框。
[0074]
第一特征提取网络,用于通过分割模块根据输入的监控视频获取大小为32
×
320
×
320的第一输入向量。通过第一卷积模块和第一连接模块根据第一输入向量获取大小为128
×
80
×
80的第一层输出向量。通过第二卷积模块和第二连接模块根据第一层输出向量获取大小为256
×
40
×
40的第二层输出向量。通过第三卷积模块和第三连接模块根据第二层输出向量获取大小为512
×
20
×
20的第三层输出向量。
[0075]
具体的,从监控视频中提取通道数为3,长宽均为640个像素点的图片输入到第一特征提取网络中。
[0076]
特征金字塔网络,用于通过第四卷积模块和第七连接模块根据第三层输出向量获取大小为512
×
20
×
20的第六层输出向量。通过第四卷积模块和第一采样模块根据第三层输出向量获取大小为256
×
40
×
40的第一中间向量,将第一中间向量和第二层输出向量进行通道维度的向量拼接,拼接后的向量通过第四连接模块、第五卷积模块和第六连接模块获取大小为256
×
40
×
40的第五层输出向量。通过第四连接模块、第五卷积模块和第二采样模块根据第一中间向量获取大小为128
×
80
×
80的第二中间向量,将第二中间向量和第一层输出向量进行特征图拼接,拼接后的向量通过第五连接模块获取大小为128
×
80
×
80的第四层输出向量。
[0077]
第一预测网络,用于通过第一卷积分支根据第四层输出向量获取大小为24
×
80
×
80的第一预测向量。通过第二卷积分支根据第五层输出向量获取大小为24
×
40
×
40的第二预测向量。通过第三卷积分支根据第六层输出向量获取大小为24
×
20
×
20的第三预测向量。
[0078]
具体的,预测向量中3表示输出3个不同尺度的预测框,8表示8维特征向量,分别包括1维的预测边框置信度,3维的预测类别和4维的预测边框坐标。
[0079]
在本实施例中,从监控视频中提取图片输入第一特征提取网络,依次通过第一特征提取网络和特征金字塔网络进行多尺度的图片特征提取,随后第一预测网络根据图片特征得到分类预测值。
[0080]
如图5所示,在上述实施例的基础上,本发明的一个可选地实施例中,分割模块用于将输入的3
×
640
×
640大小的图片复制成四份,并分别对四个图片分别通过切片操作,将宽与高的尺寸减半成为大小为3
×
320
×
320的切片,然后通过concat函数,在通道方向连接四个切片,输出大小为12
×
320
×
320的向量,最后通过卷积核大小为3
×
3,卷积核数为32的
卷积层、归一化层和hardswish激活函数,得到大小为32
×
320
×
320的所述第一输入向量。
[0081]
如图6所示,在上述实施例的基础上,本发明的一个可选地实施例中,第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块和第七卷积模块的结构均为:依次连接的ci个卷积核大小为3
×
3,卷积步长为2的卷积层、归一化层和leakyrelu激活函数。其中,ci=2
×
c,式中,c为卷积模块输入的特征向量通道维度大小。
[0082]
如图7所示,在上述实施例的基础上,本发明的一个可选地实施例中,第一采样模块和第二采样模块用于将输入的高、宽大小为(h
in
,w
in
)的向量,使用nearest算法,输出高、宽大小为(2
×hin
,2
×win
)的向量。
[0083]
具体的,第一采样模块和第二采样模块采用上采样函数,进行采样。第一采样模块输出的向量用于和第二层输出向量进行通道维度的拼接操作。第二采样模块输出的向量用于和第一层输出向量进行通道维度的拼接操作。
[0084]
如图8所示,在上述实施例的基础上,本发明的一个可选地实施例中,第一连接模块和第二连接模块均包含两个分支。第一分支经过一个输出通道为c1结构与第一卷积模块相同的卷积块,随后经过n个neck模块和一个卷积核大小为1
×
1卷积步长为1的卷积层。其中n的大小在不同结构中取值不同。第二分支包含c1个卷积核大小为1
×
1卷积步长为1的卷积层。第一分支和第二分支的输出向量在通道维度上进行张量拼接,得到通道数为2
×
c1的特征向量后,依次经过归一化层,leakyrelu激活函数层和卷积核大小为1
×
1卷积步长为1结构与第一卷积模块相同的卷积块后,得到输出特征向量。其中,第一连接模块输出第一层输出向量,第二连接模块输出第二层输出向量。
[0085]
第一分支的neck模块包含两个分支,第一子分支依次包括卷积核大小为1
×
1卷积步长为1结构与第一卷积模块相同的卷积块、卷积核大小为3
×
3卷积步长为1,结构与第一卷积模块相同的卷积块、卷积核大小为3
×
3卷积步长为2结构与第一卷积模块相同的卷积块、卷积核大小为1
×
1卷积步长为1的卷积层,以及归一化层。第二子分支依次包含卷积核大小为1
×
1卷积步长为1的卷积层、归一化层、卷积核大小为1
×
1卷积步长为2的卷积层,以及归一化层。第一子分支和第二子分支输出后的特征向量相加,然后经过一层leakyrelu激活函数。
[0086]
如图9所示,在上述实施例的基础上,本发明的一个可选地实施例中,第三连接模块用于输入通道维数为c3的特征向量。第三连接模块包括依次连接的一个卷积核大小为1
×
1卷积步长为1输出向量通道维数为结构与第一卷积模块相同的卷积块、连接于卷积块的两个分支、用以对第一分支和第二分支输出的向量在通道维度进行特征拼贴的拼接层、卷积核大小为1
×
1卷积步长为1结构与第一卷积模块相同的卷积块,以及结构和第五连接模块相同的连接块。其中,第一分支包含三个大小分别为5
×
5、9
×
9和13
×
13的最大池化层。第二分支保持卷积输出不变。
[0087]
如图10所示,在上述实施例的基础上,本发明的一个可选地实施例中,第四连接模块、第五连接模块、第六连接模块和第七连接模块均包含两个分支,第一分支经过一个输出通道为c2结构与第一卷积模块相同的卷积块,随后经过2n个neck-2模块,以及一个卷积核大小为1
×
1卷积步长为1的卷积层。其中,2n的大小在不同结构中取值不同。第二分支包含c2个卷积核大小为1
×
1卷积步长为1的卷积层。第一分支和第二分支的输出向量在通道维
度上进行张量拼接,得到通道数为2
×
c2的特征向量后,依次经过归一化层,leakyrelu激活函数层和卷积核大小为1
×
1卷积步长为1结构与第一卷积模块相同的卷积块后,得到输出特征向量。
[0088]
第一分支的neck-2模块依次包括卷积核大小为1
×
1卷积步长为1结构与第一卷积模块相同的卷积块、卷积核大小为3
×
3卷积步长为1结构与第一卷积模块相同的卷积块、卷积核大小为3
×
3卷积步长为2结构与第一卷积模块相同的卷积块,以及卷积核大小为1
×
1,卷积步长为1的卷积层。
[0089]
如图11所示,在本实施例中,施工人员识别模型包括第二特征提取网络、特征聚合网络和第二预测网络。具体的,施工人员识别隶属于图片检索子领域,通过训练学习针对施工人员表观特征的特征提取网络,进而利用学习到的特征距离,将未按照规范佩戴安全帽的施工人员相片与图片库中的人物图片进行比对,输出最匹配的图片,达到目标人物检索的目的。
[0090]
第二特征提取网络,用于通过第一卷积层根据输入的监控视频获取大小为3
×
128
×
64的第一输出向量。通过第一池化层根据第一输出向量获取大小为3
×
64
×
32的第二输出向量。通过第八卷积模块根据第二输出向量获取大小为3
×
32
×
16的第三输出向量。通过第九卷积模块根据第三输出向量获取大小为3
×
16
×
8的第四输出向量。通过过第十卷积模块根据第四输出向量获取大小为3
×
16
×
8的第五输出向量。
[0091]
具体的,从监控视频中提取通道数为3,大小为256x128的图片输入到第二特征提取网络中。
[0092]
特征聚合网络,特征聚合网络包含局部处理分支和全局处理分支。局部处理分支,用于通过第一全局平均池化层根据第五输出向量获取大小为1
×
16
×
1的局部特征向量。全局处理分支,用于通过核大小为1
×
1的第二卷积层根据第五输出向量获取大小为12
×
16
×
8的第三中间向量,然后通过第二全局平均池化层根据第三中间向量获取大小为12
×1×
1的全局特征向量。通过局部损失层将局部特征向量传递给全局特征向量获取大小为12
×1×
1的第六输出向量。
[0093]
在本实施例中,局部损失层l
scp
的计算模型为:
[0094][0095]
式中,r为特征总数、f
s,r
是第r块局部特征,f
c,r
第r块全局特征。
[0096]
具体的,将大小为3
×
16
×
8的第五输出向量输入特征聚合网络中,分别通过两个分支计算得到局部特征向量和全局特征向量。
[0097]
第二预测网络,用于通过归一化层根据第六输出向量获取大小为12
×1×
1的第四中间向量。通过无偏置的分类器全连接层根据第四中间向量获取大小为12
×1×
1的工人的特征向量。
[0098]
在本实施例中,从监控视频中提取图片输入第二特征提取网络,通过第二特征提取网络进行图片特征提取,特征聚合网络将得到的特征进行局部和全局的聚合,随后通过预测网络,根据图片特征得到图片和人物信息查询数据库中图片的匹配结果。
[0099]
安全帽检测模型(即:低功耗实时安全帽检测预警模型)的训练:
[0100]
训练模型之前需要采集训练用的第一数据集。具体的,在施工现场不同作业场景的现实作业场景中,采集作业人员在不同角度佩戴和未佩戴安全帽的图片构成安全帽数据集。如图2的左侧所示,对安全帽数据集图片进行图片标注。图片标注主要包括分类标注和位置标注,其中分类标注包含“佩戴安全帽”和“未佩戴安全帽”两种标签信息,位置标注包括安全帽定位坐标和该佩戴或未佩戴安全帽人员的位置坐标,其中坐标信息主要包括目标框的左下角点的坐标和目标框的宽、高。随后将安全帽数据集分成训练集和测试集两部分,以便后续进行低功耗实时安全帽检测预警模型的训练与测试。其中,训练集中出现的作业场景与测试集中的作业场景不重合。
[0101]
在训练时,结合focal loss分类损失函数进行训练,最终得到图片目标物体的类别信息,该类别信息分为两类,一类为前景信息,包括安全帽和人物两类目标物体;另一类为背景信息,即除目标物体以外的其余特征。同时预测网络还会进行回归任务,通过giou回归损失函数学习对前景信息包含的目标物体进行预测框拟合,相较于iou回归损失函数,giou回归损失函数能够拟合更精确的目标框。
[0102]
由图3和图4的网络结构可知,安全帽检测模型是一个单阶段的端到端检测模型,可以同时获取目标的分类和位置信息。同时安全帽检测器运行高效且十分轻量化,本例中模型参数量小于10m,检测速度每秒检测帧数可达到476张。
[0103]
训练时:
[0104]
从安全帽数据集中批量选取训练样本,每批次随机读取n张图片,其中n的大小无限制。本例中每批次选取n=16张图片输入网络进行训练。n的大小根据设备显存大小不同取值不同。
[0105]
针对读取的图片进行缩放,将其尺寸调整为640
×
640大小,随后对图片进行数据增广操作,分别包括角度旋转,随机平移不同像素点,改变颜色空间,仿射变换和mosaic操作。最终经过数据增广的图片作为安全帽检测预警模型的输入图片。将输入图片送入特征提取网络得到图片特征后,图片特征通过特征金字塔进行特征融合和处理,随后通过包含分类头和回归头的预测网络得到图片中的前景、背景分类和安全帽的位置信息,即输入图片通过低功耗实时安全帽检测预警模型(安全帽检测模型)后会得到输出的三组多维度预测向量,分别检测尺寸不同大小不一的安全帽对象,同时每组预测向量均包含检测物体类别、预测边界框的中心点坐标和宽、高。
[0106]
随后将得到的全部预测结果与图片目标物体的标注信息进行比较,通过损失函数计算损失,并通过反向传播算法将损失梯度回传给低功耗实时安全帽检测预警模型,更新模型中的相关参数。通过反复多次迭代这样的学习过程,低功耗实时安全帽检测预警模型将不断拟合真实数据结果,得到最佳参数,进而得到最优的低功耗实时安全帽检测预警模型。
[0107]
损失函数分别包括分类损失函数和回归损失函数,前者是对物体所属前背景类别进行优化,后者则是针对目标所处位置坐标进行优化,因此,回归损失函数只针对正样本,即存在标注目标框的目标样本。其中,低功耗实时安全帽检测预警模型的分类任务采用的分类损失函数为focal loss函数,其函数表达如公式(1)所示:
[0108][0109]
式中,l
cls
表示分类损失函数,α和γ均为超参数,前者主要是为了平衡正负样本的不平衡性,后者称为调制系数,目的是通过减少容易样本的权重,使模型在训练时更专注困难样本的训练。表示图片经过低功耗实时安全帽检测预警模型后得到的分类预测值,
[0110]
低功耗实时安全帽检测预警模型的回归任务采用的回归损失函数为giou loss函数,其函数表达如公式(2)所示:
[0111][0112]
式中,l
loc
表示回归损失函数,a代表所预测的边界框的面积,b代表目标真实标注框的面积,c代表包围a、b的最小矩形框面积,|c/(a∪b)|代表面积c减去a、b目标框的并集的面积差值大小。
[0113]
测试时:
[0114]
从安全帽数据集的测试集部分读取与训练集场景不同的图片,不经过任何数据增广操作,将图片大小统一缩放为640
×
640像素,随后将缩放后的图片输入低功耗实时安全帽检测预警模型,经过模型预测得到三组不同维度大小的预测向量,将其对应的分类概率由高到低进行排序,选取概率最大的预测值及其对应框,记为b1。
[0115]
随后遍历剩余的预测框bi,分别计算b1和bi的iou值,如公式(3)所示:
[0116][0117]
若ioui值大于事先设定的阈值,本例中阈值大小为0.5,则排除bi对应的预测框,直到所有预测框遍历完成,标记所选取的最大概率值对应的预测框为图片中目标的最佳预测框,
[0118]
随后从上次遍历中剩余的预测框中选取最大概率对应的预测框,重复上述过程。最后得到最佳预测框。
[0119]
施工人员识别模型(即:低功耗实时施工人员识别预警模)的训练:
[0120]
训练模型之前需要采集训练用的第二数据集。具体的,采集安全帽数据集中检测的不同摄像头下施工人员的照片构成施工人员数据集,并对图片进行标注,标注信息主要分为位置信息和人物对应信息,位置信息包括施工人员目标框的中心点坐标和目标框的宽、高;人物对应信息为和查询数据库中的查询集合的对应关系。
[0121]
训练时,结合triplet loss函数和center loss函数训练图片对的匹配程度。最后通过id loss得到未按照规范佩戴安全帽的施工人员信息。
[0122]
训练时:
[0123]
从人物信息数据集中批量选取训练样本,每批次随机读取n张图片,n的大小根据设备显存大小不同取值不同。针对读取的图片进行缩放,将其尺寸调整为256
×
128大小,随
后对图片进行图片预处理操作,分别包括图片大小尺度变换,图片翻转,随机擦除,随机补丁和cutout操作。经过预处理的图片作为施工人员识别预警模型的输入图片。将输入图片送入特征提取网络得到图片特征后,图片特征通过特征聚合网络进行局部特征和全局特征的融合,最后通过预测网络得到图片对的匹配信息和人物身份信息,即将输入图片的图片特征与施工人员信息采集库中查询信息照片特征进行相似度比较,并通过损失函数计算损失,随后通过反向传播算法将损失梯度回传给低功耗实时施工人员识别预警模型,更新模型中的相关参数。
[0124]
通过反复多次迭代这样的学习过程,低功耗实时施工人员识别预警模型将不断拟合最佳匹配结果,得到最佳特征提取网络,进而得到最优的低功耗实时施工人员识别预警模型。其中,低功耗实时施工人员识别预警模型的采用的triplet loss函数表达如公式(4)所示:
[0125][0126]
其核心思想在于对于每一个训练集合,随机挑选p个id的施工人员,针对这p个施工人员随机挑选k张不同的照片,随后针对训练集合的每一张图片a,选择难例正样本和难例负样本构成三元组。公式(4)中α是手工选取的阈值参数,triplet loss函数会计算a和训练集合中的所有照片在特征空间的欧氏距离,随后选择与a最不像但和a同属一个id的样本p,以及和a最像但不同属一个id的样本n来计算三元组损失。
[0127]
低功耗实时施工人员识别预警模型采用的center loss函数表达如公式(5)所示:
[0128][0129]
式中,yj表示训练集合中第j个图像的标签,表示深度特征的第yj个类中心,b是训练集合的大小。
[0130]
center loss函数用来学习每个id类的深度特征中心,并惩罚深度特征与其对应的类中心的距离,进一步加深类内特征紧凑性。
[0131]
低功耗实时施工人员识别预警模型匹配施工人员信息采用的id loss函数为focal loss函数,其表达如公式(6)所示:
[0132][0133]
式中,α和γ均为超参数,前者主要是为了平衡正负样本的不平衡性,后者称为调制系数,目的是通过减少容易样本的权重,使模型在训练时更专注困难样本的训练。y

表示图片经过低功耗实时施工人员识别预警模型后得到的对施工人员匹配的相似性分数。
[0134]
测试时:
[0135]
从施工人员信息数据集的测试集部分读取与训练集场景不同的图片,将图片大小统一缩放为256
×
128大小,随后将缩放后的图片输入低功耗实时施工人员识别预警模型,经过模型预测得到图片的特征向量后,计算图片和图片集合的度量矩阵。记p为待判断图片,gi为查询数据中的图片,计算度量矩阵的函数如公式(7)所示:
[0136]d*
(p,gi)=(1-λ)dj(p,gi)+λd(p,gi)
ꢀꢀꢀꢀꢀ
(7)
[0137]
式中,λ是超参数,dj(p,gi)为改进jaccard距离,d(p,gi)为马氏距离。
[0138]
随后根据度量矩阵,选择与查询数据集最匹配的结果进而得到施工人员信息。
[0139]
实施例二、
[0140]
如图12所示,本发明实施例提供了一种工地现场的安全帽佩戴检测装置,其包含:
[0141]
外观获取模块1,用于获取工人的当日外观信息,并和数据库中已有的外观信息组成施工人员查询数据集。其中,当日外观信息包括的面部信息和服饰信息,
[0142]
监控视频模块2,用于获取包含工人的监控视频。
[0143]
第一识别模块3,用于将监控视频输入预先训练好的安全帽检测模型,获取多组预测向量。
[0144]
第一判断模块4,用于根据多组预测向量,判断监控视频中的工人是否佩戴安全帽。
[0145]
第二识别模块5,用于当判断到监控视频中的工人未佩戴安全帽时,将监控视频输入预先训练好的施工人员识别模型,获取未佩戴安全帽的工人的特征向量。
[0146]
第二判断模块6,用于根据工人的特征向量和施工人员查询数据集,获取未佩戴安全帽的工人信息。
[0147]
安全帽检测模型包括第一特征提取网络、特征金字塔网络和第一预测网络。第一特征提取网络,用于通过分割模块根据输入的监控视频获取32
×
320
×
320的第一输入向量。通过第一卷积模块和第一连接模块根据第一输入向量获取128
×
80
×
80的第一层输出向量。通过第二卷积模块和第二连接模块根据第一层输出向量获取256
×
40
×
40的第二层输出向量。通过第三卷积模块和第三连接模块根据第二层输出向量获取512
×
20
×
20的第三层输出向量。特征金字塔网络,用于通过第四卷积模块和第七连接模块根据第三层输出向量获取大小为512
×
20
×
20的第六层输出向量。通过第四卷积模块和第一采样模块根据第三层输出向量获取大小为256
×
40
×
40的第一中间向量,将第一中间向量和第二层输出向量进行通道维度的向量拼接,拼接后的向量通过第四连接模块、第五卷积模块和第六连接模块获取大小为256
×
40
×
40的第五层输出向量。通过第四连接模块、第五卷积模块和第二采样模块根据第一中间向量获取大小为128
×
80
×
80的第二中间向量,将第二中间向量和第一层输出向量进行特征图拼接,拼接后的向量通过第五连接模块获取大小为128
×
80
×
80的第四层输出向量。第一预测网络,用于通过第一卷积分支根据第四层输出向量获取大小为24
×
80
×
80的第一预测向量。通过第二卷积分支根据第五层输出向量获取大小为24
×
40
×
40的第二预测向量。通过第三卷积分支根据第六层输出向量获取大小为24
×
20
×
20的第三预测向量。
[0148]
施工人员识别模型包括第二特征提取网络、特征聚合网络和第二预测网络。第二特征提取网络,用于通过第一卷积层根据输入的监控视频获取大小为3
×
128
×
64的第一输出向量。通过第一池化层根据第一输出向量获取大小为3
×
64
×
32的第二输出向量。通过第八卷积模块根据第二输出向量获取大小为3
×
32
×
16的第三输出向量。通过第九卷积模块根据第三输出向量获取大小为3
×
16
×
8的第四输出向量。通过过第十卷积模块根据第四输出向量获取大小为3
×
16
×
8的第五输出向量。特征聚合网络,用于通过第一全局平均池化层根据第五输出向量获取大小为1
×
16
×
1的局部特征向量。通过第二卷积层根据第五输出
也旨在包括多数形式,除非上下文清楚地表示其他含义。
[0157]
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0158]
取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
[0159]
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。
[0160]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1