一种监控视频中人员和安全帽的检测方法与流程

文档序号:18032151发布日期:2019-06-28 22:47阅读:1562来源:国知局
一种监控视频中人员和安全帽的检测方法与流程
本发明涉及一种基于改进yolo算法的监控视频中人员和安全帽的检测方法,用于数字化车间智能视频监控中。
背景技术
:从20世纪下半世纪开始,视频监控系统发展取得了很好的成就,整个监控系统的发展经历了三大阶段:模拟视频监控系统、数字视频监控系统和全数字化监控系统。模拟监控系统早期的视频监控是以摄像机、监视器等等组成的纯模拟的视频监控系统,也就是闭路监视系统。数字视频监控系统于1995年左右在市场上出现,在市场流通上主要以dvr的形式来出现,数字视频监控系统的利用大大提高了用户对录像信息的处理能力。dvr可以使模拟的数字信号存储在硬盘上。进入21世纪以来,经济科技迅猛发展,计算机技术、网络宽度、存储器容量不断提高。网络监控系统在此背景下蓬勃发展,这些技术的应用使视频监控技术进入全数字化的网络时代,也就是第三代视频监控系统。传统视频监控系统主要为人工监控,事后观察视频取证;而且视频监控系统的架构设计比较单一,不能对视频图像进实时智能分析,不能实现远程监控,并且无法进行异常事件及时报警。智能视频监控系统区别于传统视频监控,将被动监控改为主动监控,可以进行自动检测,对检测目标进行定位跟踪,不仅用摄像头代替人眼而且用计算机代替人、协助人来完成监视或控制任务,从而减轻工作人员工作负担。yolo(youonlylookonce)作为一种全新的神经网络结构,可同时预测检测对象的类别和位置,将目标检测视为简单的回归问题,是一种实时检测方法。yolo是一种基于深度学习卷积神经网络的目标检测的模型。卷积神经网络主要利用卷积层对输入的图片进行卷积运算,进而降低图片数据的维度,进行特征提取。在检测的过程中,yolo算法将每张图片分成7*7的网格,因为一个单元格只负责预测一个物体,当多个物体的中心落在同一个格子中时,该格子很难区分物体类别,因此对于距离较近的物体识别效果不佳。在图像预处理阶段,训练集图片经过卷积层后由高分辨率压缩为低分辨率,用于分类特征提取,在压缩过程中,图片中小物体的特征将很难保存。应用在车间中时,安全帽相对来说是较小的目标,当工作人员较近或安全帽重叠时,识别效果较差。技术实现要素:本发明的目的是:提高基于深度学习的yolo检测算法检测小物体的能力,更多的保留监控视频图像中的特征信息。为了达到上述目的,本发明的技术方案是提供了一种监控视频中人员和安全帽的检测方法,其特征在于,采用yolo网络结构检测监控视频图像中人员和安全帽,改进的yolo网络结构包括18个卷积层、6个池化层、1个全连接层与1个softmax输出层,其中,卷积层用来提取监控视频图像的图像特征,池化层用来压缩监控视频图像的图片像素,softmax层用来输出物体分类,检测过程包括以下步骤:将监控视频图像分成s×s个网格,当目标物体的中心落在某一个网格时,该网格就负责预测目标物体,每个网格预测b个边界框以及边界框的置信度,包括边界框的中心坐标(x,y)及边界框的长w、宽h,界框的置信度表示网格内是否有检测物体以及边界框的准确度,将置信度定义为:若格子内存在目标物体,则pr(object)=1,若格子内不存在目标物体,则pr(object)=0,置信度=0,表示交集与并集的比值,为系统预测出来的边界框与物体实际边界框的重合程度。同时,每个网格存在物体所属分类的概率,定义为:pr(classi|object),式中,classi表示目标物体的类别,pr(classi|object)表示各个网格存在物体所属类别的概率。每个网格物体类别的概率计算公式为:式中,object表示目标物体,pr(classi)表示物体类别的概率。损失函数为:边界框的损失函数+置信度损失函数+分类损失函数,其中:边界框的损失函数为:式中,λcoord表示坐标误差的权重系数,表示第i个网格预测的第j个边界框负责检测目标物体,该边界框与物体实际的框交并比最大,(xi,yi)表示单元格i预测边界框的中心点坐标,表示目标物体实际边界框的中心点坐标,wi表示单元格i预测边界框的宽度,表示目标物体实际边界框的宽度,hi表示单元格i预测边界框的高度,表示目标物体实际边界框的高度。置信度损失函数为:按是否含有目标物体分为两部分,对于不含有目标物体的部分设置参数,λnoobj防止模型跑飞,表示第i个网格预测的第j个边界框未检测到目标物体,ci表示预测的边界框中单元格i的置信度,表示实际的边界框中单元格i的置信度。分类损失函数为:pi(c)和分别表示预测的和真实的边界框中第i个网格中包含第c类对象的条件概率,表示是否单元格i中出现目标物体。优选地,对所述yolo网络结构的训练包括以下步骤:步骤1、将输入的图片集用图片打标工具labelimg打标,将图片中的人和安全帽标注出来,获得目标物体的真实坐标,制作数据集的标签,生成xml文件;步骤2、初始化每张图片的预测坐标为空;步骤3、基于rpn的方法生成目标物体边界框的向量矩阵;步骤4、将上一步得到的矩阵向量作为yolo网络结构的第一层输入,其结果作为yolo网络结构的第二层输入;步骤5、执行池化操作步骤6、将上个步骤的结果摄入,滑动窗口扫描网格,进行卷积池化,计算滑动窗口内单元格的特征向量;步骤7、将上一步的特征向量输入第18个卷积层,取步长为2进行卷积;步骤8、将上一步的输出输入全连接层,取步长为1进行卷积;步骤9、将上一步的输出输入softmax分类函数,计算图片的预测概率估计值,获得对应的目标区域的特征;步骤10、将上个步骤的目标区域的特征保存到特征模型中,输出特征模型。本发明设计的智能视频监控系统利用改进后的yolo算法进行视频检测,可以实现车间内工作人员安全帽的佩戴检查、外来人员的定位跟踪等智能视频监控功能,在很大程度上节约人工检查的人力和时间成本,有效降低事故发生的风险,节约生产成本。附图说明图1a及图1b为改进前后输出图像网格结构对比图;图2为改进后的网络结构图。具体实施方式为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。本发明提供的一种基于改进yolo算法的监控视频中人员和安全帽的检测方法将rpn检测算法融入到yolo算法中,输入图片采用先池化再卷积的方法,在卷积层上进行滑动窗口操作,并借鉴r-fcn算法,去掉一个全连接层,以减少图片特征丢失。如图2所示,本发明中yolo网络结构包括18个卷积层、6个池化层、1个全连接层与1个softmax输出层,其中,卷积层用来提取监控视频图像的图像特征,池化层用来压缩监控视频图像的图片像素,softmax层用来输出物体分类,检测过程包括以下步骤:将监控视频图像分成s×s个网格,当目标物体的中心落在某一个网格时,该网格就负责预测目标物体,每个网格预测b个边界框以及边界框的置信度,包括边界框的中心坐标(x,y)及边界框的长w、宽h,界框的置信度表示网格内是否有检测物体以及边界框的准确度,将置信度定义为:式中,若格子内存在目标物体,则pr(object)=1,若格子内不存在目标物体,则pr(object)=0,置信度=0,表示交集与并集的比值,为系统预测出来的边界框与物体实际边界框的重合程度;同时,每个网格存在物体所属分类的概率,定义为:pr(classi|object),式中,classi表示物体类别,pr(classi|object)表示网格中存在物体所属类别的概率。每个网格物体类别的概率计算公式为:式中,object表示目标物体,pr(classi)表示物体类别的概率。损失函数为:边界框的损失函数+置信度损失函数+分类损失函数,其中:边界框的损失函数为:式中,λcoord表示坐标误差的权重系数,表示第i个网格预测的第j个边界框负责检测目标物体,该边界框与物体实际的框交并比最大,(xi,yi)表示单元格i预测边界框的中心点坐标,表示目标物体实际边界框的中心点坐标,wi表示单元格i预测边界框的宽度,表示目标物体实际边界框的宽度,hi表示单元格i预测边界框的高度,表示目标物体实际边界框的高度。置信度损失函数为:按是否含有目标物体分为两部分,对于不含有目标物体的部分设置参数,λnoobj防止模型跑飞,表示第i个网格预测的第j个边界框未检测目标物体,ci表示预测的边界框中单元格i的置信度,表示实际的边界框中单元格i的置信度。分类损失函数为:pi(c)和分别表示预测的和真实的边界框中第i个网格中包含第c类对象的条件概率,表示是否单元格i中出现目标物体。基于卷积神经网络的目标检测方法需要从大量的样本中学习待检测物体的特征,本发明采用的数据集,为车间中四种摄像头采集到的图像数据集,四个摄像头各取1万张图片,每个图片的大小为500*500,使用图片打标工具labelimg对数据集进行打标。数据集40%作为训练集,10%用于验证,50%作为测试集。训练模型过程如下:训练过程采用小批量梯度下降法和冲量,这样可以使训练过程更快收敛。运用反向传播法使参数不断更新,直至损失函数收敛。网络训练设置参数为,学习批次64,学习率0.001,冲量常数0.9,权值衰减系数0.0005,包括以下步骤:步骤1、将输入的图片集用图片打标工具labelimg打标,将图片中的人和安全帽标注出来,获得目标物体的真实坐标,制作数据集的标签,生成xml文件;步骤2、初始化每张图片的预测坐标为空;步骤3、基于rpn的方法生成目标物体边界框的向量矩阵;步骤4、将上一步得到的矩阵向量作为yolo网络结构的第一层输入,其结果作为yolo网络结构的第二层输入;步骤5、执行池化操作步骤6、将上个步骤的结果摄入,滑动窗口扫描网格,进行卷积池化,计算滑动窗口内单元格的特征向量;步骤7、将上一步的特征向量输入第18个卷积层,取步长为2进行卷积;步骤8、将上一步的输出输入全连接层,取步长为1进行卷积;步骤9、将上一步的输出输入softmax分类函数,计算图片的预测概率估计值,获得对应的目标区域的特征;步骤10、将上个步骤的目标区域的特征保存到特征模型中,输出特征模型。搭建完特征模型后对利用测试图片集对模型进行测试。设置对照实验,使用keras框架分别利用yolo与改进yolo进行检测,统计对象为工作人员与安全帽。本文选取召回率与准确率和检测速度作为算法性能衡量指标。两种算法召回率、准确率与检测速度对比如下:表1工作人员检测对比结果表检测算法召回率/%准确率/%平均每帧处理时间/msyolo88.3294.7422.421改进后89.8695.2321.357表2安全帽检测对比结果表检测算法召回率/%准确率/%平均每帧处理时间/msyolo83.5788.8522.411改进后87.9193.4220.659试验表明本实例建立的基于改进yolo算法的监控视频中人员和安全帽的检测方法,较未改进的模型在准确率和快速性方面都有提高,尤其是在安全帽检测上性能有了较大幅度提升。本发明提供的改进后的算法构成一种新的网络结构,更多的保留了图像特征,提高了检测小物体的能力,也提高了系统的综合检测能力。该算法应用于数字化车间智能视频监控系统中,具有较快的检测速度和较高的检测准确率,满足实时性要求,具有一定的应用价值。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1