一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法与流程

文档序号:20149414发布日期:2020-03-24 19:55阅读:445来源:国知局

【技术领域】

本发明属于辅助驾驶领域,涉及一种夜间车辆检查的方法,尤其是一种基于改进型yolov3卷积神经网络的夜间车辆检测方法。



背景技术:

随着深度学习在目标检测领域地不断发展,利用卷积神经网络进行实时目标检测已经成为现实。卷积神经网络在特定环境下对于目标检测的速度和准确率已经取得了非常好的效果。相比较于传统目标识别和机器学习等方法。卷积神经网络在速度和精度上都有着不可替代的优势。由于卷积神经网络对不同目标的细微差别有着很好的分辨能力,因此单一网络结构对不同环境下的目标分类效果并不理想。也就是说将白天车辆识别的网络模型用于夜间车辆识别效果并不理想。因此基于夜间行车环境的特点,对卷积神经网络进行了相应的改进。

深度学习中,常用于图像目标检测的卷积神经网络有faster-rcnn、ssd系列和yolo系列。其中yolov3卷积神经网络可以很好地平衡目标识别准确率和目标识别速度,从而被广泛应用于目标检测中。利用yolov3卷积神经网络识别夜间车辆存在着以下几个问题:一、目前开源数据集多为白天车辆数据集,用白天车辆数据集训练的网络模型不能有效地识别夜间车辆;二、夜间环境由于光线不足,导致车辆整体特征不明显、车辆细节和车辆边缘特征缺失。因此利用特征明显的车尾灯进行车辆识别。但是车尾灯面积小,而yolov3卷积神经网络对于小目标检测并不友好;三、夜间环境中广告灯、路灯等灯光背景会对夜间车辆识别产生干扰。



技术实现要素:

本发明的目的在于克服上述现有技术的缺点,提供一种基于改进型yolov3卷积神经网络的夜间车辆检测方法。针对小目标检测和复杂灯光背景两大问题,设计了适用与夜间车辆检测的网络结构:一、通过增加输入图像尺寸、增加网格划分密度和多尺度训练等方式使yolov3卷积神经网络提升对小目标检测的准确率;二、通过增加改进型se-block模块,使yolov3卷积神经网络获得注意力机制,对重要信息和不重要信息进行加权操作,从而提升yolov3卷积神经网络在复杂灯光背景下的目标检测速度和准确率。

为达到上述目的,本发明采用以下技术方案予以实现:

一种基于改进型yolov3卷积神经网络的夜间车辆检测方法,包括如下步骤:

步骤1:采集图像,将输入图像做等比例变换,然后用黑色像素填充成正方形图像;

步骤2:将填充后的正方形图像随机缩放1-3个单位,进行多尺度训练;

步骤3:将随机缩放后的正方形图像放入到darknet53特征提取网络中进行特征提取;

步骤4:对步骤3特征提取得到的特征图通过全卷积网络进行目标定位和识别;

步骤5:利用非极大值抑制对交并比大于0.5的预测框进行筛选,过滤掉同一夜间车辆的多余预测框。

本发明车辆检测方法的进一步改进在于:

步骤1中对输入图像进行等比例变换,然后利用黑色像素填充成正方形图像,具体为:

步骤1-1,输入图像进行等比例变换

设原始图像长宽分别为h1、w1,原始图像的长边lmax=max(h1,w1),进行等比例变换后图像长宽分别为h2、w2;

等比例变换后图像长h2为:

等比例变换后图像宽w2为:

步骤1-2,等比例变换后图像进行填充

以等比例变换后图像的中心点为坐标原点,以一个像素长度为单位长度建立坐标系;f(x,y)表示该坐标系中(x,y)点像素的像素值;

填充得到一个832像素边长的正方形图像作为yolov3卷积神经网络的输入图像。

步骤2中图像多尺度变换,是将步骤1填充好的正方形图像通过最近邻插值法将边长随机缩放1-3个单位长度,每个单位长度为64个像素,最终获得一个边长为832±n×64,1≤n≤3的正方形图像,其中n表示图片边长随机缩放单位长度的个数。

步骤3中的darknet53特征提取网络是在残差网络模块的残差映射中加入改进型se-block模块;改进型se-block模块具体步骤为:

步骤3-1,经过卷积后得到c×h×w的特征图,其中c表示特征通道数,h表示特征图的高度,w表示特征图的宽度;

步骤3-2,通过全局池化层对每个特征通道进行通道压缩,fn表示第n个特征通道经过全局池化层后得到的实数,un(i,j)表示第n个特征通道中(i,j)坐标点的特征值;全局池化操作:

步骤3-3,通道压缩后产生了c个实数f1、f2...、fc,将这c个实数经过两个全连接层进行通道激活;

全连接层c1的网络尺寸为δ表示relu激励层,表示经过第一个全连接层进行通道激活后得到的权重:

全连接层c2的网络尺寸为1×1×c,δ表示relu激励层,表示经过第二个全连接层进行通道激活后得到的权重:

步骤3-4,通道激活后得到权重经过sigmoid函数归一化结果σ:

步骤3-5,归一化结果σ加上0.5得到最终权重

步骤3-6,残差网络的残差映射得到特征图为改进型se-block模块得到的通道权重为加入改进型se-block模块的残差映射得到的特征图为

步骤4中目标定位和识别,具体为:

步骤4-1,通过五次下采样后,尺寸为832×832的输入图像变为104×104的第一预测层特征图;

步骤4-2,尺寸为104×104的特征图经过通道数为18的全卷积层,每个特征点都会生成三个预测框,每个预测框包含六个数据,分别为预测框长w、预测框宽h、预测框中心点坐标(x,y)、预测框置信度confidence和预测框类别概率class。

与现有技术相比,本发明具有以下有益效果:

本发明是在原有的yolov3卷积神经网络的基础上,增加输入图像尺寸、增加网格划分密度和多尺度训练。使yolov3卷积神经网络对于小目标检测更加精准;其次提出了一种改进型se-block模块,并将其加入到yolov3的特征提取网络中,使网络自主学习重要信息和背景信息。将重要信息增强,背景信息抑制。从而yolov3在复杂灯光干扰下的目标检测速度和准确率得到了提高。

【附图说明】

图1为本发明的流程示意图;

图2为本发明的图像填充示意图;

图3为本发明中改进型se-block模块结构示意图;

图4为夜间车辆图;

图5为夜间车尾灯识别图。

【具体实施方式】

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述:

参见图1,本发明基于改进型yolov3卷积神经网络的夜间车辆检测方法,包括如下步骤:

在训练阶段,需要进行图像预处理、图像多尺度变换、特征提取和目标定位识别四个步骤来训练获得网络模型;测试阶段,在最终获得的网络模型上进行图像预处理、图像多尺度变换、特征提取、目标定位识别和过滤多余预测框。

步骤1,图像预处理:

如图2所示,对输入图像进行等比例变换,然后利用黑色像素填充成正方形图像,具体为:

步骤1-1,输入图像进行等比例变换

设原始图像长宽分别为h1、w1,原始图像的长边lmax=max(h1,w1),进行等比例变换后图像长宽分别为h2、w2。

等比例变换后图像长h2为:

等比例变换后图像宽w2为:

步骤1-2,等比例变换后图像进行填充

以等比例变换后图像的中心点为坐标原点,以一个像素长度为单位长度建立坐标系。f(x,y)表示该坐标系中(x,y)点像素的像素值。

填充得到一个832像素边长的正方形图像作为yolov3卷积神经网络的输入图像。

步骤2,图像多尺度变换

对步骤1获得的正方形图像进行多尺度变换,具体为:

将边长为832个像素的正方形图像通过最近邻插值法随机缩放1-3个单位长度。每个单位长度为64个像素。最终获得一个边长为832±n×64,1≤n≤3的正方形图像,其中n表示图片边长随机缩放单位长度的个数。

步骤3,特征提取

将步骤2中获得的一个正方形图像,通过改进型darknet53特征提取网络进行特征提取,如图3所示,具体如下:

步骤3-1,图片经过上一个残差模块后,得到c×h×w的特征图,其中c表示特征通道数,h表示特征图的高度,w表示特征图的宽度。

步骤3-2,通过全局池化层对每个特征通道进行通道压缩,fn表示第n个特征通道经过全局池化层后得到的实数,un(i,j)表示第n个特征通道中(i,j)坐标点的特征值。全局池化操作:

步骤3-3,通道压缩后产生了c个实数(f1、f2...、fc),将这c个实数经过两个全连接层进行通道激活。

全连接层c1的网络尺寸为δ表示relu激励层,表示经过第一个全连接层进行通道激活后得到的权重:

全连接层c2的网络尺寸为1×1×c,δ表示relu激励层,表示经过第二个全连接层进行通道激活后得到的权重:

步骤3-4,通道激活后得到权重经过sigmoid函数归一化结果σ:

步骤3-5,归一化结果σ加上0.5得到最终权重

步骤3-6,残差网络的残差映射得到特征图为改进型se-block模块得到的通道权重为加入改进型se-block模块的残差映射得到的特征图为

步骤4,目标定位识别

步骤4-1,通过五次下采样后,尺寸为832×832的输入图像会变为104×104的特征图。

步骤4-2,尺寸为104×104的特征图经过通道数为18的全卷积层,每个特征点都会生成三个预测框,每个预测框包含六个数据,分别为预测框长w、预测框宽h、预测框中心点坐标(x,y)、预测框置信度confidence和预测框类别概率class。

步骤5,过滤多余预测框

步骤5-1,选择置信度最大的检测框。

步骤5-2,计算其他预测框与置信度最大预测框的交并比,如果某个预测框和置信度最大预测框的交并比大于阈值,则删除该预测框。

经过以上步骤,就可以对夜间车辆进行识别和定位。夜间行车记录仪截取图片如图4所示。首先将图4根据图2所示方案进行等比例变换和填充,得到一个832×832像素的正方形图片;然后通过步骤2对正方形图片进行多尺度变换;将多尺度变换后的图片放入改进型darknet53特征提取网络进行特征提取;最后经过步骤4和步骤5对车尾灯目标进行定位和识别。夜间车尾灯识别定位效果图如图5所示,同一车辆车位灯的定位和识别结果由带有light标签的预测框框出。

以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1