基于卷积神经网络的道路目标检测方法与流程

文档序号:14991269发布日期:2018-07-20 22:16阅读:583来源:国知局

本发明涉及目标检测技术领域,具体涉及一种基于卷积神经网络的道路目标检测方法。



背景技术:

道路目标检测是在道路场景图像中找出道路目标。随着辅助驾驶和无人驾驶的发展,道路目标检测作为必要的技术手段也需要有所突破。在驾驶中,车辆对周围目标物体感知能力的增强能够提高驾驶的安全性。所以,研究道路目标检测有很重要的意义。

早期的目标检测的研究在于研究人员手工提取目标特征进行组合,然后利用机器学习算法进行检测和识别。这种做法依赖于研究人员的经验,研究人员的提取特征的好坏直接影响检测的效果,而且这些特征对于不同的分类器在检测准确率上会有很大的影响,使检测模型缺乏泛化能力。

近些年,随着深度学习的发展,基于卷积神经网络的深度学习在图像识别、图像检测和图像分割等领域都取得了显著成就。与传统的处理方法相比,避免了对图像目标的手工提取特征,能够提高检测模型的泛化能力。道路目标检测的任务就是在道路复杂场景下,对图像上的目标进行分类检测,然后进行分别标定区域。在不同的场景下收集所需要检测的目标图像的数据集,从不同天气、白天黑夜和环境等不同场景对不同角度和大小的目标进行图像采集,保证数据集的多样性,然后通过对数据集的学习得到稳定的目标检测模型。

从2012年krizhevsky等人在imagenet挑战赛的表现点燃了深度学习的热潮,随后就被应用到了目标检测上。2014年r-cnn的提出,利用了提取物体区域的方法selectivesearch和alexnet,最后在分类中采用svm,取得了很好的效果。随后kaiminghe提出了能够解决r-cnn的卷积特征的重复计算量太大问题的spp-net,舍弃了selectivesearch,使所有区域共享卷积计算,2015年rossgirshick进一步将提出fastr-cnn,用softmax回归替代svm分类器降低空间和时间的开销,之后rossgirshick又集成regionproposalnetwork(rpn)网络,提出了fasterr-cnn,这种方法虽然精度有所提高,但速度不够快;2016年yolo的出现实现了端对端、多任务学习,检测速度快,但是其对小物体检测的精度一般。



技术实现要素:

本发明要解决的技术问题是克服现有技术的不足提供一种设计简单、准确度高且速度快的道路目标检测方法。

为解决上述技术问题,本发明采用如下技术方案:

设计一种基于卷积神经网络的道路目标检测方法,包括以下步骤:

步骤1、制作道路目标的训练集和测试集;

步骤2、搭建tensorflow深度学习框架并引入vgg网络结构,对道路目标图像进行特征提取,其中模型的配置利用ssd算法完成;

步骤3、结合imagenet数据集,把多目标检测问题转换为道路目标检测,道路目标包括车辆、步行的人和骑行的人;

步骤4、用交叉熵代价函数作为置信度损失函数,并与预测框与真实框之间的位置损失函数进行加权求和,得到总体的损失函数对检测模型进行优化;

步骤5、对得到的特征利用softmax算法进行分类,得到训练后的检测模型;

步骤6、将待测道路图像输入步骤(6)中的检测模型进而得到检测结果。

进一步的,步骤1包括以下处理环节:(1)根据voc2007数据集中的图片统计以下参数:图片的宽、高以及宽高比,道路目标的宽、高以及宽高比;(2)根据第一步得出的值从imagenet数据集中筛选出符合要求的图片;(3)将上一步筛选的图片制作成voc2007数据集。

进一步的,步骤2包括以下处理环节:添加不同尺寸的特征图,所述特征图的尺寸逐渐减小,以达到能检测不同尺寸的效果。

进一步的,步骤3包括以下处理步骤:将程序中的numoutput:21改为numoutput:4,其中4代表车辆、行人、骑行的人和背景4类目标,并对其余部分做出相应调整。

进一步的,步骤4中交叉熵代价函数的定义为:;其中表示第i个默认框与类别为p的第j个真实框相匹配,p为目标类别种类,表示第i个默认框为类别p的置信度,

进一步的,步骤5中smooth损失函数的定义为:

其中:(cx,cy)为默认框的中心,默认框的宽w和高h。

进一步的,总体的目标损失函数为位置损失函数和置信度损失函数的加权和:

其中:α=0.5,n为默认框的个数。

与现有技术相比,本发明的有益技术效果在于:

1.本发明设计简洁,搭建网络框架和检测模型,后通过损失函数进行优化,结构明晰,没有其它繁琐的步骤,实现容易。

2.本发明精度高,检测模型的配置利用ssd算法,其核心是在特征图上采用卷积核来预测一系列defaultboundingboxes的类别分数、偏移量,在不同尺度的特征图上进行预测,实现了端对端训练,即使图像的分辨率比较低,也能保证检测精度。

3.本发明检测速度快,采用google的tensorflow框架,数据和模型并行化好,速度快,并且ssd算法可直接预测boundingbox的坐标和类别,省去了生成proposal的过程,更进一步的提高了检测速度。

附图说明

图1是本发明模型学习检测流程示意图;

图2是本发明ssd框架结构示意图;

图3是本发明ssd模型训练过程示意图;

图4是本发明在ssd模型下道路目标检测的结果图;

图5是本发明在ssd模型下训练车辆的precision-recall曲线图;

图6是本发明在ssd模型下训练行人的precision-recall曲线图;

图7是本发明在ssd模型下训练骑行的人的precision-recall曲线图;

图8是本发明训练集和测试集的统计信息;

图9是本发明在ssd模型下进行测试的实验结果分析。

具体实施方式

下面结合附图和实施例来说明本发明的具体实施方式,但以下实施例只是用来详细说明本发明,并不以任何方式限制本发明的范围。

以下实施例中所涉及的方法或步骤,如无特别说明,则均为本技术领域的常规方法或步骤,本领域技术人员均能根据具体应用场景做出常规选择或者适应性调整。

以下实施例中所涉及的单元模块、零部件、结构、或传感器等器件,如无特别说明,则均为常规市售产品。

实施例1:一种基于卷积神经网络的道路目标检测方法,参见图1至图3,先制作道路目标的训练集和测试集,然后搭建tensorflow深度学习框架,建立ssd目标检测模型结构,对道路目标图像进行特征提取,最后测试并利用损失函数优化检测模型。其中,训练集和测试集的制作方法是:首先从voc2007数据集中统计:图片的宽、高、宽高比,道路目标的宽、高、宽高比,其次,将imagenet数据集中的图片根据上述统计值进行筛选,最后将筛选出来的图片制作成voc2007数据集,包括训练集和测试集。

如图2所示为本实施例ssd算法结构示意图。ssd是基于一个前向传播卷积神经网络,产生一系列固定大小的边界框,以及每一个框包含物体实例的可能性。之后,进行一个非极大值抑制得到最终的预测。对于一个具有p通道大小为m*n的特征层,使用3*3*p的卷积核进行卷积操作,得到一个默认框对各个目标类别的置信度和此默认框的偏移量。运用多个卷积核对m*n的特征图进行多次卷积得到此特征图在不同默认框的各个类别的置信度和坐标偏移值。在这里默认框表示目标在原图所代表的区域大小。在本实施例中,增加了对vgg网络中的conv3层的特征图的提取,来增强小目标的检测能力。最后再运用非最大化抑制对默认框进行筛选得到最终的检测结果。

如图3所示为本实施例ssd模型训练过程示意图。模型的训练分为2个阶段:预训练阶段和训练集训练阶段。预训练阶段首先用imagenet数据集对vgg的卷积层进行预训练,固定ssd模型中属于vgg的卷积层,利用voc2007数据集对剩余网络进行训练,最后对整个模型网络进行微调。在训练集训练阶段,首先利用预训练阶段所得到的参数进行初始化网络,然后固定网络卷积层,对检测分类的参数进行训练,然后在对整个网络进行微调,最后得到目标模型。接下来可以用训练好的目标模型对测试集进行测试,得到测试集的检测效果。为了进一步提高检测的精度和准确度,把场景中的目标检测问题转化为道路目标(车辆、行人和骑行的人)检测,训练的策略采用fine-tuning技术。

如图4所示是本实施例在ssd模型下道路目标检测的结果图。由图4可知,对于目标完整,背景干扰少的目标识别率在0.9以上,而下雨天、光线弱、目标和背景相近的以及目标比较小的识别率相对较低。

如图5所示为本实施例在ssd模型下训练车辆的precision-recall曲线图。如图6所示为本实施例在ssd模型下训练行人的precision-recall曲线图。如图7所示为本实施例ssd模型下训练骑行的人的precision-recall曲线图。由图可知,检测车辆目标的map值为0.853,检测行人目标的map值为0.397,检测骑行的人目标的map值为0.682。分析得知,车辆检测的效果较好,骑行的人和行人检测效果一般,但也能实现识别的功能。这是由于图像来自于行车记录仪录制的视频图像,在公路上骑行的人和行人都是靠路边行走,距离记录仪的距离较远,而行人相对于骑行的人距离车辆更远,所以行人和骑行的人在图像上呈现的目标很小,目标越小越容易受到背景的干扰,目标的特征丢失越多,另外行车记录仪的设备质量一般,大多数是关注于车辆周围的环境和目标,对远距离的物体拍摄质量比较差,在夜景中的拍摄效果更差,加大了识别的难度。

如图8所示为本实施例训练集和测试集的统计信息。所用图片主要包括车辆、行人和骑行的人。其中,车辆的训练集有30376张图片,测试集14981张图片;行人的训练集有1351张图片,测试集689张图片;骑行的人训练集1026张图片,测试集596张图片。即训练集总共6263张图片,测试集总共3333张图片。

如图9所示为本实施例ssd模型下进行测试的实验结果分析。增加原图像的尺寸,使尺寸增加一倍,目标检测的map值增加了0.033,ssd模型增加conv3的特征图的检测,目标检测的map值增加了0.049,增幅较大,说明增加图像尺寸和增加conv3卷积核提高了检测精度,增强针对小目标的检测能力。

上面结合附图和实施例对本发明作了详细的说明,但是,所属技术领域的技术人员能够理解,在不脱离本发明宗旨的前提下,还可以对上述实施例中的各个具体参数进行变更,形成多个具体的实施例,均为本发明的常见变化范围,在此不再一一详述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1