小尺寸交通标志检测识别的反向连接深度神经网络模型方法与流程

文档序号:16250167发布日期:2018-12-11 23:57阅读:390来源:国知局
小尺寸交通标志检测识别的反向连接深度神经网络模型方法与流程

本发明涉及智能汽车交通标志自动检测识别。

背景技术

在深度学习兴起之前,交通标志检测识别领域都是基于传统研究方法,早期研究中,研究者主要利用一些传统的图像处理算法及机器学习方法来解决交通标志的检测识别问题,虽然取得不少进步,同时也启发了后人,但仍然有很多地方需要改进。深度学习在imagenet比赛中取得突破性成绩后,在检测识别领域,也逐渐引入了深度学习模型,使人们对该领域有了新的认识。

传统的交通标志研究方法,可以分为基于颜色的检测方法,基于形状的检测方法,基于颜色和形状的检测方法,基于机器学习的检测方法。基于颜色检测的常用方法之一是颜色分割,使用颜色分割来搜索位置以及感兴趣的像素,利用连通分量、分裂合并、边缘检测、聚类等方法,利用基于颜色信息的相似度度量方法对检测阶段的特征进行建模。该方法最主要的是对颜色空间的选择,受光照影响较大,所以此类方法的鲁棒性和准确性不高。

基于交通标志形状的检测识别方法对于光照变化具有良好的鲁棒性,但是当交通标志发生倾斜或扭曲时,此类方法检测正确率会明显下降。

当图像包含具有相同颜色和形状的物体时,单独分别使用颜色和形状信息会增加干扰的数量。因此,颜色和形状信息被组合用于检测以减少干扰。基于颜色和形状的检测方法包括两个阶段:第一阶段是某种色彩空间中的色彩分割,第二阶段是通过形状分析检测交通标志。

基于机器学习的检测方法一般是提取训练数据集中感兴趣区域的某种特征,用这些特征对一些分类器进行训练,利用训练好的分类器对测试集进行匹配检测。此类方法虽然克服了大多数干扰对交通标志检测的影响,具备较好的鲁棒性,但针对不同类别的交通标志,往往需要人工设计不同的特征来匹配,该类方法在可检测交通标志的类别上往往存在一定的局限性,尤其对于类别较多的情况,工作量会更大。因此使用深度学习方法来提取特征有很好的前景。但是对于小尺寸目标,现有的深度学习的方法检测效果依旧不好,交通标志识别的鲁棒性仍需要提高。



技术实现要素:

针对如何提高智能汽车交通标志识别的鲁棒性问题,本发明提供了一种小尺寸交通标志检测识别的反向连接深度神经网络模型方法。小尺寸目标经过众多卷积层后对应的特征图区域已经较小,而前层特征图有较高分辨率,其对应目标特征图较大。基于此,考虑将后层特征图与前几层特征图融合到一起来检测,从而提升小尺度目标的检测率。

一种小尺寸交通标志检测识别的反向连接深度神经网络模型方法,具体方法包括如下步骤:

(1)使用vgg16微调模型对交通标志提取相应的特征图;

对每一张输入的数据集图片,经过vgg16前13层卷积层提取特征,使得相应的卷积层提取了相应尺寸的特征图。

(2)使用反向连接模块连接前后层特征图提取候选区域;

从conv5层开始对前一层反向连接,并融合conv4层特征,同样,conv4层也对conv3层进行反向连接,并在conv3层融合相应特征。然后在候选区域提取阶段,根据conv5层特征图的滑动窗口中心坐标,经区域生成网络从原图中选取候选区域,根据重叠度进行正负样本的划分并训练区域生成网络,输出二分类结果及边界框回归值。

(3)使用多层统一的感兴趣区域下采样方式进行特征融合;

在原图中找到候选区域后,再由anchor映射原理在三个反向连接层特征图中找到候选区域对应的特征图部分。全连接层的输入为固定维度特征,所以需要经过roipooling来pooling到固定尺度。

(4)使用全连接层进行详细分类与回归来检测识别交通标志。

使用两层全连接层进行多任务训练,即使详细分类和回归的总代价最小,从而得到最好的检测识别的准确率。

附图说明

图1为本发明方法系统流程图。

图2融合多层特征的深度神经网络模型结构图。

图3卷积与反卷积示意图。

图4反向连接模块示意图。

图5候选区域区域提取流程示意图。

图6特征融合流程示意图。

具体实施方式

本发明的具体实施过程如图1所示,包括如下4个方面:

①使用vgg16微调模型对交通标志提取相应的特征图

②使用反向连接模块连接前后层特征图提取候选区域;

③使用多层统一的感兴趣区域下采样方式进行特征融合;

④使用全连接层进行详细分类与回归来检测识别交通标志。

各个步骤详述如下:

一、使用vgg16微调模型对交通标志提取相应的特征图

对于vgg16模型使用交通标志数据集微调,如图2,对于每一种图片,vgg对每一层卷积层提取了相应的特征图,后面才能进行后续的反向连接等步骤。

vgg16模型的主要结构及超参数如表1,网络经过共13个卷积层,4个pooling层,卷积层卷积核大多为3*3,且用连续的两个3*3卷积层连接在一起来代替5*5卷积核从而在不影响性能的情况下减少参数,后面接上maxpooling,后面引入1*1的卷积核,能够在不影响卷积层感受野的情况下增加非线性。最后一个maxpooling对应检测中的roipooling。后面接上三层全连接层(fullconnection,fc),图2中roipooling前面的网络参数为rpn和fast-rcnn共享,所以该三层是fast-rcnn用来详细分类与回归的主要部分。

二、使用反向连接模块连接前后层特征图提取候选区域

反向连接模块中使用了反卷积层来上采样。其中卷积输入特征图与输出特征图的尺寸关系如公式(1):

ninnout分别为输入尺寸和输出尺寸,kernel为卷积核尺寸,padding为周边补0尺寸,stride为卷积核滑动步长。

对应的反卷积输入特征图与输出特征图的尺寸关系如公式(2):

即:nout=(nin-1)*stride+kernel-2padding

如图3(a)是没有加padding,滑动步长为1的卷积映射,(b)是加了padding滑动步长为1的卷积映射。(c)是没有padding滑动步长为1的反卷积映射,(d)是加了padding,滑动步长为1的反卷积映射。映射中下面的图是输入图,上面是输出图。左边两图图中,卷积核尺寸为3*3,卷积时输入图尺寸为4*4,输出图尺寸为(4-3+1)*(4-3+1),反卷积时,在输入图周边补0,输入2*2,输出为[(2-1)+3]*[(2-1)+3]=4*4。而后边有padding的图,卷积时取的是“same”模式,即输入特征图和输出特征图大小一致,padding也是自动计算加上的,所以反卷积时输入与输出尺寸也是一样大小。

典型反向连接模块使用反卷积的形式如图4,从第n+1层reverse特征图(reversemap)经反卷积层往第n层传递,反卷积层的作用便是保证传递后的特征图与主干网络的第n层的输出特征图维度相同,两特征图以元素形式相加。如图2所示,主网络从conv5层开始,自身的特征图作为reverse特征图,经反卷积传入conv4,并与conv4相加,conv4也是以相同形式向前传导。总共有3个不同尺寸的reverse特征图。如图5所示,reversemap5的特征图尺寸为m*n,对应的滑动卷积核为3*3,加上padding为1,stride为1,卷积后的特征图尺寸仍为m*n,而reversemap4的尺寸为2m*2n,要得到相同大小尺寸的特征图,则对应的滑动卷积核尺寸为5*5,padding为2,stride为1,同理reversemap3尺寸为4m*4n,对应的卷积核尺寸为7*7,padding为3,stride为1。reversemap后面通过1*1的卷积核输出到二分类层(clslayer)和回归层(reglayer)。因为reversemap5的每个窗口对应原图中k个候选区域,所以每个窗口输出2k个分类值及4k个回归值,共有2k+4k个输出,对于reversemap4及reversemap3同理。

三、使用多层统一的感兴趣区域下采样方式进行特征融合

由反向连接提取出候选区域后,得到的正类为目标的候选区域,负类为背景的候选区域,后面则进入感兴趣区域下采样(roipooling)阶段。在原图中找到候选区域后,再由卷积映射原理在三个反向连接层特征图中找到候选区域对应的特征图部分。反向连接特征图经过各层对应的的滑动窗口后得到相同尺寸的特征图,故而候选区域在这些特征图中的对应部分区域尺寸也相同。因为后面需要进一步输入到全连接层进行详细分类和边界框回归。而全连接层的输入为固定维度特征,所以需要经过roipooling来下采样到固定尺度。

roi特征融合具体流程如图6,候选区域对应的特征图尺寸为w*h,pooling后的尺寸为w*h,roipooling操作将w*h的特征图分成w*h的网格,每个网格尺寸大约为无法整除的部分算成最边缘网格的最后一部分,并对每个网格做maxpooling,便能得到尺寸为w*h的pooling特征图。后面再将各层roipooling特征图进行连接(concatenate),即增加了特征图通道数,使前层高分辨率的特征图和后层低分辨率的特征图融合在一起,输入到后面全连接层进行详细分类和边界框回归。这样便能提升小尺度目标的检测准确度,也更适合于不同尺度目标的检测。

四、使用全连接层进行详细分类与回归来检测识别交通标志

模型的目标函数由多重任务loss组成,我们要最小化该函数,定义如公式(3)

l(p,p*,t,t*)=lcls(p,p*)+λlloc(t,t*)(3)

p是指预测的类别标签,p*是指对应groundtruth边界框的标签,t是指的是预测边界框的坐标向量,由四个值组成,为中心点坐标和边界框的宽度和高度(x,y,w,h)。t*表示对应的groundtruth边界框的坐标向量。分类损失lcls是交叉熵代价函数,如式(4):

lcls(p,p*)=-(p*log(p)+(1-p*)log(1-p))(4)

其中r表示smoothl1函数,如式(5):

回归预测时,我们采用参数化的形式来表达边界框坐标向量,描述如公式(6)(7)

其中,x,y,w,h表示边界框的中心坐标、宽和高,x,xa及x*分别对应回归预测边界框、候选区域边界框、groundtruth边界框,同理y,w,h也是如此。上式表示从候选区域边界框到预测边界框的位移及缩放变化,下式表示从候选区域边界框到groundtruth边界框的位移及缩放变化,回归训练的目标即是使二者接近,误差越小越好。最后根据预测的候选框与groundtruth边界框的重叠度计算各类别的检测准确率。

创新点

提出了一种小尺寸交通标志检测识别的反向连接深度神经网络模型方法,提高了小尺寸交通标志识别的检测率,从而提升了模型的鲁棒性。针对小尺寸标志检测不理想的问题,本发明采用反向连接模块将后层特征图与前层高分辨率的特征图连接起来,小尺寸的交通标志检测率得到提升,同时,相比于使用单层特征来检测物体,检测所有尺度的交通标志使用多尺度的特征更有效。更重要的是,由于反向连接是可学习的,前一层的语义信息可以得到显著的丰富。该特点使得本发明模型在检测所有不同尺度的交通标志上更为有效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1