一种基于密集连接与注意力机制的交通标志识别方法与流程

文档序号:21982395发布日期:2020-08-25 19:18阅读:232来源:国知局
一种基于密集连接与注意力机制的交通标志识别方法与流程

本发明涉及辅助驾驶系统与目标检测领域,尤其涉及一种基于密集连接与注意力机制的交通标志识别方法。



背景技术:

在现有基于视觉方法的自动驾驶系统中,目标检测是最为核心的任务,包括车道线检测、车辆检测、非机动车检测、行人检测、交通标志检测等。在实际道路上行驶,自动驾驶车辆必须要遵守交通规则,需要根据交通标志和道路的实际情况等做出判断,但面对复杂多变的道路场景,车辆需要从周围的环境中获取规范行驶的“提示”,因此,交通标志检测算法是自动驾驶系统中不可或缺的一部分。由于交通标志形状规则、颜色鲜明,因此在研究早期,国内外学者针对交通标志识别问题主要结合多种图像处理的方法来解决。近年来,随着对神经网络的不断深入研究,深度学习方法被更多地应用到自动驾驶领域中,并占据了重要地位。

基于深度学习的交通标志识别算法准确率高,能够更好地应对遮挡、雨雪天气等特殊情况。目前基于卷积神经网络的常用交通标志识别方法有faster-rcnn[1]、ssd[2]和yolo[3]等。专利“一种基于srcnn的交通标志识别方法”(cn110321803a),能提高低分辨率图像识别准确率且具有计算量小的优点。专利“一种基于改进ssd网络的交通标志识别方法”(cn110287806a)旨在提高ssd网络对小目标的检测率,实现ssd算法对小型交通标志的检测。

在交通标志识别的领域,锚框常被看做是一组不同大小的先验框,由于具有启发性的先验信息,在fasterrcnn和ssd等框架中发挥了巨大的作用。神经网络通常需要生成一组非常大的锚框,其中只有小部分与真值groundtruth重叠,这在正负样本之间造成了巨大的不平衡,减慢了训练速度。

参考文献

[1]rens,hek,girshickr,etal.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks[c]//advancesinneuralinformationprocessingsystems.2015:91-99.

[2]huangj,rathodv,sunc,etal.speed/accuracytrade-offsformodernconvolutionalobjectdetectors[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2017:7310-7311.

[3]redmonj,divvalas,girshickr,etal.youonlylookonce:unified,real-timeobjectdetection[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016:779-788.



技术实现要素:

本发明提供了一种基于密集连接与注意力机制的交通标志识别方法,本发明舍弃了锚框使用密集连接网络densenet121作为骨干网络进行特征提取,并引入了通道注意力机制,详见下文描述:

一种基于密集连接与通道注意力机制的交通标志识别方法,所述方法包括以下步骤:

构建数据集并进行数据预处理;

通过深度学习框架搭建基于密集连接与注意力机制的交通标志识别神经网络;

将训练集中的图片输入神经网络中,通过正向传播得到交通标志类别与位置信息,与真值中的信息计算误差并进行反向传播,不断更新网络参数直至误差不再减小;

输入带有交通标志的图片,加载训练好的模型,输出交通标志识别结果图。

其中,所述通过深度学习框架搭建基于密集连接与注意力机制的交通标志识别神经网络包括:

编码路径、解码路径、输出预测部分和四条并联支路,共同构成了一个u型的编解码网络。

进一步地,所述解码路径分为四部分,

每部分均由一个残差块与一个通道注意力模块构成;解码路径的特征图会先经过残差块后再进入通道注意力模块,用于增大有效通道的权重,同时减小无效通道的权重。

其中,所述并联支路共有四条,

第一条支路将编码路径第四部分的输出输入解码路径;

第二条支路将编码路径第三部分的输出与解码路径第一部分的输出进行特征融合,作为解码路径第二部分的输入;

第三条支路将编码路径第二部分的输出与解码路径第二部分的输出进行特征融合,输入解码路径第三部分;

第四条支路将编码路径第一部分的输出与解码路径第三部分的输出进行特征融合,输入解码路径的第四部分。

进一步地,所述输出预测部分由另外三条支路并联构成,

第五条支路在经过两个卷积块后,会得到一个n通道的特征图,n为交通标志的类别数量,通过n通道的特征图来计算交通标志属于n个类别的概率;

第六条支路在经过两个卷积块后会得到一个两通道的特征图,对特征图的两个通道计算便会得到两个点x与y,能够预测出一个坐标,即交通标志的中心点坐标;

最后一条支路也经过两个卷积块后得到一个两通道的特征图,对特征图的两个通道计算便会得到两个值w与h,即交通标志检测框的宽和高。

本发明提供的技术方案的有益效果是:

1、采用densenet121作为骨干网络进行特征提取,使用密集连接方式,每个层都会接受其前面所有层作为其额外的输入;densenet实现了特征重用,参数更小且计算更高效,同时提升了梯度的反向传播,使得网络更容易训练;

2、采用u型的编码解码网络,可以将网络的深层特征与浅层特征融合在一起,对不同尺度的交通标志进行检测;反复进行的编解与解码操作,充分利用了网络的深层特征,使网络具有更强的表示能力,可以更好的混合全局和局部信息;

3、在解码网络中,每个特征融合支路前,引入通道注意力模块,充分过滤无用的通道信息,保留有益的信息融合到特征图中,提高交通标志识别的准确率;同时,解码网络中使用了大量的残差结构,可以提升网络的非线性能力,解决网络退化问题;

4、本发明的通道注意力模块中同时使用了平均池化和最大池化,并将两种池化结合到一起,增大有效通道权重,减少无效通道的权重。

附图说明

图1为基于密集连接与注意力机制的交通标志识别方法的神经网络整体结构图;

图2为密集连接模块denseblock的神经网络结构示意图;

图3为注意力模块的神经网络结构示意图;

图4为基于密集连接与注意力机制的交通标志识别方法的识别效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

本发明的创新点如下:

1)本发明使用密集连接网络作为骨干网络进行特征提取,通过特征重用和旁路设置,既大幅度减少了网络的参数量,又在一定程度上缓解了梯度爆炸问题的产生;

2)将densenet121不同模块输出的特征图进行融合,充分利用了多尺度的信息,使神经网络最后输出的特征图具有各种尺寸目标的信息,不仅能轻易区分大尺寸的目标,也能提高对小目标的识别率;

3)本网络利用了通道注意力机制,通过全连接层计算通道之间的重要程度,从而过滤掉不重要的通道值。神经网络会把注意力集中放在重要的参数上,选出关键信息,而忽略其他不重要的信息,增大有益参数的权重,减小无用参数的权重;

4)用无锚的方法识别交通标志,避免锚框引起的正负样本数量不均衡现象,提升了交通标志识别的准确率。

实施例1

本发明实施例提出了一种基于密集连接与通道注意力机制的交通标志识别方法,参见图1,该方法包括以下步骤:

101:构建数据集并进行数据预处理;

该步骤101具体为:下载数据集,数据来源是清华大学公开的中国交通标志数据集tt100k(tsinghua-tencent100k),该数据集是从腾讯的街景全景图中截取的。数据集的训练集包含6107张图片,测试集包含3073张图片,图像尺寸为2048*2048像素。本发明选取在数据集中出现频次大于100的类别进行训练,共有45类。

102:通过深度学习框架pytorch搭建基于密集连接与注意力机制的交通标志识别神经网络;

其中,基于密集连接与注意力机制的交通标志识别神经网络包括四个部分,分别是编码路径、解码路径、输出预测部分和四条并联支路,共同构成了一个u型的编解码网络。

其中,编码路径由特征提取网络densenet121构成,输入的图像首先经过一个7*7的卷积模块进行浅层特征的初步提取。编码路径共分为四个部分,每个部分均由一个卷积块与一个密集连接块构成。四个密集连接块中包含的密集连接层的数量分别是6、12、24和16,用于对图像特征的充分提取。每两个相邻的密集连接块之间会有一个pool层进行降采样,作用是扩大网络的感受野,同时得到多种尺度的特征图。每次降采样后得到的特征图都会通过并联支路与解码路径中同一尺度的特征图进行融合,令网络获得更为全局的特征信息。

解码路径分为四部分,每部分均由一个残差块residualblock与一个通道注意力模块构成。解码路径的特征图会先经过残差块后再进入通道注意力模块,目的是增大有效通道的权重,同时减小无效通道的权重。

并联支路共有四条,第一条支路1将编码路径第四部分的输出输入解码路径;第二条支2路将编码路径第三部分的输出与解码路径第一部分的输出进行特征融合,作为解码路径第二部分的输入;第三条支路3将编码路径第二部分的输出与解码路径第二部分的输出进行特征融合,输入解码路径第三部分;第四条支路4将编码路径第一部分的输出与解码路径第三部分的输出进行特征融合,输入解码路径的第四部分。

经过了编码解码网络之后,特征图已经恢复到了初始尺寸,并包含了多种尺度和深层次的语义特征,这种高维特征图被称为热图,能够对各种尺寸的交通标志进行预测。将热图送入输出预测部分,此部分由三条支路并联构成,第五条支路在经过两个卷积块后,会得到一个n通道的特征图,n为交通标志的类别数量,通过n通道的特征图来计算交通标志属于n个类别的概率,便能预测出交通标志的种类;第六条支路在经过两个卷积块后会得到一个两通道的特征图,对特征图的两个通道计算便会得到两个点x与y,能够预测出一个坐标,即交通标志的中心点坐标(x,y);最后一条支路(第七条支路)也会经过两个卷积块后得到一个两通道的特征图,对特征图的两个通道计算便会得到两个值w与h,即交通标志检测框的宽和高。

103:模型训练;

把训练集中的图片输入基于密集连接与注意力机制的交通标志识别神经网络中,通过正向传播得到交通标志类别与位置信息,与groundtruth中的信息计算误差进行反向传播,不断更新网络参数直至误差不再减小。将训练好的网络参数保存为模型。

104:输入带有交通标志的图片,加载第三步训练好的模型,输出交通标志识别结果图。

实施例2

下面结合具体的实例对实施例1中的方案进行进一步地介绍,详见下文描述:

201:构建数据集并进行数据预处理:

(1)本发明使用了公开的tt100k(tsinghua-tencent100k)数据集,数据集划分为训练集和测试集两部分。训练集包含6107张图片,测试集包含3073张图片,图片的尺寸均为2048*2048像素。tt100k是用腾讯的街景全景图截取的,共涵盖了180多种中国的交通标志类别,但其中许多种类较为少见,在数据集中出现的频次较低。本发明采用数据集中出现频次大于100的45类交通标志进行训练。

(2)由于gpu显存限制,不能直接训练整张图像进行训练,所以对(1)中的图片进行裁剪,将2048*2048的训练集裁剪为512*512像素。然后,对数据集进行处理,转换为标准coco数据格式的json文件以便于网络读取。

202:通过深度学习框架pytorch搭建基于密集连接与注意力机制的交通标志识别神经网络,该交通标志识别神经网络为u形结构,下面将进行详细介绍:

(1)神经网络的主体结构如图1所示,由四个部分共同构成了u形的编码解码网络,四个部分是由特征提取网络densenet121构成的编码路径、由通道注意力模块与残差块residualblock组成的解码路径、输出预测部分和四个并联支路。

a)编码路径由特征提取网络densenet121构成,共分为四个部分:第一个部分由一个7*7卷积块和一个密集连接模块denseblock组成,7*7卷积块是为了进行浅层特征的初步提取,7*7卷积块含有1个卷积核大小为7*7、扩张率为1*1、通道数为64的卷积层,1个batchnorm层,1个relu层以及一个pool层,7*7卷积的步长为2,pool层为最大池化层,密集连接块denseblock中的密集连接层denselayer个数为6(l=6);第二部分由一个3*3卷积块和一个密集连接模块denseblock组成,3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层,1个batchnorm层,1个relu层以及一个pool层,3*3卷积的步长为1,pool层为最大池化层,密集连接块denseblock中的密集连接层denselayer个数为12(l=12);第三部分由一个3*3卷积块和一个密集连接模块denseblock组成,3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为256的卷积层,1个batchnorm层,1个relu层以及一个pool层,3*3卷积的步长为1,pool层为最大池化层,密集连接块denseblock中的密集连接层denselayer个数为24(l=24);第四部分由一个3*3卷积块和一个密集连接模块denseblock组成,3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为512的卷积层,1个batchnorm层,1个relu层以及一个pool层,3*3卷积的步长为1,pool层为最大池化层,密集连接块denseblock中的密集连接层denselayer个数为16(l=16)。每个卷积块中会有一个pool层进行降采样,作用是扩大网络的感受野,同时得到多种尺度的特征图。每次降采样后得到的特征图都会通过并联支路与解码路径中同一尺度的特征图进行融合,令网络获得更为全局的特征信息。

b)解码路径分为四部分,每部分均由一个残差块residualblock与一个通道注意力模块构成。解码路径的特征图会先经过残差块后再进入通道注意力模块,目的是增大有效通道的权重,同时减小无效通道的权重。四个残差块residualblock的结构相同,每个残差块均包含两个串联的帧内卷积,每个帧内卷积块含有1个卷积核大小为3*3、扩张率为1*1、步长为1、通道数为256的卷积层,1个batchnorm层以及1个relu层。每个残差块之后,均有一个通道注意力模块,充分过滤无用的通道信息,保留有益的信息融合到特征图中。经过了编码解码网络之后,特征图已经恢复到了初始尺寸,并包含了多种尺度和深层次的语义特征,这种特征图被称为热图,能够对各种尺寸的交通标志进行预测。

c)并联支路共有4条:第一条支路将编码路径第四部分的输出经过1*1卷积块后,输入解码路径;第二条支路将编码路径第三部分的输出经过1*1卷积块后与解码路径第一部分的输出进行特征融合,作为解码路径第二部分的输入;第三条支路将编码路径第二部分的输出经过1*1的卷积块后与解码路径第二部分的输出进行特征融合,输入解码路径第三部分;第四条支路将编码路径第一部分的输出经过1*1卷积块后与解码路径第三部分的输出进行特征融合,输入解码路径的第四部分。四个1*1卷积块均含有1个卷积核大小为1*1、扩张率为1*1、步长为1的卷积层,1个batchnorm层以及1个relu层。

d)输出预测部分先经过一个3*3的卷积块,含有1个卷积核大小为3*3、扩张率为1*1、步长为1、通道数为256的卷积层,1个batchnorm层以及1个relu层,然后分为三级并联的支路。每条支路均由一个3*3的卷积块与一个1*1的卷积块构成,三条支路的3*3卷积块相同,均含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层,1个batchnorm层以及1个relu层。第五条支路的1*1卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为45的卷积层,1个batchnorm层以及1个relu层,此条支路在经过两个卷积块后,会得到一个n通道的特征图,n为交通标志的类别数量,通过n通道的特征图来计算交通标志属于n个类别的概率,便能预测出交通标志的种类;另外两条支路(第六支路和第七支路)的1*1卷积块相同,均含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为2的卷积层,1个batchnorm层以及1个relu层,第六支路和第七支路分别会预测交通标志的中心点坐标和交通标志检测框的宽高信息,其中第五条支路在经过两个卷积块后会得到一个两通道的特征图,对特征图的两个通道计算便会得到两个点x与y,能够预测出一个坐标,即交通标志的中心点坐标(x,y),第六条支路也会经过两个卷积块后得到一个两通道的特征图,对特征图的两个通道计算便会得到两个值w与h,即交通标志检测框的宽和高。通过第四、第五和第六三条支路的预测信息,便能识别出交通标志的种类,并计算出交通标志在图片中的位置信息。

(2)密集连接模块denseblock(l=6)的结构如图2所示,共包含6个密集连接层denselayer。密集连接模块denseblock一般由l个denselayer密集连接构成。本发明的神经网络采用densenet121作为编码路径,四个密集连接块中包含的密集连接层个数分别为6、12、24和16,用于对图像特征的充分提取。每个密集连接层由一个3*3卷积块与一个1*1卷积块构成,3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、步长为1的卷积层,1个batchnorm层以及1个relu层,1*1卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1的卷积层,1个batchnorm层以及1个relu层。

(3)通道注意力模块如图3所示,共分为三条支路(即为第八条、九条和十条支路)。第八条支路将输入特征图进行全局最大池化操作(maxpool)后,进行了线性变换(linear),通过sigmoid函数进行归一化操作;第九条支路将输入特征图进行全局平均池化操作(avgpool)后,进行了线性变换(linear),通过sigmoid函数进行归一化操作后,与第八条支路的输出相加;第八条支路与第九条支路的输出相加后,再次通过sigmoid函数进行归一化,并与第十条支路的输出特征图相乘,第十条支路输出的特征图就是注意力模块的原始输入特征图。

203:模型训练;

把第一步经过裁剪后的图像输入第二步所搭建的基于密集连接与注意力机制的交通标志识别神经网络中,通过正向传播得到交通标志的类别信息与检测框的位置信息。计算神经网络预测得到的交通标志类别与位置信息和groundtruth中标签信息的误差,该误差项由输出层向隐藏层逐层的反向传播,更新网络参数直至输入层,使用adam优化器不断反馈优化直至误差不再减小。

网络的batch_size设置为4,即每一次训练4张512*512的交通标志图片;epoch设置为110,即整个网络需要训练110轮。将训练好的网络参数保存为模型。

204:输入需要进行检测与识别的交通标志图片,加载第三步训练好的模型,即可输出识别的结果图,如图4所示。

205:本发明采用查准率(ap)和查全率(ar)来衡量算法效果。输入3073张测试集图片进行检测与计算后,计算出ap=95.5,ar=99.6。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1