基于跨尺度特征融合的深度卷积神经网络目标检测方法与流程

文档序号:17223554发布日期:2019-03-27 12:18阅读:1230来源:国知局
基于跨尺度特征融合的深度卷积神经网络目标检测方法与流程

本发明涉及人工智能领域,更具体地,涉及一种基于跨尺度特征融合的深度卷积神经网络目标检测方法。



背景技术:

作为计算机视觉中的一个基本任务,目标检测任务一般可以分解为两个子任务。首先,模型需要定位图片中目标的位置,这要求模型具有辨别前景和背景信息的能力。其次,模型需要对定位后的目标进行分类。如果要同时满足上述两种要求,则要求模型提取到对类内物体的外貌差异以及类间物体的尺度差异都具有很强的鲁棒性的特征。

近年来基于深度卷积神经网络的模型不断地在计算机视觉领域取得突破,尤其是在图像分类任务上,深度卷积神经网络模型甚至超过了人类的表现,而这很大一部分归功于深度卷积神经网络能够提取到具有鲁棒性的图像非线性特征。而在目标检测领域,kaiminghe于2014年首次提出了基于深度卷积神经网络的目标检测模型r-cnn。该模型把目标检测任务分为两个阶段进行,第一阶段是生成一系列具有粗略位置信息的候选框,第二阶段对第一阶段生成的候选框位置进行微调,使得它更接近于真实值,并对候选框中的包含的物体进行分类。r-cnn模型的有效性奠定了目标检测任务的二阶段处理框架,随后提出的大量的改进算法都是在此基础上进行改进。而为了更好的检测不同尺度的目标,ssd(singleshotmultiboxdetector)模型尝试利用卷积神经网络中不同分辨率的特征图进行预测,但是由于低层特征缺乏足够的语义信息,因此对小尺度目标的检测性能相对较弱。



技术实现要素:

本发明为克服上述现有技术所述的对小尺度目标的检测性能相对较弱的缺陷,提供一种基于跨尺度特征融合的深度卷积神经网络目标检测方法。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是更有效地利用卷积神经网络中各层的特征。

为解决上述技术问题,本发明的技术方案如下:一种基于跨尺度特征融合的深度卷积神经网络目标检测方法,包括以下步骤:

s1:将待测图片输入到特征提取网络,输出不同分辨率的特征图;

s2:将特征提取网络输出的特征图输入到跨尺度特征融合模块进行特征融合;

s3:对特征融合后的特征图进行噪声抑制、降维、抗混叠处理得到新的特征图,并将处理后的特征图输入至跨尺度特征融合模块中与s1中的另一张输出特征图进行特征融合;

s4:将s3得到的特征融合后的特征图进行检测、分类、计算误差并对模型参数进行更新,并利用训练好的模型进行目标检测。

本发明首先由深度卷积神经网络的前馈过程生成一系列具有不同分辨率的特征图,然后跨尺度特征融合模块对不同分辨率的特征图进行融合,生成一个更具鲁棒性和辨别性的特征金字塔,最后由检测器对特征金字塔进行检测并由分类器对输出的检测结果进行分类。

优选地,从特征提取网络的不同位置输出具有不同分辨率的特征图,靠近输入端的特征图分辨率大于靠近输出端的特征图分辨率,即越靠近输入端其分辨率呈逐渐变大。

优选地,特征提取网络基于resnet网络,并且特征提取网络由串联的残差连接块组成,它能有效缓解随着网络深度增加而带来的网络性能退化问题,并得到一系列不同分辨率的特征图。

优选地,步骤s2中特征融合的具体步骤为:

s21:将分辨率大小相邻的两张特征图输入到跨尺度特征融合模块中,其中分辨率小的为特征图a,分辨率大的为特征图b;

s22:令特征图a经过一个空洞卷积层的处理,使得每个神经元的感受野增大,得到特征图a1;

s23:将特征图a1经过一个反卷积层得到特征图a2,使得特征图a2的分辨率扩大到与特征图b分辨率相同。

上述的空洞卷积操作能有效地扩大特征图上每个神经元的感受野,而反卷积的上抽样方式对输入具有敏感性,能有效提高模型对输入图片的鲁棒性。

优选地,步骤s3的具体过程为:

s31:将特征图a2中的背景噪声和干扰信息进行抑制后输出特征图a3,使得特征图a3有更好的辨别力和鲁棒性;

s32:将a3和b沿通道维度进行串联,再经过后续降维,抗混叠处理,得到特征图a3和b跨尺度融合后的特征图a4;

s33:将跨尺度融合后的特征图a4作为s2的输入特征图b,并把s1中的下一个相邻输出特征图作为s2的输入a,直到所有特征图完成特征融合。

优选地,步骤s4的具体过程为:

s41:将s33中特征融合后的特征图逐个输入到检测器和分类器中,并将它们的结果整合到一起作为最终输出的检测结果,计算出检测器的类别误差以及坐标值误差;

s42:将分类误差以及坐标值误差的加权相加得到网络的总体误差;

s43:计算总体误差对模型参数的梯度值,并使用小批量梯度下降算法mini-batch对模型参数进行更新。

优选地,检测器的类别误差采用softmax进行计算,检测器的坐标值误差采用平滑l1损失函数smoothl1函数计算。

与现有技术相比,本发明技术方案的有益效果是:本发明特征提取网络基于resnet网络,该网络由一系列残差连接块组成,它能有效缓解随着网络深度增加而带来的网络性能退化问题;通过串联的连接方式完成两个特征图的融合,让模型能捕捉两个特征图之间的复杂非线性关系;通过跨尺度的特征融合方法使得在融合特征的过程中,对特征图的输入具有更强的鲁棒性,能更好地结合不同特征图之间的位置信息和语义信息,同时关注模块能生成更具辨别力的特征图,从而达到更好的检测效果。

附图说明

图1为本发明流程图;

图2为本发明网络结构图。

图3为本发明跨尺度特征融合模块。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示的网络流程图,其具体流程如下:

s1:首先将待测图像输入到特征提取网络中,输出不同分辨率的特征图;

s11:首先将输入图片进行零值填充处理,记输入图片的宽和高为w,h,则在图片的右边和下边填空零值的个数分别为

s12:将现有的残差连接网络resnet进行调整得到初步的特征提取网络模型;

s13:本实施例采用的残差连接网络具有50层卷积层,分别属于4个不同的串联的残差连接块中,相邻两个残差连接块的特征图的分辨率成两倍关系;

s14:在输入到第一个残差连接块之前,图像先经过一个步长为2的7×7卷积层和一个步长为2的2×2池化层,这两个操作把特征图的空间分辨率缩小到原来的1/4大小。其后是四个相连的残差连接块,每个残差连接块内部包含了不同数量的残差连接单元,本实施例中其数目分别为{3,4,6,3};

s15:每个残差连接单元由两条分支组成,分别为主分支和短分支,主分支由三层卷积层组成,第一层是步长为1的1×1卷积层,不失一般性,记输入特征图的通道数为d,则第一层的输出通道数为d/4;第二层是一个3×3的卷积层,其步长取决于此残差连接单元是否为本残差连接块的最后一个单元;如果不是最后一个残差连接单元,那么其步长为1;如果它是最后一个残差连接单元,那么它的步长取2;第三层是一个步长为1的1×1卷积层;如果此残差连接单元不是本残差连接块的最后一个单元,则输出通道数为d,如果此残差连接单元是本残差连接块的最后一个单元,则输出通道数则为2d。短分支连接每个残差连接单元的输入和输出节点,当输入和输出特征图的分辨率和通道数相同时,该分支是一个步长为1的1×1卷积层;当输入和输出特征图的分辨率和通道数不相同,它的步长和输入通道数也随之改变,以满足输出的要求,其具体的结构如图2所示。

s16:删除残差连接网络最后的全局平均池化层和全连接层;并取每个残差连接块的最后一个残差连接单元的特征图作为输出;则可得总共4个不同分辨率的特征图{c1,c2,c3,c4},其分辨率由高到低排序。

s2:将特征提取网络输出的特征图输入到跨尺度特征融合模块进行特征融合;

s21:取其中分辨率较低的两个特征图作为跨尺度特征融合模块的输入,并把分辨率较小的那个记作特征图a,分辨率较大的记作特征图b;

s22:将特征图a输入到一个空洞率为2,步长为1的3×3的空洞卷积层中,该卷积层的感受野与一个普通5×5的卷积层相当,记输出为a1;

s23:将a1输入到一个步长为2的反卷积层中,并把输出记作a2,反卷积层输出特征图的分辨率与特征图b相同。

s3:对特征融合后的特征图a2进行噪声抑制、降维、抗混叠处理得到新的特征图,并将处理后的特征图a3输入到s2中对s1中下一个输出特征图进行特征融合其具体流程如图3所示;

s31:将两个具有相同空间分辨率的特征图a2和b,在两个特征图进行融合前,对a2中的背景噪声以及干扰进行抑制得到特征图a3;

s32:将a3输入到一个步长为1的1×1的卷积层中,并使输出通道数等于输入通道数的一半;后面紧接着是一个步长为1的3×3的卷积层,它的输入输出通道数保持不变;最后是一个步长为1的1×1的卷积层,它的输出通道数与a2保持一致,此时的特征图记作a4;

s33:将a4输入到一个全局平均池化层中,并将输出结果经过s型生长曲线sigmoid激活函数处理,得到关注权重ω。

s34:把a3与a2按通道对应相乘,然后与特征图b按通道维度进行串联。然后再用一个1×1的卷积把通道数降低至与a2和b的通道数相同;

s35:重复步骤s2到s3,直到{c1,c2,c3,c4}按顺序两两融合,得到新的特征图{f1,f2,f3,f4}。

s4:将s3得到的特征图{f1,f2,f3,f4}进行检测、分类、计算误差并对模型参数进行更新;

s41:图像采集:选取固定的一些目标类别,然后采集大量包含了这些类别物体的图片,对物体图片进行标记,既对每张图片中出现的每一个目标画出其边界框,并标记其类别信息用于对特征图进行分类;

s42:将特征图{f1,f2,f3,f4}逐个输入到检测器和分类器中,并将它们的结果整合到一起作为最终输出的检测结果;

s43:检测器由两个全连接层组成,每一个全连接层包含了1024个隐藏神经元,最后检测器为特征图上的每一个位置预测一组边界框坐标值,以及它的类别信息;

s44:检测器的类别误差采用softmax进行计算,而坐标值与真实值的误差则采用smoothl1函数计算;由分类误差以及坐标值误差的加权相加得到总体误差;

s45:计算出总体误差误差对模型参数的梯度值,并使用mini-batch梯度下降算法对模型参数进行更新。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1