一种基于自适应卷积的快速目标检测方法与流程

文档序号:18107311发布日期:2019-07-06 11:45阅读:178来源:国知局
一种基于自适应卷积的快速目标检测方法与流程

本发明涉及一种基于自适应卷积的快速目标检测方法,属于数字图像处理、目标检测和深度学习技术领域。



背景技术:

目标检测是一项基础的计算机视觉感知任务,在自动驾驶、人脸识别、交通视频监控等领域都具有广泛的应用。因此提高目标检测的精度和速度是一个重要的研究问题。

近年来,随着深度学习技术的蓬勃发展,计算机视觉取得了巨大的突破,许多先进的视觉感知算法被提出来。其中,目标检测作为一项基础任务,受到了许多研究者的关注,因此也提出了一系列的高效检测算法。现有的检测算法大致可以分为两大类:两阶段法和单阶段法。

第一类是两阶段法,这类方法首先通过一个单独的区域推荐网络rpn来产生稀疏的候选框集合;然后在利用rcnn分别对每一个候选框进行进一步的特征提取,然后分类和位置回归。该类方法通常能取得较高的检测精度,但是由于网络结构较复杂,处理速度很慢,一般很难达到实时处理。文章【1】提出了直接使用主干网络的顶层特征来作为rpn和rcnn的输入特征图,该方法较简单,但是由于特定某一层的卷积层的感受野大小是固定的,用来检测不同尺度的目标是不理想的,对于过大或过小的目标性能都比较差。文章【2】采用特征金字塔网络来融合来自高层的语义信息,改善不同尺度下的目标检测问题。

第二类方法是单阶段法,这类方法的检测网络只会前向传播一次,通过对图像区域的密集采样,产生大量的预测框,对每一个可能的位置都尽可能的进行位置回归和分类。该类方法由于网络简单,处理速度往往很快,在各种实时性要求较高的场景有较大的应用前景。文章【3】将图像分割成7*7个区域,每个区域内输出两个可能的目标位置,该方法由于产生的候选框集合过于稀疏,预测精度较低。文章【4】采用多层特征预测的方法来处理不同尺度下的目标检测问题,浅层的特征用于检测小尺度目标,深层的特征用于检测较大尺度的目标,该方法的速度和精度都取得了一个不错的进步,得到了大量的研究和应用,但是由于浅层网络的感受野有限,其特征包含大量简陋的低层特征和干扰信息,对小尺度目标的定位有较大的影响,导致其小尺度检测性能较差。文章【5】在【4】的基础上进一步改进,利用反卷积层搭建了一个对称的沙漏网络,将高层的特征与低层特征进行融合,在精度上取得了进一步的提高,但是由于网络更加复杂,预测框采样更加密集,算法的耗时巨大,在实际使用中很难得到应用。

【1】rens,hek,girshickr,etal.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks[c]//advancesinneuralinformationprocessingsystems.2015:91-99.

【2】linty,dollárp,girshickr,etal.featurepyramidnetworksforobjectdetection[c]//cvpr.2017,1(2):4.

【3】redmonj,divvalas,girshickr,etal.youonlylookonce:unified,real-timeobjectdetection[c]//proceedingsoftheieeeconferenceoncomputervisionandpatternrecognition.2016:779-788.

【4】liuw,anguelovd,erhand,etal.ssd:singleshotmultiboxdetector[c]//europeanconferenceoncomputervision.springer,cham,2016:21-37.

【5】fucy,liuw,rangaa,etal.dssd:deconvolutionalsingleshotdetector[j].arxivpreprintarxiv:1701.06659,2017.



技术实现要素:

本发明技术解决问题:克服现有技术的不足,提出一种基于自适应卷积的目标检测方法,通过提出一种新的自适应卷积模块来动态地调整卷积滤波器的参数,来改善检测网络提取特征的表达能力,抑制无关的干扰特征,增强感兴趣目标的特征响应,使提取的特征更加适合当前场景检测需要,提高其对复杂场景下的小尺度目标(小尺度是图像中大小小于32*32像素的目标)的检测性能。

本发明提出一种基于自适应卷积的目标检测方法,用于提高检测网络提取特征的表达能力,增强感兴趣目标的特征响应,抑制无关干扰信息的表达,从而降低误检和漏检比例,同时也减少重复检测结果,提高检测速度。本发明基于此自适应卷积模块进一步构建了一种快速的目标检测网络,取得了速度与精度的更好的平衡。

本发明的技术方案有以下几个步骤:

步骤1:获取带有标签的图像数据,构成训练集;

步骤2:提供一种自适应卷积模块,并基于自适应卷积模块构建目标检测网络,增强用于检测的特征的表达能力,提高检测精度,该目标检测网络将被用来预测待检测目标框的位置与所属于类别的得分;

步骤3:在步骤1构成的训练集上训练步骤2的目标检测网络,直到目标检测网络收敛,得到训练好的目标检测网络;

步骤4:利用训练好的目标检测网络对图像进行检测,得到所有检测结果,再使用非极大值抑制算法剔除重复结果,得到最终检测结果,检测结果包括目标框的位置和所属类别的得分。

本发明提出了一种自适应卷积模块,并利用该自适应卷积模块构建了一种新的实时目标检测网络,其网络的结构如图2所示。

现在首先介绍本发明所提出的自适应卷积块,它能根据输入的特征,动态地调整卷积滤波器的参数,学习到一组仅依赖输入数据的自适应卷积滤波器。这些滤波器能够适应输入图片场景的变化,自适应提取最合适的特征,抑制无关因素的影响。该自适应卷积模块的具体结构如图3所示。

在图3中,x表示输入的特征图,其大小为cin×h×w,cin表示输入通道数,h,w分别表示其高和宽;l与w分别为中间结果,y为自适应卷积块的最终输出结果,其大小为cout×h×w,cout表示输出通道数,在本发明中,cout取固定值256。

该自适应卷积块的处理过程为,首先对输入特征x进行均值降采样,得到大小为cin×3×3的特征图l,然后在将l通过一个一般的3*3的卷积层,得到w大小为cw×3×3,这里的w就是动态学习到的卷积滤波器的参数集合,其中cw=cout×cin。最后将输入特征x与w进行卷积得到最终的输出特征y,其卷积的计算方式如下:

其中,yi表示y的第i个通道,其取值范围为{1,2,3,…,cout},同理xj与也表示其对应的第j和第i*(cin-1)+j个通道,*表示卷积操作。

本发明根据上面提出的自适应卷积模块构建了一种新的实时目标检测网络,该检测网络是以经典的单阶段检测算法ssd作为基础改进的,它具有精度高速度快的优势,改进后的检测网络的总体结构如图2所示。

本发明采用常见的vgg16作为基础网络,采用其前13层卷积层作为检测网络的基础部分,并在其后添加8层普通的卷积层,这构成检测网络的主干网络部分,这部分的结构与ssd检测网络结果一致。

然后从主干网络中选取其中6层卷积层的输出作为检测用的特征图,如图2所示,这六层卷积层的分别是conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11_2,这6层输出的特征图的大小是逐渐减小的。

本发明的创新之处在于利用自适应卷积对这六层的特征图进行进一步的优化增强,可以有效降低干扰信息对最终检测结果的影响,提高对小目标的检测精度,同时也可以减少结果中的重复结果,可以减少非极大值抑制部分的计算量,加快检测算法的整体运行速度。本发明将检测用的6个特征图分别输入到一个自适应卷积块中,该自适应卷积块能够根据输入特征动态的调整卷积核滤波器的参数,以此来优化其特征的表达能力,提高检测效果。

最后再利用通用卷积层进行目标框的位置和类别得分的预测,这与ssd算法一样。具体的,本发明所涉及的多目标检测部分采用通用卷积层来输出目标框的位置坐标和类别的得分。其中,目标框的位置坐标包含四个数值(x,y,w,h),表示框的中心点横纵坐标以及宽高,而类别的得分将包含感兴趣目标的种类加上背景的得分。

本发明所提出的基于自适应卷积的目标检测网络在训练时需要对自适应卷积块部分的参数更新更加谨慎。具体的,在训练检测网络时采用的初始的基础学习率为0.001,该学习率应用到除了自适应卷积块的其他所有层的学习中,而对于自适应卷积块部分的学习率将采用基础学习率的二分之一,这样可以有效避免训练的震荡。

所述步骤4中,使用非极大值抑制剔除重复结果,具体如下:

(1)将所有结果的目标框的分类得分低于一定阈值(本发明选取0.01)的删除掉;

(2)将剩下的所有目标框按照分类的得分高低依次排序;

(3)选取当前排序结果中得分最高的目标框保留下来,遍历剩下的框,若其与当前得分最高的目标框的重合比例超过了阈值(本发明采用0.45),则将该框删除;

(4)从未处理的框中继续选取一个得分最高的框,继续步骤(3),直到所有的框都处理完成。

本发明与现有技术相比的优点在于:

(1)本发明能够提高小尺度目标的检测性能

主干网络提取的原始浅层特征包含丰富的信息,由于浅层网络的感受野较小,其提取的特征同样也包含有很多干扰信息,在检测小尺度目标的时候这些干扰信息会严重影响检测结果,导致错检和漏检。本发明利用自适应卷积对特征进行进一步优化,抑制无关信息,增强感兴趣目标的信息,使优化后的特征更加适合当前场景的检测任务,改善了目标检测算法在小尺度目标下的检测性能。本发明在通用目标检测数据集上表现良好,整体精度提升了3.5%,对于小尺度目标的检测也有很大提升,相比原始算法精度提高了2.9%。

(2)本发明能够加快算法的处理速度

本发明提出的改善方法是针对特征的优化,方法非常简单有效,改进后的检测网络虽然推理时间会有所增加,但是由于抑制了大量的无关特征响应,使得最终的检测结果更加具有区分度,在进一步剔除重复检测结果的过程中大大减少了计算量,使得检测算法的总的耗时较少,本发明在单块titanxgpu上的运行时间可以达到42fps,满足实时处理需求。

附图说明

图1为本发明方法实现流程图;

图2为本发明的基于自适应卷积的目标检测网络结构图;

图3为本发明的自适应卷积块结构图;

图4为本发明的检测结果示例图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示,本发明具体步骤如下:

1.构建训练集

根据实际的目标检测应用场景需要,采集充足的训练图片,并且对每一张图片均打上对应的标签,即标记感兴趣目标的位置和类别。然后统计分析该训练集中不同尺度的目标的大小,根据目标的尺度范围确定检测网络的先验锚点框的大小。如果所需的场景中小尺度目标较多而大尺度目标较少,则先验锚点框的大小通常选取较小的值,反之则选取偏大的锚点框。一般的,根据经验,对不同的检测层采用先验框大小分别为30,60,111,162,213,264,这些值可以较为全面的覆盖各个尺度下的目标大小。同时采用1:1,1:2和2:1作为先验框的宽高比,当然,也可以根据实际训练集的目标分布情况适当增加或减少宽高比范围。

2.构建基于自适应卷积的目标检测网络

本发明提出了一种自适应卷积模块,并据此构建了一种高效地实时目标检测网络,其网络的结构如图2所示,采用vgg16的前13层作为检测网络的基础部分,并在其后添加8层普通的卷积层,这构成网络检测网络的主干网络部分。从主干网络中选取来自6层(如图conv4_3到conv11_2)不同大小的特征图用作检测特征。然后将这些检测特征分别输入一个自适应卷积块中,优化其特征的表达能力,然后在利用通用卷积层进行目标的位置和类别的预测。最终,采用非极大值抑制算法来提出检测结果中的重复结果,得到最终的输出结果。

本发明所提出的自适应卷积块能根据输入的特征,动态地调整卷积滤波器的参数,学习到一组仅依赖输入数据的自适应卷积滤波器。这些滤波器能够适应输入图片场景的变化,自适应提取最合适的特征,抑制无关因素的影响。该自适应卷积模块的具体结构如图3所示。

在图3中,x表示输入的特征图,其大小为cin×h×w,cin表示输入通道数,h,w分别表示高和宽;l与w分别为中间结果,y为自适应卷积块的最终输出结果,其大小为cout×h×w,cout表示输出通道数。

该自适应卷积块的处理过程为,首先对输入特征x进行均值降采样,得到大小为cin×3×3的特征l,然后在将l通过一个通用的卷积层,得到w大小为cin×3×3,w是动态学习到的卷积滤波器的参数集合,其中cw=cout×cin。最后将输入特征x与w进行卷积得到最终的输出特征y,其卷积输出的计算方式如下:

其中,yi表示y的第i个通道,其取值范围为{1,2,3,…,cout},同理xj与也表示其对应的第j和第i*(cin-1)+j个通道,*表示卷积操作。cin表示输入通道数,cout表示输出通道数。

本发明所涉及的多目标检测部分采用通用卷积层来输出目标的位置坐标和类别概率。其中,位置坐标包含四个数值(x,y,w,h),而类别概率包含感兴趣目标的种类加上背景。

3.训练检测网络

在训练检测网络时,需要对训练数据进行增强,也就是输入图片的预处理。本发明采用随机水平翻转,随机裁剪和色彩畸变来增强数据,这样可以扩展训练集范围,使用较少的数据也能得到充足的训练效果。

本发明在训练网络时使用softmax作为类别的分类损失函数,使用smoothl1作为目标定位的损失函数,其表达形式为:

其中,{x,y,w,h}分别表示目标框的中心点横坐标、纵坐标、宽度及高度,t和v分别表示目标的真实位置标签和检测网络的预测位置。其中smoothl1函数的数学表达式如下:

4.检测图片

当检测网络训练好后,可以使用它在实际应用场景中来检测输入图片中的感兴趣目标。当利用摄像机等设备采集到一张图片后,将其缩放到固定尺寸300*300大小,然后输入到检测网络中进行前向推理,获得的网络输出结果中会包含大量的重复检测结果,可以使用非极大值抑制算法来提出重复结果,得到最终的输出结果。本发明采用的非极大值抑制算法首先采用置信度阈值0.01来滤除掉大量的背景框,然后使用交叠比阈值0.45来筛选剩下的高置信度目标框。

检测结果示例如图4所示,对于密集分布的目标,本发明具有较高的检测精度,如上面两图所示,人,狗均被检测出来,而右上角的瓶子绝大部分也都被检测到,可以看出本发明对于复杂场景具有良好的稳定性;对于小尺度的目标而言,本发明的方法也能较完备的检测出来,如下面两张结果图,远处很小的人和车都被准确的检测出来,由此可以看出本发明的方法对于小目标有很好的检测性能。

提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1