基于特征融合和深度学习的小目标检测方法与流程

文档序号:16882931发布日期:2019-02-15 22:21阅读:402来源:国知局
基于特征融合和深度学习的小目标检测方法与流程
本发明属于图像信息处理
技术领域
,主要涉及深度学习目标检测,具体的说是一种基于特征融合和深度学习的小目标检测方法,可用于对小目标的实时定位和分类。
背景技术
:目标检测是计算机视觉领域中一个富有挑战性的课题,目前基于深度学习的目标检测方法主要分为两类,一类是基于候选区域的卷积神经网络模型,一类是基于回归的卷积神经网络模型。基于候选区域的深度卷积神经网络模型:r-cnn网络及r-cnn的各种优化网路。r-cnn网络模型首先通过选择性搜索(selectivesearch)算法提取候选边框,然后使用深度卷积神经网络(dcnn)对候选边框提取特征,最后使用分类器支持向量机svm[5]进行分类。由于r-cnn中候选边框的提取算法耗时长且重复提取特征,因此研究人员进行了一系列的优化方法:首先在fastr-cnn中对整张图像进行特征提取,并将候选区域提取阶段提取的候选区域映射到特征图上进行目标检测;其次使用卷积神经网络中的全连接层取代支持向量机svm;在fasterr-cnn中使用全卷积神经网络fpn作为候选区域提取网络,并且候选区域提取网络与目标检测网络共享卷积层,极大的压缩了目标检测时间。2016年josephredmon等提出了一种新的基于回归的深度学的目标检测网络模型——yolo(youonlylookonce),与基于候选区域的深度学习目标检测网络不同,该方法不需要对输入图像进行候选区域提取,而是将输入图像划分为s*s个网格,每个网格负责中心在该网格的目标的检测,预测所有网格包含的边框、定位置信度及目标属于每个类别的概率,最后通过非极大值抑制得到最终的检测结果。该方法在titanxgpu上的检测速度可以达到每秒45帧,完全满足实时性检测的要求,但是由于该方法是针对s*s个网格做预测的,因此网格的数量直接影响最终的目标检测精度,不利于小目标和稠密目标的检测。针对yolo中存在的问题,研究者提出了yolov2、ssd网络及ron网络等,这些网络的优势有:在yolo网络的基础上使用更深的卷积神经网络模型提取特征,提高目标检测精度;使用多尺度特征图进行目标检测,适应多尺度目标检测;将最后用于目标检测的全连接层用卷积层取代,这样可以减少模型中的参数,减少检测时间。目前这两类网络模型各有优势,基于候选区域的卷积神经网络模型检测精度一般较高,但是实时性较差;基于分割的网络模型往往检测精度和实时性与划分的网格的多少有很大关系,要检测小目标,往往要求划分的网格数较大,实时性就随之降低。以上两种主流的模型对图像中的小目标仍然不能实现较高的检测精度同时保证实时检测。技术实现要素:本发明的目的是针对上述技术存在的不足,提出一种能够实现对小目标的实时检测的基于特征融合和深度学习的小目标检测方法。本发明是一种基于特征融合和深度学习的小目标检测方法,其特征在于,包括有如下步骤:(1)准备图集:使用图像集pascalvoc2007和pascalvoc2012的训练数据集作为训练集,用图像集pascalvoc2007的测试数据集作为测试集,上述图像集均为含有大小不同目标的网上公开的图像集。(2)搭建基于特征融合和深度学习的小目标检测网络模型:以残差网络作为特征提取的基础网络,在残差网络之后添加五层卷积池化操作构成辅助的特征提取网络,得到更多种尺度的特征图,以多种尺度特征图为基础构建特征金字塔,使用反卷积和上采样方法,得到与浅层特征图同样的分辨率的特征图,按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到更具描述能力的特征图;最后添加预测网络,使用多边框和非极大值抑制方法得到小目标类别和位置;(3)构建网络模型的目标损失函数:在图像训练集上训练构建好的网络模型,构造网络模型的目标损失函数l(x,l,c,g);(4)训练网络模型:将网络模型的训练分为两阶段式训练,采用梯度下降法最小化损失函数同时对网络中的权重参数逐层反向调节,得到最终训练好的网络模型;(5)小目标检测:将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中小目标的目标类别和位置坐标。本发明在深度模型的设计中更多的考虑了不同尺度特征图的使用,通过构建起的特征金字塔,融合不同尺度的特征图,使得不同分辨率的特征图上都同时具有浅层位置信息和高级语义信息,使得小目标的特征更多的进行了保留,从而提高了对小目标的检测效果。与现有技术相比,本发明具有如下优点:1)本发明在基于残差网络的基础网络之后添加辅助特征提取网络构成的完整特征提取网络,使得该发明提出的深度模型中提取到的特征图的尺度得到了扩充,多尺度不同分辨率的特征图在多个维度上保存了待检测图像的丰富的信息特征,丰富的信息特征为预测提供了更多的有效信息,提高了检测精度;2)本发明基于多种尺度的特征图构建起特征金字塔,利用反卷积操作对高层低分辨的特征图进行上采样得到与浅层特征图同样的分辨率,并按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到更具描述能力的特征图,使得预测层的不同分辨率的特征图上都同时具有浅层位置信息和高级语义信息,正由于使用了多种尺度的融合特征图,使得最后得到的检测精度高于只使用一种尺度特征图的目标检测算法,提高了对小目标检测精度,同时本发明所提出的网络的模型并不大,不存在较大的计算负担,所以达到实时性的要求,综上,本发明提出的网络模型对小目标具有较好的检测效果,在具备较高检测精度的同时,也能够保证检测的实时性。附图说明图1是本发明的实现流程图;图2是本发明中构建的网络结构图;图3是本发明或ssd模型网络的检测结果图,其中图3(a)是本发明的检测结果,图3(b)是ssd模型网络的检测结果;图4是本发明或ssd模型网络的检测结果图,其中图4(a)是本发明的检测结果,图4(b)是ssd模型网络的检测结果;图5是本发明或ssd模型网络的检测结果图,其中图5(a)是本发明的检测结果,图5(b)是ssd模型网络的检测结果;图6是本发明或ssd模型网络的检测结果图,其中图6(a)是本发明的检测结果,图6(b)是ssd模型网络的检测结果。具体实施方式下面结合附图和实例对本发明进行详细说明实施例1目标检测是图像应用领域重要的研究课题,比如智慧农业中的农作物检测,安放领域中的园区安全检测等等。目前对图像中小目标的检测还存在诸多问题,比如容易受光照,旋转,图像尺度等因素影响,但是小目标的检测又极具意义,比如利用无人机进行航拍,航拍图像中的物体目标往往比较小,针对小目标检测是急待解决的问题,因此本发明提出了一种针对小目标检测的深度模型。本发明是一种基于特征融合和深度学习的小目标检测方法,参见图1,包括有如下步骤:(1)准备图集:使用图像集pascalvoc2007和pascalvoc2012的训练数据集作为训练集,用图像集pascalvoc2007的测试数据集作为测试集,上述图像集均为含有大小不同目标的网上公开的图像集。本例中其中pascalvoc2007图像集共含有9963副含有不同大小目标的图像,pascalvoc2012图像集含有11540副含有不同大小目标的图像。以上两数据集为之后的模型训练提供了丰富的训练材料,提高了训练好后模型的泛化程度。(2)搭建基于特征融合和深度学习的小目标检测网络模型:参见图2,以残差网络前conv4_3层作为特征提取的基础网络,在残差网络之后添加五层卷积池化操作构成辅助的特征提取网络,得到更多种尺度的特征图,以conv3,conv5,conv6,conv7,conv8,conv9网络层得的多种尺度特征图为基础构建特征金字塔,对conv5层和conv6层得到的特征图使用反卷积和上采样方法,得到与浅层特征图同样的分辨率的特征图,按照元素相加的方式分别对高层特征图conv3层与conv5层的特征图进行特征融合,得到更具描述能力的特征图;最后conv3,conv5,conv6,conv7,conv8,conv9网络层得到的特征图输入到预测网络。预测器对于同一个目标会做出重复的预测。本发明利用非极大值抑制来移除置信度低的重复预测。(3)构建网络模型的目标损失函数:在图像训练集上训练构建好的网络模型,考虑到小目标的检测需要知晓目标的类别和在图像上的位置,所以构造与类别误差和未知误差有关的网络模型的目标损失函数l(x,l,c,g)。(4)训练网络模型:为进一步增加训练图像集的大小,对训练集进行相应的图像增强操作,然后将网络模型的训练分为两阶段式训练,采用梯度下降法最小化损失函数同时对网络中的权重参数逐层反向调节,得到最终训练好的网络模型。(5)小目标检测:将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中小目标的目标类别和位置坐标。本发明基于特征融合的目标检测网络模型,通过更深更好的基础卷积神经网络提取特征图,同时添加特征金字塔网络结构,提供多尺度的特征图参与最后的目标检测,实现多尺度目标的检测,并在特征金字塔网络结构中使用反卷积操作融合高级语义层的特征图信息和浅层的特征图信息,更好地检测图像中的小目标,同时也能满足实时性要求。实施例2基于特征融合和深度学习的小目标检测方法同实施例1,本发明步骤(2)中所述的搭建基于特征融合和深度学习的小目标检测网络模型,参见图2,按照如下步骤进行:(2a)利用残差网络resnet101的前conv4_3层构建基础网络:在残差网络中增加不相邻但分辨率相同的层之间的连接,形成基础网络。基础网络的输入为待检测的图像,用于将图像提取为各尺度的特征图。由于在残差网络中增加不相邻但分辨率相同的层之间的连接,有效防止卷积操作和激励函数之后信息的丢失,同时减少了深层网络模型中的出现的梯度消失和梯度爆炸问题,因此利于网络模型的训练。(2b)在基础网络之后添加五层依次减小的卷积层conv5,conv6,conv7,conv8,conv9,构成辅助的特征提取网络,用以扩充得到更多种的尺度特征图,基础网络和辅助的特征提取网络组成本发明提出的模型的特征提取网络。多尺度多分辨率的特征图为最后的预测提供了不同层次上的特征信息,其中小目标的特征信息得以保留,利于小目标的检测。(2c)以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔网络结构用以实现目标检测中的多尺度目标检测。(2d)使用多层卷积滤波器和softmax分类层构建预测网络,作为基于特征融合和深度学习的小目标检测网络模型的末端预测层,处理来自金字塔网络中融合后的conv3和conv5网络层的特征图和未进行融合的conv6,conv7,conv8,conv9网络层的小尺度特征图,作为整个网络模型的预测输入。通过卷积滤波器得到多个预测边框内的目标类别和相对默认边框的未知偏移量,然后使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量和默认边框的位置坐标求出预测边框的位置坐标。基于特征融合和深度学习的小目标检测网络模型搭建完成。实施例3基于特征融合和深度学习的小目标检测方法同实施例1-2,步骤2c中所述的构建特征金字塔网络结构用以实现目标检测中的多尺度目标检测,参见图2,具体包括:(2c1)以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔。(2c2)利用反卷积操作对金字塔结构中高层低分辨的conv5和conv6层的特征图进行上采样得到与浅层特征图conv3和conv5层的特征图同样的分辨率,并按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到融合后更具描述能力的conv3和conv5层的特征图。小目标检测的难点在于目标定位不准确,高层的特征图上以语义信息为主,缺乏小目标的位置信息、纹理信息等,因此只依赖高层的特征图进行小目标检测是不可行的。在深度卷积神经网络中,浅层的特征图上关于目标的位置、纹理等信息是比较丰富的,但是缺乏高级语义信息,通过两个方向的特征融合可以获取更具表述能力的特征图,尤其是分辨率较高的特征图上不仅包含目标的位置信息也包含了高级语义层的信息,对小目标的检测非常有利。实施例4基于特征融合和深度学习的小目标检测方法同实施例1-3,步骤3中所述的构造网络模型的目标损失函数l(x,l,c,g),按如下步骤进行:(3.1)在预测层的特征图上使用anchor机制,在每个特征图的每个特征点上预测不同长宽比、不同尺度的anchorbox,以此对目标边框位置进行预测。本发明网络模型在训练时的目标损失函数源自multibox的目标损失函数,并将其扩展到多类别目标。考虑到检测结果需要输出目标的类别和位置,目标损失函数l(x,l,c,g)由分类损失函数lconf(x,c)和定位损失函数lloc(x,l,g)组成:其中,x为特征图上的默认边框,l为预测框,g为标注边框,c为特征图上的默认边框在每个类别上的类别得分集合,lconf(x,c)表示特征图上的默认边框在类别得分集合c上的softmax分类损失函数,lloc(x,l,g)表示定位损失函数,n表示与标注边框匹配的默认边框数,参数α通过交叉验证设置为1。(3.2)根据特征图上的默认边框在所有类别上的分类得分集合c,计算softmax分类损失函数lconf(x,c):其中,当表示第i个默认边框与类别为p的第j个标注边框相匹配,表示第i个默认边框与类别为p的第j个标注边框不匹配,0≤i≤n,n表示与标注边框匹配的默认边框数,1≤p≤h,h为总的类别数量,0≤j≤t,t为标注边框的数量,表示在正样本中第i个默认边框的在所有类别上的平均得分,表示在负样本中第i2个默认边框在所有类别上的平均得分,0≤i2≤n2,n2表示与标注边框不匹配的默认边框数。softmax分类损失函数考虑到了所有候选类别,从统计意义上,完成最佳的类别预测,计算简单,效果显著。(3.3)计算定位损失函数lloc(x,l,g):其中(cx,cy)是经过(δx,δy)补偿后的默认框x的中心坐标,w,h是经过(δw,δh)补偿后的默认框的宽和高,表示偏移量为m的第i个预测边框,表示偏移量为m的第j个预测边框,每一次迭代优化都对边框进行一次精修,动态实现对最终检测边框的最佳定位。本发明损失函数的设计将针对类别的优化和位置的优化放在一起,比传统的将针对类别和位置的优化分别设计在两个损失函数更高效,其中,softmax分类损失函数考虑到了所有候选类别,从统计意义上,完成最佳的类别预测,计算简单,效果显著;位置损失函数在每一次迭代优化中对边框进行一次精修,动态实现对最终检测边框的最佳定位。实施例5基于特征融合和深度学习的小目标检测方法同实施例1-4,步骤4中所述的训练网络模型,为了进一步增加图像训练集的大小,对数据集中的样本随机进行数据增强操作,用以防止网络训练过拟合,按如下步骤进行:(4.1)对数据集中原来的样本图像进行镜像操作,使得检测结果能够有效处理图像中存在镜像的情况;对数据集中原来的样本图像进行尺度和长宽比上的缩放,尺度缩放比例为[0.5,1],缩放长宽比为[0.5,2],人为扩充图像集中的物体的尺寸,特别是增加了训练集中的小尺度图像,利于小目标的训练;对数据集中原来的样本图像进行裁剪,进一步扩充了训练集的多样性,普适性;(4.2)训练参数设置:模型训练的参数需要综合考虑,模型训练的初期学习率需要设置的高一点,以加速训练,但是不能太高,不然容易发生震荡,会导致结果不收敛,精度很差。随着训练的进行,模型慢慢成型,学习率需要相应随之降低,此时主要对模型进行微调,权值衰减系数,过大,模型拟合效果不佳,太小,拟合速度慢。模型训练需要设置梯度更新权重,使得某次参数更新不会完全根据某一次的预测进行调整,有效应对某次异常的预测,使得模型训练更可靠。最终设定模型训练的次数,随着训练次数的增加,模型越来越趋于稳定,再增加次数效果也不会变动,综上,本发明训练时的初始学习率base-lr可选择范围为0.01至0.0005,梯度更新权重momentum值可选择范围为0.9至0.8,权重衰减项系数weight-decay可选择范围为设置为0.0001至0.00001,最大训练次数可选择范围为50000至100000。(4.3)第一阶段先训练没有添加特征融合结构的网络模型。未添加特征融合结构的网络能够训练出一个普通的目标检测模型,具备一定的检测精度,但是精度有待进一步提高,该阶段的训练结果主要作为下一阶段的基础模型,为下一阶段的训练做准备。(4.4)第二阶段训练时,以第一阶段训练好的模型为基础继续训练完整的网络模型该阶段的训练在第一阶段的基础上添加了特征融合结构,训练结果会根据特征融合后的信息在第一阶段的训练结果上进行调整,使得检测精度在第一阶段的基础上进一步提升。训练集的数据大小对深度网络的训练效果影响很大,越大的训练数据往往能使得训练完成的网络更具泛化能力,实际运用时能获得更精准的检测效果。本发明对训练数据集进行数据增强操作,以增加训练数据集的大小,有利于网络的训练。两阶段的训练方式将一阶段训练的压力有效分解到了两个阶段,第二个阶段在第一个阶段上进行完整的训练,使得训练过程更高效,更可靠。实施例6基于特征融合和深度学习的小目标检测方法同实施例1-5,步骤5中所述的小目标检测,参见图1,按如下步骤进行:(5.1)将测试集中的样本图像转换为lmdb格式的文件,首先通过resnet101的网络提取多种尺度的高分辨率特征图,提取到的高分辨率特征图保留了利于小目标检测的浅层的关于目标的位置、纹理等信息。(5.2)接着通过辅助卷积层提取5个尺度依次减小的低分辨率特征图,参见图2,其中,添加的5层卷积层处于网络的模型右边,目的是为了扩充特征图的尺度,5层卷积层的选择是综合了网络计算量和性能得到的,少于5层会造成特征图尺度的减少,影响最终检测的精度,多于5层就增加了网络的规模,计算负担加重,影响实时性。(5.3)参见图2,以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔,构成的金字塔网络从左往右看其包含的特征尺度依次减小,呈塔状结构。(5.4)参见图2,利用反卷积操作对金字塔结构中高层低分辨的conv5和conv6层的特征图进行上采样得到与浅层特征图conv3和conv5层的特征图同样的分辨率,并按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到融合后更具描述能力的conv3和conv5层的特征图,融合后的特征图包含了高级语义层的特征图信息和浅层的特征图信息,丰富的特征信息为预测提供了更多的有效信息。(5.5)预测网络同时使用特征融合后的特征图和低分辨率的特征图进行预测,多种特征图的联合使用,比使用单一特征图进行预测提供了更多更有效的信息,利于提高检测精度。(5.6)参见图1,预测网络中使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量和默认边框的位置坐标求出预测边框的位置坐标。目标类别和位置的联合预测比分开各自预测提高了网络的计算性能,压缩了网络的模型,提高了效率。下面从整体上给出一个例子,对本发明进一步说明实施例7基于特征融合和深度学习的小目标检测方法同实施例1-6,参照图1,本发明的实现方案包括如下步骤:步骤1,根据残差网络resnet101和特征金字塔网络建立基于特征融合的深度学习网络模型。当前基于深度学习的目标检测网络分为两大类:一类是基于候选区域的深度学习目标检测网络,例如r-cnn、fastr-cnn和fasterr-cnn;另一类是基于回归的深度学习目标检测网络,例如yolo和ssd,本发明提出一种基于特征融合的目标检测网络模型,通过更深更好的基础卷积神经网络提取特征图,同时添加特征金字塔网络结构,提供多尺度的特征图参与最后的目标检测,实现多尺度目标的检测,并在特征金字塔网络结构中使用反卷积操作融合高级语义层的特征图信息和浅层的特征图信息,更好地检测图像中的小目标。参照图2,本发明基于特征融合和深度学习的小目标检测网络模型构建的具体步骤如下(1a)利用残差网络resnet101的前conv4_3层构建基础网络:在残差网络中增加不相邻但分辨率相同的层之间的连接,形成基础网络。基础网络的输入为待检测的图像,用于将图像提取为各尺度的特征图。由于在残差网络中增加不相邻但分辨率相同的层之间的连接,有效防止卷积操作和激励函数之后信息的丢失,同时减少了深层网络模型中的出现的梯度消失和梯度爆炸问题,因此利于网络模型的训练。(1b)参见图2,在基础网络之后添加五层依次减小的卷积层conv5,conv6,conv7,conv8,conv9,构成辅助的特征提取网络,用以扩充得到更多种的尺度特征图,基础网络和辅助的特征提取网络组成本发明提出的模型的特征提取网络。多尺度多分辨率的特征图为最后的预测提供了不同层次上的特征信息,其中小目标的特征信息得以保留,利于小目标的检测。(1c)参见图2,以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔网络结构用以实现目标检测中的多尺度目标检测。(1c1)以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔,参见图2,构成的金字塔网络从左往右看其包含的特征尺度依次减小,呈塔状结构。(1c2)利用反卷积操作对金字塔结构中高层低分辨的conv5和conv6层的特征图进行上采样得到与浅层特征图conv3和conv5层的特征图同样的分辨率,并按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到融合后更具描述能力的conv3和conv5层的特征图,融合后的特征图包含了高级语义层的特征图信息和浅层的特征图信息,丰富的特征信息为预测提供了更多的有效信息。(1d)参见图2,使用多层卷积滤波器和softmax分类层构建预测网络,作为基于特征融合和深度学习的小目标检测网络模型的末端预测层,处理来自金字塔网络中融合后的conv3和conv5网络层的特征图和未进行融合的conv6,conv7,conv8,conv9网络层的小尺度特征图,作为整个网络模型的预测输入。通过卷积滤波器得到多个预测边框内的目标类别和相对默认边框的未知偏移量,然后使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量和默认边框的位置坐标求出预测边框的位置坐标。目标类别和位置的联合预测比分开各自预测提高了网络的计算性能,压缩了网络的模型,提高了效率。步骤2,在图像训练集上训练构建好的网络模型。目前对深度学习网络进行训练的方法主要分为两类:自下上升的非监督学习和自顶向下的有监督学习,本发明中使用自顶向下的有监督学习方法进行训练,实现步骤如下:(2a)使用图像集pascalvoc2007和pascalvoc2012的训练数据集作为训练集,用图像集pascalvoc2007的测试数据集作为测试集。(2b)构造网络模型的目标损失函数l(x,l,c,g)。(2b1)使用卷积滤波器在特征图上进行预测,得到默认边框在所有类别上的分类得分集合c和预测边框相对于默认边框的位置偏移量(δx,δy,δw,δh),其中(δx,δy)表示预测边框中心坐标相对于默认边框中心坐标的偏移量,其中δw表示预测边框宽相对于默认边框宽的偏移量,其中δh表示预测边框高相对于默认边框高的偏移量。(2b2)根据特征图上的默认边框在所有类别上的分类得分集合c,计算softmax分类损失函数lconf(x,c):其中,当表示第i个默认边框与类别为p的第j个标注边框相匹配,表示第i个默认边框与类别为p的第j个标注边框不匹配,0≤i≤n,n表示与标注边框匹配的默认边框数,1≤p≤h,h为总的类别数量,0≤j≤t,t为标注边框的数量,表示在正样本中第i个默认边框的在所有类别上的平均得分,表示在负样本中第i2个默认边框在所有类别上的平均得分,0≤i2≤n2,n2表示与标注边框不匹配的默认边框数。(2b3)计算定位损失函数lloc(x,l,g):其中(cx,cy)是经过(δx,δy)补偿后的默认框x的中心坐标,w,h是经过(δw,δh)补偿后的默认框的宽和高,表示偏移量为m的第i个预测边框,表示偏移量为m的第j个预测边框;(2b4)根据分类损失函数lconf(x,c)和定位损失函数lloc(x,l,g),得到目标损失函数l(x,l,c,g):其中,x为特征图上的默认边框,l为预测框,g为标注边框,c为特征图上的默认边框在每个类别上的类别得分集合,lconf(x,c)表示特征图上的默认边框在类别得分集合c上的softmax分类损失函数,lloc(x,l,g)表示定位损失函数,n表示与标注边框匹配的默认边框数,参数α通过交叉验证设置为1。本发明损失函数的设计将针对类别的优化和位置的优化放在一起,比传统的将针对类别和位置的优化分别设计在两个损失函数更高效,其中,softmax分类损失函数考虑到了所有候选类别,从统计意义上,完成最佳的类别预测,计算简单,效果显著;位置损失函数在每一次迭代优化中对边框进行一次精修,动态实现对最终检测边框的最佳定位。(2c)本发明训练时的初始学习率base-lr设为0.001,梯度更新权重momentum值设置为0.9,权重衰减项系数weight-decay设置为0.0005,最大训练次数为80000。将网络模型的训练分为两阶段式训练,采用梯度下降法最小化损失函数同时对网络中的权重参数逐层反向调节,得到训练好的网络模型。其中,两阶段的训练方式将一阶段训练的压力有效分解到了两个阶段,第一个阶段主要训练特征提取网络,第二个阶段在第一个阶段上进行完整的训练,使得训练过程更高效,更可靠。步骤3,将待检测的原始图像输入到训练好的网络模型中,得到待检测图像中小目标的目标类别和位置坐标。(3a)将测试集中的样本图像转换为lmdb格式的文件,首先通过resnet101的网络提取多种尺度的高分辨率特征图,提取到的高分辨率特征图保留了利于小目标检测的浅层的关于目标丰富的位置、纹理等信息;(3b)接着通过辅助卷积层提取5个尺度依次减小的低分辨率特征图,其中,添加的5层卷积层的目的是为了扩充特征图的尺度,5层卷积层的选择是综合了网络计算量和性能得到的,少于5层会造成特征图尺度的减少,影响最终检测的精度,多于5层就增加了网络的规模,计算负担加重,影响实时性。(3c)以来自特征提取网络中conv3,conv5,conv6,conv7,conv8,conv9网络层的多种尺度特征图为基础构建特征金字塔;(3d)利用反卷积操作对金字塔结构中高层低分辨的conv5和conv6层的特征图进行上采样得到与浅层特征图conv3和conv5层的特征图同样的分辨率,并按照元素相加的方式对高层特征图与浅层特征图进行特征融合,得到融合后更具描述能力的conv3和conv5层的特征图,融合后的特征图包含了高级语义层的特征图信息和浅层的特征图信息,丰富的特征信息为预测提供了更多的有效信息。(3e)预测网络同时使用特征融合后的特征图和低分辨率的特征图进行预测,多种特征图的联合使用,比使用单一特征图进行预测提供了更多更有效的信息,利于提高检测精度;(3f)预测网络中使用非极大值抑制对多个预测边框内的目标类别及预测边框相对默认边框的位置偏移量进行抑制,得到最终的预测边框内的目标类别及预测边框相对默认边框的位置偏移量,并根据预测边框相对默认边框的位置偏移量和默认边框的位置坐标求出预测边框的位置坐标。目标类别和位置的联合预测比分开各自预测提高了网络的计算性能,压缩了网络的模型,提高了效率。使用同一图像通过本发明的网络模型和ssd网络模型进行目标检测,参见图3,得到图3(a)本发明的检测结果和(b)ssd网络模型的检测结果,观察以上两幅检测结果图,可见,本发明完整地检测出了图中的全部三个人形小目标,没有发生漏检和错检,但是,ssd网络模型只检测出了其中的两个人形小目标,发生了漏检。本文针对小目标的检测结果明显高于ssd网络模型。本发明的技术效果通过以下实验进行说明。实施例8基于特征融合和深度学习的小目标检测方法同实施例1-7,实验对象实验对象为pascalvoc2007的测试数据集。实验步骤1)分别使用fast-rcnn网络模型、faster-rcnn网络模型、yolo网络模型、ssd300网络模型和本发明的网络模型在图像集pascalvoc2007和pascalvoc2012的训练集上训练模型;2)分别使用1)中训练好的fast-rcnn网络模型、faster-rcnn网络模型、yolo网络模型、ssd300网络模型和本发明的网络模型在pascalvoc2007测试数据集上进行测试,得到网络模型的检测精度和检测速度如表1所示;3)使用本发明训练好的模型和ssd模型网络模型在图像集pascalvoc2007上选取四张含有小目标的图片依次进行目标检测,其中本发明的检测结果如图3所示,ssd模型网络模型的检测结果如图4所示。实验数据统计:分别使用训练好的fast-rcnn网络模型、faster-rcnn网络模型、yolo网络模型、ssd300网络模型和本发明的网络模型在pascalvoc2007测试数据集上进行测试,得到的检测精度和检测速度如表1所示:表1算法模型数据集检测精度(%)检测速度(帧/秒)fast-rcnn07++1268.43faster-rcnn07++1270.45yolo07++1257.947ssd30007++1272.459本发明07++1278.527从表1可以看出,本发明的网络模型在测试集上测试的检测精度和检测速度比fast-rcnn网络模型、faster-rcnn网络模型的检测精度和检测速度都有显著提高,与ssd300网络模型、yolo网络模型相比,本发明的网络模型虽然在检测速度上没有ssd300网络模型、yolo网络模型快,但是检测精度有了明显的提升。综上,本发明在五种网络中的检测精度达到了78.5%,检测效果是最好的,本发明的检测速度达到27帧每秒,而实时检测的速度要求是大于25帧每秒,因此本发明满足实时检测要求。实施例9基于特征融合和深度学习的小目标检测方法同实施例1-7,实验条件和实验内容同实施例8对比图3,图4,图5和图6的检测结果,其中图3本发明网络模型检测结果(a)中成功检测出了全部三个人形小目标,而图3,ssd300网络模型检测结果(b)只检测出了其中的两个人形小目标,发生了漏检的情况。图4为一张关于宴会晚餐的图像,图中存在8个人物,有不同程度的遮挡,同时晚餐场景决定了整幅图像的光线整体较暗,观察图4(b)ssd网络模型的检测结果,只检测出了图中4个人,不能有效处理遮挡和光线暗的情况,图4(a)为本发明的检测结果,成功检测出了图中的7个人物,本发明模型检测精度明显高于ssd网络模型,对图像中的遮挡和光线有较好的鲁棒性。图5为一张关于人物风景的图像,背景为山,较为空旷,图中存在四个不同尺寸大小的人物,且都背对镜头,人物特征相对于正对镜头的情况会缺失很多,人物之间存在较多遮挡关系,图5(b)为ssd模型的检测结果,只检测出了一个最大尺寸的人物,漏检了其余三个人物。图5(a)为本发明的检测结果,成功检测出了三个人物,能够有效处理图像中的遮挡,人物特征缺失等情况。图6为一张关于家庭聚会的图像,图像中存在多种类别的事物,而且有严重相互遮挡关系的11个人物,场景很复杂,图6(b)为ssd模型的检测结果,只检测出了图像中的两个人物,发生了大量的漏检情况。图6(a)为本发明的检测结果,成功检测出了其中的四个人物,虽然也发生了漏检,但是最终的检测精度还是要高于ssd,对比于ssd模型,对复杂场景也有较好的检测效果。综上,本发明的网络模型对小目标的检测效果更好,能有效处理图像光线较暗,场景复杂,多目标及目标有遮挡的情况,漏检情况少有发生。小目标检测的难点在于目标定位不准确,高层的特征图上以语义信息为主,缺乏小目标的位置信息、纹理信息等,因此只依赖高层的特征图进行小目标检测是不可行的。在深度卷积神经网络中,浅层的特征图上关于目标的位置、纹理等信息是比较丰富的,但是缺乏高级语义信息,本发明通过两个方向的特征融合可以获取更具表述能力的特征图,尤其是分辨率较高的特征图上不仅包含目标的位置信息也包含了高级语义层的信息,对小目标的检测非常有利。本发明公开了一种基于特征融合和深度学习的小目标检测方法,解决了对小目标检测精度差和实时性问题。其实现方案是:通过更深更好的resnet101的网络模型提取高分辨率特征图;通过辅助卷积层提取5个依次减小的低分辨率特征图,扩充特征图的尺度;通过特征金字塔网络模型,得到多尺度的特征图;在特征金字塔网络结构中使用反卷积操作融合高级语义层的特征图信息和浅层的特征图信息;通过不同尺度和融合特性的特征图进行目标预测;使用非极大值抑制对多个预测边框和多个类别得分,得到最终的目标的边框位置和类别信息。本发明具有在保证实时检测的要求下,确保小目标检测高精度的优点,能对图像中的小目标进行快速准确的检测,可用于无人机航拍中的目标实时检测。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1