一种基于目标边界定位的红外目标检测方法

文档序号:25217067发布日期:2021-05-28 14:15阅读:104来源:国知局
一种基于目标边界定位的红外目标检测方法

本发明属于机器视觉技术领域,更具体地,涉及一种基于目标边界定位的红外目标检测方法。



背景技术:

红外目标检测技术作为计算机视觉领域的重要组成部分,其目的是通过读取红外图像所含有的信息确定图像中目标的位置与类别。相比于可见光图像,依靠红外热成像技术得到红外图像在光线不足、迷雾等环境下具有巨大的优势。因此,红外目标检测技术在视频监控、军事打击、智能驾驶等方面具有关键意义。但红外目标检测依旧面临着前景与背景过于相似、物体边缘模糊等问题。

2009年,kim等依照log(laplacianofgaussian)变换来抑制背景干扰,突出目标特征,其在目标表征明显的区域效果较好,但对于背景环境复杂的区域无法取得理想的效果。shao等通过在以往log研究的基础上加入形态学滤波来对背景杂波进行消除,以便获得更好的检测效果。2014年,chen等提出了lcm(localcontrastmeasure)来对尺度较小的目标进行增强。

相较于传统方法,基于卷积神经网络的检测方法具有巨大的深度信息提取优势以及明显的精度优势。单阶段检测算法能够同时确定目标的类别信息和位置信息。yolov3作为典型的单阶段检测算法通过使用leakyrelu作为激活函数增强了小尺度目标的检测能力。retinanet是一种与focalloss同时提出并用来验证focalloss有效性的单级目标检测方法。focalloss可以控制正样本和负样本的之间权重,也可以控制易分类样本和难分类样本的权重。efficientdet在消耗计算资源较小的情况下,实现了双向信息交换,保证特征融合效果。但由于红外图像缺少纹理、颜色等重要图像特征,红外目标检测仍没有能够充分利用卷积神经网络的优势。



技术实现要素:

本发明所需要解决的技术问题是,针对红外图像轮廓信息模糊、背景环境复杂、相似度较高、易受杂波干扰和缺少纹理颜色特征等问题,根据单阶段检测算法的结构特点,解决深度学习方法由于难以准确提取红外图像语义特征而导致的红外目标检测效果不佳的问题。

为了解决上述问题,本发明提供了一种基于目标边界定位的红外目标检测方法,在算法中采用自适应指数变换作为预处理手段来增强红外图像的对比度;采用改进后的复合残差网络提取图像中不同尺度下的特征图谱;采用双向特征金字塔进行特征融合,加强模型对弱小目标的检测能力;采用focalloss作为模型的分类损失函数,采用基于目标边界定位的损失函数作为模型的回归损失函数,对检测模型进行训练。实现了对红外目标的有效检测。

本发明采用如下技术方案:

一种基于目标边界定位的红外目标检测方法,包括如下步骤,

s1、读取图像信息,并采用自适应的指数变换的方法对红外图像进行指数变换;

s2、将步骤s1变换后的图像调整为统一尺寸,输入到基于resnet-50网络改进的复合残差网络以获得图像中不同尺度下的特征图谱;

s3、将步骤s2得到的不同尺度的特征图谱输入到特征融合网络中,特征融合网络由三个双向特征金字塔结构重复叠加构成,实现多尺度特征信息的融合,获得五个尺度下的有效特征图谱;

s4、将步骤s3得到的五个的有效特征图谱输入到类别与边界框网络中,类别与边界框网络由类别子网络和边界框子网络组成,获得对于目标的类别与位置的预测结果。

本技术方案进一步的优化,还包括s5、采用检测模型对红外目标进行检测。

本技术方案更进一步的优化,所述将检测模型的分类损失函数为focalloss,将基于边界框定位的损失函数作为检测模型的回归损失函数,对检测模型进行训练,并对训练效果进行评估,利用训练得到的检测模型对红外目标进行检测。

本技术方案更进一步的优化,所述focalloss为

fl(pt)=-βt(1-pt)γlog(pt)

ce(pt)=-log(pt)

其中,y=1代表当前检测框内含有预先设定的目标类别,即属于数据集中的正样本;p∈[0,1]代表检测框内的的分类置信度;pt∈[0,1]代表针对正负样本归一化后的置信度。

本技术方案进一步的优化,基于目标边界定位的损失函数被定义为:

其中w,h与wgt,hgt分别是检测框与目标框当前的宽和高,d=ρ2(b,bgt)为目标框与检测框之间中心点的直线距离,b,bgt分别是检测框与目标框的面积,b∩bgt为两框间相交区域的面积,c是同时包含检测框与目标框的最小封闭矩形框的对角线距离,c是最小封闭矩形框的面积,σ为一个接近于0的正值,其作用是防止由于分母等于零而引起的数值波动。

本技术方案进一步的优化,所述步骤s1中图像进行处理,输入红外图像的像素点个数num,单个像素点的灰度值g,根据图像内所有像素点的平均灰度值来确定自适应指数变换的参数值,红外图像平均灰度值如下:

本技术方案进一步的优化,所述步骤s1红外图像进行的自适应指数变换,其公式如下:

s=crγ,(c,r∈[0,1]),

其中,c为常数,在本算法中令c=1,r为指数变化前图像像素点的灰度值,s为指数变化后图像像素点的灰度值,指数变化的参数由当前图像所有像素点的平均灰度值确定,计算公式如下:

本技术方案进一步的优化,所述步骤s2中复合残差网络由convblock和identityblock两个基本的卷积块构成。

本技术方案进一步的优化,所述步骤s2中复合残差网络由多个convblock和identityblock堆叠组成,复合残差网络在基本块内部含有小的残差边的同时,多个块之间也具有残差结构。

本技术方案进一步的优化,所述步骤s4中类别子网络用来预测目标的种类,采用4次256通道的卷积和1次通道数为该特征层所拥有的先验框数与网络检测目标的类别数乘积的卷积。边界框子网络用来预测目标的边界框,采用4次256通道的卷积和1次通道数为4倍该特征层先验框的卷积,4指的是先验框的调整情况。

相较于以往的检测方法,本发明的基于目标边界定位的红外目标检测方法,通过增加自适应指数变换的预处理步骤,改进了特征提取网络结构,重新设计了基于目标边界定位的损失函数,提升了对于红外特征的提取效果,实现了对红外目标的有效检测。

附图说明

图1是基于目标边界定位的红外目标检测方法结构框图;

图2是特征提取网络中convblock和identityblock的网络结构图;

图3是复合残差网络的网络结构图;

图4是双向特征金字塔的结构图;

图5是基于目标边界定位的回归损失函数的示意图;

图6是损失函数变化图;

图7是基于目标边界定位的红外目标检测方法检测效果图;

图8是基于目标边界定位的红外目标检测方法的p-r曲线图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。

本发明提出一种基于目标边界定位的红外目标检测方法,它包括以下步骤:

s1、读取图像信息,并采用自适应的指数变换的方法对红外图像进行指数变换。

参阅图1所示,为基于目标边界定位的红外目标检测方法结构框图。红外图像首先进行自适应指数变换,接着将变换后的图像重新统一尺寸后输入到作为主干特征提取网络的复合残差网络中提取图像中不同尺度下的特征图谱。再将特征图谱输入特征融合网络,特征融合网络由三个双向特征金字塔结构重复叠加构成。特征融合后的特征图谱进入类别与边界框网络,对特征图谱中的深度语义信息进行解码,得到红外图像中目标的类别与位置信息。

输入红外图像的像素点个数num,单个像素点的灰度值g,根据图像内所有像素点的平均灰度值来确定自适应指数变换的参数值,红外图像平均灰度值如下:

根据当前红外图像的平均灰度值对红图像进行的自适应指数变换,其公式如下:

s=crγ,(c,r∈[0,1])

其中,c为常数,在本算法中令c=1,r为指数变化前图像像素点的灰度值,s为指数变化后图像像素点的灰度值,指数变化的参数由当前图像所有像素点的平均灰度值确定,计算公式如下:

图像经过自适应指数变换后,再统一调整为600*600*3的大小输入检测网络中。

s2、将步骤s1变换后的图像的尺寸统一调整为600*600*3,输入到基于resnet-50网络改进的复合残差网络以获得图像中不同尺度下的特征图谱。

参阅图2所示,为特征提取网络中convblock和identityblock的网络结构图。图2(a)与(b)分别是convblock和identityblock的网络结构。作为主干特征提取网络的复合残差网络由由convblock和identityblock两个基本的卷积块构成。其中convblock的残差边上有一次卷积操作,所以其具有不同维度的输入和输出,主要功能是改变网络的维度;identityblock的残差边上没有对应的卷积操作,因此其具有相同的输入维度和输出维度,在网络中连续串联来加深网络的深度。

参阅图3所示,为复合残差网络的网络结构图。复合残差网络由多个convblock和identityblock堆叠组成,复合残差网络在基本块内部含有小的残差边的同时,多个块之间也具有残差结构。网络分为两部分,主要部分上仍然堆叠convblock和identityblock。另一部分将靠前某一层的输出直接跳过多层引入到后面数据层的输入部分。随着网络的深化,图像中较浅的语义信息将得以保留。通过复合残差网络提取出五个不同尺度的特征图谱,并将其作为特征融合网络的输入进行处理。

s3、将步骤s2得到的不同尺度的特征图谱输入到特征融合网络中,特征融合网络由三个双向特征金字塔结构重复叠加构成,实现多尺度特征信息的融合,获得五个尺度下的有效特征图谱。

参阅图4,为双向特征金字塔的结构图。不同尺寸的特征层包含了不同级别的语义信息。通常来说,大尺度特征的感知范围比小尺度特征更大,可以提取到更完整的信息。而小尺度特征对于细节更为敏感。本发明的特征融合网络由三个双向特征金字塔结构重复叠加构成。双向特征金字塔可以由上到下和由下到上的双向特征融合。其与注意机制类似,增加了一个权重来调整不同尺度特征之间的不平衡,可以使网络的每个输入对输出的影响更加合理。

特征提取网络的输出作为这个网络的输入进行处理,其中,ii代表了第i等级的未经处理的特征。这些特征图谱将被有效的聚合,并且得到新的特征作为输出。在图4中的第4等级的特征融合的过程如下式所示:

其中,是这个网络的中间特征;ω1,ω2,ω′1,ω′2和ω′3是每个特征的权重值;δ为一个接近于0的正值,其作用是防止由于分母等于零而引起的数值波动。

s4、将步骤s3得到的五个的有效特征图谱输入到类别与边界框网络中,类别与边界框网络由类别子网络和边界框子网络组成,获得对于目标的类别与位置的预测结果。

将经过特征融合网络得到的五个的有效特征图谱输入到类别与边界框网络中,类别与边界框网络由类别子网络和边界框子网络组成,获得对于目标的类别与位置的预测结果。

类别子网络用来预测目标的种类,采用4次256通道的卷积和1次通道数为该特征层所拥有的先验框数与网络检测目标的类别数乘积的卷积。边界框子网络用来预测目标的边界框,采用4次256通道的卷积和1次通道数为4倍该特征层先验框的卷积,4指的是先验框的调整情况。。

s5、为提高模型对红外目标的检测效果,选用pascalvoc2012数据集和microsoftcoco2017数据集对模型进行预训练,再结合flir红外图像数据集对模型进行针对性训练。

s6、将focalloss作为模型的分类损失函数,将基于边界框定位的损失函数作为模型的回归损失函数,对检测模型进行训练,并对训练效果进行评估,利用训练得到的检测模型对红外目标进行检测。

训练阶段,预训练数据集选用pascalvoc2012数据集和microsoftcoco2017数据集,总计361043张图片,包含大量的日常生活复杂场景。通过预训练,检测网络获得常规图像的感知与识别能力。

表1预训练数据集

之后再结合flir红外图像数据集对模型进行红外目标的针对性训练,模型的类别标签将被重新分为‘person’、‘bicycle’、‘vehicle’和‘sign’。

表2flir红外图像数据集

在本发明中,采用focalloss作为训练阶段的分类损失函数,focalloss是一种可以控制正负样本的权重和容易分类和难分类样本的权重的损失函数。focalloss在交叉熵损失函数的基础上改进而来,二分类交叉熵损失函数如下式所示:

ce(pt)=-log(pt)

由于在目标检测领域中,负样本的数量要远远大于正样本的数量,因此可以通过在常规交叉熵损失函数前增加一个系数αt来平衡负样本的影响。与p类似,α的取值范围也是0到1。此时可以通过设置α实现控制正负样本对损失函数的贡献。

之后通过增加调制系数(1-pt)γ来控制易分类样本与难分类样本的权重。对于数据集中的某一个样本,其pt的数值越大,说明其属于某个类别的概率越大,也就越容易分类。当pt趋于0时,调制系数趋于1,对于损失函数的贡献增大大。当pt趋于1的时候,调制系数趋于0,也就是对于损失函数的贡献减小。因此focalloss被定义为:

fl(pt)=-βt(1-pt)γlog(pt)

参阅图5所示,为基于目标边界定位的回归损失函数的示意图。在训练阶段,基于目标边界定位的损失函数根据当前检测框与目标框之间的相对距离、重合程度与形状相似度得到具体数值,并对训练结果中的位置信息进行矫正,使得目标框回归变得更加稳定。基于目标边界定位的损失函数被定义为:

其中w,h与wgt,hgt分别是检测框与目标框当前的宽和高;d=ρ2(b,bgt)为目标框与检测框之间中心点的直线距离;b,bgt分别是检测框与目标框的面积;b∩bgt为两框间相交区域的面积;c是同时包含检测框与目标框的最小封闭矩形框的对角线距离;c是最小封闭矩形框的面积;σ为一个接近于0的正值,其作用是防止由于分母等于零而引起的数值波动。

本发明使用linux,ubuntu16.04平台tensorflow-gpu1.13.1和keras2.15以四个nvidiageforcegtx1080ti显卡来实现对所有数据集的预训练、训练和测试。在训练中使用到的超参数如表3所示。在训练时采用早停法来确保最好的训练效果。当损失函数在经过多个epoch训练后仍没有出现明显下降时,早停法会终止训练。

表3超参数的设置

数据集中90%的图像用于训练,余下的图像用于每个epoch结束时的验证。本发明的网络结构在训练阶段的损失函数变化如图6所示。在开始的时候,损失函数的值超过1000,在经过第一个epoch后,回归损失函数和分类损失函数的值都下降到了1.8左右。并且在此之后,两种损失函数的值继续下降到不到0.1。在第六十五epoch时,训练被早停法终止。

性能分析

本发明采用p-r曲线、ap值和map值作为评价标准。

(1)p-r曲线

p-r曲线(precision-recallcurve)是以recall为横坐标轴,以precision为纵坐标轴所构成的曲线。通过选择不同的置信度阈值来获得不同的precision与recall值,从而绘制出检测网络的p-r曲线。precision与recall的定义如下式所示:

其中,tp为真阳性(truepositives)样本的数量;fp为假阳性(falsepositives)样本的数量;fn为假阴性(falsenegatives)样本的数量。

(2)ap值和map值

对各类物体的ap值(averageprecision)是评价网络检测效果的重要标准。通过检测网络对某一类别p-r曲线得到对应的ap值。若p-r曲线在坐标轴上是凸起状,则说明检测网络对于某一类别的检测效果很好。ap值是p-r曲线下方与横、纵坐标构成的面积的值。ap值越大,说明网络的检测准确度越高。

由于本发明可以对多个类别的目标进行检测,而ap值只能够反应单一类别的检测效果,因此使用map值(meanaverageprecision)对本发明的检测效果进行综合评价。map值通过对所有类别检测的ap值进行平均而得到。map值越大,说明网络的综合检测精度越高。

图7和图8分别是本发明的检测效果图和p-r曲线图。本发明方法可以针对四类红外目标进行有效检测。由图7可以看到,红外图像中的主要目标可以被准确的检测出来。虽然由于红外图像缺少颜色、纹理等特征的缘故图像中某些边缘物体未被完全检出,但是本发明方法仍然能够对红外目标进行精确的检测。表4为本发明检测红外目标的ap值与map值。相较于以往针对红外目标的检测方法,本发明的方法极大的抑制了红外图像分界线模糊、对比度低对检测效果的影响,具有良好的鲁棒性和检测精度。

表4检测红外目标的ap值与map值

本发明提出的基于目标边界定位的红外目标检测方法,在算法中首先进行自适应指数变换的预处理来增强红外图像的对比度,强化图像语义细节;改进特征提取网络结构,采用基于resnet-50改进的复合残差网络来提取图像中不同尺度下的特征图谱;采用双向特征金字塔进行特征融合,加强模型对弱小目标的检测能力;采用focalloss作为模型的分类损失函数,提出基于目标边界定位的损失函数来作为模型的回归损失函数,对检测模型进行训练;实验结果表明本发明提出的基于目标边界定位的红外目标检测方法相较于以往的红外目标检测方法具有更好的鲁棒性和检测精度,能够有效提取红外图像特征,实现了对红外目标的有效检测。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1