基于新的边框回归损失函数的遥感图像目标检测方法与流程

文档序号:20601525发布日期:2020-05-01 21:41阅读:276来源:国知局
基于新的边框回归损失函数的遥感图像目标检测方法与流程
本发明涉及深度学习的
技术领域
,尤其涉及一种基于新的边框回归损失函数的遥感图像目标检测方法。
背景技术
:高分辨率遥感图像目标检测是光学遥感图像处理领域中最重要的任务之一,致力于定位并识别高分遥感图像中的高价值地物目标。随着高分重大专项(国家科技发展中长期规划16个重大专项之一)的实施,我国遥感数据的获取技术发展较快,对遥感大数据的挖掘就成了高分重大专项的关键环节,高分遥感图像目标检测正是遥感大数据挖掘的关键技术之一,也是环境监测、防灾减灾、军事侦察和精确打击等应用的核心问题之一,具有重要的民用和军事应用价值。高分辨率遥感图像目标检测的方法有多种,依据高分辨率遥感图像目标检测的发展阶段不同可分为基于手工特征和基于数据驱动两大类。由于基于数据驱动的方法具备强大的特征表达能力,因而成为高分辨率遥感图像目标检测领域的主流方法。基于数据驱动的方法根据网络层的深度不同又可分为浅层学习和深度学习两类。其中,基于深度学习的方法比基于浅层学习的方法检测精度高,因而基于深度学习的目标检测方法广泛应用于高分辨率遥感图像的目标检测领域。基于深度学习的目标检测方法主要包括一阶段方法和两阶段方法。相对于两阶段方法,一阶段方法由于检测精度相对较低,因而在高分辨率遥感图像目标检测领域的应用受到一定的局限。两阶段的目标检测方法包含候选区域生成网络和检测网络两个部分,其中检测网络的边框回归损失函数主要采用smoothl1损失函数优化边框位置,但此损失函数未能直接优化评价指标,这在一定程度上限制了优化的效果。技术实现要素:针对现有高分辨率遥感图像目标检测方法的损失函数未能直接优化评价指标的技术问题,本发明提出一种基于新的边框回归损失函数的遥感图像目标检测方法,可以将损失函数与评价指标直接建立联系,并且在优化过程中能够自适应的改变梯度,从而进一步提升高分辨率遥感图像目标检测的精度。为了达到上述目的,本发明的技术方案是这样实现的:一种基于新的边框回归损失函数的遥感图像目标检测方法,其步骤如下:步骤一:训练候选区域生成网络:以带标注的高分辨率遥感图像为训练样本,训练候选区域生成网络,其中候选区域生成网络的边框回归损失函数采用新的损失函数;步骤二:训练区域检测网络:通过步骤一中训练好的候选区域生成网络得到样本图像的候选目标框,以候选目标框作为目标初始位置来训练区域检测网络,其中区域检测网络的边框回归损失函数采用新的损失函数;步骤三:交替步骤一训练候选区域生成网络和步骤二训练区域检测网络,周而复始,迭代训练,直至收敛,且训练过程采用随机梯度下降法对网络参数进行优化;步骤四:测试阶段:共享候选区域生成网络和区域检测网络的主干网络,合并步骤三训练后的候选区域生成网络和区域检测网络构建检测模型,将待检测的高分辨率遥感图像输入检测模型中,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别。所述步骤一中的训练样本来自于数据集nwpuvhr-10和数据集dior中的高分辨率遥感图像。所述候选区域生成网络的训练分别在多个特征层进行;候选区域生成网络的主干网络采用在imagenet标准数据预训练过的深度模型,其余网络的参数采用服从均值为0、方差为0.01的高斯分布进行随机初始化;区域检测网络与候选区域生成网络共享主干网络,区域检测网络其余部分的参数采用服从均值为0、方差为0.01的高斯分布随机初始化;在候选区域生成网络训练时,每幅样本图像中训练样本总数为256,正负样本数量比为1:1,当正样本数量少于128时,用负样本填充;其中,正样本包含以下两种:①与真值框的交并比超过0.7的锚框;②与每一个真值框的交并比最大的锚框;负样本包括:在所有与真值框交并比小于0.3的锚框中,取交并比最小的128个锚框;在区域检测网络训练时,每幅图像中训练样本总数为512,正负样本数量比为1:3,即:正样本为128个,负样本为384个;其中,在所有与真值框的交并比超过0.5的候选区域中选择交并比数值前128名的候选区域作为正样本,在所有与真值框的交并比低于0.5的候选区域中选择交并比数值后384名的候选区域作为负样本。所述步骤一中的训练样本及训练样本中目标的位置根据宽高比进行预处理:将数据集中不包含有效目标的高分辨率遥感图像舍弃,将带标注的高分辨率遥感图像作为样本图像,根据宽高比从小到大进行排序,选取宽高比在0.5-2.0之间的样本图像,对宽高比小于0.5或大于2.0的样本图像进行裁剪,并将图像的短边设置为800像素,根据宽高比自动调整长边;样本图像中目标的位置同样根据宽高比进行调整。所述步骤一中训练候选区域生成网络的方法为:步骤101:将预处理后的高分辨率遥感图像输入特征金字塔主干网络,通过多层卷积、激活和池化操作完成自下向上的特征提取,并通过侧向连接与自上向下的特征进行融合,得到多尺度特征;步骤102:对融合后的多尺度特征:每个尺度的特征先进行3×3的卷积操作,再分别采用两个1×1的卷积操作得到两个特征图,将得到的两个特征图转化成两个一维向量,分别进行二分类和边框回归;各尺度的所有卷积操作共享卷积核参数。所述候选区域生成网络的损失函数是二分类损失函数和边框回归损失函数的联合损失,候选区域生成网络的损失函数为:且其中,pi和分别表示在单幅样本图像上产生的训练样本中第i个样本被预测为目标的概率和对应的二值真实标签,ti和分别表示第i个样本的预测框和对应的真值框,和分别表示二分类损失函数和边框回归损失函数,i表示训练样本的索引,ncls和nreg分别表示训练样本的数量和训练样本中正样本的数量,λ1表示权重系数,表示预测框ti和真值框的通用交并比。所述通用交并比的定义为:其中,表示预测框ti和真值框的交并比,表示预测框ti和真值框的最小封闭区域面积,表示预测框ti和真值框的并集区域面积;对于给定的预测框ti和真值框两边界框的交并比为:其中,表示预测框ti和真值框的交集区域面积。所述步骤二中训练区域检测网络的方法为:步骤201:候选目标框的生成:以带标注的高分辨率遥感图像为训练样本,将训练样本送入初步训练后的候选区域生成网络中,在候选区域生成网络上产生大量的锚框,然后将超过图像边界的锚框去除,利用softmax分类器计算剩余锚框的得分,筛除掉得分低于设定阈值0.05的锚框;根据得分对剩余的锚框进行非极大值抑制操作,根据锚框得分,从高到低选取2000个锚框作为候选目标框;步骤202:将得到的候选目标框映射到某一尺度的特征图上:其中,w和h分别表示候选目标框的宽和高,k表示被映射到的特征图尺度次序,k0表示wh=2242的候选目标框被映射到的特征图尺度次序,表示向下取整;步骤203:确定候选目标框映射到的特征图尺度次序后,将候选目标框映射到其他尺度特征图的同等相对位置;步骤204:分别对多尺度特征图上的候选目标框进行感兴趣区域池化,将经过池化的多个特征图沿通道方向进行拼接融合,构成多尺度特征融合模块,多尺度特征融合模块的融合方式如下:其中,f表示候选目标框的多尺度融合特征图,fl表示第l个尺度上的特征图,l=2,3,4,5,表示特征图沿通道方向进行拼接融合;对f进行7x7的卷积操作,得到一维的特征向量fc1,再对特征向量fc1进行一次全连接操作得到一维的特征向量fc2,依据特征向量fc2分别进行目标分类和边框回归。所述区域检测网络的损失函数如下:l(p,u,tu,v)=lcls(p,u)+λ2·lloc(tu,v)其中,p和u分别表示候选区域的预测得分和对应的分类标签,tu和v分别表示基于候选区域的预测边界框和对应的真值框,lcls(p,u)和lloc(tu,v)分别表示多类别分类损失函数和新的边框回归损失函数,λ2表示权重参数;多类别分类损失函数计算如下:其中,k表示每幅样本图像中候选区域的索引,j表示目标类别数,pkj和ukj分别表示第k个候选区域被预测为第j类的概率和对应的标签;新的边框回归的损失函数定义如下:lloc(tu,v)=3×log2-3×log(1+giou(tu,v)),其中,tu,v分别表示最终预测框和真值框;giou(tu,v)表示预测框tu和真值框v的通用交并比。所述步骤三中交替训练步骤为:先训练候选区域生成网络,然后用候选区域生成网络输出的候选目标框训练区域检测网络,接着在区域检测网络的参数基础上训练候选区域生成网络,循环迭代训练,直至收敛。本发明的有益效果:通过改进高分辨率遥感图像目标检测的边框回归损失函数,能够有效提升高分辨率遥感图像目标检测的精度;能够利用损失函数对评价指标直接进行优化,缓解现有的高分辨率遥感图像目标检测中损失函数未能与评价指标建立直接联系的瓶颈;能够在训练过程中自适应的改变梯度,提高模型的训练效率和训练效果。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明的目标检测的模型示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图1所示,一种基于新的边框回归损失函数的高分辨率遥感图像目标检测方法,包含步骤如下:步骤一:训练候选区域生成网络:以带标注的高分辨率遥感图像为训练样本,训练候选区域生成网络,其中候选区域生成网络的边框回归损失函数采用新的损失函数。此处候选区域生成网络分别在多个特征层进行;候选区域生成网络的主干网络采用在imagenet预训练过的深度模型,其余网络参数采用服从均值为0、方差为0.01的高斯分布进行随机初始化。所述步骤一中训练候选区域生成网络的方法为:步骤1.1:将带标注的高分辨率遥感图像作为样本图像,根据宽高比对样本图像及目标位置进行预处理:将高分辨率遥感图像数据集不包含有效目标的图像舍弃,将带标注的高分辨率遥感图像作为样本图像,根据宽高比从小到大进行排序,样本图像的宽高比限制在0.5-2.0之间,对宽高比小于0.5或大于2.0的样本图像进行裁剪,并将图像的短边设置为800像素,根据宽高比自动调整长边,其中样本图像中目标的位置也同样根据宽高比进行调整。训练样本和测试样本均为标注的高分辨率遥感图像数据。本次使用的高分辨率遥感图像数据集是nwpuvhr-10和dior,在nwpuvhr-10数据集中,训练集130幅,验证集130幅,测试集390幅;在dior数据集中,训练集5862幅,验证集5863幅,测试集11738幅。数据集的具体情况参见表1。表1两个数据集中每类目标的全部数量类别nwpuvhr-10(个数)dior(个数)飞机75710104船30262400储油罐65526414棒球场3905817网球场52412266篮球场1593225田径场1633038港口2245509桥1243967车47740370飞机场/1327烟囱/1681水坝/1049高速公路服务区/2165高速公路收费站/1298高尔夫球场/1086天桥/3114体育场/1268火车站/1011风机/5363总数3775192472步骤1.2:将经过步骤1.1预处理后的高分辨率遥感图像输入特征金字塔主干网络,通过多层卷积、激活、池化等操作,完成自下向上的特征提取,并通过侧向连接与自上向下的特征进行融合,得到多尺度特征。具体实施时,可以通过文献[lin,t.-y.;dollár,p.;girshick,r.;he,k.;hariharan,b.;belongie,s.featurepyramidnetworksforobjectdetection.inproceedingsofproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition;pp.2117-2125]的方法实现。步骤1.3:对步骤1.2融合后的多尺度特征:每个尺度的特征先进行3×3的卷积操作,再分别采用两个1×1的卷积操作得到两个特征图,将得到的两个特征图转化成两个一维向量,分别进行二分类和边框回归;各尺度的所有卷积操作共享卷积核参数。候选区域生成网络采用反向传播和随机梯度下降的方法进行优化,损失函数是二分类损失函数和边框回归损失函数的联合损失,具体步骤如下:其中,pi和分别表示在单幅样本图像上产生的训练样本中第i个样本被预测为目标的概率和对应的二值真实标签,ti和分别表示第i个样本的预测框和对应的真值框,和分别表示二分类损失函数和边框回归损失函数,i表示训练样本的索引,ncls和nreg分别表示训练样本的数量(此处设为256)和训练样本中正样本的数量,λ1表示权重系数(此处设为1),表示预测框ti和真值框的通用交并比。在候选区域生成网络训练时,每幅样本图像中训练样本总数为256,正负样本数量比为1:1,当正样本数量少于128时,用负样本填充;其中,正样本包含以下两种:①与真值框的交并比超过0.7的锚框;②与每一个真值框的交并比最大的锚框;负样本包括:在所有与真值框交并比小于0.3的锚框中,取交并比最小的128(若正样本数量少于128,则数量为256减去正样本数量)个锚框。通用交并比的定义如下:其中,表示预测框ti和真值框的交并比,表示预测框ti和真值框的最小封闭区域面积,表示预测框ti和真值框的并集区域面积。对于给定的预测框ti和真值框两边界框的交并比定义如下:其中,表示预测框ti和真值框的交集区域面积。步骤二:训练区域检测网络:先将训练样本中样本图像送入步骤一中训练好的候选区域生成网络得到样本图像的候选目标框,以候选目标框作为目标初始位置来训练区域检测网络,其中区域检测网络的边框回归损失函数采用新的损失函数。候选区域生成网络和区域检测网络共享主干网络,其余网络参数采用服从均值为0、方差为0.01的高斯分布的随机初始化。所述步骤二的实现方法包括:步骤2.1:以带标注的高分辨率遥感图像为训练样本,将训练样本送入初步训练后的候选区域生成网络中,在候选区域生成网络上产生大量的锚框,然后将超过图像边界的锚框去除,利用softmax分类器计算剩余锚框的得分,筛除掉得分低于设定阈值0.05的锚框,接着根据得分对剩余的锚框进行非极大值抑制操作,最后在非极大值抑制操作的基础上,根据边框得分,从高到低选取2000个锚框,即候选目标框。非极大值抑制操作可以通过文献[girshick,r.;donahue,j.;darrell,t.;malik,j.richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation.inproceedingsofproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition;pp.580-587]实现。步骤2.2:将步骤2.1得到的候选目标框映射到某一尺度的特征图上,具体实现方式如下:其中,w和h分别表示候选目标框的宽和高,k表示被映射到的特征图尺度次序,被映射到第k个尺度的特征图上,k0表示wh=2242的候选目标框被映射到的特征图尺度次序。本发明采用输入层尺寸为224×224的卷积神经网络作为主干网络,表示向下取整。步骤2.3:根据步骤2.2确定候选目标框映射到的特征图尺度次序后,将候选目标框映射到其他尺度特征图的同等相对位置。步骤2.4:根据步骤2.3得到的候选目标框,分别对多层特征图上的候选目标框进行感兴趣区域池化,感兴趣区域池化可以通过文献[he,k.;gkioxari,g.;dollár,p.;girshick,r.maskr-cnn.inproceedingsofproceedingsoftheieeeinternationalconferenceoncomputervision;pp.2961-2969]中的方法实现。然后将经过池化的多个特征图沿通道方向进行拼接融合,构成多尺度特征融合模块,具体的融合方式如下:其中,f表示候选目标框的多尺度融合特征图,fl表示第l个尺度上的特征图,l=2,3,4,5,表示特征图沿通道方向进行拼接融合。对f进行7x7的卷积操作,得到一维的特征向量fc1,再对特征向量fc1进行一次全连接操作得到一维的特征向量fc2,依据特征向量fc2分别进行目标分类(采用softmax分类器)和边框回归。区域检测网络的损失函数如下:l(p,u,tu,v)=lcls(p,u)+λ2·lloc(tu,v)(8)其中,p和u分别表示候选区域的预测得分和对应的分类标签,tu和v分别表示基于候选区域的预测边界框和对应的真值框,lcls(p,u)和lloc(tu,v)分别表示多类别分类损失函数和边框回归损失函数,λ2表示权重参数,此处设为10。在区域检测网络训练时,每幅图像中训练样本总数为512,正负样本数量比为1:3,即:正样本为128个,负样本为384个;其中,在所有与真值框的交并比超过0.5的候选区域中选择交并比数值前128名的候选区域作为正样本,在所有与真值框的交并比低于0.5的候选区域中选择交并比数值后384名的候选区域作为负样本。多类别分类损失函数具体计算如下:其中,k表示每幅图像中候选区域(以下简称候选区域)的索引,j表示目标类别数,pkj和ukj分别表示第k个候选区域被预测为第j类的概率和对应的标签。新的边框回归的损失函数定义如下:lloc(tu,v)=3×log2-3×log(1+giou(tu,v))(10)其中,tu,v分别表示最终预测框和真值框。giou(tu,v)表示预测框tu和真值框v对应的通用交并比。步骤三:交替步骤一训练候选区域生成网络和步骤二训练区域检测网络,周而复始,迭代训练,直至收敛,且训练过程采用随机梯度下降法对网络参数进行优化。所述交替训练步骤为:先训练候选区域生成网络,然后用候选区域生成网络上提取的候选目标框训练区域检测网络,接着在区域检测网络的参数基础上训练候选区域生成网络,周而复始,迭代训练,直至收敛。随机梯度下降法采用文献[rumelhart,d.;hinton,g.;williams,r.learningrepresentationsbyback-propagatingerrors.nature1988,323,696-699]中的方法实现。当损失函数值降到10-2量级,并且损失函数值变化幅度很小时,模型收敛。步骤四:测试阶段:共享候选区域生成网络和检测网络的主干网络,合并步骤三训练后的候选区域生成网络和区域检测网络构建检测模型,将待检测的高分辨率遥感图像输入检测模型中,获得待检测的高分辨率遥感图像感兴趣目标的位置和类别。待检测的高分辨率遥感图像为nwpuvhr-10和dior。共享候选区域生成网络和区域检测网络的主干网络,利用候选区域生成网络产生的候选目标框为检测网络提供初始位置,形成端到端的统一整体,即合并后的检测模型。感兴趣目标的位置表示目标的紧凑封闭边界框在图像中的坐标,坐标系以图像左上角为坐标原点,水平向右的方向为x轴,竖直向下的方向为y轴;类别表示目标属于哪一类(如飞机)。将高分辨率遥感图像送入区域检测网络,通过多层卷积、池化和激活等操作,最后形成两个全连接层,在第二个全连接层后连接一个c(c表示类别数)维的特征向量,最后利用softmax分类器对c维特征向量分类,得分最高的那类则被视为目标的类别;在第二个全连接层后连接一个4c(每类均预测一个边界框)维的特征向量,此4c维特征向量即表示目标所在位置的坐标。为了验证本发明的检测精度,本发明在硬件环境为e5-2650v4cpu(2.2ghz12x2核),512gb内存,8块nvidiartxtitan显卡的工作站进行实验。本发明在nwpuvhr-10和dior数据集中分别选取了390幅和11738幅图像进行检测,结果如下:1)采用本发明可以以较快的速度检测出高分辨率遥感图像中目标的位置及类别,每幅图像的平均检测时间为0.1s左右。2)在nwpuvhr-10数据集上,采用本发明在评价指标giou和iou上分别获得58.0%和59.2%的平均精度,如表2所示;在dior数据集上,采用本发明在评价指标giou和iou上分别获得44.8%和45.7%的平均精度,如表3所示。此外,相对于原始特征金字塔网络,本发明在ap50(度量指标阈值为0.5)和ap75(度量指标阈值为0.75)上有一定的提升,并且ap75提升效果优于ap50的提升效果,说明本发明能够提升高分辨率遥感图像目标检测的定位精度。下面列表中的m1、m2和m3分别表示文献[ren,s.;he,k.;girshick,r.;sun,j.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks.inproceedingsofadvancesinneuralinformationprocessingsystems;pp.91-99]提出的smoothl1损失函数、本发明提出的多尺度特征融合模块、本发明提出的新的边框回归损失函数(igiouloss)。①、②和③分别表示原始的特征金字塔网络、在原始特征金字塔网络中引入多尺度特征融合模块,将原始特征金字塔网络中损失函数改为igiouloss。map、ap50和ap75分别表示多阈值下平均精度、阈值为0.5时的精度和阈值为0.75时的精度。表2nwpuvhr-10高分辨率遥感图像的检测结果表3dior数据集高分辨率遥感图像的检测结果以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1