一种遥感图像多类别目标检测方法和系统与流程

文档序号:24160831发布日期:2021-03-05 16:36阅读:70来源:国知局
一种遥感图像多类别目标检测方法和系统与流程

[0001]
本发明涉及一种遥感图像多类别目标检测方法和系统,属于图像处理技术领域。


背景技术:

[0002]
目标检测方法是计算机视觉一项重要的任务之一,广泛应用于物体检测、文字检 测、遥感目标检测等领域。其中,随着遥感技术的发展,遥感图像分辨率的提高,对 于在遥感图像上的目标检测性能也提出了更高的要求。自然场景下的图像,目标通常 呈现垂直方向,尺寸大而且清晰。而遥感图像上的目标,具有任意角度,狭长物体多, 类别之间尺度差异大以及不同尺度之间的目标数据量差异大等特点,因此自然图像下 的目标检测算法并不适用于遥感图像。
[0003]
目前基于深度学习的算法在目标检测领域取得了巨大的进步,其中双阶段目标检 测算法较单阶段目标检测算法在精度上有优势,在速度上则略逊一筹。以文献("fasterr-cnn:towards real-time object detection with region proposal networks", s.ren,et al.,ieee transactions on pattern analysis and machineintelligence,39(6),1137-1149,20170601)为代表的双阶段目标检测算法和以 retinanet("focal loss for dense object detection",t.lin,et al.,2017 ieeeinternational conference on computer vision(iccv),venice,2999-3007,2017) 为代表的单阶段目标检测算法在自然图像下的目标检测取得了令人瞩目的效果,然而 这些方法并不适合直接应用于遥感图像。一些学者基于性能优异的自然图像目标检测 算法,结合旋转框的定位方式,提出适用于遥感图像多类别目标检测的算法,并取得 了一定的成效。
[0004]
而带有角度的旋转框的定位方式,由于角度的周期性,同样也带来了定位框的边 界问题。此外,遥感数据集通常具有长尾特点,不同尺度目标之间的数量上的巨大差 异也大大阻碍了检测性能。目前一些工作针对密集小目标的研究取得了一定成效,但 是很少有工作关注狭长目标的检测效果。由于单阶段算法在精度上的劣势,多数的细 分领域的研究工作依旧基于双阶段算法。为了兼顾检测速度,提升算法性能,提升单 阶段的检测精度显得尤为重要。
[0005]
综合上述分析,研究能有效处理任意角度的目标、狭长目标多、尺度分布不平衡, 检测速度慢等难点的高性能多类遥感目标检测方法,显得尤为重要。因此,亟需一种 新的遥感图像检测手段来进一步提高目标检测的准确度。


技术实现要素:

[0006]
针对上述问题,本发明的目的是提供了一种遥感图像多类别目标检测方法和系统, 其可以有效处理多角度多类别以及狭长目标。
[0007]
为实现上述目的,本发明采取以下技术方案:一种遥感图像多类别目标检测方法, 包括以下步骤:s1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征 图;s2在不规则多尺度特征图上,每个位置点上设置锚点框;s3将不规则多尺度特征 图和锚点
框输入第一阶段检测子网络,设置第一阶段检测子网络的损失函数,并根据 第一阶段的损失函数输出第一阶段的预测框;s4将不规则多尺度特征图和第一阶段的 预测框输入第二个阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据 第二阶段的损失函数输出第二阶段的预测框;s5根据第二阶段的预测框获取最终目标。
[0008]
进一步,步骤s1中,不规则特征金字塔特征提取网络包括金字塔特征提取网络和 不规则卷积模块,在金字塔特征提取网络末尾插入不规则卷积模块。
[0009]
进一步,金字塔特征提取网络包括自底向上的路径,自顶向下的路径和中间的连 接部分,自底向上的路径采用resnet50提取特征,作为网络的前馈计算,下采样通过 卷积核大小为3
×
3,步长为2的卷积层实现,自底向上的路径和自顶向下的路径通过 相同尺度特征图映射相加连接,在自顶向下的路径中,经过两次上采样得到金字塔尺 度图{p3,p4,p5},上采样通过最近邻插值法,通过自底向上的路径和自顶向下的路径以 及中间的连接部分,得到多尺度特征图{p3,p4,p5,p6,p7}。
[0010]
进一步,不规则卷积模块由三个卷积核分别为1
×
k,1
×
k,k
×
k的并行分支组 成,k为卷积核大小,取自然整数;输入图像经过金字塔特征提取网络,得到多尺度特 征图(p3,p4,p5,p6,p7},多尺度特征图经过三个并行分支后,进行映射相加,再经过relu 激活函数,得到整合之后不规则多尺度特征图{a3,a4,a5,a6,a7}。
[0011]
进一步,步骤s2中每个位置分别设置不同尺度大小和长宽比例的锚点框。
[0012]
进一步,步骤s3和s4中的检测子网络由并行的分类分支和回归分支组成,分别 用来预测目标的类别分支和目标的定位坐标,两个分支共享参数。
[0013]
进一步,分类分支由5个卷积层组成,在最后一层卷积层中,得到预测框分类分 数与参数{x,y,w,h,θ}的偏置值,其中,(x,y)代表着预测框的中心点坐标,w,h分别代 表预测框的宽和长,θ代表预测框的角度,与x轴呈锐角的边定义为框宽w,相邻边定 义为h。
[0014]
进一步,偏置值的计算公式为:
[0015]
t
x
=(x-x
a
)/w
a
,t
y
=(y-y
a
)/h
a
[0016]
t
w
=log(w/w
a
),t
h
=log(h/h
a
),t
θ
=θ-θ
a
[0017]
t

x
=(x
′-
x
a
)/w
a
,t

y
=(y
′-
y
a
)/h
a
[0018]
t

w
=log(w/w
a
),t

y
=(y
′-
y
a
)/h
a
,t

θ
=θ
′-
θ
a
[0019]
变量x,x
a
,x

分别表示预测的矩形框、锚点框和真实框的中心点的x坐标值, y,y
a
,y

分别表示预测的矩形框、锚点框和真实框的中心点的y坐标值,w,w
a
,w
′ꢀ
分别表示预测的矩形框、锚点框和真实框的框宽,h,h
a
,h

分别表示预测的矩形框、锚 点框和真实框的中心点的框长,θ,θ
a
,θ

分别表示预测的矩形框、锚点框和真实框的中 心点的旋转角度,t
x
,t

x
分别表示预测的矩形框和锚点框相对真实框的x坐标值的偏置 值;t
w
,t

w
分别表示预测的矩形框和锚点框相对真实框的框宽的偏置值。
[0020]
进一步,步骤s3和s4中,损失函数包括:尺度平衡回归损失函数l
area
解决数据 集尺度不平衡问题,其公式为:
[0021][0022]
iou平衡回归损失函数l
iou
解决角度周期性问题,其公式为:
[0023][0024]
平衡回归损失函数l
ai
同时解决数据集尺度不平衡问题和角度周期性问题,其公式 为:
[0025][0026]
其中,i表示每个预测框的索引,p
i
用来判断预测框对应的真值框是否为前景目标, 若是前景p
i
值为1,否则值为0;α
i
表示尺度权重函数,β
i
表示iou权重函数,l
s
表示 smooth l1函数,定义为:
[0027][0028][0029][0030]
其中,a
i
表示与预测框i对应的真值框归一化后的面积,b
i
表示预测框i与对应的真 值框iou值。
[0031]
本发明还公开了一种遥感图像多类别目标检测系统,包括:特征提取模块,用于 通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图;标记模块,用 于在不规则多尺度特征图上,在每个位置点上设置锚点框;第一阶段检测模块,用于 将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测子网络 的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框;第二阶段检测模块, 用于将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置第 二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测框; 输出模块,用于根据第二阶段的预测框获取最终目标。
[0032]
本发明由于采取以上技术方案,其具有以下优点:
[0033]
1、本发明提升了对于多角度目标的检测性能,本发明通过加入不规则卷积,设计 了不规则金字塔特征提取网络,从整体上提升了大部分检测目标的精度,对于狭长目 标检测效果的提升尤为明显。
[0034]
2、本发明针对数据尺度不平衡问题和旋转框的角度周期性问题,设计了三种回归 损失函数,对于不同问题可选择对应的损失函数,尺度平衡回归损失函数依据检测目 标的尺度大小来调整损失权重,减小尺度不平衡的影响,从而提升整体的检测性能; iou平衡回归损失函数纠正了由角度周期性带来的定位偏差,提升了对于旋转目标的 定位性能;平衡回归损失函数结合了以上两种损失函数,用于同时解决尺度平衡与角 度周期性问题。
[0035]
3、本发明基于单阶段检测算法,在保持高速的前提下,大大提升了检测精度,在 实际的工业应用中,本发明能有效地检测任意角度的目标,克服数据尺度不平衡,狭 长目标多等问题,可广泛应用于可见光遥感图像目标检测、文字检测、工业零件瑕疵 检测等多种场景下。
附图说明
[0036]
图1是本发明一实施例中遥感图像多类别目标检测方法的网络结构示意图;
[0037]
图2是本发明一实施例中不规则金字塔特征提取网络的结构示意图;
[0038]
图3是本发明一实施例中尺度平衡因子损失函数的曲线图;
[0039]
图4是本发明一实施例中iou平衡因子损失函数的曲线图;
[0040]
图5是本发明一实施例中对于ship和harbor类型的目标检测结果的对照图,其 中,图5(a)是现有技术中retinanet网络的检测结果;图5(b)是本发明中方法的检测 结果。
具体实施方式
[0041]
为了使本领域技术人员更好的理解本发明的技术方向,通过具体实施例对本发明 进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本发明,它 们不应该理解成对本发明的限制。在本发明的描述中,需要理解的是,所用到的术语 仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。
[0042]
实施例一
[0043]
本实施例公开了一种遥感图像多类别目标检测方法,如图1所示,包括以下步骤:
[0044]
s1通过不规则金字塔特征提取网络提取输入图像的不规则多尺度特征图。
[0045]
本实施例中数据采用遥感可见光航拍图像dota数据集(a large-scale dataset for object detection in aerial images),本数据集包含15个种类的目标,且小尺 度和大尺度目标之间的数量极度不平衡。将训练集图像统一切割为600
×
600的图像i, 输送入网络之后,图像i以800
×
800的尺度作为输入图像输入不规则特征金字塔特征 提取网络中进行训练。
[0046]
其中,15个种类分别为:plane(pl),baseball diamond(bd),bridge(br), ground track field(gtf),small vehicle(sv),large vehicle(lv),ship(sh), tennis court(tc),basketball court(bc),storage tank(st),soccer ballfield(sbf),roundabout(ra),harbor(ha),swimming pool(sp)和helicopter (hc)。
[0047]
如图2所示,不规则特征金字塔特征提取网络包括金字塔特征提取网络和不规则 卷积模块,在金字塔特征提取网络末尾插入不规则卷积模块。金字塔特征提取网络包 括自底向上的路径,自顶向下的路径和中间的连接部分,自底向上的路径采用 resnet50提取特征,作为网络的前馈计算,下采样通过卷积核大小为3
×
3,步长为2 的卷积层实现,本实施例采用3种尺度的特征图{c3,c4,c5},与输入图像相比分别具有 {8,6,32}的步长,不同卷积层对应不同的尺度。自底向上的路径和自顶向下的路径通过 相同尺度特征图映射相加连接,在自顶向下的路径中,经过两次上采样得到金字塔尺 度图{p3,p4,p5},上采样通过最近邻插值法,即p6是p5通过步长为2卷积核为3
×
3的卷 积层得到,p7是p6通过卷积核为3
×
3步长为2的卷积层得到。通过自底向上的路径和 自顶向下的路径以及中间的连接部分,得到多尺度特征图{p3,p4,p5,p6,p7}。多尺度特 征图特征图经过不规则卷积模块突出目标尤其是狭长目标的特征,以提升整体目标的 特征表达空间。不规则卷积模块由三个卷积核分别为1
×
k,1
×
k,k
×
k的并行分支 组成,k为卷积核大小,取自然整数;输入图像经过金字塔特征提取网络,得到多尺度 特征图{p3,p4,p5,p6,p7},多尺度特征图经过三个并行分支后,进行映射相加,再经过 relu激活函数,得到整合之后不规则多尺度特征图{a3,a4,a5,a6,a7}。
[0048]
s2在不规则多尺度特征图上,在每个位置点设置锚点框。
[0049]
在得到的不规则多尺度特征图{a3,a4,a5,a6,a7}上的每个位置设置垂直锚点框, 其中,每个位置分别设置不同尺度大小和长宽比例的锚点框。锚点框的设置可以依据 数据集的不同,需要检测的物体特征做出相应的调整。在本实施例中,设置了3种尺 度{20,2
1/3
,2
2/3
}和7种长宽比例{1,1/2,2,1/3,3,1/5,5}。
[0050]
s3将不规则多尺度特征图和锚点框输入第一阶段检测子网络,设置第一阶段检测 子网络的损失函数,并根据第一阶段的损失函数输出第一阶段的预测框。
[0051]
检测子网络由并行的分类分支和回归分支组成,分别用来预测目标的类别分支和 目标的定位坐标,两个分支共享参数。分类分支由5个卷积层组成,卷积核均为3
×
3, 步长均为1,前4层的通道数均为256,最后一层的通道数为k
×
a,k代表数据集的类 别个数,a代表每个位置设置的锚点框个数;在本实施例中k为15,a为21。在最后一 层卷积层中,得到预测框分类分数与参数{x,y,w,h,θ}的偏置值,其中,(x,y)代表着预 测框的中心点坐标,w,h分别代表预测框的宽和长,θ代表预测框的角度,与x轴呈锐角 的边定义为框宽w,相邻边定义为h。回归分支中,同样含有5层卷积网络,卷积核均 为3
×
3,步长均为1,前4层的通道数均为256,最后一层的通道数为5
×
a,5代表 每个锚点框的预测参数{x,y,w,h,θ}。在进行回归预测时,回归的是偏置值
[0052]
偏置值的计算公式为:
[0053]
t
x
=(x-x
a
)/w
a
,t
y
=(y-y
a
)/h
a
[0054]
t
w
=log(w/w
a
),t
h
=log(h/h
a
),t
θ
=θ-θ
a
[0055]
t

x
=(x
′-
x
a
)/w
a
,t

y
=(y
′-
y
a
)/h
a
[0056]
t

w
=log(w/w
a
),t

y
=(y
′-
y
a
)/h
a
,t

θ
=θ
′-
θ
a
[0057]
变量x,x
a
,x

分别表示预测的矩形框、锚点框和真实框的中心点的x坐标值, y,y
a
,y

分别表示预测的矩形框、锚点框和真实框的中心点的y坐标值,w,w
a
,w
′ꢀ
分别表示预测的矩形框、锚点框和真实框的框宽,h,h
a
,h

分别表示预测的矩形框、锚 点框和真实框的中心点的框长,θ,θ
a
,θ

分别表示预测的矩形框、锚点框和真实框的中 心点的旋转角度,t
x
,t

x
分别表示预测的矩形框和锚点框相对真实框的x坐标值的偏置 值;t
w
,t

w
分别表示预测的矩形框和锚点框相对真实框的框宽的偏置值。
[0058]
损失函数通过回归损失与分类损失相加得到,可表示为l=l
cls
+l
reg
,l
cls
代表 分类损失函数,l
reg
代表回归损失函数。l
cls
采用focal loss损失函数。
[0059]
对于第一阶段的损失函数的设置,可以根据不同的数据集或者需求设置。本发明 提出了尺度平衡回归损失函数l
area
来解决尺度不平衡问题,iou平衡回归损失函数 l
iou
来解决角度周期性问题,以及l
ai
平衡回归损失函数用以同时解决以上两种问题, 对于不同的问题可采用不用的损失函数。在本实施例中,考虑到数据集同时具有尺度 不平衡和角度周期性问题,故选取l
ai
损失函数作为回归损失。算法网络根据损失值不 断调整权重,使得网络预测越来越接近真实值。在其他情况下,若只想要解决尺度不 平衡问题,可采用l
area
作为回归损失函数;若只想要解决角度周期性问题,可采用l
iou
作为回归损失函数;第一阶段的输出初步的预测框。
[0060]
如图3所示,尺度平衡回归损失函数l
area
解决数据集尺度不平衡问题,其公式为:
[0061][0062]
如图4所示,iou平衡回归损失函数l
iou
解决角度周期性问题,其公式为:
[0063][0064]
平衡回归损失函数l
ai
同时解决数据集尺度不平衡问题和角度周期性问题,其公式 为:
[0065][0066]
其中,i表示每个预测框的索引,p
i
用来判断预测框对应的真值框是否为前景目标, 若是前景p
i
值为1,否则值为0;α
i
表示尺度权重函数,β
i
表示iou权重函数,l
s
表示 smooth l1函数,定义为:
[0067][0068][0069][0070]
其中,a
i
表示与预测框i对应的真值框归一化后的面积,b
i
表示预测框i与对应的真 值框iou值。
[0071]
s4将不规则多尺度特征图和第一阶段的预测框输入第二个阶段检测子网络;设置 第二个阶段检测子网络的损失函数,并根据第二阶段的损失函数输出第二阶段的预测 框。第一阶段检测子网络和第二阶段检测子网络的网络结构相同,只是二者输入的数 据不同。本步骤中的损失函数的设置方法可采用与步骤s3中相同的方法,或现有技术 中其他损失函数。
[0072]
如图1所示,将步骤s1得到的不规则多尺度特征图经过两个并行分支,第一个分 支先经过卷积核1
×
5的卷积层,再经过卷积核为5
×
1的卷积层,第二个分支为卷积核 为1
×
1的卷积层,将两个分支的输出相加,作为第二检测阶段输入的特征图。第二检 测阶段的子网络与第一个检测阶段的子网络结构相同,将第一检测阶段得到的预测框 作为第二阶段检测子网络的锚点框,从而对第一检测检测子网络的预测的结果进一步 调整,得到更准确的旋转预测框。本实施例经过试验证实,在dota数据集上同时存在 尺度不平衡问题和角度周期性问题,因此在本步骤中采用l
ai
平衡回归损失函数。
[0073]
s5根据第二阶段的预测框获取最终目标。
[0074]
在本实施例中,执行算法的计算机的cpu为英特尔i9,计算机操作系统为 ubuntu16.04,cuda版本为9.0,使用的神经网络框架为tensorflow,版本为1.13。在 训练过程中,学习率在前29k步从0逐渐上升至5
×
10-4
,共训练550k步,根据不同 的训练集大小,可适当调整参数,训练完成之后可得到网络的权重,在测试阶段,输 入待图像通过权重对旋转目标进行分类和旋转框定位。
[0075]
综上所述,本发明通过上述步骤,即可实现对于可见光图像上多类旋转目标的检 测。
阶段检测子网络;设置第二个阶段检测子网络的损失函数,并根据第二阶段的损失函 数输出第二阶段的预测框;输出模块,用于根据第二阶段的预测框获取最终目标。
[0085]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽 管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解: 依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范 围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。上述内 容仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术 领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本 申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1