目标检测方法、装置、设备、介质及计算机程序产品

文档序号:32842433发布日期:2023-01-06 21:18阅读:22来源:国知局
目标检测方法、装置、设备、介质及计算机程序产品

1.本发明涉及深度学习网络技术领域,尤其涉及一种目标检测方法、装置、设备、介质及计算机程序产品。


背景技术:

2.遥感图像目标检测技术是遥感信息自动获取的重要构成部分,其主要的目的是从遥感图像中检测并定位出感兴趣的目标,现有的遥感目标检测方法主要包括以下两种:(1)传统的遥感图像目标检测方法主要依靠人为设计待测目标的纹理和边缘等低层特征,先获取候选区域,然后根据任务需求,研究人员依据先验知识人为设计低层特征,再采用分类器获得目标类别;(2)基于深度学习的遥感目标检测方法,首先依据卷积操作获取图像特征,再基于区域选取网络获取候选区域,即实现目标的粗定位及目标与背景粗分类,最后利用感兴趣区域映射到特征图上的过程提取区域特征,最后进行目标分类及检测框回归。
3.上述目标检测方法(1)采用人为设计的特征,实现较复杂,语义信息包含较少、针对性较差,且人工设计的特征层次较为初级,难以具备高层语义信息,另外此类特征难以同时有效应对复杂多样的遥感目标,鲁棒性较差。目标检测方法(2)模型复杂度较高,在特征提取阶段没有关注遥感图像中存在的背景复杂、小目标密集、目标尺度差异大等难点,导致目标检测效果不理想。


技术实现要素:

4.本发明提供一种目标检测方法、装置、设备、存储介质及计算机程序产品,用以解决现有遥感图像目标检测方法中存在的技术问题。
5.本发明提供一种目标检测方法,目标检测方法应用于目标检测系统,所述目标检测系统包括特征提取模块、三维注意力模块及特征金字塔网络;所述目标检测方法包括:
6.对待检测图像进行裁剪得到包含目标图像,将所述包含目标图像输入所述特征提取模块得到所述包含目标图像的第一图像特征;
7.将所述第一图像特征对应的各层特征输入所述三维注意力模块,得到第二图像特征;
8.将所述第二图像特征对应的各层特征输入所述特征金字塔网络进行多尺度融合,得到第三图像特征;
9.根据所述第三图像特征确定所述待检测图像的目标检测结果。
10.根据本发明提供的一种目标检测方法,所述目标检测系统还包括递归融合模块;所述根据所述第三图像特征确定所述待检测图像的目标检测结果的步骤包括:
11.将所述第三图像特征对应的第一次融合特征和第二次融合特征输入所述递归融合模块;
12.将所述第二次融合特征依次通过第一卷积和激活函数运算,生成注意力图;
13.根据所述注意力图计算所述第一次融合特征和所述第二次融合特征的加权和,根
据所述加权和确定所述待检测图像的目标检测结果。
14.根据本发明提供的一种目标检测方法,所述目标检测系统还包括分类回归模块;所述根据所述加权和确定所述待检测图像的目标检测结果的步骤包括:
15.获取各所述加权和对应的先验框数量、分类数量以及先验框调整信息;
16.将各所述加权和对应的先验框数量和分类数量输入所述分类回归模块中的第一子网,得到第一检测结果;
17.将各所述加权和对应的先验框数量和先验框调整信息输入所述分类回归模块中的第二子网,得到第二检测结果;
18.根据所述第一检测结果和所述第二检测结果,确定所述待检测图像的目标检测结果。
19.根据本发明提供的一种目标检测方法,所述将所述第一图像特征对应的各层特征输入所述三维注意力模块,得到第二图像特征的步骤包括:
20.确定所述第一图像特征对应的各层特征的单个通道中的目标神经元和其他神经元;
21.根据所述目标神经元和所述其他神经元确定所述目标神经元的重要度;
22.根据所述重要度、所述激活函数运算以及同或运算,得到第二图像特征。
23.根据本发明提供的一种目标检测方法,所述目标检测系统还包括特征连接模块;所述将所述第二图像特征对应的各层特征输入所述特征金字塔网络进行多尺度融合,得到第三图像特征的步骤之后包括:
24.获取所述特征连接模块中各分支对应的卷积内核尺寸、卷积空洞率以及卷积填充尺寸;
25.根据所述卷积内核尺寸、所述卷积空洞率以及所述卷积填充尺寸,确定所述第三图像特征对应的变换图像特征;
26.将所述变换图像特征与所述第一图像特征进行连接,完成一次递归。
27.根据本发明提供的一种目标检测方法,所述对待检测图像进行裁剪得到包含目标图像的步骤包括:
28.根据预设滑动窗口和预设裁剪重叠率,对待检测图像进行裁剪得到包含目标图像。
29.本发明还提供一种目标检测装置,包括:
30.第一图像特征确定模块,用于对待检测图像进行裁剪得到包含目标图像,将所述包含目标图像输入特征提取模块得到所述包含目标图像的第一图像特征;
31.第二图像特征确定模块,用于将所述第一图像特征对应的各层特征输入三维注意力模块,得到第二图像特征;
32.第三图像特征确定模块,用于将所述第二图像特征对应的各层特征输入特征金字塔网络进行多尺度融合,得到第三图像特征;
33.第三图像特征递归融合模块,用于将所述第二图像特征对应的各层特征输入所述特征金字塔网络进行多尺度融合,得到第三图像特征;
34.目标检测模块,用于根据所述第三图像特征确定所述待检测图像的目标检测结果。
35.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标检测方法。
36.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标检测方法。
37.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述目标检测方法。
38.本发明提供的目标检测方法、装置、设备、存储介质及计算机程序产品,目标检测方法应用于包括特征提取模块、三维注意力模块及特征金字塔网络的目标检测系统,首先对待检测图像进行裁剪得到包含目标的图像,将包含目标的图像输入特征提取模块得到图像对应的第一图像特征,然后将第一图像特征对应的各层特征输入到三维注意力模块中,得到增强的第二图像特征,再将第二图像特征对应的各层特征输入到特征金字塔网络中进行多尺度融合,得到第三图像特征,最后基于第三图像特征确定待检测图像的目标检测结果,通过包含特征提取模块、三维注意力模块及特征金字塔网络的目标检测系统,提高了遥感目标检测的准确性。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1是本发明提供的目标检测方法的流程示意图之一;
41.图2是本发明提供的目标检测方法中的网络框架图;
42.图3是本发明提供的目标检测方法的流程示意图之二;
43.图4是本发明提供的目标检测装置的结构示意图;
44.图5是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.下面结合图1-图2描述本发明的目标检测方法。
47.请参照图1,本发明提供一种目标检测方法,包括:
48.步骤100,对待检测图像进行裁剪得到包含目标图像,将所述包含目标图像输入所述特征提取模块得到所述包含目标图像的第一图像特征;
49.具体地,受硬件算力及内存大小的制约,本发明提供的遥感图像的目标检测方法采用滑动窗口的方法对大视场的遥感图像(即本实施例中的待检测图像)进行裁剪,并采用n%(n为正整数,例如25)的裁剪重叠率以尽可能保证图像边缘目标的完整性,裁剪后得到
包含目标的图像,即本实施例中的包含目标图像,然后将包含目标图像输入到特征提取模块(例如resnet残差网络)中,通过特征提取模块对包含目标图像进行特征提取,得到包含目标图像的第一图像特征。
50.步骤200,将所述第一图像特征对应的各层特征输入所述三维注意力模块,得到第二图像特征;
51.具体地,在特征提取模块输出的每层特征图(即本实施例中第一图像特征对应的各层特征)后接三维注意力模块,以无需任何额外参数的方式为特征图推导出三维注意力权值,抑制复杂背景的干扰、增强目标信息,尤其密集小目标的细粒度信息,实现目标信息有效增强。如图2所述,本实施例中的三维注意力模块即图2中的“3-d attenion”,将三维注意力模块插入到特征提取模块和特征金字塔网络之间,以针对遥感图像进行背景信息的抑制以及目标噪声消除。
52.步骤300,将所述第二图像特征对应的各层特征输入所述特征金字塔网络进行多尺度融合,得到第三图像特征;
53.具体地,将三维注意力模块强化后得到的第二图像特征对应的各层特征输入到特征金字塔网络进行深度的二次递归融合,以实现多尺度遥感目标以及密集小目标的有效特征获取,得到第三图像特征,将fpn(feature pyramid network,特征金字塔网络)自上而下反馈接入到特征提取模块自下而上的流程中,主要用于获取语义信息。递归特征金字塔以fpn为基石,将fpn层的输出反馈入特征提取模块,以递归方式执行fpn获得了更强大的特征表达,本文中自下而上的特征提取模块和fpn会运行两次。将第三图像特征通过特征连接模块与第一图像特征进行连接,完成一次递归,再次通过第二图像特征确定模块,第三图像特征确定模块得到二次多尺度融合的第三图像特征,将两次第三图像特征通过融合模块进行融合,得到待检测图新特征。
54.步骤400,根据所述第三图像特征确定所述待检测图像的目标检测结果。
55.具体地,得到第三图像特征后将第三图像特征对应的有效层特征分别通过图2中的“fusion”进行特征转换,以及通过图2中的“class&box subnets”进行目标分类与回归,得到待检测图像的目标检测结果。
56.在本实施例中,首先对待检测图像进行裁剪得到包含目标的图像,将包含目标的图像输入特征提取模块得到图像对应的第一图像特征,然后将第一图像特征对应的各层特征输入到三维注意力模块中,得到增强的第二图像特征,再将第二图像特征对应的各层特征输入到特征金字塔网络中进行多尺度融合,得到第三图像特征,最后基于第三图像特征确定待检测图像的目标检测结果,通过包含特征提取模块、三维注意力模块及特征金字塔网络的目标检测系统,提高了遥感目标检测的准确性。
57.在一个实施例中,本技术实施例提供的目标检测方法,还可以包括:
58.步骤410,将所述第三图像特征对应的第一次融合特征和第二次融合特征输入所述递归融合模块;
59.步骤420,将所述第二次融合特征依次通过第一卷积和激活函数运算,生成注意力图;
60.步骤430,根据所述注意力图计算所述第一次融合特征和所述第二次融合特征的加权和,根据所述加权和确定所述待检测图像的目标检测结果。
61.具体地,本发明提供的目标检测系统还包括递归融合模块,将第三图像特征对应的第一次融合特征和第二次融合特征输入递归融合模块中,将第二次融合特征通过卷积层和激活函数运算来生成注意力图,然后通过注意力图计算第一次融合特征和第二次融合特征的加权和,最后将计算得到的各加权和作为递归融合模块的输出,用于后续的目标检测及回归。
62.本实施例通过递归融合模块计算融合特征的加权和,用于后续的目标检测及回归。
63.请参照图3,在一个实施例中,本技术实施例提供的目标检测方法,还可以包括:
64.步骤431,获取各所述加权和对应的先验框数量、分类数量以及先验框调整信息;
65.步骤432,将各所述加权和对应的先验框数量和分类数量输入所述分类回归模块中的第一子网,得到第一检测结果;
66.步骤433,将各所述加权和对应的先验框数量和先验框调整信息输入所述分类回归模块中的第二子网,得到第二检测结果;
67.步骤434,根据所述第一检测结果和所述第二检测结果,确定所述待检测图像的目标检测结果。
68.具体地,得到第三图像特征后将第三图像特征对应的有效层特征分别通过图2中的“class&box subnets”进行目标分类与回归,“class&box subnets”包括class subnets(即本实施例中的第一子网)和box subnet(即本实施例中的第二子网),class subnet采用4次256通道的卷积和1次num_priors x num_classes的卷积,num_priors指的是各特征层所拥有的先验框数量,num_classes指的是一共对多少类(即本实施例中的分类数量)的目标进行检测。box subnet采用4次256通道的卷积和1次num_priors x 4的卷积,num_priors指的是该特征层所拥有的先验框数量,4指的是先验框的调整情况(即本实施例中的先验框调整信息)。需要注意的是,第三图像特征对应的每个特征层所用的class subnet是同一个;每个特征层所用的box subnet也是同一个。第一子网得到的检测结果为本实施例中的第一检测结果,第二子网得到的检测结果为本实施例中的第二检测结果,最后根据第一检测结果和第二检测结果,确定待检测图像的目标检测结果。
69.本实施例通过目标分类与回归得到了遥感图像的目标检测结果。
70.在一个实施例中,本技术实施例提供的目标检测方法,还可以包括:
71.步骤210,确定所述第一图像特征对应的各层特征的单个通道中的目标神经元和其他神经元;
72.步骤220,根据所述目标神经元和所述其他神经元确定所述目标神经元的重要度;
73.步骤230,根据所述重要度、所述激活函数运算以及同或运算,得到第二图像特征。
74.具体地,为了更好地实现注意力,必须对每个神经元的重要性做出评估,定义如下公式(1)所示的能量函数,其中,t和xi分别是第一图像特征的单个通道中的目标神经元和其他神经元;i是空间维度上的索引,m是单个通道上的神经元数量;w
t
和b
t
是变换的权重和偏置;为超参数;根据公式(1)计算各个神经元的能量值,能量值越低,神经元与周围神经元的区别越大,其重要性越高。
[0075][0076][0077]
根据上述公式(2)对第一图像特征进行增强处理,得到第二图像特征,其中,e为在通道和空间维度上对所有能量值进行分组;sigmoid(即本实施例中的激活函数)是为了限制e中太大的值,

为本实施例中的同或运算。
[0078]
本实施例通过挖掘神经元的重要性对第一图像特征进行增强处理。
[0079]
在一个实施例中,本技术实施例提供的目标检测方法,还可以包括:
[0080]
步骤500,获取所述特征连接模块中各分支对应的卷积内核尺寸、卷积空洞率以及卷积填充尺寸;
[0081]
步骤600,根据所述卷积内核尺寸、所述卷积空洞率以及所述卷积填充尺寸,确定所述第三图像特征对应的变换图像特征;
[0082]
步骤700,将所述变换图像特征与所述第一图像特征进行连接,完成一次递归。
[0083]
具体地,本实施例中的特征连接模块即是图2中的“aspp”,aspp(atrous spatial pyramid pooling,空洞空间金字塔池化),通过不同采样率的空洞卷积对从上层获得的特征展开卷积,等价于提取特征不同的尺度信息。其中,空洞卷积在不进行池化操作损失信息,并且保持在同样运算条件的情形下,加大了感受野,从而使得每个卷积运算的输出中都含有更大范围的信息。
[0084]
将第三图像特征对应的各层特征输入进aspp模块,aspp模块具有四个平行分支,第三图像特征对应的各层特征为输入,输出沿通道维度拼接形成最终的图像特征,即本实施例中的变换图像特征。前三个平行分支为卷积内核尺寸、卷积空洞率以及卷积填充尺寸,第四个平行分支经过global average pooling、1x1卷积以及relu(激活函数),使变换图像特征变换为第三图像特征的1/n,其中,n为正整数。
[0085]
本实施例通过将第三图像特征对应的各层特征输入空洞空间金字塔池化模块进行特征转换,加大了感受野,从而使得每个卷积运算的输出中都含有更大范围的信息。
[0086]
在一个实施例中,本技术实施例提供的目标检测方法,还可以包括:
[0087]
步骤110,根据预设滑动窗口和预设裁剪重叠率,对待检测图像进行裁剪得到包含目标图像。
[0088]
具体地,本发明提供的遥感图像的目标检测方法采用滑动窗口(即本实施例中的预设滑动窗口)的方法对大视场的遥感图像(即本实施例中的待检测图像)进行裁剪,并采用n%(n为正整数,例如25)的裁剪重叠率(即本实施例中的预设裁剪重叠率)以尽可能保证图像边缘目标的完整性,裁剪后得到包含目标的图像,即本实施例中的包含目标图像。
[0089]
本实施例通过滑动窗口和裁剪重叠率对待检测图像进行裁剪。
[0090]
下面对本发明提供的目标检测装置进行描述,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。
[0091]
请参照图4,本发明还提供一种目标检测装置,包括:
[0092]
第一图像特征确定模块401,用于对待检测图像进行裁剪得到包含目标图像,将所
述包含目标图像输入特征提取模块得到所述包含目标图像的第一图像特征;
[0093]
第二图像特征确定模块402,用于将所述第一图像特征对应的各层特征输入三维注意力模块,得到第二图像特征;
[0094]
第三图像特征确定模块403,用于将所述第二图像特征对应的各层特征输入特征金字塔网络进行多尺度融合,得到第三图像特征;
[0095]
目标检测模块404,用于根据所述第三图像特征确定所述待检测图像的目标检测结果。
[0096]
可选地,所述目标检测系统还包括递归融合模块;所述第目标检测模块包括:
[0097]
特征融合单元,用于将所述第三图像特征对应的第一次融合特征和第二次融合特征输入所述递归融合模块;
[0098]
注意力图生成单元,用于将所述第二次融合特征依次通过第一卷积和激活函数运算,生成注意力图;
[0099]
递归结果融合单元,用于根据所述注意力图计算所述第一次融合特征和所述第二次融合特征的加权和,根据所述加权和确定所述递归融合后的第三图像特征以实施后续目标检测。
[0100]
可选地,所述目标检测系统还包括分类回归模块;所述目标检测结果确定单元包括:
[0101]
信息获取单元,用于获取各所述加权和对应的先验框数量、分类数量以及先验框调整信息;
[0102]
第一检测结果确定单元,用于将各所述加权和对应的先验框数量和分类数量输入所述分类回归模块中的第一子网,得到第一检测结果;
[0103]
第二检测结果确定单元,用于将各所述加权和对应的先验框数量和先验框调整信息输入所述分类回归模块中的第二子网,得到第二检测结果;
[0104]
目标检测结果确定单元,用于根据所述第一检测结果和所述第二检测结果,确定所述待检测图像的目标检测结果。
[0105]
可选地,所述第二图像特征确定模块包括:
[0106]
神经元确定单元,用于确定所述第一图像特征对应的各层特征的单个通道中的目标神经元和其他神经元;
[0107]
重要度确定单元,用于根据所述目标神经元和所述其他神经元确定所述目标神经元的重要度;
[0108]
第二图像特征确定单元,用于根据所述重要度、所述激活函数运算以及同或运算,得到第二图像特征。
[0109]
可选地,所述目标检测系统还包括特征连接模块;所述目标检测装置还包括:
[0110]
卷积信息获取模块,用于获取所述特征连接模块中各分支对应的卷积内核尺寸、卷积空洞率以及卷积填充尺寸;
[0111]
变换图像特征确定模块,用于根据所述卷积内核尺寸、所述卷积空洞率以及所述卷积填充尺寸,确定所述第三图像特征对应的变换图像特征;
[0112]
特征连接模块,用于将所述变换图像特征与所述第一图像特征进行连接,完成一次递归。
[0113]
可选地,所述第一图像特征确定模块包括:
[0114]
图像裁剪单元,用于根据预设滑动窗口和预设裁剪重叠率,对待检测图像进行裁剪得到包含目标图像。
[0115]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行目标检测方法。
[0116]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0117]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标检测方法。
[0118]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测方法。
[0119]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0120]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0121]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1