本发明属于图像处理领域,尤其涉及一种遥感影像显著性目标检测方法。
背景技术:
1、显著性目标检测的目的是识别整个图像中视觉最突出的目标或者区域,然后把突出的部分从背景中分割出来,生成像素级显著性概率图。视觉突出性是指依据人类的视觉注意力机制,具有吸引力的对象或区域的性质。目前,显著目标检测被广泛应用于各种计算机视觉任务中,例如:实例分割、目标跟踪、人员重识别、图像裁剪等。
2、目前,在遥感领域中,遥感图像的显著性目标检测因为具有重要的实际应用价值而被广泛用作预处理技术,以协助各类下行视觉应用,例如变化检测、语义分割、目标检测、场景分类等。最近几十年,从手工制作特征到端到端深度神经网络的应用,显著目标检测取得了巨大的进步。但是这些方法基本上都专注于自然场景显著目标检测,很少有文献专注于遥感图像的显著目标检测上来。
3、和手持拍摄的自然场景图像不同,遥感图像一般是在室外通过卫星或空中传感器自动感知并进行捕捉获取的高角度俯视图,因此遥感图像与自然场景图像存在这很大的差异,目前现有的基于自然场景图像提出的显著目标检测方法不能直接应用在遥感图像上。
4、公开号cn108629286b一种基于主观感知显著模型的遥感机场目标检测方法,首先,利用潜在主题语义模型对超像素分割后的遥感图像构建模型显著图;然后,基于直线密度特征计算机场目标特征图,将得到的目标特征图与模型显著图融合生成主观感知特性驱动图,利用驱动图得到基于学习的显著图;最后将基于学习的显著图与背景区域进行融合,得到最终的机场目标显著图。这种方法能够较为准确地检测出不同尺寸和光照条件下的遥感机场目标,但是需要对图像进行复杂的人为处理和特征提取操作,无法实现端到端的高效应用。
5、公开号cn114241308a一种基于压缩模块的轻量化遥感图像显著性检测方法,首先对输入图像预处理获取对应的显著性信息和多感受野信息,将上述信息作为压缩模块输出,最后依据压缩模块,构建轻量化模型。这种方法利用压缩模块对图像信息进行压缩,减少了所需的参数量,构建了轻量化的模型从而提高检测速度。但是这种方法在轻量化的同时丢失了部分重要的目标细节信息,导致检测精度有所下降;同时采用多级中间特征融合来获取更加丰富的语义特征,一味地融合冗余信息,没有考虑不同空间位置之间的语义关系,即上下文信息获取不全面。
6、综上,现有的遥感光学图像显著性检测方法,存在的诸多局限性主要表现在:
7、(1)遥感图像一般拥有背景冗杂,干扰过多的问题,现有方法需要借助不同的图像特征提取算法,提取图像的各种类型的特征,过程繁琐复杂,同时不能有效抑制背景噪声的干扰,提取到的遥感图像特征不全面。
8、(2)遥感图像中的显著目标具有复杂的结构和拓扑,覆盖范围广,目标自身结构复杂、纹理多样,同一目标不同部位结构差异大,难以检测到完整的目标,现有的方法通过特征的叠加融合来完善特征信息,但是这大概率只学习对象内部的一些冗余特征,无法有效完善提取的特征,还降低了算法的效率。
9、(3)遥感图像的部分显著目标尺寸过小,可利用的特征有限,其语义信息会出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失,无法更好地定位目标、完善目标的结构细节。
技术实现思路
1、发明目的:针对现有技术中存在的问题,本发明提供一种遥感影像显著性目标检测方法。该方法引入了上下文信息编码与注意力机制搭建全局上下文感知模块来获取全局特征来抑制背景干扰;引入了膨胀卷积与反向注意力机制来搭建膨胀反向注意力模块来扩大感受野,降低特征冗余度,完善特征信息;引入了融合密集上采样模块来恢复特征信息,捕获目标位置结构细节。
2、技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种遥感影像显著性目标检测方法,包含训练阶段和测试阶段,具体步骤如下:
3、(1)构建遥感图像显著目标检测数据集,制作每个输入样本对应的显著性像素级标签,同时随机打乱数据集,将遥感图像显著目标检测数据集分为训练集train和测试集test;
4、(2)搭建提出的注意力感知三分支网络模型,该网络为编码器-解码器结构,包括注意力特征编码器、三分支解码器及双重监督损失三个主要部分,其中编码器部分包括五个编码卷积模块和五个全局上下文感知注意力模块,解码器部分包括第一分支的四个解码卷积模块、第二分支膨胀反向卷积模块的膨胀卷积部分和三个反向注意力模块、第三分支的四个融合密集上采样模块;
5、(3)将训练集输入到步骤(2)中的注意力特征编码器部分,通过全局上下文感知注意力模块,得到每张图像的聚合注意力特征图;
6、(4)将步骤(3)中得到的聚合注意力特征图输入到三分支解码器部分,经过第一个分支卷积解码器模块得到原始解码特征图;
7、(5)将步骤(4)中得到的原始解码特征图输入到第二分支膨胀反向注意力模块和第三分支融合密集上采样模块中,分别得到初步的目标区域显著图和初步的目标边界显著图;
8、(6)将步骤(5)中得到的初步的目标区域显著图和初步的目标边界显著图与步骤(4)中得到的原始解码特征图进行卷积融合操作,生成最终的目标显著性区域预测图和目标显著性边界预测图;
9、(7)将步骤(6)中得到的目标显著性区域预测图与目标显著性边界预测图分别计算显著性区域损失和边界增强损失,通过双重损失监督的方式来训练网络;
10、(8)将测试集输入到步骤(2)中的训练好的网络模型中得到每张图像的显著性目标区域预测图。
11、其中,步骤(1)中的构建数据集样本集合方法如下:
12、(1.1)构建x={xi|i=1,2,...,n}为输入的遥感图像显著目标检测数据样本,y={yi|i=1,2,...,n}为输入的遥感图像数据样本对应的像素级标签集合,表示标签向量,代表维度空间,i为总的标签类别,在显著性目标检测中为二分类,即显著性目标前景与背景类别,n为总的训练样本数量;
13、(1.2)将数据集分为训练集部分train和测试集部分test,从遥感图像显著目标检测数据集中随机抽取m张图片构建训练集剩下的n-m张图片构成测试集下标i表示图片样本的数目排序。
14、其中,步骤(2)中搭建的注意力感知三分支网络模型结构如下:
15、(2.1)在输入部分中,将每一个遥感场景图像归一化为224×224×3大小的rgb图像格式;
16、(2.2)在注意力特征编码器部分,采用vgg16网络的前五个卷积模块作为编码器的五层主要编码器模块,在每一层的编码器模块都引入一个全局上下文感知注意力模块;
17、(2.3)在三分支解码器的第一分支部分,主要由四个解码器模块搭建;
18、(2.4)在三分支解码器的第二分支部分,主要由四个膨胀系数不同的膨胀卷积层和三个反向注意力模块搭建;
19、(2.5)在三分支解码器的第三分支部分,主要由四个融合密集上采样模块构成;
20、(2.6)三分支解码器的第一分支与第二分支由一个卷积模块融合,三分支解码器的第一分支与第三分支由另一个卷积模块融合。
21、其中,步骤(3)中,得到每张图像的聚合注意力特征图方法如下:
22、(3.1)设定五组编码器卷积模块表示为en(l),l={1,2,3,4,5},l代表网络编码器部分层数,令第l层编码器模块en(l)的侧边输出特征图为代表维度空间,cl,hl和wl为第l层的通道数,长和宽,设定第l层编码器模块中任意两个位置的像素空间相关图为pl=hl×hl为像素数,sl被定义为:
23、
24、其中,是正则化之后的侧边输出特征图,是尺寸转化操作,即将变为d23=d2×d3,是矩阵乘法操作,t为矩阵转置操作。
25、然后,将像素空间相关图sl转化为全局像素关系图衡量第i位置像素对于第j位置像素的相对影响:
26、
27、其中,代表两个像素嵌入向量基于余弦距离的特征相似度,是计算sl中第j列所有元素的高斯加权总和,e为自然常数;
28、将全局像素关系图与原始特征图进行矩阵相乘操作得到具有全局上下文关系的编码特征图gl,定义为:
29、
30、其中,表示的逆操作。
31、(3.2)将新得到的全局上下文编码关系特征图gl与原始特征图xl进行逐像素相乘操作,然后引入残差连接进行特征增强,得到的最终的全局聚合特征图fl,定义为:
32、fl=xl+α·(gl⊙xl)
33、其中,⊙表示逐元素乘法,α表示设定权重因子。
34、(3.3)引入级联金字塔注意力机制,从粗到精逐步引导完善特征和注意力提示信息,对得到的全局聚合特征图fl沿着通道维度分别进行平均池化和最大池化操作,分别产生两个一维的通道描述符与定义为:
35、
36、
37、其中avepool(·)代表平均池化操作,maxpool(·)代表最大池化操作。将两者连接起来得到新的通道空间描述符然后卷积生成空间注意力图al,定义为:
38、
39、其中,att(·)表示自定义的卷积注意力操作,σ(·)表示sigmoid激活函数,conv(·;θ)表示卷积层操作,θ为卷积层的参数,concat(·)表示通道串联操作。
40、(3.4)对原始的全局聚合特征图fl进行多次下采样操作并进行通道压缩,分别得到具有不同分辨率的特征图,构建一个特征图金字塔代表多次下采样操作。先从最低分辨率的开始,按照上式自定义的卷积注意力操作att(·),生成对应的注意力图然后按照下式生成
41、
42、其中,代表逐通道和逐像素乘法,↑代表上采样操作,concat(·)表示通道串联操作。按照上述流程,得到最终的聚合注意力图即最高分辨率对应的注意力图定义为:
43、
44、(3.5)针对每层的聚合注意力图先下采样前几层的注意力图然后将它们沿通道维度进行连接concat(·)操作,最后通过卷积conv(·)和sigmoid激活函数σ(·),生成最终的全局聚合注意力图定义为:
45、
46、其中,↓表示下采样操作。
47、(3.6)将全局聚合特征图fl与全局聚合注意力图进行逐像素相乘操作,然后通过残差连接得到最终的聚合注意力特征图定义为:
48、
49、其中,步骤(4)中的,输入聚合注意力特征图到解码器的第一个分支卷积解码器模块,得到原始解码特征图方法如下:
50、(4.1)将得到的聚合注意力特征图沿通道维度串联后进行卷积和激活函数操作,得到响应的解码特征图dm,m={1,2,3,4}代表解码器模块的层数,dm被定义为:
51、
52、其中,σ(·)表示sigmoid激活函数,conv(·;θ)表示卷积层操作,θ为卷积层的参数,concat(·)表示通道串联操作。
53、其中,步骤(5)中,将得到的原始解码特征图输入到第二分支膨胀反向注意力模块和第三分支融合密集上采样模块中,分别得到初步的目标区域显著图和初步的目标边界显著图的方法如下:
54、(5.1)设定原始解码特征图为dm,m={1,2,3,4}代表不同的解码器层数,将其输入到第二分支膨胀反向注意力模块中,从最低分辨率的特征图d4开始,通过多尺度的膨胀卷积结构,该结构包含四个分支,膨胀因子r={1,2,4,6}。然后将沿通道维度串联后送入3×3卷积层,生成单通道全局显著性区域蒙版预测图m4。
55、(5.2)以m4作为指导的预测图,通过sigmoid激活函数后,再进行取反操作生成反向注意力图。将其和上一层的解码特征图d3进行逐元素相乘与卷积层操作,利用残差连接得到显著性区域蒙版预测图m3。按照上述步骤,依次得到m2,m1。由此,得到各层显著性区域蒙版预测图mm的整个过程被定义为:
56、mm=mm+1↑+conv(dm⊙(1-σ(mm+1↑));θ)
57、其中,↑表示上采样操作,conv(·;θ)表示卷积层操作,θ为卷积层的参数,⊙表示逐元素相乘操作,σ(·)表示sigmoid激活函数,其中m1即为初步的显著性区域预测图。
58、(5.3)将原始解码特征图dm输入到第三分支融合密集上采样模块中,设定输出的解码特征图cm,hm和wm为第m解码层的通道数,长和宽,d为下采样因子,表示相邻层级特征图之间的比例大小,定义为:
59、
60、然后利用密集卷积操作,生成密集卷积通道特征图再通过重构数组操作实现上采样,将结果和原始的解码特征图dm-1融合生成更新的解码特征图整个过程定义为:
61、
62、
63、
64、其中,reshape(·)表示重构数组操作,将由conv(·;θ)表示卷积层操作,θ为卷积层的参数。由此,依次得到更新的解码特征图以及生成的初步显著性边界预测图d。
65、其中,步骤(6)中,生成最终的目标显著性区域预测图和目标显著性边界预测图的方法为:
66、(6.1)设定原始解码特征图为dm,m={1,2,3,4},初步的显著性区域预测图为步骤(5)中得到的m1,将2×上采样操作↑后的m1和卷积操作后的d1进行卷积融合,生成最终的显著性蒙版预测图m,定义为:
67、m=m1↑+conv(d1;θ)
68、其中,conv(·;θ)表示卷积层操作,θ为卷积层的参数。
69、(6.2)将步骤(5)中得到的初步的显著性边界预测图d和经过卷积操作后的d1进行融合,生成最终的显著性边界预测图e,定义为:
70、e=d+conv(d1;θ)
71、conv(·;θ)表示卷积层操作,θ为卷积层的参数。
72、其中,步骤(7)中,将得到的初步显著性区域预测图与初步显著性边界预测图进行双重损失监督来训练网络的方法为:
73、(7.1)设定步骤(6)中输出的初步显著性区域预测图为m,显著性区域蒙版真值图为gm,二者用类平衡二元交叉熵损失函数处理,得到显著性区域蒙版交叉熵损失lm,定义为:
74、lm=-[γ1·gm log(m)+γ2·(1-gm)log(1-m)]
75、其中,参数分别表示gm中目标前景像素bm和背景像素b-bm在总像素b中的权重。
76、(7.2)设定步骤(6)中输出的初步显著性边界预测图为e,显著性边界真值图为ge,二者用类平衡二元交叉熵损失函数处理,得到显著性边界增强损失le,定义为:
77、le=-[μ1·gelog(e)+μ2·(1-ge)log(1-e)]
78、其中,参数μ1,μ2分别表示ge中目标前景像素和背景像素在总像素中的权重。
79、(7.3)将显著性区域蒙版交叉熵损失lm与显著性边界增强损失le合并起来得到最后的显著性总损失l,定义为:
80、l=η1lm+η2le
81、η1,η2为两种损失设定的权重因子。
82、其中,步骤(8)中,得到每张图像的显著性目标区域预测图的方法为:
83、(8.1)将测试集下标i表示图片样本的数目排序中的图像输入到训练好的网络模型中,所需的显著性目标区域预测图即为步骤(6)中得到的最终显著性区域预测图m。
84、有益效果:本发明采用上述技术方案,具有以下有益效果:
85、(1)本发明提出了一种基于注意力感知三分支网络模型,主要包括编码器和解码器两部分,可以分别生成目标区域显著预测图和目标边界显著预测图,且采用双重损失监督的方式,可更好地训练网络,在遥感图像显著目标检测中表现出良好的性能;
86、(2)在编码器部分引入全局上下文感知注意力模块,首先通过上下文信息计算不同位置像素对的余弦距离,可得到特征相似度,集成点对点的关系实现特征对齐,可得到相应的编码特征图,然后通过级联金字塔注意力框架,可专注于不同的视觉内容,建立不同层注意力图的相关性关系,得到最后的全局聚合注意力特征图,通过这种方式可有效增强显著性来检测完整的显著目标;
87、(3)在解码器部分构建融合解码卷积模块、膨胀反向注意力模块、融合密集上采样模块的架构,其中膨胀反向注意力模块利用膨胀卷积可增大感受野,利用反向注意力机制可逐层发现显著对象缺失的区域和细节,从而生成目标区域显著预测图;而融合密集上采样模块利用了通道维数弥补了图像长宽的缺失,并利用上采样形成了目标边界显著预测图,它能够更好地帮助定位目标、完善结构细节,提升目标区域显著预测图的学习。