基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法

文档序号:37543738发布日期:2024-04-08 13:45阅读:16来源:国知局
基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法

本发明涉及指向性图像分割方法,尤其是涉及针对大尺度变化、多角度目标特性的基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法。


背景技术:

1、指向性遥感图像分割是计算机视觉与自然语言处理相结合的前沿技术,旨在根据文本描述实现遥感图像中目标对象的像素级定位。由于任务所需的深度遥感数据语义理解,极大推动了实际应用的广泛可能性,在多个领域发挥着至关重要的作用,如土地利用分类、气候影响研究、城市基础设施管理等。然而,指向性遥感图像分割的发展受到现有数据集规模和范围有限的制约。由于遥感图像具有俯瞰拍摄的特殊视角,和自然图片存在巨大的语义差距;且其目标物体具有丰富的尺度和角度变化,这极大提高数据集标注的所需难度。其所需要的人力和时间成本限制现有数据集的规模的扩大,现存数据集不足以将模型训练到关键任务的实际运用所需的精度水平。此外,尽管现有的指向性图像分割方法已在特定领域证明了其有效性,但当它们应用于遥感领域时,却仍然面临着局限性。

2、传统的指向性图像分割方法通常着重于对齐视觉和语言特征。如文献(ruiyu li,et al.referring image segmentation via recurrent refinement networks.inproceedings of the ieee conference on computer vision and pattern recognition(cvpr),2018.1,2,7)利用卷积网络和递归神经网络分别提取视觉和语言特征,然后通过拼接操作实现特征融合;文献(ding-jie chen,et al.see-through-text grouping forreferring image segmentation.in proceedings of the ieee/cvf internationalconference on computervision(iccv),2019.2)和文献(yi-wen chen,et al.referringexpression object segmentation with caption-aware consistency.in britishmachine vision conference(bmvc),2019.2)通过递归优化与动态过滤方法提高模型对齐特征的能力。最近,利用transformer的出色性能,提出基于transformer进行跨模态解码器融合的方法(henghui ding,et al.vision-language transformer and querygeneration for referring segmentation.in proceedings of the ieeeinternational conference on computervision,2021.2);采用语言感知视觉编码代替后特征融合实现特征对齐(namyupkim,etal.convolution-free referring imagesegmentation using transformers.in proceedings ofthe ieee/cvf conference oncomputer vision and pattern recognition(cvpr),pages 18145-18154,2022.2)。这些方法在边界清晰的上下文中具有良好的表现,但在面对遥感图像的混乱和非结构化性质时精度明显下降。文献(shuyiouyang,et al.slvit:scale-wise language-guided visiontransformer for referring image segmentation.pages 1294-1302,2023.2)引入额外的尺度交互模块来适应图像的尺度变化特征;然而,自然图像与遥感图像之间存在的巨大语义差距仍会导致性能不佳。

3、遥感图像带来传统图像数据集所没有的独特挑战,包括巨大而多样的空间尺度,以及不同拍摄视角物体等。这突出表明指向性图像分割需要一种更稳健、用途更广泛的方法,以处理高水平的空间差异和旋转多样性。


技术实现思路

1、本发明的目的是针对传统指向性图像分割方法对大尺度、多角度变化的遥感图像的分割效果不佳等问题,提出针对遥感图像特性的基于多尺度特征交互和自适应旋转动态卷积的指向性遥感图像分割方法。通过引入局部细粒度特征建模和多粒度特征交互模块,以及根据角度信息重采样卷积核参数的自适应旋转动态卷积解码分割掩码的方式,提高模型对于遥感图像的指向性分割精度。同时针对指向性遥感图像分割数据集受制于人工标记成本而数量规模小的问题,提出半自动标注的新的大规模数据集以验证模型的有效性,为后续指向性遥感图像分割任务的研究提供基础。

2、本发明包括以下步骤:

3、1)使用预训练好的语言模型bert和视觉模型swin-transformer获得语言特征和初始的视觉特征;

4、2)使用尺度内交互模块对细粒度的局部视觉特征建模;所述尺度内交互模块用于进一步挖掘每个尺度内的丰富信息,促进视觉和语言模式之间的交互;

5、3)使用跨层的多尺度注意力对不同粒度的视觉特征进行融合交互,以应对遥感图像中的大尺度变化;

6、4)基于得到的尺度间充分交互后的特征提取角度信息,使用根据角度动态重采样卷积核权重的自适应旋转动态卷积方法解码特征获得预测分割掩码;

7、5)提出使用半自动方法标注的新指向性遥感图像分割数据集。

8、在步骤2)中,所述使用尺度内交互模块对细粒度的局部视觉特征建模的具体步骤可为:

9、(1)通过文本模型获取语言特征其中n为描述长度,c表示通道数,即全体语言特征向量空间,尺度内交互模块在阶段i的输出特征描述为:

10、

11、其中,是从视觉模型fv和输入i中提取的;具体来说,在阶段i中,输入特征经过降采样和mlp的组合以缩小尺度并统一特征维度,得到经过下采样的特征被送入两个分支,分别用于增强视觉先验和融合多模态信息;

12、(2)特征通j个不同卷积核大小的卷积分支进行变换,以产生具有不同感受野的特征,表述为:

13、

14、其中,表示卷积的第j个分支,σ表示sigmoid函数;公式即表达利用不同的卷积设置来平衡所有像素之间的权重ωi∈(0,1)h×w;权重通过以下方式来增强特征:

15、

16、输出由视觉门调节后,作为原始图像特征的局部细粒度信息的补充特征;视觉门的具体实现方法是:

17、

18、其中,ln(·)为1×1卷积核大小的卷积,tanh(·)和relu(·)表示激活函数;

19、(3)在输入和语言特征fe的情况下,首先使用作为query,以fe作为key和value,实现缩放点积注意力,从而获得多模态特征:

20、

21、随后,将注意力ai与结合起来,得到语言引导的图像特征:

22、

23、与的输出操作类似,得到的输出由语言门β调节并加到原始图像特征中,作为补充的语言特征;语言门β的结构与视觉门相同;

24、尺度内交互模块在i阶段的整体输出特性可以表示为:

25、

26、在步骤3)中,所述使用跨层的多尺度注意力对不同粒度的视觉特征进行融合交互的具体步骤可为:

27、将尺度内交互模块每层的输出,即作为输入,执行多阶段交互;首先进行多尺度特征组合,将特征在空间维度降采样到相同大小,并沿通道维度进行拼接,公式表达如下:

28、

29、

30、其中,表示降采样后的新特征downsample(·)通过average pooling实现;表示沿通道维度拼接的多尺度特征,即通过操作在通道维度拼接得到的多尺度特征。多尺度特征随后被输入到不同的感受野以实现深度多尺度交互,通过大小和步长不同的被调整到不同的尺度,其定义如下:

31、

32、其中,m∈{1,…,m}是调整的尺度数,km是第m个深度卷积的卷积核大小,hm和wm是的高度和权重;以此得到集合,在空间维度上对所有元素进行扁平化处理,并将它们拼接成一个序列的多尺度感知特征以原特征作为query,以多尺度感知特征作为key和value执行跨尺度注意力:

33、

34、为了更好地保留局部细节,在跨尺度注意力输出中并行加入局部关系补偿,得到跨尺度注意力的最终输出:

35、

36、其中,dwconv(·)表示深度卷积,hardswish(·)为激活函数,以增强多尺度局部信息的提取;

37、对于来自fc的每个部分,执行来自fe相应部分的感知门正则化,以获得跨尺度交互的权重;该权重被视为尺度内特征模块输出的辅助残差;计算公式如下:

38、

39、其中i∈{1,2,3,4};感知门的输出被用于后续解码器的最终掩码预测。

40、在步骤4)中,所述使用根据角度动态重采样卷积核权重的自适应旋转动态卷积方法解码特征获得预测分割掩码的具体步骤可为:

41、自适应旋转卷积从输入特征中捕捉角度信息,动态地重参数化卷积核权重参数,以过滤冗余特征;具体来说,它提取方向特征,根据输入预测n个角度θ∈{1,…,n}和相应的权重λ∈{1,…,n};对于输入x,θ和λ的预测值为:

42、θ,λ=routing(x). (13)

43、卷积核权重wi根据预测的角度重参数化如下所示:

44、

45、其中,yi是原始卷积核采样点的坐标,m-1(θi)是围绕坐标原点进行旋转仿射变换的旋转矩阵的逆矩阵,interpolation(·)通过双线性插值实现;用得到的卷积核对特征进行过滤,并进行加权求和运算,以生成方向感知特征:

46、

47、则自顶向下的掩码预测整体过程可总结如下:

48、

49、其中,seg(·)指的是包括3×3卷积层、batch normalization层和relu激活函数的非线性模块,以增强分割特征空间的非线性;而proj(·)为线性变换函数,用于将最终特征d1映射到二分类的掩码;一半的卷积层被自适应旋转动态卷积取代,以利用特征空间中的方向信息,从而消除冗余,提高边界细节的准确性。

50、在步骤5)中,所述新指向性遥感图像分割数据集命名为rrsis-d,采用一种半自动方法实现数据集的标注,利用边界框和sam生成像素级掩码,从而在标注过程中节约成本;

51、数据集rrsis-d由17402个图像-描述-掩码对组成,所有图像的分辨率统一为高800px、宽800px,包含20个遥感场景多个物体类别。此外,图像描述由7种属性组成,从而增强描述的语义丰富性;分割目标涉及极大、极小的显著尺度变换的实例,使得数据集具有挑战性。

52、本发明具有以下突出优点:

53、1)本发明提出一个针对指向性遥感图像分割的新基准数据集。该数据集独特地利用sam强大的分割功能,再进行手动校准,具有空间分辨率和物体方向的巨大变化。新数据集为传统指向性图像分割方法向遥感领域迁移应用奠定基础。

54、2)本发明通过局部细粒度特征建模和多粒度特征交互模块处理不同尺度内和跨尺度的细粒度信息,同时设计自适应的旋转动态卷积以应对遥感图像中的旋转现象,有效提升模型在遥感图像上的指向性分割精度,提高指向性图像分割方法对特殊场景的泛化能力和鲁棒性。

55、3)本发明提出的模型在广泛实验中证明优于多种当前的sota模型,为指向性遥感图像分割方法之后的研究提供有力的基线。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1