基于视觉Transformer的遥感图像分类方法

文档序号:37418466发布日期:2024-03-25 19:06阅读:9来源:国知局
基于视觉Transformer的遥感图像分类方法

本发明属于遥感图像分类领域,具体涉及基于视觉transformer的遥感图像分类方法。


背景技术:

1、遥感图像在地球观测、环境监测、农业、城市规划等领域具有广泛的应用。然而,由于遥感图像获取过程中的各种因素,例如飞行器姿态、地面形状和多光谱传感器的固有不确定性,导致图像中的目标物体可能出现不同的旋转姿态。这种旋转不稳定性给遥感图像分类和识别带来了挑战。

2、传统的遥感图像分类方法通常依赖于手工设计的特征提取器和分类器。然而,这些方法对于旋转不变性的建模能力较弱,对于旋转角度较大的遥感图像分类性能下降明显。近年来,视觉transformer模型在计算机视觉领域取得了显著的突破。transformer模型以其强大的建模能力和自注意力机制而闻名,已在图像分类、目标检测和分割等任务中取得了优异的性能。与传统的卷积神经网络相比,transformer模型能够捕捉全局上下文信息,通过自注意力机制对图像中的关键特征进行编码,具有更好的建模能力,同时自注意力机制维持了对旋转的鲁棒性。因此,视觉transformer能够很好的辅助分类遥感图像,是一个值得进一步研究的视觉模型。

3、现在的利用视觉transformer实现遥感旋转鲁棒分类主要存在两大挑战:

4、(1)对图像分块并提取特征的传统卷积对旋转敏感。由于卷积操作依赖于局部感受野和权值共享,当遥感图像中的目标物体发生旋转时,卷积操作无法有效地捕捉旋转后的特征,导致分类性能下降。

5、(2)现有的绝对位置编码和相对位置编码都无法提供旋转鲁棒性。绝对位置编码不具备鲁棒性,相对位置编码对平移变换鲁棒但是不对旋转变换鲁棒,影响模型对遥感图像的类别判断。


技术实现思路

1、为解决上述技术问题,本发明采用基于视觉transformer的遥感图像分类方法,包括以下步骤:

2、获取待预测的遥感图像,对待预测的遥感图像进行预处理,将预处理后的遥感图像输入训练好的遥感旋转鲁棒分类模型,得到图像的分类结果;所述遥感旋转鲁棒分类模型包括分块嵌入模块、transformer编码模块、空间结构计算模块、全局结构融合模块和mlp分类头;

3、遥感旋转鲁棒分类模型的训练过程包括:

4、s1、获取带有标签的遥感图像,将所有带标签的遥感图像进行集合,得到训练数据集,对训练数据集中的遥感图像进行预处理;

5、s2、将预处理后的遥感图像输入分块嵌入模块进行特征提取,得到特征矩阵;

6、s3、将特征矩阵拉长得到初始token序列k=(k1,k2,...,kn),在初始token序列的开始位置加入一个类别token向量得到token序列将输入transformer编码模块,得到编码序列

7、s4、将特征矩阵输入空间结构计算模块,得到空间结构序列

8、s5、将编码序列和空间结构序列对应相加,得到序列将序列输入全局结构融合模块中进行全局结构融合,得到融合序列

9、s6、将融合序列的类别token向量输入mlp分类头中进行分类,得到分类结果;

10、s7、根据分类结果计算类别损失函数值,固定transformer编码模块的权重,根据类别损失函数值更新模型参数,当类别损失函数收敛时,完成模型训练。

11、transformer编码模块包括多个串行的transformer编码器,transformer编码器的权重为视觉transformer的预训练权重。

12、分块嵌入模块对遥感图像进行处理包括:

13、根据遥感图像设置卷积步长,构建与卷积步长对应的多方向对称卷积核,将多方向对称卷积核融合,得到融合卷积核;利用融合卷积核通过无重叠分块的方式对输入的遥感图像进行特征提取,得到特征矩阵;其中,无重叠分块的方式包括:卷积步长等于融合卷积核的大小,融合卷积核根据卷积步长对遥感图像进行无重叠卷积。

14、多方向对称卷积核包括:方形卷积核、水平卷积核、竖直卷积核、上斜卷积核和下斜卷积核。

15、多方向对称卷积核中各个卷积核的权重对称;水平卷积核、竖直卷积核、上斜卷积核和下斜卷积核共享权重。

16、空间结构计算模块对特征矩阵进行处理的过程包括:

17、从特征矩阵中选取以每个token为中心大小为p×p的第一矩阵,根据第一矩阵计算特征矩阵中对应token的区域余弦相似度,利用平均池化降低每个token的区域余弦相似度的空间维度,得到自相似描述符矩阵;

18、计算特征矩阵中每个token与特征矩阵中心token的中心相对距离编码,得到中心相对距离编码矩阵;

19、对自相似描述符矩阵和中心相对距离编码矩阵进行融合,得到空间结构序列。

20、计算特征矩阵中的每个token的区域余弦相似度包括:

21、

22、其中,x为token的位置,s(x+r)i表示位置为x+r的第i个通道的余弦相似度,t(x)i表示位置为x的第i个通道的token,t(x+r)i表示位置为x+r的第i个通道的token,||·||表示模值运算,r表示位置为x的token的周围区域内的token与位置为x的token的相对位置,i表示通道的索引。

23、计算特征矩阵中每个token与特征矩阵中心token之间的中心相对距离编码包括:

24、

25、其中,x为token的位置,d表示位置x与特征矩阵中心位置的相对距离,p(x)i表示位置为x的第i个通道的中心相对距离编码,f(d)i表示相对距离为d的第i个通道的中心相对距离编码,2l表示偶数,2l+1表示奇数,n表示token的通道数量,i表示通道的索引。

26、类别损失函数为:

27、

28、其中,lcls表示分类的类别损失;yi表示符号函数,若图像的真实类别为类别i,则yi取1,否则取0,pi为分类结果,m表示类别数量,i表示类别的索引。

29、全局结构融合模块为transformer编码器。

30、有益效果:

31、1、本发明通过引入多方向对称的卷积策略,能够旋转鲁棒地对输入图像进行无重叠分块并提取特征矩阵,从底层提高模型的旋转鲁棒性;2、本发明通过引入空间结构计算策略有效地解决了多头自注意力机制缺失局部细节和空间信息的问题,通过融合自相似描述符和中心相对距离编码补充了特征的空间结构信息,取代了原有的对旋转敏感的位置编码,维持了特征对旋转的鲁棒性。



技术特征:

1.基于视觉transformer的遥感图像分类方法,其特征在于,包括:获取待预测的遥感图像,对待预测的遥感图像进行预处理,将预处理后的遥感图像输入训练好的遥感旋转鲁棒分类模型,得到图像的分类结果;所述遥感旋转鲁棒分类模型包括分块嵌入模块、transformer编码模块、空间结构计算模块、全局结构融合模块和mlp分类头;

2.根据权利要求1所述的基于视觉transformer的遥感图像分类方法,其特征在于,transformer编码模块包括多个串行的transformer编码器,transformer编码器的权重为视觉transformer的预训练权重。

3.根据权利要求1所述的基于视觉transformer的遥感图像分类方法,其特征在于,分块嵌入模块对遥感图像进行处理包括:

4.根据权利要求3所述的基于视觉transformer的遥感图像分类方法,其特征在于,多方向对称卷积核包括:方形卷积核、水平卷积核、竖直卷积核、上斜卷积核和下斜卷积核。

5.根据权利要求4所述的基于视觉transformer的遥感图像分类方法,其特征在于,多方向对称卷积核中各个卷积核的权重对称,水平卷积核、竖直卷积核、上斜卷积核和下斜卷积核共享权重。

6.根据权利要求1所述的基于视觉transformer的遥感图像分类方法,其特征在于,空间结构计算模块对特征矩阵进行处理的过程包括:

7.根据权利要求6所述的基于视觉transformer的遥感图像分类方法,其特征在于,计算特征矩阵中的每个token的区域余弦相似度包括:

8.根据权利要求6所述的基于视觉transformer的遥感图像分类方法,其特征在于,计算特征矩阵中每个token与特征矩阵中心token之间的中心相对距离编码包括:

9.根据权利要求1所述的基于视觉transformer的遥感图像分类方法,其特征在于,类别损失函数为:

10.根据权利要求1所述的基于视觉transformer的遥感图像分类方法,其特征在于,全局结构融合模块为transformer编码器。


技术总结
本发明属于遥感图像分类领域,涉及基于视觉Transformer的遥感图像分类方法,包括:获取遥感图像并进行预处理,将预处理后的结果输入分块嵌入模块,得到特征矩阵;将特征矩阵拉长得到初始序列,在初始序列中加入类别token向量,得到类别序列;将类别序列输入Transformer编码模块,得到编码序列;将特征矩阵输入空间结构计算模块,得到空间结构序列;将编码序列和空间结构序列对应相加,得到结合序列,将结合序列输入全局结构融合模块,得到融合序列;将融合序列的类别token向量输入分类头,得到分类结果;本发明采用多方向对称卷积与空间结构计算策略,从底层提高模型旋转鲁棒性,使其分类呈不同方向的遥感图像。

技术研发人员:宋铁成,刘琦,杨烽,朱世权
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1