一种基于多模态空域变换网络的遥感图像场景分类方法

文档序号：34980621发布日期：2023-08-02 06:32阅读：31来源：国知局

本发明属于遥感图像分类识别领域，具体涉及一种基于多模态空域变换网络的遥感图像场景分类方法。

背景技术：

1、多模态数据，即包含多种数据类型的数据，比如文本、图像、视频、音频等，目前已经在许多实际应用场景中得到了广泛的应用，如图像分类、自动驾驶以及显著性检测。多模态数据的研究具有广阔的发展前景，可以为人工智能应用提供更加丰富和准确的信息。结合多模态数据的内部信息可以有效融合互补特征，避免单一模态的某些信息被遗漏。但是，大部分基于多模态的研究工作仅仅是将不同传感器捕获的图像作为不同的模态，没有实现真正的跨模态，提取的特征仍然存在一定的局限性。

2、遥感图像场景分类主要是将输入图像映射到离散的标签中，但是网络从图像中提取到的特征是有限的，在训练过程中也完全忽略了与每幅图像相关的其它形式的信息。现有的大部分研究内容都是针对图像这种单一模态进行的，缺乏跨模态的相关工作。由于缺少不同模态间的互补信息，网络提取的特征对复杂场景的特征鉴别能力不足。数据的类型是多种多样的，从这些多模态数据中可以学习到其它形式的信息来帮助识别图像类别。目前在自然图像领域中已经有许多多模态框架被提出以探索不同模态间的潜在依赖关系，但由于遥感图像的多样性和复杂性，为自然图像提出的方法不能用来很好地建立遥感模态间的关系。因此如何有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐仍然是一个难题。

技术实现思路

1、为解决上述技术问题，本发明提出一种基于多模态空域变换网络的遥感图像场景分类方法，包括以下步骤：

2、s1：获取含场景类别标签的遥感图像组成训练数据集；

3、s2：建立遥感图像分类模型；所述模型包括resnet50预训练网络模块、循环空域变换模块、类名嵌入模块；

4、所述resnet50预训练网络模块包括conv-1、res-2、res-3、res-4、res-5、空洞空间金字塔池化层、全局平均池化层和softmax层；

5、s3：将训练数据集中的遥感图像输入遥感图像分类模型进行模型训练；

6、s31：将遥感图像输入resnet50预训练网络模块获取多层特征，多层特征经过空洞空间金字塔进行特征交互并通过全局平均池化输出整体特征f1，特征f1经过softmax层得到图像的预测分类结果；

7、s32：循环空域变换模块将不同层级的特征进行循环式自适应空间变换；

8、s33：将图像的类别标签输入类名嵌入模块，通过glove模型与多头自注意力机制提取遥感图像类别的语义信息，并经过softmax层得到文本的预测分类结果；

9、s34：将类名的语义信息与循环式自适应空间变换后特征进行逐像素加权融合，得到判别性特征f2；

10、s35：根据图像、文本的预测分类结果分别建立图像、文本的分类损失，根据整体特征f1和判别性特征f2建立相似度损失；

11、s36：将图像、文本的分类损失以及相似度损失作为遥感图像分类模型最终的损失函数，当损失函数值最小时完成模型的训练；

12、s4：将待分类的遥感图像输入训练好的遥感图像分类模型进行分类，得到分类结果。

13、本发明的有益效果：

14、本发明通过将图像的多层特征与图像类别的语义信息融合的方式，有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐；同时通过图像、文本的分类损失以及相似度损失联合优化得到的遥感图像分类模型能够实现遥感图像的分类。

技术特征：

1.一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，将遥感图像输入resnet50预训练网络模块获取多层特征，包括：

3.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，将不同层级的特征进行循环式自适应空间变换，包括：

4.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，通过glove模型与多头自注意力机制提取遥感图像类别的语义信息，包括：

5.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述图像的分类损失，包括：

6.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述文本的分类损失，包括：

7.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述相似度损失，包括：

8.根据权利要求1所述的一种基于多模态空域变换网络的遥感图像场景分类方法，其特征在于，所述模型的损失函数，包括：

技术总结
本发明属于遥感图像分类识别领域，具体涉及一种基于多模态空域变换网络的遥感图像场景分类方法，包括：利用预训练网络获得多层特征；将不同层级的特征进行循环式自适应空间变换，其结果与下一层特征相融合以输出判别性特征；通过GloVe模型与自注意力机制来提取类名的语义信息，将其用于加权循环空域变换模块的输出特征；建立图像、文本的分类损失以及相似度损失，实现整个网络的优化，通过优化后的网络进行分类识别。本发明通过将图像的多层特征与图像类别的语义信息融合的方式，有效利用多模态信息以及探索模态之间的内在相关性来实现有效的语义对齐。

技术研发人员：宋铁成,郑红宇,谢林男,马欣冉,吴梦怡,季薇
受保护的技术使用者：重庆邮电大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋铁成郑红宇谢林男马欣冉吴梦怡季薇
技术所有人：重庆邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。