基于遥感多模态基础模型的遥感图像文本检索方法

文档序号：37426556发布日期：2024-03-25 19:14阅读：12来源：国知局

本发明涉及计算模型和计算机系统领域，更具体地涉及一种基于遥感多模态基础模型的遥感图像文本检索方法。

背景技术：

1、基础模型的发展让现有深度学习技术更高效实用，基于基础模型做的下游任务模型适配性更好、能力也更强。不同场景如自然场景和遥感场景训练出来的基础模型在很多方面都有所不同，在遥感场景任务上，专有的遥感多模态基础模型往往表现出更有竞争力的一面。

2、遥感文本图像检索是一种利用遥感图像和文本描述之间的关联性来实现跨模态检索的技术。它可以帮助用户从海量的遥感数据中快速找到感兴趣的场景和目标。遥感文本图像检索的主要挑战是如何有效地提取和匹配遥感图像和文本描述的特征，以及如何利用用户反馈和知识库来提高检索性能。

3、目前，有许多基于深度学习的方法被提出来解决这些问题，例如基于无监督深度迁移学习的遥感图像检索方法，基于多尺度自注意力模块的遥感跨模态图文检索方法等。这些方法都试图利用预训练的神经网络编码器来将遥感图像和文本描述编码为密集向量，并在共享密集向量空间中做检索匹配。然而，这种方法在大规模数据集上应用起来效率很低，并且其使用的预训练数据都是自然场景数据集，无法直接运用遥感数据集进行训练。

4、这种方法在大规模数据集上应用起来效率低，并且其使用的大都是自然场景下的预训练模型，对遥感场景适配差、泛化性低。

技术实现思路

1、基于以上技术问题，本发明的主要目的在于提出一种基于遥感多模态基础模型的遥感图像文本检索方法，用于解决以上技术问题的至少之一。

2、本发明的一个方面提供了一种基于遥感多模态基础模型的遥感图像文本检索方法，包括：获取遥感图像数据和文本描述数据；从遥感图像数据中提取图像密集向量和从文本描述数据中提取文本密集向量；将图像密集向量转化为图像稀疏向量，并将文本密集向量转化为文本稀疏向量；以及基于图像稀疏向量和文本稀疏向量建立索引模型，并根据索引模型检索文本描述数据所对应的遥感图像数据。

3、可选地，基于编码器对遥感图像数据和文本描述数据进行编码包括：基于视觉编码器对遥感图像数据进行编码，视觉编码器包括灵眸模型；以及基于文本编码器对文本描述数据进行编码。

4、可选地，基于编码器对遥感图像数据和文本描述数据进行编码之前，还包括：基于异构标注信息转换方法获取遥感图文匹配数据；根据遥感图文匹配数据对编码器进行预训练。

5、可选地，基于异构标注信息转换方法获取遥感图文匹配数据包括：

6、基于分割掩码信息到标注框方法将遥感图像数据中的分割掩码标注数据转换为边界框数据；基于标注框到语义描述方法数据将遥感图像数据中的边界框数据转化为文本描述数据，得到遥感图文匹配数据。

7、可选地，将图像密集向量转化为图像稀疏向量，并将文本密集向量转化为文本稀疏向量包括：基于词汇瓶颈模型分别将图像密集向量和文本密集向量转化为图像稀疏向量和文本稀疏向量。

8、可选地，基于词汇瓶颈模型分别将图像密集向量和文本密集向量转化为图像稀疏向量和文本稀疏向量包括：建立共享词汇空间，将图像密集向量和文本密集向量映射到共享词汇空间内；分别建立共享词汇空间与图像密集向量和文本密集向量的联系；以及基于联系分别将图像密集向量和文本密集向量转化为图像稀疏向量和文本稀疏向量。

9、可选地，分别建立共享词汇空间与图像密集向量和文本密集向量的联系包括：获取共享词汇空间内的词汇；获取词汇的权重向量；以及分别获取词汇与图像密集向量和文本密集向量的相关性权重。

10、可选地，基于联系将图像密集向量和文本密集向量转化为图像稀疏向量和文本稀疏向量包括：基于词汇的权重向量和相关性权重得到词汇的重要性分布；以及基于词汇的重要性分布得到图像稀疏向量和文本稀疏向量。

11、可选地，基于图像稀疏向量和文本稀疏向量建立索引模型包括：基于词袋模型将图像稀疏向量和文本稀疏向量转化为词典，词典包括有权重系数；基于词典建立倒排索引模型。

技术特征：

1.一种基于遥感多模态基础模型的遥感图像文本检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，从所述遥感图像数据中提取图像密集向量和从所述文本描述数据中提取文本密集向量包括

3.根据权利要求2所述的方法，其特征在于，所述基于编码器对所述遥感图像数据和所述文本描述数据进行编码包括：

4.根据权利要求2所述的方法，其特征在于，所述基于编码器对所述遥感图像数据和文本描述数据进行编码之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于异构标注信息转换方法获取遥感图文匹配数据包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述图像密集向量转化为图像稀疏向量，并将所述文本密集向量转化为文本稀疏向量包括：

7.根据权利要求6所述的方法，其特征在于，所述基于词汇瓶颈模型分别将所述图像密集向量和所述文本密集向量转化为图像稀疏向量和文本稀疏向量包括：

8.根据权利要求7所述的方法，其特征在于，所述分别建立所述共享词汇空间与所述图像密集向量和所述文本密集向量的联系包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述联系将所述图像密集向量和所述文本密集向量转化为图像稀疏向量和文本稀疏向量包括：

10.根据权利要求1所述的方法，所述基于所述图像稀疏向量和所述文本稀疏向量建立索引模型包括：

技术总结
本发明提供一种基于遥感多模态基础模型的遥感图像文本检索方法，涉及计算模型和计算机系统领域，用以解决遥感图文检索精度差、效率低的问题。具体包括：获取遥感图像数据和文本描述数据；获取遥感图像数据的图像密集向量和文本描述数据的文本密集向量；从遥感图像数据中提取图像密集向量和从文本描述数据中提取文本密集向量；将图像密集向量转化为图像稀疏向量，并将文本密集向量转化为文本稀疏向量；以及基于图像稀疏向量和文本稀疏向量建立索引模型，并根据索引模型检索文本描述数据所对应的遥感图像数据。本发明利用稀疏向量建立索引模型，减少了遥感图文检索过程中的计算量，提升了模型的效率。

技术研发人员：许光銮,张文凯,李霁豪,李硕轲,张伟航,佟博远,李重阳
受保护的技术使用者：中国科学院空天信息创新研究院
技术研发日：
技术公布日：2024/3/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许光銮,张文凯,李霁豪,李硕轲,张伟航,佟博远,李重阳
技术所有人：中国科学院空天信息创新研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。