一种基于特征解耦的持续遥感图像文本检索方法及装置与流程

文档序号：37596912发布日期：2024-04-18 12:35阅读：11来源：国知局

本发明属于信息检索，具体涉及一种基于特征解耦的持续遥感图像文本检索方法及装置。

背景技术：

1、近年来，随着遥感技术的快速发展，遥感数据的研究越来越受到关注。遥感图像具有的动态、宏观、实时、快速等特点，极大地提高了人们对地球的观察能力与认识水平。由于具有广泛而不可或缺的用途，越来越多的遥感卫星被发射上天空，源源不断的传回海量的可视化卫星影像数据，这导致了遥感数据爆发式的增长。遥感数据已经具备了大数据的特征。根据这些海量的遥感数据进行跨模态检索，可以帮助挖掘和检索出人们感兴趣的有价值的信息。

2、跨模态检索可以自动从多种模态(如文本、图像和视频)中挖掘出给定查询的相关数据，用户只需提交一种模态的查询，就可以检索出另一模态的相关信息，例如以文搜图、以图搜图、以声搜图等。从各个方面看，这项技术都具有重要的研究意义：对于学术界来说，它是对对比学习、表示学习、度量学习、哈希等技术的重要应用和拓展；对企业界来说，它可以应用于具有广大市场和商业价值的产品，如百度、谷歌等搜索引擎，淘宝、亚马逊等购物软件，甚至对于近年来兴起的短视频软件等，都离不开跨模态检索技术；对于用户来说，它可以大大提高生活的便利程度与幸福感，这些落地的产品融入每个人生活的方方面面，极大地提高了用户数据检索的效率和质量。深度学习的发展进一步促进了跨模态检索技术的进步。从传统的主成分分析方法到卷积神经网络，再到近几年出现的transformer(一种自注意力模型)，可以获取更加高级准确的语义信息，不论是用于特征提取、模态公共子空间的映射甚至是一对一的图文匹配程度预测，深度学习不断涌现出的新模型、新技术都在为跨模态检索任务提供极大的便利。跨模态检索为从海量的遥感数据中根据图像的语义与人们的兴趣自动挖掘出有价值的信息提供了可能性。

3、近年来，已经有不少学者研究了基于深度学习的遥感图像-文本跨模态检索技术，取得了不错的效果，将深度学习的跨模态检索技术引入遥感数据领域，可以大大地节省人力，轻松筛选获取所需要的数据。例如，qimincheng等人设计了一个语义对齐模块来充分挖掘图像和文本之间的潜在对应关系，使用注意力和门控机制来获得更具判别性的特征表示。yafeilv等人提出了一种基于融合的相关学习模型，使用一个跨模态融合网络来捕获多模态互补信息和融合特征。然后将融合特征通过知识蒸馏监督特定模态网络的学习，从而增强跨模态语义一致性。zhiqiangyuan团队产出了一系列相关工作，该团队首先提出了一个跨模态遥感图文检索框架，基于全局和局部信息设计了多级信息动态融合模块，有效集成了不同层次的特征，并设计了一个去噪表示矩阵和增强邻接矩阵来产生更好的局部表示。随后，该团队针对遥感多模态检索任务中的多尺度稀缺和目标冗余问题，提出了一种新的非对称多模态特征匹配网络，采用多尺度视觉自注意模块提取遥感图像的显著特征，并提出了一个动态可变裕度三重损失函数。之后，该团队针对多源遥感信息检索任务构建了一个多源跨模态检索网络，提出了一种基于模态记忆的共享模式传输模块来解决多数据源造成的数据异构问题，并结合生成对抗理论实现了不受模态约束的语义表示。georgiimikriukov等针对现有的遥感跨模态文本图像检索系统无法快速和高效的检索的问题，提出了一种新的无监督交叉模态对比哈希方法，将提取的表示生成跨模态二进制哈希码提高检索效率。

4、然而，尽管上述现有的基于深度学习的遥感跨模态检索模型在许多任务上表现出极高的性能，但这些模型属于静态模型，静态模型只针对一个任务数据训练对应的模型，训练完成后进行保存，而无法随时间使它适应新的数据，需要在每次新数据到来时重新启动训练过程。当新的遥感图像源源不断的到来时，需要重新训练模型使它适应新的任务。先前任务的数据由于存储限制或隐私问题，只能暂时使用，无法参与到模型后续的训练中，模型就会面临灾难性遗忘的问题，也就是模型在旧数据上的性能随着新领域数据的学习发生显著性的下降。此时模型往往会面临稳定性-适应性困境，适应性是指整合新知识的能力，稳定性是指保持原有知识的能力，当模型过度适应新数据，往往难以保持旧数据的知识。

技术实现思路

1、为了解决现有技术中所存在的上述问题，本发明提供了一种基于特征解耦的持续遥感图像文本检索方法及装置。

2、本发明要解决的技术问题通过以下技术方案实现：

3、第一方面，本发明提供了一种基于特征解耦的持续遥感图像文本检索方法，包括：

4、接收检索信息，所述检索信息包括遥感图像和检索文本；

5、将所述检索信息输入至一检索特征生成模型，以使所述检索特征生成模型根据所述检索信息生成对应的检索特征；

6、利用所述检索特征进行检索；

7、所述检索特征生成模型包括多个任务分支；所述多个任务分支之间共享一公有特征提取模块，且每个任务分支各自包括私有特征提取模块和特征融合模块；

8、所述公有特征提取模块，用于从所述检索信息中提取所述多个任务分支之间共享的图像公有特征和文本公有特征；

9、所述私有特征提取模块，用于从所述检索信息中提取仅与其所在任务分支有关的图像私有特征和文本私有特征；

10、所述特征融合模块，用于将其所在任务分支的图像私有特征和所述图像公有特征进行融合，得到融合图像特征，还用于将其所在任务分支的文本私有特征和所述文本公有特征进行融合，得到融合文本特征；所述检索特征包括所述多个任务分支的融合图像特征和融合文本特征；

11、所述方法还包括：在所述检索特征生成模型根据所述检索信息生成对应的检索特征之后，根据所述检索信息、所述检索特征以及所述检索特征生成模型中产生的特征计算模型损失，并根据所述模型损失持续优化所述检索特征生成模型的参数。

12、可选地，所述模型损失包括：第一损失、第二损失和第三损失；

13、所述第一损失，用于促使所述融合图像特征和所述融合文本特征实现图文空间对齐；

14、所述第二损失，用于促使所述公有特征提取模块学习所述多个任务分支之间通用知识；

15、所述第三损失，用于最大化图像公有特征和图像私有特征之间差异，以及最大化文本公有特征和文本私有特征之间差异。

16、可选地，计算所述第一损失的损失函数为：

17、

18、其中，n表示样本数量，每个样本均包括一张遥感图像和一段检索文本；i∈[1,n]；fresxi表示选取的第i个样本对应的融合图像特征，fresyi表示选取的第i个样本对应的融合文本特征；表示n个样本中与第i个样本对应的融合图像特征满足图文对应的融合文本特征，表示n个样本中与第i个样本对应的融合文本特征满足图文对应的融合图像特征，表示n个样本中与第i个样本对应的融合图像特征不满足图文对应的融合文本特征，表示n个样本中与第i个样本对应的融合文本特征不满足图文对应的融合图像特征，l2()为计算欧式距离的公式，和之间的最小间隔、和之间的最小间隔均为m；λ表示用于控制损失项大小的超参数。

19、可选地，计算所述第二损失的损失函数为：

20、

21、其中，d为判别器，k表示当前第k个任务分支的私有特征提取模块和该判别器构成对抗生成网络，其中该私有特征提取模块是该对抗生成网络的生成器；所述判别器用于判别各个私有特征提取模块提取的图像私有特征和文本私有特征所属的任务分支；表示第k个任务分支的图像私有特征，表示第k个任务分支的文本私有特征，t表示任务分支的总数量，在判别器所判别的任务分支的序号t＝k时为1，在判别器所判别的任务分支的序号t≠k时为0。

22、可选地，计算所述第三损失的损失函数为：

23、

24、其中，‖·‖f表示佛罗贝尼乌斯范数，n表示样本数量，每个样本均包括一张遥感图像和一段检索文本；i∈[1,n]；pxi表示第i个样本对应的图像公有特征，pyi表示第i个样本对应的文本公有特征，sxi表示第i个样本对应图像私有特征，syi表示第i个样本对应的文本私有特征。

25、第二方面，本发明提供了一种基于特征解耦的持续遥感图像文本检索装置，包括：

26、接收模块，用于接收检索信息，所述检索信息包括遥感图像和检索文本；

27、生成模块，用于将所述检索信息输入至一检索特征生成模型，以使所述检索特征生成模型根据所述检索信息生成对应的检索特征；

28、检索模块，用于利用所述检索特征进行检索；

29、所述检索特征生成模型包括多个任务分支；所述多个任务分支之间共享一公有特征提取模块，且每个任务分支各自包括私有特征提取模块和特征融合模块；

30、所述公有特征提取模块，用于从所述检索信息中提取所述多个任务分支之间共享的图像公有特征和文本公有特征；

31、所述私有特征提取模块，用于从所述检索信息中提取仅与其所在任务分支有关的图像私有特征和文本私有特征；

32、所述特征融合模块，用于将其所在任务分支的图像私有特征和所述图像公有特征进行融合，得到融合图像特征，还用于将其所在任务分支的文本私有特征和所述文本公有特征进行融合，得到融合文本特征；所述检索特征包括所述多个任务分支的融合图像特征和融合文本特征；

33、所述装置还包括：持续优化模块，用于在所述检索特征生成模型根据所述检索信息生成对应的检索特征之后，根据所述检索信息、所述检索特征以及所述检索特征生成模型中产生的特征计算模型损失，并根据所述模型损失持续优化所述检索特征生成模型的参数。

34、可选地，所述模型损失包括：第一损失、第二损失和第三损失；

35、所述第一损失，用于促使所述融合图像特征和所述融合文本特征实现图文空间对齐；

36、所述第二损失，用于促使所述公有特征提取模块学习所述多个任务分支之间通用知识；

37、所述第三损失，用于最大化图像公有特征和图像私有特征之间差异，以及最大化文本公有特征和文本私有特征之间差异。

38、可选地，计算所述第一损失的损失函数为：

39、

40、其中，n表示样本数量，每个样本均包括一张遥感图像和一段检索文本；i∈[1,n]；fresxi表示选取的第i个样本对应的融合图像特征，fresyi表示选取的第i个样本对应的融合文本特征；表示n个样本中与第i个样本对应的融合图像特征满足图文对应的融合文本特征，表示n个样本中与第i个样本对应的融合文本特征满足图文对应的融合图像特征，表示n个样本中与第i个样本对应的融合图像特征不满足图文对应的融合文本特征，表示n个样本中与第i个样本对应的融合文本特征不满足图文对应的融合图像特征，l2()为计算欧式距离的公式，和之间的最小间隔、和之间的最小间隔均为m；λ表示用于控制损失项大小的超参数。

41、可选地，计算所述第二损失的损失函数为：

42、

43、其中，d为判别器，k表示当前第k个任务分支的私有特征提取模块和该判别器构成对抗生成网络，其中该私有特征提取模块是该对抗生成网络的生成器；所述判别器用于判别各个私有特征提取模块提取的图像私有特征和文本私有特征所属的任务分支；k表示当前任务分支的序号，表示第k个任务分支的图像私有特征，表示第k个任务分支的文本私有特征，t表示任务分支的总数量，在判别器所判别的任务分支的序号为t＝k时为1，在判别器所判别的任务分支的序号t≠k时为0。

44、可选地，计算所述第三损失的损失函数为：

45、

46、其中，‖·‖f表示佛罗贝尼乌斯范数，n表示样本数量，每个样本均包括一张遥感图像和一段检索文本；i∈[1,n]；pxi表示第i个样本对应的图像公有特征，pyi表示第i个样本对应的文本公有特征，sxi表示第i个样本对应图像私有特征，syi表示第i个样本对应的文本私有特征。

47、本发明提供的一种基于特征解耦的持续遥感图像文本检索方法，通过接收检索信息，检索信息包括遥感图像和检索文本，将检索信息输入至一检索特征生成模型，以使检索特征生成模型根据检索信息生成对应的检索特征，然后利用检索特征进行检索。该检索特征生成模型包括多个任务分支，多个任务分支之间共享一公有特征提取模块，且每个任务分支各自包括私有特征提取模块和特征融合模块。其中，公有特征提取模块用于从检索信息中提取多个任务分支之间共享的图像公有特征和文本公有特征。而私有特征提取模块用于从检索信息中提取仅与其所在任务分支有关的图像私有特征和文本私有特征。特征融合模块用于将其所在任务分支的图像私有特征和图像公有特征进行融合，得到融合图像特征，还用于将其所在任务分支的文本私有特征和文本公有特征进行融合，得到融合文本特征。检索特征包括多个任务分支的融合图像特征和融合文本特征。相较于现有技术中，在图像文本检索中处理新的任务时难以保持旧任务的信息，在进行新的任务时，会遗忘之前进行过的任务的信息的问题，在本技术方案中，因多个任务分支之间共享一公有特征提取模块，公有特征提取模块可以从检索信息中提取多个任务分支之间共享的图像公有特征和文本公有特征，也就是说图像公有特征和文本公有特征可以用于处理多个任务，是可以共享的信息，因此通过本技术方案可以避免数据信息的灾难性遗忘，平衡了多任务跨模态检索的稳定性和适应性。

48、另外，在本技术方案中还可以在检索特征生成模型根据检索信息生成对应的检索特征之后，根据检索信息、检索特征以及检索特征生成模型中产生的特征计算模型损失，并根据模型损失持续优化检索特征生成模型的参数。进一步地，实现了不断迭代训练检索特征生成模型，提高了利用基于检索特征生成模型根据检索信息生成对应的检索特征进行检索时的准确率。

49、以下将结合附图及对本发明做进一步详细说明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢涛,付垒,陶建伟,郭超,张耘峰,杨瑞,张欢,王爽
技术所有人：自然资源陕西省卫星应用技术中心
我是此专利的发明人

上一篇：一种生物质废料预处理系统的制作方法
上一篇：一种多端口直流断路器及其直流母线故障处理方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。