基于全局与局部语义对比学习的跨模态检索方法及系统

文档序号：36259218发布日期：2023-12-05 13:03阅读：88来源：国知局

本发明属于信息，具体涉及一种基于全局与局部语义对比学习的跨模态检索方法。

背景技术：

1、图文检索任务(image-text retrieval,itr)是跨模态研究领域一项基本任务，其主要目的是需要人工智能代理在给定文本查询的情况下检索语义相关的图像，反之亦然。图文检索的关键挑战是弥合低级视觉外观和高级抽象语言之间的异质性差距，并调整它们的表示。这也是一系列视觉和语言任务的基本问题。在真实世界的场景中，除了有效的跨模态对齐以实现准确的检索外，检索系统还致力于以低延迟实现实时检索。因此，如何在准确性和效率之间取得平衡成为大规模图像文本检索应用面临的关键挑战。以往的研究大多侧重于检索效率或检索准确性。早期的独立嵌入模型[1,2]对每个图像和每个文本进行全局特征编码。然后，通过直接测量它们在公共语义空间中的全局嵌入之间的距离来计算图像-文本相似性。由于在编码阶段文本和图像之间没有交互，独立嵌入模型允许离线数据嵌入提取和在线检索的线性计算复杂性[2,9]。因此，这种模型被广泛应用于现实世界中的大规模检索应用中。然而，由于这种全局嵌入对齐策略不能保证细粒度的局部内容对齐，因此它们的检索精度并不令人满意。为了缓解这个问题，提出了几种交互式嵌入模型[3,4]，通过跨模态注意力机制将图像中的视觉对象与文本中的单词对齐，用于细粒度的图像文本检索。然而，对于每个查询，所有检索到的样本都需要复杂的注意力计算来对其嵌入进行编码，这相当耗时，并且不能扩展到大规模的在线检索场景。如何利用独立嵌入模型和交互式嵌入模型的优势来实现高精度和实用效率成为一个重要问题。

2、近年来，也有许多研究工作致力于寻找一个更好的方法以平衡检索精度和检索效率。这些平衡方法可以大致分为三类：一种是后交互机制[5,6]，使用视觉对象与文本单词特征计算相似度而不是全局特征以获得细粒度相似度衡量；一种是两阶段机制[7,8]，首先采用独立嵌入模型进行粗略检索，然后使用交互式嵌入模型进行更精细的检索；最后是模态内交互机制[9,10]，利用更强的模态内交互式编码器而不是耗时的跨模态交互式编码器以获得表达能力更强的全局表征。尽管上述方法在检索精度和效率的平衡上取得了一定的进展，但是，与独立嵌入模型相比，由于复杂的相似性测量、跨模态嵌入交互或重量级编码器结构，上述权衡解决方案在检索阶段仍然需要额外的时间成本。

3、可见目前图文检索模型主要存在以下问题：

4、1.图文检索效率和精度难以平衡。现有的具有高效率的独立嵌入模型缺乏图文上下文对齐的约束，只利用粗糙的全局特征进行对齐导致检索精度不高，然而基于图片中对象和文本的单词的交互后获得的细粒度相似度编码的交互式嵌入模型尽管检索精度较高但是大量的跨模态交互极大地增加检索时间成本。

5、2.为了平衡检索效率和精度，现有主要方法是结合独立嵌入模型和交互式嵌入模型的优点，主要目的是保留较少的交互，以保持检索精度同时较少的交互也减少了检索的时间负担。然而，它们的检索效率都比独立嵌入模型低，都是以增加一定的检索时间得到检索精度的提升。

6、因此，如何在提高检索精度的同时保持独立的嵌入框架以获得较高的检索效率，是亟待解决的问题。

技术实现思路

1、本发明的目的是通过增加细粒度图文上下文对齐模块，增强原始的独立嵌入模型，从全局表征中提取细粒度信息，以平衡图文检索的精度和效率，在不损失独立嵌入模型的高效检索特性的情况下，提高检索精度。

2、为实现上述目的，本发明采用以下技术方案：

3、一种基于全局与局部语义对比学习的跨模态检索方法，包括以下步骤：

4、通过独立嵌入模型，从给定图像-文本对(v,t)提取视觉和文本的局部上下文特征并输入到上下文对齐模块中进行以下步骤处理；

5、根据获得视觉和文本的全局上下文特征

6、根据获得增强的视觉和文本的局部上下文特征

7、根据获得增强的视觉和文本的全局上下文特征

8、根据和和计算上下文共享表征学习的损失

9、根据获得视觉和文本的局部聚合上下文特征

10、分别融合和和得到视觉和文本的全局融合上下文特征

11、根据和得到给定图像-文本对(v,t)的上下文关系级别匹配分数sc(v,t)；

12、基于sc(v,t)，计算使匹配的图像-文本对的上下文相似性高于不匹配的图像-文本对的损失

13、由损失和的和作为上下文对齐模块中的总损失

14、训练上下文对齐模块，直至总损失最小，以增强独立嵌入模型的表征能力；

15、训练完成后，使用增强的独立嵌入模型进行图像和文本的跨模态检索。

16、进一步地，根据通过平均池获得

17、进一步地，根据利用全连接层进行批量归一化和relu激活操作，获得

18、进一步地，根据利用全连接层进行批量归一化和relu激活操作，获得

19、进一步地，根据和和计算损失的步骤包括：

20、将来自成对图像-文本对的和作为正样本，将来自未成对图像-文本对的特征作为负样本，计算文本全局与视觉局部对比损失

21、将来自成对文本-图像对的和作为正样本，将来自未成对文本-图像对的特征作为负样本，计算视觉全局与文本局部对比损失

22、由和得到损失

23、进一步地，根据通过平均池获得

24、进一步地，融合和得到的方法如下：

25、

26、

27、其中，g是自适应地平衡来自和的融合信息的重要性的门值，[,]表示连接操作，sigmoid是激活函数，wg是用于线性变换的权重矩阵，bg是调整权重计算的偏移量。

28、进一步地，融合和得到方法如下：

29、

30、

31、其中，g是自适应地平衡来自和的融合信息的重要性的门值，[,]表示连接操作，sigmoid是激活函数，wg是用于线性变换的权重矩阵，bg是调整权重计算的偏移量。

32、进一步地，基于sc(v,t)，计算使匹配的图像-文本对的上下文相似性高于不匹配的图像-文本对的双向铰链的三元组排序损失

33、一种基于全局与局部语义对比学习的跨模态检索系统，包括：

34、独立嵌入模型，用于对图像和文本进行跨模态检索，并用于在上下文对齐模块的训练阶段，从给定图像-文本对(v,t)提取视觉和文本的局部上下文特征并输入给上下文对齐模块；

35、上下文对齐模块，用于在训练阶段，根据获得视觉和文本的全局上下文特征根据获得增强的视觉和文本的局部上下文特征根据获得增强的视觉和文本的全局上下文特征根据和和计算上下文共享表征学习的损失根据获得视觉和文本的局部聚合上下文特征分别融合和和得到视觉和文本的全局融合上下文特征根据和得到给定图像-文本对(v,t)的上下文关系级别匹配分数sc(v,t)；基于sc(v,t)，计算使匹配的图像-文本对的上下文相似性高于不匹配的图像-文本对的损失由损失和的和作为上下文对齐模块中的总损失通过训练使总损失最小，以增强独立嵌入模型的表征能力。

36、本发明的技术方案取得的有益效果如下：

37、1.细粒度图文上下文对齐：本发明通过引入细粒度的图文上下文对齐模块，可以处理更具体和细致的语义关系，能够更准确地捕捉图像对象与文本单词之间的关联，进而提高检索精度。

38、2.跨模态全局与局部对比学习：本发明采用跨模态全局与局部对比学习，通过在模型训练阶段进行图文交互，增强了模型对细粒度信息的学习能力，能够更好地理解共享上下文信息，从而在检索任务中提高准确性。

39、3.模型独立性：本发明不依赖于特定的模型架构，因此可以与各种独立的嵌入模型结合使用，可以将本发明的技术方案应用于已有的图文检索模型中，无需重大架构更改，即可提高检索精度，同时保持检索效率。

40、4.保留高效检索特性：在测试检索阶段，本发明不需要进行跨模态的交互，保持了独立嵌入模型的双路编码框架，这意味着在实际应用中，检索时间不会显著增加，保持了高效检索的特性。

41、5.综合考虑精度和效率：传统方法中通常需要在精度和效率之间做出权衡，但本发明通过细粒度图文上下文对齐，成功地平衡了图文检索任务中精度和效率之间的关系，能够在不牺牲效率的情况下提高检索精度，为实际应用提供更好的性能。

42、6.排序损失的有效利用：本发明引入了排序损失，用于对共享上下文特征进行对齐，确保匹配的图像-文本对在上下文相似性上占优势，这有助于进一步增强图文关联的表征，从而提升检索效果。

43、本发明的技术方案通过跨模态全局与局部对比学习和排序损失，成功地提高了图文检索任务中的精度，同时保持了高效的检索速度，为图文检索任务带来了实质性的技术效果和优势。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于静熊刚庄佳敏李镇苟高鹏
技术所有人：中国科学院信息工程研究所
我是此专利的发明人

上一篇：一种铝箔纸成型度检测装置及检测方法与流程
上一篇：基于自监督对比学习概念对齐的跨模态检索方法及系统

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。