基于张量积图融合扩散的零样本跨模态检索方法、系统

文档序号：37942394发布日期：2024-05-11 00:21阅读：10来源：国知局

本发明涉及一种基于张量积图融合扩散的零样本跨模态检索方法、系统，具体适用于图像文本的跨模态检索。

背景技术：

1、本专利涉及零样本跨模态检索技术。随着第五代移动通信技术和多媒体物联网技术的不断进步，各类多媒体数据（如文本、图像、视频等）在互联网中快速增长。传统的单媒体信息检索技术，例如网页文本检索，已经难以满足快速变化的需求。在缺乏标签的情况下，如何有效地进行跨模态检索成为信息检索的新趋势。

2、在多模态深度学习领域，零样本跨模态检索是当前的研究热点之一，也是一个具有挑战性的问题。在零样本条件下，即在没有先验标签的情况下进行检索，面临两个主要挑战：异构鸿沟和知识迁移。传统的检索模型通常使用生成模型构建公共特征空间，但忽视了检索系统的后处理过程。

3、现有的跨模态检索方法可以分为两种类别：传统方法和深度学习方法。1、传统方法主要通过统计分析的方式学习映射矩阵，通过分析不同模态数据特征之间的关联关系，学习一个能够最大化成对相关性的共同空间，将不同模态的特征映射到这个共同空间得到相同维度的向量表示，实现跨模态的统一表征。2、深度学习方法则利用深度神经网络对非线性关系的抽象能力，促进跨模态关联分析和统一表征学习。现有方法一般通过构建多路网络结构建模不同媒体类型数据之间的关联关系，有效提升对复杂跨模态关联的分析能力，以提高跨模态统一表征的检索准确率。

4、现有零样本跨模态检索方法则通常利用生成模型，如对抗生成网络和变分自编码器，属于深度学习方法，检索准确率不高。

5、cn201911228649使用了类别标签生成的类嵌入作为跨模态对齐的方式，以确保对抗生成网络在训练时能够稳定。然而类嵌入所需的类被标签需要领域专家提供，精确的标注产生了额外的人工成本。同时类嵌入又常用文本特征提取模型得到，其可靠性有待验证。除此之外，模型构建的公共特征空间没有考虑不同模态的数据在空间中的流形分布扭曲的问题。

6、cn2022104631144没有使用类嵌入，但是在构建公共特征空间时，没有考虑到单模态特征分布性能下降的问题。除此之外，使用余弦相似度进行检索，没有考虑到使用单一相似度不能够充分反映公共特征空间内特征分布状况的问题。

技术实现思路

1、本发明的目的是克服现有技术中存在的检索准确率不高的问题，提供了一种检索准确率高的基于张量积图融合扩散的零样本跨模态检索方法、系统。

2、为实现以上目的，本发明的技术解决方案是：

3、一种基于张量积图融合扩散的零样本跨模态检索方法，包括如下步骤：

4、s1：分别构建基于交叉熵损失和三元组损失的单模态数据特征取模型和基于交叉熵损失、三元组损失和全样本判别损失函数的跨模态数据特征提取模型，并利用构建完成的模型构造无标签数据的低维异构潜在特征空间，得到数据特征v；

5、s2：根据不同特征空间中的数据特征v之间的关系，构建加权无向图并计算初始相似度矩阵a；

6、s3：根据随机游走和张量积图上的扩散过程这两种不同角度的相似度计算方法，构建基于张量积图的相似度融合架构，计算得到最终相似度矩阵s；

7、s4：根据跨模态检索任务的需求，选取合适的零样本跨模态相似度矩阵进行跨模态检索，在确定检索样本的索引后在矩阵中找到相应位置，对其相似度从大到小排序，得到相似度检索由大到小的排序结果，此时检索完成。

8、步骤s1中：在特征提取部分，首先对有标签的训练集进行训练，然后对没有标签的测试集进行特征提取；其中有标签的数据集由人工进行标注得来，而且有标签的数据集和无标签的数据集之间不存在类别上的交集；具体来说训练时，对于分别基于vggnet-19的图像特征提取模型和doc2vec文本单模态特征提取模型，使用有交叉熵损失和三元组损失构成的损失函数进行训练；

9、；

10、；

11、其中，表示交叉熵损失，表示三元组损失，表示训练集中的数据总数，表示训练集中的类别总数，表示第i个样本是否属于第e个类别的真实标签，表示第i个样本属于第e个类别的softmax概率，函数用于计算样本特征之间的距离，g表示固定样本，p表示正样本，n表示负样本，参数m为控制正负样本距离的界限值，三元组损失的权重则由超参数进行调节；

12、对于跨模态特征提取模型的训练，基于全样本判别损失函数，模型使用的跨模态损失函数：

13、；

14、其中，，，表示图像模态i中的第a个样本，表示图像模态i中的第b个样本，表示文本模态t中的第a个样本，表示文本模态t中的第b个样本，表示指示函数，当两个元素属于同一类别时，的值为1，否则的值为0；全样本判别损失函数中分别度量了图像和文本之间、图像模态内和文本模态内的相似性；

15、上述模型在有标签的训练集上进行训练之后，对测试集中没有标签的数据进行特征提取得到数据特征，分为单模态数据特征提取和跨模态数据特征提取，提取完成后模型构造无标签数据的低维异构潜在特征空间，得到数据特征v。

16、步骤s2：基于数据特征v构建加权无向图，v是图中节点的集合，a是图的邻接矩阵，同时定义为初始相似度矩阵，其中图的节点表示不可见类数据集中的数据特征，每个节点的数据特征分为单模态数据特征和跨模态数据特征两种：对于图像样本来说，其单模态数据特征为，跨模态数据特征为；对于文本特征来说，其单模态数据特征为，跨模态数据特征为，1≤n≤nu；其中nu表示一对语义相关的跨模态样本的个数，i表示图像模态，t表示文本模态；图的初始相似度矩阵为：

17、；

18、其中表示图像模态内的初始相似度矩阵，表示文本模态内的初始相似度矩阵，表示不同模态之间的初始相似度矩阵，矩阵中元素的值由数据特征之间的余弦相似度计算得到；同一模态内初始相似度矩阵中的数据特征用单模态数据特征之间的余弦相似度计算，不同模态之间的初始相似度矩阵中的数据特征用跨模态数据特征之间的余弦相似度计算；

19、s3中，构建最终相似度矩阵：

20、；

21、其中表示图像之间的最终相似度矩阵，表示文本之间的最终相似度矩阵，表示图像和文本之间的最终相似度矩阵；

22、s3.1：针对文本之间和图像之间的初始相似度矩阵和进行扩散过程，使用图截断、随机游走的闭式解、张量积图上随机游走的迭代求解方法，得到最终相似度矩阵和；

23、s3.2：针对文本和图像之间的初始相似度矩阵和，计算其随机游走结果和做为相似度融合的约束项；

24、s3.3：基于张量积图上的扩散过程相似度融合方法，使用和作为约束项，对、、和进行融合，得到最终相似度矩阵和。

25、步骤s3.1：构建单模态数据流形结构的重排序模块，特别是和转换为和的扩散过程；

26、图截断：在两个单模态数据流形上定义子图和，其中图像域数据特征节点为，文本域数据特征节点为，且每个节点的数据特征均为单模态数据特征；考虑到计算复杂度，在处理大型数据集时，进行图截断处理，如下式所示；

27、；

28、；

29、其中，是初始相似度矩阵中的元素，代表了中节点a和节点b之间的边的权重，是初始相似度矩阵中的元素，代表了中节点a和节点b之间的边的权重，运算符表示两个节点的数据特征之间的余弦相似度；代表包含了前k个最近邻居节点的集合，表示图截断之后的图像模态相似度矩阵中第a行b列元素的值，表示图截断之后的文本模态相似度矩阵中第a行b列元素的值，表示图截断之后的图像模态上的相似度矩阵，表示图截断之后文本模态上的相似度矩阵；

30、归一化：分别对图截断之后相似度矩阵、进行归一化处理，得到归一化处理后的相似度矩阵、，两者计算方法相同，的计算如下：

31、图截断之后的度矩阵定义为，在图截断之后对称归一化邻接矩阵定义为，其中是的度矩阵且除了对角线上元素以外的元素值均为0，是度矩阵中第a行a列元素；

32、计算最终相似度矩阵和：分别对归一化处理后的相似度矩阵、使用随机游走的闭式解、张量积图上随机游走的迭代求解方法计算最终相似度矩阵和，两者计算方法相同，的计算如下：

33、按照随机游走算法的基本原理，定义如下第一损失函数q1：

34、；

35、其中是在考虑了一阶邻居关系后得到的相似度矩阵，是矩阵中第a行b列的元素；i是单位矩阵，i的大小同矩阵，是归一化参数，；

36、第一损失函数q1由光滑项和拟合项构成，优化目标是找到一个新的相似度矩阵使得的值尽可能小；初始标签矩阵用单位矩阵i代替；

37、定义运算符：通过将输入矩阵的每一列按照顺序一个接一个地首尾相接，以此来向量化输入的矩阵；为的逆运算过程；第一损失函数的光滑项转化为：

38、；

39、其中表示的第a行元素，表示的第b行元素；求对的偏导数：

40、；

41、设置上式的值为0，得到：

42、；

43、简化公式，将常数参数忽略掉，并将表示为；省略标量项，最终简化为：

44、；

45、其中，为的凸优化问题，是第一损失函数的闭式解；

46、张量积图：从张量积图中引入原始图上的高阶信息，可得子图的张量积图；

47、在张量积图上定义随机游走的第二损失函数q2：

48、；

49、其中，是需要求解的最终相似度矩阵，是归一化参数，；

50、第二损失函数q2同样由松弛光滑项和拟合项构成；第二损失函数中的松弛光滑项本质上表示张量积图中的一阶邻居关系约束；定义两个坐标变换方法和；第二损失函数q2松弛光滑项可以转换为：

51、；

52、其中，张量积图的度矩阵定义为，张量积图的对称归一化邻接矩阵定义为，是在图截断结果上计算得来，是对进行归一化后的结果，是第x行y列的值；

53、求对的偏导数：

54、；

55、设置上式的值为0，得到：

56、；

57、为了简化上式，对公式两边同时计算，并定义，得到：

58、；

59、因此是闭式解；使用迭代求解的方法来计算，得到：

60、；

61、其中，相似度矩阵初始化为，此时t=1，带入到上式进行设定次数的迭代计算，迭代次数大于等于20次，达到设定迭代次数后的计算结果作为最终迭代计算的结果，即损失函数q2的迭代解；同理可得的迭代解。

62、s3.2中，求解相似度矩阵和上随机游走后得到的约束矩阵和；值得注意的是，跨模态相似度矩阵和是用跨模态数据特征构建的公共特征空间计算得到的：

63、；

64、对每行进行l1归一化；同单模态下的扩散过程类似：

65、；

66、其中，和捕获了原始图上的一阶邻居关系，并可以作为和求解的约束条件。

67、s3.3中，受正则化融合扩散的启发，将张量积图上的扩散过程用于相似度融合，最终相似度矩阵和的求解方法相同；最终相似度矩阵的求解过程如下：

68、构建第三损失函数q3，第三损失函数q3由带权光滑项、拟合项和惩罚项组成：

69、；

70、；

71、上式中，m表示数据流形种类的个数，这里m=2，表示第m个张量积图的数据流形光滑度，定义，m=1；，m=2；对和进行图截断后得到和，为的度矩阵，为的度矩阵，是归一化参数，，ω为惩罚项参数，是用于平衡不同相似矩阵的贡献的可训练权值；

72、将第三损失函数的优化分解为两个子问题：

73、子问题1，固定的值，对进行更新求解；此时惩罚项是常数可以忽略，此时第三损失函数可化简为子问题1：

74、；

75、上式的闭式解用迭代求解方法计算：

76、；

77、其中，的定义如下式所示；

78、；

79、子问题2，固定，对进行更新求解，将第三损失函数化简为：

80、；

81、子问题2用坐标下降法求解；由于m=2，因此最终的更新策略如下：

82、；

83、将随机初始化或初始化为约束矩阵，此时t=1，联合子问题1、子问题2依次迭代求解，迭代过程中，当计算或的值小于零时，将其值赋值为0；迭代次数为设定值，迭代次数大于等于20次，达到设定迭代次数后的计算结果作为最终迭代计算的结果，即第三损失函数q3的迭代解最终相似度矩阵；同理可以求解最终相似度矩阵。

84、步骤s4：根据跨模态检索任务的需求，选取合适的相似度矩阵或进行跨模态检索；矩阵中第a行第b列的元素值即为索引为a的图片同索引为b的文本之间的相似度，具体检索方式为，在确定检索样本的索引后在矩阵中找到相应行，对该行的元素进行从大到小的排序，根据其索引即得到相似度由大到小的检索结果，排名越靠前的样本说明其同检索样本越相似；矩阵中第a行第b列的元素值即为索引为a的文本同索引为b的图片之间的相似度，具体检索方式为，在确定检索样本的索引后在矩阵中找到相应行，对该行的元素进行从大到小的排序，根据其索引即得到相似度由大到小的检索结果，排名越靠前的样本说明其同检索样本越相似。

85、一种基于张量积图融合扩散的零样本跨模态检索系统，所述系统用于执行基于张量积图融合扩散的零样本跨模态检索方法，具体包括：

86、单模态数据特征与跨模态数据特征提取模块：用于构建基于交叉熵损失和三元组损失的单模态数据特征取模型和基于交叉熵损失、三元组损失和全样本判别损失函数的跨模态数据特征提取模型，并利用构建完成的模型构造无标签数据的低维异构潜在特征空间，得到数据特征v；

87、加权无向图构建模块：用于构建加权无向图并计算初始相似度矩阵a；

88、最终相似度矩阵计算模块：用于根据随机游走和张量积图上的扩散过程这两种不同角度的相似度计算方法，构建基于张量积图的相似度融合架构，计算得到最终相似度矩阵s；

89、跨模态检索模块，用于根据跨模态检索任务的需求，选取合适的相似度矩阵进行跨模态检索，在确定检索样本的索引后在矩阵中找到相应位置，对其相似度从大到小排序，得到相似度检索由大到小的排序结果。

90、一种基于张量积图融合扩散的零样本跨模态检索设备，包括存储器和处理器，所述存储器，用于存储计算机程序代码，并将所述计算机程序代码传输给所述处理器；

91、所述处理器，用于根据所述计算机程序代码中的指令执行基于张量积图融合扩散的零样本跨模态检索方法。

92、与现有技术相比，本发明的有益效果为：

93、1、本发明一种基于张量积图融合扩散的零样本跨模态检索方法中能够结合单模态特征子空间内相似性关系和公共特征子空间中的相似性关系的检索方法。通过将不同种类的相似性度量方法得到的相似度进行融合处理，得到更加鲁棒的检索结果。同时弥补了现有技术缺乏后处理过程的问题和忽视单模态特征子空间内更加鲁棒的相似性关系的问题。

94、2、本发明一种基于张量积图融合扩散的零样本跨模态检索方法为零样本跨模态检索模型引入了后处理过程，基于相似度融合的角度出发，进行零样本跨模态检索，比传统的使用单一余弦相似度的方法具有更好的鲁棒性；可以构建多个特征子空间，并融合利用其中相似度关系的零样本跨模态检索方法。同时本发明没有使用类嵌入，节约了人工成本。

95、3、本发明一种基于张量积图融合扩散的零样本跨模态检索系统包括：单模态数据特征与跨模态数据特征提取模块、加权无向图构建模块、基于张量积图融合扩散的零样本跨模态相似度矩阵构建模块和跨模态检索模块，该系统用于实现如上述任一技术方案中提供的基于张量积图融合扩散的零样本跨模态检索方法的步骤。因此，该系统同时包括如上述任一技术方案中提供的基于张量积图融合扩散的零样本跨模态检索方法的全部有益效果，在此不再赘述。

96、4、本发明一种基于张量积图融合扩散的零样本跨模态检索设备包括处理器以及存储器，存储器用于存储计算机程序代码，并将计算机程序代码传输给所述处理器，处理器用于根据计算机程序代码中的指令执行上述任一技术方案中提供的基于张量积图融合扩散的零样本跨模态检索方法。因此，该设备同时包括如上述任一技术方案中提供的基于张量积图融合扩散的零样本跨模态检索方法的全部有益效果，在此不再赘述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金振坤,万星石,刘生昊,易灵芝,黄美忠,孔华锋,邓贤君,周欣蕾
技术所有人：武汉商学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。