本发明属于跨模态检索,具体涉及一种可信跨模态哈希检索方法。
背景技术:
1、跨模态哈希为不同模态间的检索任务,如图像与文本的检索,提供了一种高效的解决方案。然而大多数现有方法都是确定性模型,忽略了检索结果的不确定性,即仅凭生成哈希码之间的汉明距离来确定数据对是否匹配是不可靠的。
2、近年来,深度证据学习因其在不确定性评估方面的应用而受到国内外研究者的广泛关注。基于深度证据学习的方法主要应用于分类任务,它们将神经网络分类器的输出作为支持将样本分配至特定类别的证据。证据是一种基于数据派生的可量化指标,用于表示对特定类别的支持程度。这些方法通过搜集证据,形成主观逻辑框架中的主观观点,从而直接提供分类结果的不确定度。
3、由于跨模态哈希旨在学习如何将多模态数据转换为二进制空间中的紧凑二进制编码,与分类任务有本质的差距。这种差异导致了两者在应用和理论方法上的显著鸿沟。因此,需要一种可信跨模态哈希检索方法,解决如何实现一种不确定评估框架,使得跨模态哈希检索能够估计检索结果的不确定度,实现可信检索的问题,以及如何设计一种证据提取模块,从而实现跨模态哈希检索中的证据量化的问题。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种可信跨模态哈希检索方法,解决了现有的方法在没有分类器的情况下无法进行证据学习以及现有的跨模态哈希检索模型无法对每一个检索结果的不确定度进行估计,从而无法实现可信检索的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:一种可信跨模态哈希检索方法,包括以下步骤:
3、s1:获取包含真值标签向量的图文训练集,并进行特征提取,得到图像特征和文本特征;
4、s2:建立图像模态哈希网络和文本模态哈希网络,并一一对应对图像特征和文本特征进行处理,得到图像哈希码和文本哈希码;
5、s3:根据图像哈希码和文本哈希码进行计算,得到图文对的正证据,并建立负证据提取网络对图像哈希码和文本哈希码进行处理,得到图文对的负证据;
6、s4:根据图文对的正证据和负证据,以及对应的真值标签向量,对图像模态哈希网络、文本模态哈希网络和负证据提取网络进行反向梯度优化,得到优化后的图像模态哈希网络、文本模态哈希网络和负证据提取网络;
7、s5:根据图像查询样本集和文本检索样本集,利用优化后的图像模态哈希网络和文本模态哈希网络进行分析,得到哈希码,并获取检索结果;
8、s6:根据图像查询样本集和文本检索样本集,利用优化后的负证据提取网络进行分析并计算,得到检索结果的不确定度,完成可信跨模态哈希检索。
9、本发明的有益效果为:本发明通过图像模态哈希网络、文本模态哈希网络对图像数据和文本数据进行处理,能够缩小表征学习与检索及检索不确定评估任务之间的差距,确保模型在训练阶段和测试阶段具有一致的性能表现,同时采用证据提取模块,实现证据量化,挖掘准确证据,同时最小化错误证据的产生,使跨模态哈希检索能够进行证据学习,并且根据修正二元主观观点,评价检索结果的不确定度,进一步避免错误证据的影响,提高检索结果的可信度,实现可信检索。
10、进一步地:所述s1的具体步骤如下:
11、s101:获取包含真值标签向量的图文训练集,并对图文训练集中的图像查询训练集进行特征提取,得到图像特征;
12、s102:对图文训练集中的文本检索训练集进行特征提取,得到文本特征。
13、上述进一步方案的有益效果为:通过图文训练集中的图像查询训练集和文本检索训练集进行特征提取,分别获取图像特征和文本特征,便于后续进行处理得到哈希码。
14、进一步地:所述图像模态哈希网络和文本模态哈希网络均包括两层全连接层,其中,第一层全连接层均使用relu激活函数,第二层全连接层均使用tanh激活函数,所述负证据提取网络包括两个全连接层,其中,第一层全连接层使用relu激活函数,第二层全连接层未使用激活函数。
15、上述进一步方案的有益效果为:建立图像模态哈希网络、文本模态哈希网络和负证据提取网络,便于获取图像哈希码、文本哈希码和负证据。
16、进一步地:所述s2的具体步骤如下:
17、s201:建立图像模态哈希网络,并对图像特征进行处理,得到图像低维连续编码;
18、s202:建立文本模态哈希网络,并对文本特征进行处理,得到文本低维连续编码;
19、s203:利用straight-through estimator直通估计器和符号函数,分别对图像低维连续编码和文本低维连续编码进行处理,得到图像哈希码和文本哈希码。
20、上述进一步方案的有益效果为:通过straight-through estimator直通估计器直接使用离散的二进制哈希码训练神经网络模型,缩小了表征学习与检索及检索不确定评估任务之间的差距。
21、进一步地:所述s3的具体步骤如下:
22、s301:根据图像哈希码和文本哈希码,计算得到图文对的正证据;
23、s302:将图像哈希码和文本哈希码进行拼接,得到拼接后的向量;
24、s303:建立负证据提取网络,并将拼接后的向量作为输入,计算得到图文对的负证据。
25、上述进一步方案的有益效果为:通过计算和证据提取模块,得到图文对的正证据和负证据,实现跨模态哈希检索中的证据量化。
26、进一步地:所述正证据的表达式如下:
27、
28、其中,peij为第i个图像和第j个文本的正证据,为第i个图像数据的哈希码,为第j个文本数据的哈希码,·为点积操作,τ为温度系数,e为自然常数;
29、所述负证据的表达式如下:
30、
31、其中,neij为第i个图像和第j个文本的负证据,f(hij)为负证据提取网络的输出,hij为拼接后的向量。
32、上述进一步方案的有益效果为:根据得到的正证据和负证据,便于后续进行损失函数的计算。
33、进一步地:所述s4的具体步骤如下:
34、s401:根据图文对的真值标签向量,计算图像和文本的真值标量,其中,图像和文本的真值标量的表达式如下:
35、
36、其中,sij为第i个图像和第j个文本是否匹配的真值标量,sgn()为符号函数,为图像的真值标签向量,为文本的真值标签向量,·为点积操作;
37、s402:根据图像和文本的正证据、负证据和真值标量,分别计算得到图文对的证据哈希损失函数、图文对的证据修正损失函数和近零正确证据损失函数;
38、s403:根据图文对的证据哈希损失函数、图文对的证据修正损失函数和近零正确证据损失函数,计算得到训练批次的损失值;
39、s405:根据训练批次的损失值,对图像模态哈希网络、文本模态哈希网络和负证据提取网络进行反向梯度优化,得到优化后的图像模态哈希网络、文本模态哈希网络和负证据提取网络。
40、上述进一步方案的有益效果为:使用图文对的证据哈希损失函数、图文对的证据修正损失函数和近零正确证据损失函数一起对模型进行优化,使得模型能够从所有样本对挖掘准确证据的同时最小化错误证据的产生,提高模型的精准度。
41、进一步地:所述训练批次的损失值的表达式如下:
42、
43、
44、
45、
46、
47、
48、其中,为训练批次的损失值,k为训练批次的损失值的大小,为图文对的证据哈希损失函数,为图文对的证据修正损失函数,为近零正确证据损失函数,log()为对数函数,peij为第i个图像和第j个文本的正证据,neij为第i个图像和第j个文本的负证据,γ()为伽马函数,ψ()为双伽马函数,为第i个图像和第j个文本的错误正证据,为第i个图像和第j个文本的错误负证据,tanh()为双曲正切函数。
49、上述进一步方案的有益效果为:根据图文对的证据哈希损失函数、图文对的证据修正损失函数和近零正确证据损失函数,得到训练批次的损失值,便于后续对模型进行优化。
50、进一步地:所述s6的具体步骤如下:
51、s601:根据图像查询样本集和文本检索样本集,计算得到正证据,输入至优化后的负证据提取模块,得到负证据;
52、s602:根据正证据和负证据,利用冲突证据度量函数,计算得到证据冲突值;
53、s603:根据证据冲突值,计算得到图像查询样本集和文本检索样本集的修正二元主观;
54、s604:根据修正二元主观观点,计算得到图像查询样本集和文本检索样本集的检索结果的不确定度。
55、上述进一步方案的有益效果为:通过冲突证据度量函数,获取准确的修正二元主观观点;通过检索不确定度函数,实现可信检索,提高检索结果的可信度。
56、进一步地:所述检索不确定度的表达式如下:
57、
58、
59、
60、
61、
62、
63、其中,uij为第i个图像查询样本与第j个文本检索样本的检索结果的不确定度,ωij为第i个图像查询样本与第j个文本检索样本的修正二元主观观点,为第i个图像查询样本与第j个文本检索样本的修正信念质量,为第i个图像查询样本与第j个文本检索样本的修正不信念质量,为第i个图像查询样本与第j个文本检索样本的修正模型不确定度,diss(peij,neij)为第i个图像查询样本与第j个文本检索样本的冲突证据值,peij为第i个图像和第j个文本的正证据,neij为第i个图像和第j个文本的负证据,max()为最大值函数。
64、上述进一步方案的有益效果为:根据计算得到的不确定度,估计哈希检索结果的不确定度,实现可信跨模态哈希检索。