一种基于可变长深度哈希学习的图像检索方法

文档序号：9750949阅读：375来源：国知局

一种基于可变长深度哈希学习的图像检索方法
【技术领域】
[0001] 本发明涉及图像检索领域与深度学习领域，更具体的，涉及一种基于可变长深度哈希学习的图像检索方法。
【背景技术】
[0002] 随着互联网飞速发展，以图像和视频为载体的多媒信息的数量也呈现爆炸性增长。如何才能从海量的数据中获取自己想要信息，成为工业界和学术界广泛讨论的内容。哈希技术凭借在存储空间和计算效率两个方面的巨大优势，受到了广泛的关注与研究。随着研究的不断深入，基于图像内容的哈希学习侧重将图像转化成为二进制编码后仍然能够有效保持其与其他图像的语义相关性。为了解决以上问题，多篇基于机器学习的哈希学习算法被提出。其中，一类基于有监督的图像哈希学习算法表现出了更为良好的效果，有着更加巨大的潜力。
[0003] -般来说，有监督框架下的图像哈希学习有两个主要部分构成，首先，图像将被手工设计的特征描述子表达成特征向量的形式，这一步的目的是为了在图像存在噪声或者其他冗余信息的情况下提取出图像的语义信息;其次是将哈希的学习过程表达成一个图像之间距离的优化问题，以此在学习到的海明空间中保持图像的语义一致性。但是大多数的学习方法将以上两个过程拆分开进行处理，这样就使得图像的特征表达无法在特征的学习过程中进行优化。同时，通过手工设计图像的特征需要大量的领域知识，很难有效适应不同的应用任务。近几年，一种名为多层自动编码器的模型被提出，该模型可以直接从原图像中得到图像特征并进一步转化为二进制编码。但由于其复杂的优化过程使得其在实际应用中受到很大限制。
[0004] 另一方面，现有大多数的哈希学习算法生成的哈希编码是固定长度的。但是在实际的应用场景中，却需要根据任务的不同选取不同的编码长度。例如，对于计算资源较少的设备，较短的哈希编码具有更为明显的计算优势。但是对于查准率较高的任务，选择较长的哈希编码的可能性相对较大。为了解决以上问题，一个较为直接的方案是存储不同比特长度的哈希编码，但是这样对学习时间和存储空间都有较大的浪费。因此有若干长度可变的哈希学习算法被先后提出。该类方法根据重要性的大小一位一位的产生哈希码，重要性较大的比特位率先产生。因此用户可以根据需要，从头至尾选取所期望的哈希编码长度。但是这类方法通常都与精心设计的特征空间紧密相连，同时其检索准确性也会随着哈希码位数的减少出现急剧的下跌。

【发明内容】

[0005] 为了克服现有技术的不足，本发明提出一种基于可变长深度哈希学习的图像检索方法，该方法通过最大化匹配的图像对与不匹配的图像对在海明空间的间隔，来语义相似图像的特征一致性。通过对现有深度卷积神经网络的改进，实现了端到端的模型结构，从而能够从原始的输入图像直接获得相对应的哈希编码。最后，该方法在训练的过程中对每一个哈希比特位引入了权重，进而能够通多权重对哈希码的长度进行截取，使得哈希编码具备了长度可变性。从而实现了在一次训练的情况下，模型能够针对不同应用场景选取不同长度哈希编码进行减检索的目的。
[0006] 为了实现上述目的，本发明的技术方案为：
[0007] 一种基于可变长深度哈希学习的图像检索方法，包括以下步骤：
[0008] si.预处理:将训练图像集合划分成一批三元图像组；
[0009] S2.训练阶段，图像哈希码的生成：将三元图像组输入到深度卷积神经网络中，通过网络的变换直接输出与图像对应的哈希码；
[0010] S3.训练阶段，深度神经网络参数的优化:计算每张图像产生的损失，并通过反向传播算法来训练深度卷积神经网络；
[0011] S4.测试阶段，图像相似性的计算:根据用户的输入，截断不重要的哈希比特位，并且计算查询图像与数据库每张图像之间的带权重海明距离；
[0012] S5.测试阶段，返回查询结果:根据步骤S4中的带权重的海明距离，从大到小对数据库图像进行排序，排序结果即为返回的相似性检索结果。
[0013] 本发明通过训练图像集合产生一系列的三元组，利用图像三元组来最大化匹配的图像对与不匹配的图像对在海明空间的间隔，进而有效地挖掘了训练图像类内的一致性和类间的差异性，解决了具有相同语义信息的图片在海明空间相似性保持的问题。
[0014] 优选的，所述步骤S1中将训练集合划分成一批三元图像组，具体方法为:从训练数据集中随机抽取若干张图像作为中心图像。在确定中心图像的基础上，选取一张与中心图像具有相同类别标签的图像与一张具有不同类别标签的图像，从而形成若干图像三元组。
[0015] 本发明的特点在于学习部分引入了深度卷积神经网络，通过对图像特征与哈希函数的联合优化，实现了端到端的训练过程。从而可以利用卷积神经网络直接从原始图像提取哈希码。省去了传统方法中手动设计特征的环节。其中深度神经网络的训练过程则是通过累加每张图像所产生的损失作为总的损失，进而利用反向传播算法对网络中的参数进行更新。
[0016] 优选的，步骤S2中的深度卷积神经网络包含以下组成部分:若干卷积层和池化层，部分全连接层，一个类双曲正切函数层以及一个哈希权重层。其中倒数第二个全连接层的输出表示了图片的特征向量。倒数第一个全连接层中的参数代表了哈希函数的参数。类双曲正切函数层是一个以特征向量为输入的，每个维度的取值范围在[_1，1]之间的类双曲正切函数，其中函数有一个调和参数用于控制其平滑性。该参数越小，函数越平滑。哈希权重层是一个以类双曲正切函数层输出为输入的，每个维度对应一个权重的深度网络层。
[0017] 优选的，步骤S3中的深度卷积神经网络参数学习的具体实现方式为：以图像为中心来计算所产生损失，计算某图像在所有三元组中出现的损失，并将其累计求和，获得最终的图像损失。具体的，对于确定的某张图像，首先确定其在三元组中的具体存在形式(作为中心图像、作为正样本、作为负样本或是根本不在三元组中）。随后根据具体的存在形式计算其相应的损失，若图像不存在于某三元组中，则计图像在该三元组中产生的损失为零。累加图像在所有三元组中不同存在形式下的损失，获得最终该图像的损失。每次在进行深度卷积神经网络参数更新的时候则是将一批图像一次载入，利用这些图像随机产生若干三元组。统计这一批图像在这个三元组集合上的损失。利用反向传播算法(back propagation a 1 gor i thm)对深度卷积神经网络参数进行更新。
[0018] 本发明的优势在于针对不同查询任务，用户可以根据实际需要对哈希码的长度进行选择，
[0019] 进而算法根据每个哈希比特位的权重对哈希码进行截断，实现了哈希编码的长度可变性。本发明有效地解决了一次训练，多任务可用的目标。在计算资源、存储空间有限的情况下，本方法依旧能够在哈希编码较短的情况下，保持其判别性。
[0020] 优选的，步骤S4中的图像相似性计算的具体实现方式为:获取确定长度的哈希编码，根据用户的输入，确定要选取的哈希比特位长度L。利用深度卷积神经网络中哈希权重层学习到的每一个比特位的权重，从大到小依次选取权重较大的前L个比特位，从而实现哈希比特位的截取。利用截取的哈希比特位计算带权重的海明距离，作为最终两个图像的相似性度量。
[0021] 优选的，步骤S4中计算带权重的海明距离使用了快速查表法，其具体的实现方式为:根据选取的哈希比特位长度L，构建大小为的查询表，该查询表的中的每一个元素对应了两个长度为L的哈希编码可能存在的一种异或操作的结果(共存在种可能）。结合每一个哈希比特位的权重，计算带权情况下每一种异或操作的值，并将其存储在查询表的对应位置。查询时，根据输入的两个哈希编码值，计算其异或操作的结果，并将存储在查询表中对应位置的数值作为结果返回，从而获得两个哈希编码带权重的海明距离。
[0022] 优选的，步骤S5中对带权重的海明距离进行排序，其所采用的排序算法是快速排序算法、归并排序算法或选择排序算法中的任意一种。
[0023]本发明提取具有丰富信息的图像特征和学习近似哈希函数是图像检索领域两个十分重要的研究方向。同时，当前的多媒体应用要求输出的哈希码能够依据应用场景的不同而变化长度。基于以上需求，提出一种基于可变长度深度哈希学习的图像检索方法，主要涉及图像检索与深度学习领域。该方法将哈希码的学习建模成相似性学习的过程。具体来说，该方法利用训练图像产生一批三元图像组，其中每个三元组包含两张具有相同类标的图像与一张具有不同类标的图像。对模型训练的目的是最大化匹配的图像对与不匹配的图像对在海明空间的间隔。本方法模型的学习部分引入了深度卷积神经网络，通过对图像特征与哈希函数的联合优化，实现了端到端的训练过程。另一方面，卷积网络输出的哈希码每一位都具有不同的权重。针对不同的检索任务，用户可以通过截断不重要的比特位来实现哈希码长度的调控。同时，该方法能够在哈希码较短的情况下的有效地保持其判别性。
[0024]与现有技术相比，本发明的有益效果为：
[0025] 1.本发明是一种基于可变长深度哈希学习的图像检索方法，通过利用深度神经网络，该方法将图像的特征学习与哈希函数的学习过程统一到一个端到端的框架中，实现了两者的联合优化。克服了已有方法在哈希函数学习方面，严重依赖于所嵌入的图像特征空间的现状。
[0026] 2 .本发明是一种基于可变长深度哈希学习的图像检索方法，在进行检索的过程中，该方法强调的是通过对带权重的比特位的选取来应对不同的检索任务。因而克服了大多数现有方法通过存储不同比特位的哈希码来解决不同的任务的弊端。同时，一种针对带权重哈希码的查表方法被提出，进一步保证了可变长哈希的检索效率。
[0027] 3.本发明是一种基于可变长深度哈希学习的图像检索方法，在哈希码学习的过程中本方法引入了基于图像三元组比对的相对相似性比对，这种方法能够有效挖掘类内的一致性和类间的差异性。保证了所产生的哈希码能够有效保持实例级别的相似性。
【附图说明】
[0028]图1为基于可变长深度哈希学习的图像检索方法的框架图。
[0029 ]图2为本发明的基于可变长深度哈希学习的图像检索方法的深度神经网络的架构图。
[0030] 图3为本发明的图像相似性哈希学习的原理图。
[0031] 图4为本发明的基

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林倞;张瑞茂;王青;江波;
技术所有人：中山大学;
我是此专利的发明人

上一篇：信息搜索方法及装置的制造方法
上一篇：一种用于比对音频信息的系统及音频信息比对方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。