一种无监督哈希图像检索模型的训练方法及装置

文档序号：36253837发布日期：2023-12-03 10:07阅读：32来源：国知局

本发明涉及图像检索领域，特别是涉及无监督哈希图像检索模型训练方法及装置。

背景技术：

1、随着图像数据的爆炸式增长，如何进行快速的相似度检索已成为大规模信息检索的基本要求之一。哈希图像检索方法是该问题的主要解决方案之一。哈希图像检索方法的目标是将高维特征和相似度信息转换成紧凑的二进制码，从而加快了运算速度，节省了存储空间。

2、现有的哈希方法根据是否利用了先验语义信息，可以分为有监督哈希和无监督哈希。监督哈希使用了语义标签进行训练，取得了较好的检索性能。在实际应用中，监督哈希方法非常依赖于大规模的带注释数据集，而现实中是更大规模的无标注数据集。收集大量有标注的数据既昂贵又耗时。与此形成鲜明对比的是，无监督哈希方法采用无标注的训练数据来指导哈希学习。它更适用于解决大规模无标注的图像检索问题。

3、请参阅图1，图1为现有的一种无监督哈希图像检索模型的运行方法流程图。一方面将需要查询的图像进行图像预处理，将预处理完成后的图像数据输入无监督哈希图像检索模型，提取到查询图像的哈希码值，另一方面在接收到图像查询指令后，对预设的图像数据库中的图像数据集进行批量预处理，将其图像数据库中的图像分别经过无监督哈希图像检索模型处理，得到对应的哈希码集并存入一个图像哈希数据库中。将获得的查询图像的哈希码值与图像哈希码数据库中的哈希码集中的每一个哈希码值分别计算它们之间的汉明距离。并于一预设阈值进行比较，当汉明距离小于预设阈值，判定为疑似目标图像，将所有的疑似目标图像根据汉明距离进行排序，按照顺序返回图像检索结果，完成图像检索。

4、传统的无监督哈希方法使用手工设计的图像特征描述符进行特征提取。无监督深度哈希方法使用深度神经网络作为哈希函数，其哈希函数学习过程不需要监督信息。由于模型容量低，这些方法不能很好地捕捉图像之间的非线性相似性。目前，许多无监督深度哈希方法都使用重构输入数据的方式，这基本上促使哈希码尽可能多地保留原始数据的信息。然而，这可能会使模型花费大量算力来重建无用的背景信息，而忽略了保留对哈希任务更重要的区别性语义信息；并且传统的模型会将所有的负样本影响都计算在内，随着模型的训练，负样本会被逐步推远。这种处理方式会将一些原本聚类好的样本推离类中心，导致了负样本的过优化，从而使得模型性能下降。

技术实现思路

1、因此，本发明提出一种无监督哈希图像检索模型的训练方法和装置，通过对同一个图像使用数据增强生成两个图像。然后将两个图像输入到哈希模型中，并最大化这两个图像哈希编码后的哈希码的相似度，同时为了防止负样本的过优化，引入了一阈值限制负样本过优化。

2、本技术是通过如下技术方案实现的：

3、一方面，本技术提供一种融合句法信息和特征交互的情感分析方法，其包括：

4、输入图像训练样本集，对样本集中的图像进行数据增强，得到第一增强图像集和第二增强图像集，其中样本集中的每个图像都有对应的第一增强图像和第二增强图像；

5、对所述第一增强图像集进行特征提取得到第一图像特征集；

6、对所述第二增强图像集进行特征提取得到第二图像特征集；

7、对所述第一图像特征集进行映射和哈希编码得到第一潜在向量集、第一哈希连续向量集、第一哈希码集；

8、对所述第二图像特征集进行映射和哈希编码得到第二潜在向量集、第二哈希连续向量集、第二哈希码集；

9、根据所述第一图像特征集和所述第二图像特征集构造特征向量相似矩阵；

10、计算第一哈希连续向量集和第二哈希连续向量集中两两哈希连续向量之间的余弦距离，并与一边界阈值进行比较，若余弦距离小于边界阈值则根据两个哈希连续向量对应的潜在向量计算增强图像的对比损失；

11、根据所述第一哈希码集和所述第二哈希码集计算结构相似性损失；

12、将对比损失和结构相似性损失作为模型总损失，并根据总损失更新模型中的网络，直至模型收敛。

13、进一步地，计算第一哈希连续向量集和第二哈希连续向量集中两两哈希连续向量之间的余弦距离，并与一边界阈值进行比较，若余弦距离小于边界阈值则根据两个哈希连续向量对应的潜在向量计算增强图像的对比损失，其具体的计算公式如下：

14、

15、

16、其中表示哈希层与的余弦距离，m为控制负样本是否参与训练的边界阈值，为1表示负样本对参与训练，为0表示负样本对不参与训练。

17、进一步地，根据所述第一哈希码集和所述第二哈希码集计算结构相似性损失，具体包括：

18、根据第一哈希码集和第二哈希码集构建哈希码相似矩阵；

19、根据特征向量相似矩阵和哈希码相似矩阵计算结构相似性损失。

20、进一步地，所述根据特征向量相似矩阵和哈希码相似矩阵计算结构相似性损失，是通过如下公式计算的：

21、设给定长度为l的所有图像的二值编码为b＝{bi},(i＝1...n)。

22、

23、

24、

25、表示哈希码和的相似性，为batch中的第i个图像的哈希码。为batch中的第k个图像的哈希码。本文使用sign函数将特征向量映射到哈希码。哈希层权重wh∈rl×4096，偏置vh∈rl×1。上标j表示的是不同增强的样本。

26、进一步地，模型总损失的计算公式如下：

27、

28、其中lc为改进的对比损失，ln为结构相似性损失，其中α是控制ln损失影响的超参数。

29、进一步地，在模型中还引入了一个正则项，其计算公式如下：

30、

31、此时总损失l的计算公式如下：

32、

33、其中β是控制lr损失影响的超参数。

34、另一方面，本技术还提供了一种用于训练无监督哈希图像检索模型的装置，其包括：

35、图像预处理模块：用于输入图像训练样本集，对样本集中的图像进行数据增强，得到第一增强图像集和第二增强图像集，其中样本集中的每个图像都有对应的第一增强图像和第二增强图像；

36、第一特征提取模块：用于对所述第一增强图像集进行特征提取得到第一图像特征集；

37、第二特征提取模块：用于对所述第二增强图像集进行特征提取得到第二图像特征集；

38、第一特征处理模块：用于对所述第一图像特征集进行映射和哈希编码得到第一潜在向量集、第一哈希连续向量集、第一哈希码集；

39、第二特征处理模块：用于对所述第二图像特征集进行映射和哈希编码得到第二潜在向量集、第二哈希连续向量集、第二哈希码集；

40、特征向量相似矩阵构造模块：用于根据所述第一图像特征集和所述第二图像特征集构造特征向量相似矩阵；

41、对比损失计算模块：用于计算第一哈希连续向量集和第二哈希连续向量集中两两哈希连续向量之间的余弦距离，并与一边界阈值进行比较，若余弦距离小于边界阈值则根据两个哈希连续向量对应的潜在向量计算增强图像的对比损失；

42、结构相似性损失计算模块：用于根据所述第一哈希码集和所述第二哈希码集计算结构相似性损失；

43、网络更新模块：用于将对比损失和结构相似性损失作为模型总损失，并根据总损失更新模型中的网络，直至模型收敛。

44、进一步地，所述结构相似性损失计算模块包括：

45、哈希码相似矩阵构建子模块：根据第一哈希码集和第二哈希码集构建哈希码相似矩阵；

46、结构相似性损失计算子模块：根据特征向量相似矩阵和哈希码相似矩阵计算结构相似性损失。

47、进一步地，还包括：

48、正则添加模块：用于将正则项添加至模型中，更新模型的总损失。

49、另一方面，本技术还提供一种计算机设备，包括：

50、至少一个存储器以及至少一个处理器；

51、所述存储器，用于存储一个或多个程序；

52、当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一项所述的一种无监督哈希图像检索模型的训练方法的步骤。

53、本技术通过提出了使用对比学习实现无监督学习，使得模型不会过分关注像素细节，而能够关注抽象的语义信息。同时，为了解决对比学习中样本过优化的问题，本发明在对比损失中引入阈值来限制负样本，从而防止模型的次优化。然后，结合结构相似性生成哈希码，结构相似性可以使得哈希码保留特征向量的相似性，通过如上方法，完成了对无监督哈希模型的训练，得到一个完成训练的无监督哈希检索模型用于图像检索，从而提高了检索的准确率。

54、为了更好地理解和实施，下面结合附图详细说明本发明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余松森苏海柯臻煜
技术所有人：华南师范大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。