一种基于深度散列与多特征融合的增量图像检索方法

文档序号：26590025发布日期：2021-09-10 20:36阅读：68来源：国知局

1.本发明属于图像处理方法技术领域，具体涉及一种基于深度散列与多特征融合的增量图像检索方法。

背景技术：

2.图像检索是一种视觉搜索任务，即是将给定的一张查询图像在一个非常大的图像数据库中进行检索，进而得到在该数据库中所有与查询图像具有相同实例对象的图像。图像检索技术目前已在多个领域有广泛应用，例如在网络上进行反向传播搜索或者组织个人照片收集。然而，随着计算机和人工智能等相关技术的高速发展及5g通信时代的迅速推进，包括图像和视频在内的多媒体数据量每天都呈指数增长，而最新的图像检索模型并不总是及时可用，一旦出现新的概念，就必须对检索模型进行更新，从而导致模型训练的时间成本大大增加。因此，提出一种能够直接提取新图像的特征信息同时不用再次训练旧图像的增量图像检索方法是图像检索技术领域急需解决的问题。
3.在ilsvrc
‑
2012比赛中，krizheysky等人设计了一种深度卷积神经网络模型alexnet，该模型将图像分类错误率从26.2％降到15.3％，远远领先于其他算法(krizhevsky a,sutskeveri,hinton g e.imagenetclassification with deep convolutional neural networks[c]//internationalconference on neural information processing systems.lake tahoe, nevada,usa:nips press.2012:1106
‑
1114.)。这使得cnn(卷积神经网络)在视觉图像领域得到极大的重视，使其一跃成为图像检索基础模型的首选。随后babenko等人利用大型卷积神经网络的顶层的激活作为图像检索的描述符(babenko a,slesarev a,chigorin a,et al. neural codes for image retrieval[c]//european conference on computervision.switzerland,zurich:springer press,2014:584
‑
599.)。该方法通过对相似数据上的模型进行重新训练，然后提取神经代码作为描述符，进一步提升了检索结果。曹等人提出了hashnet深度体系结构，通过延续方法生成散列码，它学习非平滑的二进制激活，使用延续方法从不平衡的相似性数据生成二进制散列码(cao zhangjie,longmingsheng,wang jianmin,et al.hashnet:deep learning to hash bycontinuation[c]//proceedings of the ieee international conference oncomputer vision.venice,italy:ieee press,2017:5608
‑
5617.)。白等人提出了一个深度渐进式哈希(dph)模型，通过利用逐步扩展的显著区域生成一系列二进制码(bai jiale,ni b,wang m,et al.deepprogressive hashing for image retrieval[j].ieee transactions onmultimedia,2019,21(12):3178
‑
3193.)。王等人提出了一种深度位置感知哈希(dpah)模型，它限制了数据样本与类中心之间的距离，以提高图像检索中二进制散列码的识别能力(wang ruikui,wangruiping,qiaoshishi,et al.deep position
‑
aware hashing for semanticcontinuous image retrieval[c]//ieee winter conference onapplications of computer vision.snowmass,co,usa:ieee press, 2020:2493
‑
2502.)。
[0004]
近年来，基于深度学习的方法已经在图像检索方面取得了巨大的进步，但在对于大量新图像的出现时导致的模型更新训练时间长，检索模型的适应性差等问题还没有完全解决，当新的图像出现时，如何不用再次训练模型就能实现模型的更新是目前图像检索领域的重要课题。

技术实现要素：

[0005]
本发明的目的是提供一种基于深度散列与多特征融合的增量图像检索方法，解决了现有图像检索中新类别图像出现时重新训练模型困难、耗时长的问题。
[0006]
本发明所采用的技术方案是，一种基于深度散列与多特征融合的增量图像检索方法，具体包括以下步骤：
[0007]
步骤1、将cifar
‑
10数据集和nus
‑
wide数据集按比例划分出查询集图像、原始数据集和增量数据集；
[0008]
步骤2、使用卷积神经网络vgg
‑
16将查询图像的每一层特征图像输出；
[0009]
步骤3、将提取的特征图像从高维图像到低维逐层做双线性插值处理，以匹配上一层特征图像的尺寸大小,并且将双线性插值处理过的特征图像逐层上采样得到融合的特征图像；
[0010]
步骤4、将步骤3的特征图像输入到五个普通卷积层 conv6
‑
conv10，尺寸大小都为7
×
7，维度分别为64，192，384，256 和256维，输出得到特征图像f；
[0011]
步骤5、经过步骤3和步骤4，将vgg
‑
16改进后得到新的模型，即为idfh模型，将步骤4中输出的特征像图f进行散列函数学习，使用idfh模型构造散列函数，使特征图像f的最后一个全连接层的长度输出为k，即是二进制散列码的长度；
[0012]
步骤6、使用增量损失函数保持查询点和数据库点之间的相似性。
[0013]
本发明的特点还在于，
[0014]
步骤1中，在cifar
‑
10数据集中随机选取1000张图像作为查询集图像，每个类100张图像，其余的作为数据集图像；同样的在 nus
‑
wide数据集中随机选择2100张图像作为查询集图像，每个概念相关的有100张图像，其余的作为数据集图像，形成r张图像的查询集；然后将数据集图像分为原始数据集和增量数据集两个部分；其中cifar
‑
10数据集图像的原始数据集和增量数据集的类别比例为 7/3，nus
‑
wide数据集的原始数据集和增量数据集的类别比例为 18/3。
[0015]
步骤2中，具体为：在查询集图像中随机选取一张作为查询图像d
i
输入到基础卷积神经网络vgg
‑
16中，并输入到基础卷积神经网络vgg
‑
16中，基础网络vgg
‑
16的每一个大卷积层，即 conv1
‑
2，conv2
‑
2，conv3
‑
3，conv4
‑
3和conv5
‑
3分别提取到的特征图命名为第一层特征图像f1，第二层特征图像f2，第三层特征图像f3，第四层特征图像f4，第五层特征图像f5，相邻的最大特征图之间相差步幅为2的空间分辨率，输出的特征图像的大小依次为224
×
224、 112
×
112、56
×
56、28
×
28和7
×
7。
[0016]
步骤3中，将步骤2中输出的第五层特征图像f5采用双线性插值扩大长宽为原来的两倍，然后与上采样后得到的第四层特征图像f4融合，得到特征图像f4；再将特征图像f4采用双线性插值扩大长宽为原来的两倍，然后再与f3进行融合得到特征图像f3；将特征图像 f3采用双线性插值扩大长宽为原来的两倍，然后再与f2进行融合得到特征图像f2；将特
征图像f2采用双线性插值扩大长宽为原来的两倍，然后再与f1进行融合得到特征图像f1。
[0017]
步骤5中，深度散列函数的公式如式(2)所示：
[0018][0019]
式中，b
si
表示有r张图像的查询图像数据集中的散列码， sign()是符号函数，f(
·
)表示最后一个全连接层的输出。
[0020]
步骤6中，具体为：在步骤5之后，将原始数据集图像和增量数据集图像的索引分别表示为α＝{1，2，3，
…
，p}和 β＝{1+p,2+p,3+p,
…
p+q}，将原始数据集和增量数据集采样的查询图像的索引分别表示为和然后设计了一个增量损失函数使得现有的原始图像的散列码去训练查询图像的散列码，同时直接优化增量图像的散列码增量损失函数中使用成对的标签l去减少或扩大相似或不相似对的二进制码之间的汉明距离，同时采用l2范数损失来最小化二进制编码对的内部乘积与相似性之间的差异，并将步骤5中学习到的散列函数整合到损失函数中，从而保持
‑
1和1在所有查询图像中的数量近似相等从而使得每一位散列码达到平衡，具体如式(3)所示；
[0021][0022]
式中，b’表示有q张图像的增量图像数据集学习到的散列码，并且并且是b
i
的转置，λ和μ是超参数； a
j
是增量图像数据集中的第i张图像；b
j
是增量图像数据集中的每一张图像的散列码；当g
ij
＝+1表明a
i
和d
j
在语义上是相似的，相反的当 g
ij
＝
‑
1则是不相似的，tanh(
·
)是连续松弛方法。
[0023]
本发明的有益效果是：
[0024]
本发明一种基于深度散列与多特征融合的增量图像检索方法，该方法对vgg16输出的多个特征图像使用双线性插值处理，再融合到上层特征层，使得特征获得更加完整和丰富的语义信息；在网络高层增加五个小卷积层对特征进一步卷积，从而提高特征性能以及模型泛化能力；此外，该方法直接使用学习新图像的散列码的同时保持旧图像散列码不变，通过保留训练点之间的相似性来学习查询集的深度散列函数。本发明实现了大规模中出现新的类别图像时不用再次训练模型，从而提高检索效率，节约时间成本。
附图说明
[0025]
图1是本发明一种基于深度散列与多特征融合的增量图像检索方法的流程图。
具体实施方式
[0026]
下面结合附图和具体实施方式对本发明进行详细说明。
[0027]
本发明一种基于深度散列与多特征融合的增量图像检索方法，如图1所示，具体包括以下步骤：
[0028]
步骤1、将cifar
‑
10数据集和nus
‑
wide数据集按比例划分出查询集图像、原始数据集和增量数据集；
[0029]
cifar
‑
10包括10个类中的60000幅彩色图像。nus
‑
wide包含 21个最常见的概念相关图像，其中每个概念图像都至少与5000张图像关联，共有195834张图像。在cifar
‑
10数据集中随机选取1000 张图像作为查询集图像，每个类100张图像，其余的作为数据集图像；同样的在nus
‑
wide数据集中随机选择2100张图像作为查询集图像，每个概念相关的有100张图像，其余的作为数据集图像，形成r张图像的查询集；然后将数据集图像分为原始数据集和增量数据集两个部分。其中cifar
‑
10数据集图像的原始数据集和增量数据集的类别比例为7/3，nus
‑
wide数据集的原始数据集和增量数据集的类别比例为18/3，原始数据集中的图像最多与18个概念相关，而增量数据集中的图像与其余3个概念的至少一个概念相关。
[0030]
步骤2、使用卷积神经网络vgg
‑
16将查询图像的每一层特征图像输出；
[0031]
具体为：在r张图像的查询集中随机选取一张作为查询图像d
i
输入到基础卷积神经网络vgg
‑
16中，并输入到基础卷积神经网络vgg
‑
16中，基础网络vgg
‑
16的每一个大卷积层，即conv1
‑
2， conv2
‑
2，conv3
‑
3，conv4
‑
3和conv5
‑
3分别提取到的特征图命名为第一层特征图像f1，第二层特征图像f2，第三层特征图像f3，第四层特征图像f4，第五层特征图像f5，相邻的最大特征图之间相差步幅为 2的空间分辨率，输出的特征图像的大小依次为224
×
224、112
×
112、 56
×
56、28
×
28和7
×
7；
[0032]
步骤3、将提取的特征图像从高维图像到低维逐层做双线性插值处理，以匹配上一层特征图像的尺寸大小,并且将双线性插值处理过的特征图像逐层上采样得到融合的特征图像；
[0033]
将步骤2中输出的第五层特征图像f5采用双线性插值扩大长宽为原来的两倍，然后与上采样后得到的第四层特征图像f4融合，得到特征图像f4；再将特征图像f4采用双线性插值扩大长宽为原来的两倍，然后再与f3进行融合得到特征图像f3；将特征图像f3采用双线性插值扩大长宽为原来的两倍，然后再与f2进行融合得到特征图像f2；将特征图像f2采用双线性插值扩大长宽为原来的两倍，然后再与f1进行融合得到特征图像f1；其具体计算公式如式(1)所示；
[0034]
f
n
＝cat(f
n
,2
×
upsamplef
n+1
)(n＝1,2,3,4)(1)；
[0035]
式中，cat表示特征融合，f
n
表示第n层卷积输出的特征图，f
n
表示融合后的第n特征图，2
×
upsample表示2倍上采样。
[0036]
步骤4、将融合后的特征图像f1中输入五个卷积层进一步卷积增强特征性能，再使用三个全连接层整合；
[0037]
将步骤3的特征图像f1输入到五个普通卷积层conv6
‑
conv10，尺寸大小都为7
×
7，维度分别为64，192，384，256和256维从而增加特征性能，输出得到特征图像f；
[0038]
步骤5、首先直接使用深度散列方法对增量数据库图像映射得到散列码b
i
。经过步骤3和步骤4将vgg
‑
16改进后得到新的模型，将新的模型命名为idfh模型，将步骤4中输出的特征像图f进行散列函数学习，使用idfh模型构造散列函数，使特征图像f的最后一个全连接层的长度输出为k，即是二进制散列码的长度，深度散列函数的公式如式(2)所示：
[0039][0040]
式中，b
si
表示有r张图像的查询图像数据集中的散列码且θ表示idfh模型中的参数(批处理数，学习速率，初始学习率)，sign()是符号函数，f(
·
)表示最后一个全连接层的输出。
[0041]
idfh模型具体包括的五个大卷积层conv1(conv1
‑
1,conv1
‑
2)，长和宽为224
×
224，通道数为64，conv2(conv2
‑
1,conv2
‑
2)，长和宽为112
×
112，通道数为128，conv3(conv3
‑
1,conv3
‑
2,conv3
‑
3)，长和宽为56
×
56，通道数为256，conv4(conv4
‑
1,conv4
‑
2,conv4
‑
3)，长和宽为28
×
28，通道数为512，conv5(conv5
‑
1,conv5
‑
2,conv5
‑
3)，长和宽为14
×
14，通道数为512，以及五个普通卷积层conv6
‑
conv10，尺寸大小都为7
×
7，通道数分别为64，192，384，256和256。
[0042]
步骤6、使用增量损失函数保持查询点和数据库点之间的相似性。
[0043]
具体为：在步骤5之后，将原始数据集图像和增量数据集图像的索引分别表示为α＝{1,2,3,
…
,p}和β＝{1+p,2+p,3+p,
…
p+q}，将原始数据集和增量数据集采样的查询图像的索引分别表示为和然后设计了一个增量损失函数使得现有的原始图像的散列码去训练查询图像的散列码，同时直接优化增量图像的散列码增量损失函数中使用成对的标签l去减少或扩大相似或不相似对的二进制码之间的汉明距离，同时采用l2范数损失来最小化二进制编码对的内部乘积与相似性之间的差异，并将步骤4中学习到的散列函数整合到损失函数中，从而保持
‑
1和1在所有查询图像中的数量近似相等，从而使得每一位散列码达到平衡，具体如式(3)所示；
[0044][0045]
式中，b’表示有q张图像的增量图像数据集学习到的散列码，并且并且是b
i
的转置，λ和μ是超参数； g∈{
‑
1,+1}
(p+q)
×
r
表示训练期间成对监督的散列码，a
j
是增量图像数据集中的第i张图像；b
j
是增量图像数据集中的第j张图像的散列码；当g
ij
＝+1表明a
i
和d
j
在语义上是相似的，相反的当g
ij
＝
‑
1则是不相似的，tanh(
·
)是连续松弛方法。
[0046]
利用上述步骤完成模型的更新以后，查询图像在包含增量数据集的两个数据集cifar
‑
10和nus
‑
wide中检索，返回出前5000张图片，并计算平均精度值(map)，得到的结果以及与其它方法的比较如表1所示；
[0047][0048]
式中，tp表示正确的图片数量，fp表示不正确的图片数量。
[0049]
表1两个数据集上的性能(map)对比
[0050][0051]
从表1中可以看出在cifar
‑
10数据集上的12bits、24bits、32bits 和48bits散列性能比之前的算法性能都要好，在散列码长度为12bits、 24bits、32bits、48bits时能达到0.8523、0.8700、0.8866、0.8842，比 dsah的map值分别高0.1123、0.084、0.0856、0.0642。在nus
‑
wide 数据集上时散列码长度为12bits、24bits、32bits时能达到0.8015、 0.8354、0.8570，比dpsh的map值分别高0.074、0.0105、0.0219。本文模型在nus
‑
wide上的结果比cifar
‑
10要差一些，是因为该数据集的图像类别距离没有完全明确划分，以及数据集较大导致训练比较困难。但总的来说当本发明中的方法模型与表中其它算法相比较时，在两个相同数据集上的性能表现得最好。
[0052]
本发明一种基于深度散列与多特征融合的增量图像检索方法，对卷积神经网络输出的特征层进行至下而上的二倍上采样到上一层特征，使得融合后的特征具有更好的低层位置信息和高层语义信息，从而更好的描述图像；使用改进后的卷积神经网络直接学习新图像的散列码同时保持旧图像散列码不变，通过增量损失函数保持查询训练点和增量训练点之间的一致性。能提高检索精度，缩短大规模图像数据集模型训练时间和改善模型适应性，实现了快速、高效、准确的目的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖开阳;范冰;郑元林;章明珠;黄港;姚祎
技术所有人：西安理工大学
我是此专利的发明人

上一篇：模型训练方法、路面损伤分割方法、装置和电子设备与流程
上一篇：工装机构及制动闸片装配设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。