一种图像高维特征的相似比较方法及装置的制造方法

文档序号：9375821阅读：335来源：国知局

一种图像高维特征的相似比较方法及装置的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域，特别地涉及一种图像高维特征的相似比较方法及装置。
【背景技术】
[0002]在当今互联网环境下，网络用户除了文字检索需求外还希望能够对声音、图像、视频等多媒体内容进行检索。具体到图像检索，用户希望能够通过用户提供的图像作为查询(Query)，请求互联网服务提供商找出与该图片内容相似的候选图片集合，应用场景如电商企业根据用户提供的商品图片向其推荐同款或相似款的商品，各搜索网站根据用户提供的风景图片显示相似图片等。
[0003]传统的图像检索一般是基于人工指定的图像特征进行相似度量，由于图像数据在语义上的非结构化特点，使得要靠人工发现富有表达力的特征是个比较困难的任务。Hinton等人提出的深度学习神经网络技术能够自主学习完成特征提取，即从原始图像的高维特征向量空间到较低维特征向量空间的有效映射，大大提高了图像领域的特征表达效率。
[0004]在互联网行业，服务企业的存量图像往往数量巨大。面对用户的检索需求，如果需要在秒级响应时间内得到检索结果，除了采用大规模并行计算技术外，还需要同时在降维与索引、匹配算法上提高速度。局部敏感哈希(Locality Sensitive Hashing，LSH)算法是一种降维编码技术，其特点是在生成的哈希编码中保留了原始特征空间中的相对位置关系，因此可以用于图像的快速检索。
[0005]在现有技术中，局部敏感哈希算法用于图像检索主要包括如下步骤:
[0006]1、图像的局部敏感哈希编码过程
[0007]图像的局部敏感哈希编码过程如图1所示。原始图像针对RGB通道表示为η维向量，经过卷积神经网络(CNN)编码后取其某一隐层(一般在倒数2?4层间取)的输出作为图像的m维特征向量(典型的长度为4096维)。该特征向量随后经过一组局部敏感哈希向量运算后转换为k(k远小于m)维的LSH编码。按照此种方法，服务企业将其所有的图片转化为这种编码，那么后续的图像相似检索都是基于图像的这种表示方式进行的。
[0008]2、图像相似检索过程
[0009]图像相似检索过程如图2所示。用户上传的查询图像先经过上述步骤I得到其局部敏感哈希LSH编码A，接着对局部敏感哈希向量表中的每一个向量B，计算A、B两者的汉明距离，然后根据所得的距离从小到大排序，最后取靠前的若干个向量所对应的原始图像作为相似检索的结果返回给用户。
[0010]但是，在使用过程中，发现现有的局部敏感哈希算法用于图像检索的方法存在以下缺点:
[0011]1、基于LSH编码的相似检索速度在图像集比较大(如包含百万、千万及以上的图片)时仍然比较慢；
[0012]2、汉明距离度量虽然计算速度比欧氏距离度量、曼哈顿距离度量等要快，但是精度下降比较多，检索结果不尽如人意。

【发明内容】

[0013]有鉴于此，本发明提供一种图像高维特征的相似比较方法及装置，通过对图像的局部敏感哈希编码进行分段索引及检索，并选用曼哈顿距离进行相似度量的方法，能够在基于局部敏感哈希编码的海量图片相似检索中提高检索速度与检索精度。
[0014]为实现上述目的，根据本发明的一个方面，提供了一种图像高维特征的相似比较方法。
[0015]本发明的一种图像高维特征的相似比较方法包括:将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；将所述低维特征向量平均分段并建立分段索引表；通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。
[0016]可选地，所述图像特征向量是利用深度学习技术构建神经网络来提取的。
[0017]可选地，所述神经网络为卷积神经网络。
[0018]可选地，将所述低维特征向量平均分段的步骤之前，还包括:在一个较小的验证集上通过实验确定最优的分段长度。
[0019]可选地，将所述低维特征向量平均分段并建立分段索引表的步骤包括:将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；将所述低维特征向量根据得到的所述入口地址插入所述分段索引表中以建立分段索引表。
[0020]可选地，通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集的步骤包括:通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。
[0021]可选地，将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量包括:分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。
[0022]根据本发明的另一方面，提供了一种图像高维特征的相似比较装置。
[0023]本发明的一种图像高维特征的相似比较装置包括:特征降维模块，用于将所提取的图像特征向量通过局部敏感哈希算法进行降维处理后得到低维特征向量；分段索引模块，用于将所述低维特征向量平均分段并建立分段索引表；相似查询模块，用于通过将查询图像的分段后的低维特征向量在所述分段索引表中进行检索得到候选样本集；比较度量模块，用于将所述候选样本集中的样本分别与所述查询图像的低维特征向量进行相似度量。
[0024]可选地，所述图像特征向量是利用深度学习技术构建神经网络来提取的。
[0025]可选地，所述神经网络为卷积神经网络。
[0026]可选地，所述分段索引模块在将所述低维特征向量平均分段之前，还用于:在一个较小的验证集上通过实验确定最优的分段长度。
[0027]可选地，所述分段索引模块还用于:将所述低维特征向量平均分段，以分段后的特征向量作为索引项，并计算每个索引项的指纹值；将所述指纹值对与所述分段索引表包含的预定的入口个数最接近的素数进行取余运算，得到所述索引项的入口地址；将所述低维特征向量根据得到的所述入口地址插入所述分段索引表中以建立分段索引表。
[0028]可选地，所述相似查询模块还用于:通过访问查询图像的所述分段后的低维特征向量的入口地址，得到冲突集；将与所述查询图像的分段后的低维特征向量的指纹值相同的所述冲突集节点对应的所述低维特征向量提取出来，作为候选集；把各个分段检索得到的所述候选集合并起来，去掉其中重复的所述低维特征向量，得到候选样本集。
[0029]可选地，所述比较度量模块还用于:分别计算所述候选样本集中的每个样本与所述查询图像的低维特征向量之间的曼哈顿距离得分；将所述得分按照从小到大排序，并取前预定个数的得分对应的样本的图像作为所述查询图像的相似图像。
[0030]根据本发明的技术方案，对降维后的图像特征向量局部敏感哈希编码建立分段索引可以加快检索速度，从而提高检索效率；在进行图像相似检索时，采用曼哈顿距离度量替代传统的汉明距离度量，可以充分利用局部敏感哈希编码中包含的可量化的距离信息，从而提高了在分段检索下的检索精度。
【附图说明】
[0031]附图用于更好地理解本发明，不构成对本发明的不当限定。其中:
[0032]图1是现有技术中的生成图像的局部敏感哈希编码过程示意图；
[0033]图2是现有技术中的图像

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林熙东;牟川;
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。