一种结合语义特征的ervq图片索引与检索方法

文档序号：9432666阅读：444来源：国知局

一种结合语义特征的ervq图片索引与检索方法
【技术领域】
[0001] 本发明属于计算机视觉、多媒体索引领域，更具体地，设及一种结合语义特征的 ERVQ图片索引与检索方法。
【背景技术】
[0002] 基于内容的图片捜索是当今研究的热点之一，由于互联网上图片数目庞大，要实现快速图片检索，就必须要构建一个高效的索引结构。图片索引的第一步是提取描述特征，图片的描述特征维度通常很高（如尺度不变特征变换（Scale-invariantfeature transform,SIFT)特征有128维），要在如此高维度上建立高效索引成为很大挑战。
[0003] 图像索引结构目前主要有S个类别：树型结构索引、哈希索引和基于视觉单词的倒排索引。树形结构索引当向量维度过高时会面临"维度灾难"，并且占用很大内存空间，索引效率下降。哈希索引难W确定合适的哈希函数使其使用范围受限。基于倒排链表的增强型残差量化索引ERVQ由于其索引效率高、占用内存少的优点正逐步受到学者重视。
[0004] 积量化（Pro化ct如antization,P曲索引将一个描述向量划分为几个子向量，并对运些子向量独立编码，在子向量特征空间使用K-means方法训练量化器。当使用k位量化器时，可W表不2k个质屯、。假设一个描述向量被划分为m个子向量，每个子向量被相应的量化器量化，量化器查找每个子向量最近的质屯、并使用该质屯、的编码来描述该子向量，然后将m个子向量的编码合并来表示原始描述向量（km位）。与直接把原始向量描述量化相比，PQ使用了更少的质屯、，因此减少了内存使用量。基于积量化的最近邻捜索方法对高维向量数据库的压缩和检索效率都非常高，但是当处理非结构化向量时正确率受到向量拆分方式的限制。残差量化巧esi化曰1Vector如antization，RV曲索引结构直接使用量化器的前L层作为索引的粗量化。如果每一层量化为k个质屯、，那么就会产生个倒排链表。运一过程比PQ更高效，使用量化器的前L层给描述向量编码，描述向量的id和RVQ编码插入到对应的倒排链表中。给定一个查询向量，通过计算其前L层的RVQ编码来找到候选集，然后与PQ类似，使用非对称距离计算来快速计算剩余向量与候选集的精确距离，最后根据距离大小排序。与构建RVQ索引类似，B油enkoArtem等提出一种倒排多索引结构，运种索引结构是基于PQ的多维表结构。相比PQ索引，RVQ对数据的结构性没有要求，能在非结构化数据上仍然取得不错的检索结果，并且其捜索过程更快速高效。AiLie化等对 RVQ码书的训练过程进行迭代优化，提出了增强型残差量化巧nhancedResi化alVector 如antization，ERV曲索引，减少了索引向量的量化误差，使得索引结果更加精确。
[0005] 由于"语义鸿沟"的存在，目前的索引都是基于图片低层特征（SIFT、SURF(Speeded 化RobustFeETtures,加速稳健特征）和颜色特征等），未考虑语义特征，导致索引检索结果不太理想。当用户输入左半场球场图片检索时，结果可能是中场或者右半场结果。

【发明内容】

[0006] 针对现有技术的缺陷，本发明的目的在于提供一种结合语义特征的ERVQ索引结构与索引检索算法，旨在解决现有方法中存在的检索结果不准确的问题。
[0007] 为实现上述目的，本发明提供了一种结合语义特征的ERVQ索引结构与索引检索算法，包括W下步骤：
[000引（1)准备训练索引的图片集P1，待索引图片集P2,训练图片数量越多越好；
[0009] 似对训练图片集P1提取低层特征（SIFT、SURF等），得到特征向量集F;
[0010] (3)使用残差量化索引（RV曲训练方法训练F得到一个L层的RVQ码书 Codebookl，具体包括W下子步骤： W11] (3-1)使用K-means算法对F聚类，聚成K个类别，对应的聚类中屯、为阳〇1引（3-。把F减去每个向量对应的聚类中心得到残差Ei，F=Ei;
[0013] (3-3)重复步骤（3-1)至（3-2)L次，记录每一层的聚类中屯、。得到一个L层的码书Codebookl;
[0014] (4)使用ERVQ条件联合优化方法调整Codebookl,得到优化后的码书Codebook2 ;
[0015] (5)将码书Codebook2多层质屯、--组合构成索引字典；
[0016] (6)将索引字典每个索引项上根据语义划分成多个倒排链表结构；
[0017] (7)对待索引图片提取低层特征和语义特征，根据低层特征找到索引节点，根据语义特征插入到对应的倒排链表中，具体包括W下子步骤：
[001引（7-1)将待索引图片提取低层特征F郝语义特征FS;
[0019] (7-2)Fj吏用基于下限的查找方法快速找到最近的索引项；
[0020] (7-3)根据Fs值将图片ID插入到索引项的对应链表；
[0021] (8)检索过程包括W下子步骤：
[0022] (8-1)将查询图片提取低层特征F郝语义特征FS;
[0023] (8-2化使用基于下限的查找方法快速找到最近的索引项；
[0024] (8-3)根据Fs值将索引项的对应链表上的图片返回作为结果候选集；
[0025] (8-4)对候选集图片进行排序筛选，返回前K个结果；
[0026] 步骤（1)中，训练集P1和待索引集P2可W采用同一个数据集，P1图片数越多，种类越丰富，训练结果越好。
[0027] 步骤（4)使用ERVQ条件联合优化方法调整Codebookl,与步骤（7-2)中的基于下限的快速查找方法参照论文EfficientApproximate化arestNei曲borSearchby OptimizedResidualVectorQuantization中的方法。
[0028] 通过本发明所构思的W上技术方案，与现有技术相比，本发明具有W下的有益效果：
[0029] 1、检索结果准确：由于采用了步骤（6)和步骤（7)，索引中加入了语义信息，只有与索引中语义信息相同的图片才返回作为检索结果，使得结果更精确，在用户捜索左半场图片时返回的结果都为左半场图片，提升了用户的捜索体验；
[0030] 2、检索时间更快：由于采用了步骤（6)和步骤做，查询只返回与查询图片相同语义的结果，大大减小了候选集规模，使得排序处理时间更快，减少了查询所用的时间。
【附图说明】
[0031] 图1 (a)为本发明中两层残差量化训练过程示意图；
[0032] 图1 (b)为本发明中编码过程示意图；
[0033] 图2为本发明设计的由ERVQ码书构建索引字典流程图；
[0034] 图3为本发明设计的索引语义倒排链表示意图；
[0035] 图4为本发明将待索引图片插入到索引中示意图。
【具体实施方式】
[0036] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0037] (1)准备用于训练索引的图片集P1，待索引图片集P2,训练图片数量越多越好；具体而言，训练集P1用于训练码书，P1量越多，种类越丰富将使得训练结果更好。
[0038] (2)对训练图片集P1提取低层特征（如SIFT、SURF和颜色特征等），得到特征向量集F;用于训练码书的特征通常只使用一种，SIFT有较好的尺度不变性，SURF有较好的鲁棒性，提取速度更快维度相对SIFT更低。
[0039] (3)使用残差量化索引（RV曲训练方法训练F得到一个L层的RVQ码书 Codebookl；
[0040] 具体包括W下子步骤：阳0川（3-1)使用K-means算法对F聚类，聚成K个类别，对应的聚类中屯、为阳0创（3-。把F减去每个向量对应的聚类中心得到残差Ei，再令F=Ei;
[0043] (3-3)重复步骤（3-1)至（3-2)L次，记录每一层的聚类中屯、C視到一个L层的码书Codebookl;
[0044] 下面详细介绍残差量化： W45] 残差量化的目的是压缩特征编码，SURF特征是64维的向量，通过残差量化编码， SURF特征可W压缩成只用量化的层数来表示（用于索引的层数通常小于4层），大大减小了存储空间。残差量化包括残差量化器训练过程和残差量化编码过程，如图1所示为两级残差量化的训练和编码过程。
[0046] 本方案使用残差量化的训练过程主要是为了获得量化器，将训练图片提取的特征向量集F(式中表示为X)，使用Kmeans算法将F聚成K个类别，然后将所有聚类中屯、存储下来作为第一层的码书Ci，第一层的量化结果集记为fi，再将向量集X中每个向量减去该向量所在的聚类中屯、向量得到第一层的向量的残差El。第一层的残差El作为第二层量化器的输入，对El进行Kmeans聚类得到第二层码书C2,量化结果集为！2。由于该量化器只有两层，量化到此结束。如果有更多层量化器，那么后面每一层量化器的输入都是前一层的残差。最后存储整个量化器的码书C(Ci，C2,…，CJ作为训练量化器结果。因此对于一个向量X，经过量化器量化有如下关系：
[0047]
W48] 经过多层量化W后，町已经很小可W被直接丢弃，一个原始向量X可W由一个L层的量化器来近似表示。向量X量化编码过程如图1所示，从量化器第一层开始，找到距离码书最近的质屯、，记下该质屯、编号。,1，计算X与Cl,1的残差E1，再用El找第二层码书最近质屯、C2,k......，最后原始向量可用编码[Cl,i，C2,k，…，C^m]表示。可用看到，对原始向量的编码是有损编码，其量化误差为最后一层量化器丢掉的残差町。假设有n个向量的数据集X= {xi,X2，...，x。}，衡量其平均量化误差的平均平方差（MeanSquared化ror，MS巧公式为：
[0049]
[0050] 上式中的克，'为的L层量化结果求和，d为向量的维度，通过此公式可W评价一个量化器量化结果的好坏。
[0051] (4)使用ERVQ条件联合优化方法调整Codebookl，得到优化后的码书Codebook2 ; ERVQ的核屯、思想是把量化器丢掉的最后一层的残差町加入进来调整现有的码书，每调整完一次计算MSE(MeanSquared化ror，平均平方差）值，当MSE值不再减小或者调整次数达到了预设的最大次数便结束调整。本方案的调整过程为：从码书Codebookl的第一层开始，到最后一层结束，在调整到当前层时把其它层作为已知层，用训练向量的特征向量集F 减去其它所有层的量化结果得到X'，X'根据上一次在当前层的聚类结果，将聚类到聚类中必i的所有向量V(斯巨义'，i= 1/2,3,...，龄计算平均值更新该聚类中心更新完当前层所有聚类中屯、之后，重新量化训练集F，然后继续调整下一层。调整完毕之后得到ERVQ码书Codebook2。
[0052] 本步骤的优点是：通过调整码书，提高了码书残差量化的量化精度，有效减少了量化误差。实验表明，调整后的L层的ERVQ量化

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：于俊清;吴玲生;何云峰;管涛;唐九飞;
技术所有人：华中科技大学;
我是此专利的发明人

上一篇：网页信息的推送方法及装置的制造方法
上一篇：一种基础地理信息数据中生僻字库实现方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。