一种结合语义特征的ervq图片索引与检索方法

文档序号:9432666阅读:444来源:国知局
一种结合语义特征的ervq图片索引与检索方法
【技术领域】
[0001] 本发明属于计算机视觉、多媒体索引领域,更具体地,设及一种结合语义特征的 ERVQ图片索引与检索方法。
【背景技术】
[0002] 基于内容的图片捜索是当今研究的热点之一,由于互联网上图片数目庞大,要 实现快速图片检索,就必须要构建一个高效的索引结构。图片索引的第一步是提取描述 特征,图片的描述特征维度通常很高(如尺度不变特征变换(Scale-invariantfeature transform,SIFT)特征有128维),要在如此高维度上建立高效索引成为很大挑战。
[0003] 图像索引结构目前主要有S个类别:树型结构索引、哈希索引和基于视觉单词的 倒排索引。树形结构索引当向量维度过高时会面临"维度灾难",并且占用很大内存空间,索 引效率下降。哈希索引难W确定合适的哈希函数使其使用范围受限。基于倒排链表的增强 型残差量化索引ERVQ由于其索引效率高、占用内存少的优点正逐步受到学者重视。
[0004] 积量化(Pro化ct如antization,P曲索引将一个描述向量划分为几个子向量,并 对运些子向量独立编码,在子向量特征空间使用K-means方法训练量化器。当使用k位量 化器时,可W表不2k个质屯、。假设一个描述向量被划分为m个子向量,每个子向量被相应 的量化器量化,量化器查找每个子向量最近的质屯、并使用该质屯、的编码来描述该子向量, 然后将m个子向量的编码合并来表示原始描述向量(km位)。与直接把原始向量描述量化 相比,PQ使用了更少的质屯、,因此减少了内存使用量。基于积量化的最近邻捜索方法对高 维向量数据库的压缩和检索效率都非常高,但是当处理非结构化向量时正确率受到向量拆 分方式的限制。残差量化巧esi化曰1Vector如antization,RV曲索引结构直接使用量化 器的前L层作为索引的粗量化。如果每一层量化为k个质屯、,那么就会产生个倒排链 表。运一过程比PQ更高效,使用量化器的前L层给描述向量编码,描述向量的id和RVQ编 码插入到对应的倒排链表中。给定一个查询向量,通过计算其前L层的RVQ编码来找到候 选集,然后与PQ类似,使用非对称距离计算来快速计算剩余向量与候选集的精确距离,最 后根据距离大小排序。与构建RVQ索引类似,B油enkoArtem等提出一种倒排多索引结构, 运种索引结构是基于PQ的多维表结构。相比PQ索引,RVQ对数据的结构性没有要求,能 在非结构化数据上仍然取得不错的检索结果,并且其捜索过程更快速高效。AiLie化等对 RVQ码书的训练过程进行迭代优化,提出了增强型残差量化巧nhancedResi化alVector 如antization,ERV曲索引,减少了索引向量的量化误差,使得索引结果更加精确。
[0005] 由于"语义鸿沟"的存在,目前的索引都是基于图片低层特征(SIFT、SURF(Speeded 化RobustFeETtures,加速稳健特征)和颜色特征等),未考虑语义特征,导致索引检索结 果不太理想。当用户输入左半场球场图片检索时,结果可能是中场或者右半场结果。

【发明内容】

[0006] 针对现有技术的缺陷,本发明的目的在于提供一种结合语义特征的ERVQ索引结 构与索引检索算法,旨在解决现有方法中存在的检索结果不准确的问题。
[0007] 为实现上述目的,本发明提供了一种结合语义特征的ERVQ索引结构与索引检索 算法,包括W下步骤:
[000引 (1)准备训练索引的图片集P1,待索引图片集P2,训练图片数量越多越好;
[0009] 似对训练图片集P1提取低层特征(SIFT、SURF等),得到特征向量集F;
[0010] (3)使用残差量化索引(RV曲训练方法训练F得到一个L层的RVQ码书 Codebookl,具体包括W下子步骤: W11] (3-1)使用K-means算法对F聚类,聚成K个类别,对应的聚类中屯、为 阳〇1引 (3-。把F减去每个向量对应的聚类中心得到残差Ei,F=Ei;
[0013] (3-3)重复步骤(3-1)至(3-2)L次,记录每一层的聚类中屯、。得到一个L层的码 书Codebookl;
[0014] (4)使用ERVQ条件联合优化方法调整Codebookl,得到优化后的码书Codebook2 ;
[0015] (5)将码书Codebook2多层质屯、--组合构成索引字典;
[0016] (6)将索引字典每个索引项上根据语义划分成多个倒排链表结构;
[0017] (7)对待索引图片提取低层特征和语义特征,根据低层特征找到索引节点,根据语 义特征插入到对应的倒排链表中,具体包括W下子步骤:
[001引 (7-1)将待索引图片提取低层特征F郝语义特征FS;
[0019] (7-2)Fj吏用基于下限的查找方法快速找到最近的索引项;
[0020] (7-3)根据Fs值将图片ID插入到索引项的对应链表;
[0021] (8)检索过程包括W下子步骤:
[0022] (8-1)将查询图片提取低层特征F郝语义特征FS;
[0023] (8-2化使用基于下限的查找方法快速找到最近的索引项;
[0024] (8-3)根据Fs值将索引项的对应链表上的图片返回作为结果候选集;
[0025] (8-4)对候选集图片进行排序筛选,返回前K个结果;
[0026] 步骤(1)中,训练集P1和待索引集P2可W采用同一个数据集,P1图片数越多,种 类越丰富,训练结果越好。
[0027] 步骤(4)使用ERVQ条件联合优化方法调整Codebookl,与步骤(7-2)中的基于 下限的快速查找方法参照论文EfficientApproximate化arestNei曲borSearchby OptimizedResidualVectorQuantization中的方法。
[0028] 通过本发明所构思的W上技术方案,与现有技术相比,本发明具有W下的有益效 果:
[0029] 1、检索结果准确:由于采用了步骤(6)和步骤(7),索引中加入了语义信息,只有 与索引中语义信息相同的图片才返回作为检索结果,使得结果更精确,在用户捜索左半场 图片时返回的结果都为左半场图片,提升了用户的捜索体验;
[0030] 2、检索时间更快:由于采用了步骤(6)和步骤做,查询只返回与查询图片相同语 义的结果,大大减小了候选集规模,使得排序处理时间更快,减少了查询所用的时间。
【附图说明】
[0031] 图1 (a)为本发明中两层残差量化训练过程示意图;
[0032] 图1 (b)为本发明中编码过程示意图;
[0033] 图2为本发明设计的由ERVQ码书构建索引字典流程图;
[0034] 图3为本发明设计的索引语义倒排链表示意图;
[0035] 图4为本发明将待索引图片插入到索引中示意图。
【具体实施方式】
[0036] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0037] (1)准备用于训练索引的图片集P1,待索引图片集P2,训练图片数量越多越好;具 体而言,训练集P1用于训练码书,P1量越多,种类越丰富将使得训练结果更好。
[0038] (2)对训练图片集P1提取低层特征(如SIFT、SURF和颜色特征等),得到特征向 量集F;用于训练码书的特征通常只使用一种,SIFT有较好的尺度不变性,SURF有较好的鲁 棒性,提取速度更快维度相对SIFT更低。
[0039] (3)使用残差量化索引(RV曲训练方法训练F得到一个L层的RVQ码书 Codebookl;
[0040] 具体包括W下子步骤: 阳0川 (3-1)使用K-means算法对F聚类,聚成K个类别,对应的聚类中屯、为 阳0创 (3-。把F减去每个向量对应的聚类中心得到残差Ei,再令F=Ei;
[0043] (3-3)重复步骤(3-1)至(3-2)L次,记录每一层的聚类中屯、C視到一个L层的码 书Codebookl;
[0044] 下面详细介绍残差量化: W45] 残差量化的目的是压缩特征编码,SURF特征是64维的向量,通过残差量化编码, SURF特征可W压缩成只用量化的层数来表示(用于索引的层数通常小于4层),大大减小 了存储空间。残差量化包括残差量化器训练过程和残差量化编码过程,如图1所示为两级 残差量化的训练和编码过程。
[0046] 本方案使用残差量化的训练过程主要是为了获得量化器,将训练图片提取的特征 向量集F(式中表示为X),使用Kmeans算法将F聚成K个类别,然后将所有聚类中屯、存储 下来作为第一层的码书Ci,第一层的量化结果集记为fi,再将向量集X中每个向量减去该 向量所在的聚类中屯、向量得到第一层的向量的残差El。第一层的残差El作为第二层量化 器的输入,对El进行Kmeans聚类得到第二层码书C2,量化结果集为!2。由于该量化器只有 两层,量化到此结束。如果有更多层量化器,那么后面每一层量化器的输入都是前一层的残 差。最后存储整个量化器的码书C(Ci,C2,…,CJ作为训练量化器结果。因此对于一个向 量X,经过量化器量化有如下关系:
[0047]
W48] 经过多层量化W后,町已经很小可W被直接丢弃,一个原始向量X可W由一个L层 的量化器来近似表示。向量X量化编码过程如图1所示,从量化器第一层开始,找到距离码 书最近的质屯、,记下该质屯、编号。,1,计算X与Cl,1的残差E1,再用El找第二层码书最近质 屯、C2,k......,最后原始向量可用编码[Cl,i,C2,k,…,C^m]表示。可用看到,对原始向量的编码 是有损编码,其量化误差为最后一层量化器丢掉的残差町。假设有n个向量的数据集X= {xi,X2,...,x。},衡量其平均量化误差的平均平方差(MeanSquared化ror,MS巧公式为:
[0049]
[0050] 上式中的克,'为的L层量化结果求和,d为向量的维度,通过此公式可W评价一 个量化器量化结果的好坏。
[0051] (4)使用ERVQ条件联合优化方法调整Codebookl,得到优化后的码书Codebook2 ; ERVQ的核屯、思想是把量化器丢掉的最后一层的残差町加入进来调整现有的码书,每调整 完一次计算MSE(MeanSquared化ror,平均平方差)值,当MSE值不再减小或者调整次数 达到了预设的最大次数便结束调整。本方案的调整过程为:从码书Codebookl的第一层开 始,到最后一层结束,在调整到当前层时把其它层作为已知层,用训练向量的特征向量集F 减去其它所有层的量化结果得到X',X'根据上一次在当前层的聚类结果,将聚类到聚类中 必i的所有向量V(斯巨义',i= 1/2,3,...,龄计算平均值更新该聚类中心更新完当 前层所有聚类中屯、之后,重新量化训练集F,然后继续调整下一层。调整完毕之后得到ERVQ码书Codebook2。
[0052] 本步骤的优点是:通过调整码书,提高了码书残差量化的量化精度,有效减少了量 化误差。实验表明,调整后的L层的ERVQ量化
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1