一种基于哈希二值编码的特征袋图像检索方法

文档序号:9708788阅读:649来源:国知局
一种基于哈希二值编码的特征袋图像检索方法
【技术领域】
[0001]本发明属于图像检索领域,尤其涉及一种基于哈希二值编码的特征袋图像检索方 法。
【背景技术】
[0002] 随着信息时代数据的疯狂增长,图像数据总量也在超高速的增加着,因此如何在 基于哈希二值编码的的图像数据集中进行高效的检索也成为了一个重要的研究方向。而图 像检索的方法也经历了从需要人工标注关键词的基于文本的图像检索(TBIR)到基于内容 的图像检索(CBIR)的发展。并且为了更加高效地处理基于哈希二值编码的特征袋图像数据 集检索问题,引入了特征袋模型检索框架来进行快速的检索。在现实应用中图像并不会这 么小,图像所包含的内容也更加的丰富,一个图像文件由许多局部描述符构成。
[0003] 若直接使用哈希方法对每个描述符进行索引,那么例如局部敏感哈希(LSH)方法 需要100-500字节来索引一张图像。而当一个数据集有几百万图像并包含几十亿描述符的 时候依靠局部敏感哈希(LSH)方法是难以执行的。基于BoF词袋模型的图像检索,通过聚类 的方法将描述符量化为视觉词汇,同时建立以视觉词汇为索引的倒排索引系统。这样的方 法不仅能进行高速的图像检索,在空间效率上也更优于敏感哈希(LSH)方法。举例说明,使 用20个哈希函数的LSH需要160字节的大小来表示一个描述符,而BoF词袋模型只需要4字节 来存储一个视觉词汇。但基于BoF词袋模型的图像检索也存在着问题,在描述符量化为视觉 词汇的过程中很大程度上降低了局部特征的判别能力。并且聚类中心即视觉词汇的数量k 难以确定。Jegou等人提出的用哈希二值编码的方法为属于同一视觉词汇的描述符提供进 一步的划分。但此方法采用了选取随机投影构成哈希函数的方法,并没有解决相似性保留 问题。基于哈希二值编码的特征袋图像检索在性能和准确率上有待进一步提高。

【发明内容】

[0004] 发明目的:本发明为了解决现有技术中的问题,提出了一种基于哈希二值编码的 特征袋图像检索方法,从而有效解决基于哈希二值编码的数据下,图像的快速准确检索问 题。

【发明内容】
[0005] :本发明公开了一种基于哈希二值编码的特征袋图像检索方法,包含如 下步骤:
[0006] 对训练图像数据集中所有图像进行步骤1~步骤6的处理,对待检索图像执行步骤 7;
[0007] 步骤1,提取训练图像数据集中所有图像的特征,采用K-Means算法聚类得到大小 为K的视觉词汇表;
[0008] 步骤2,计算视觉词汇表中每个视觉词汇tf-idf权值;
[0009]步骤3,计算训练图像数据集中所有图像的每个特征相应的视觉词汇;
[0010]步骤4,在训练图像数据集上建立一维倒排序索引;
[0011] 步骤5,分别从空间距离相似性与语义相似性两方面学习得到特征二值编码的投 影方向;
[0012] 步骤6,根据步骤5得到的投影方向,计算得到训练图像数据集中所有图像特征的 二值编码;
[0013] 步骤7,输入待检索图像,计算训练图像数据集中图像的得分s,根据得分s排序检 索出与待检索图像最相近的图像。
[00M] 其中,步骤1包括:
[0015]采用词带模型(Bag_of-Words,BoW)完成对图像特征的向量化表达,先进行图像特 征提取,对训练图像数据集中的所有图像提取尺度不变特征SIFT( Scale-Invariant Feature Transform),每张图像提取d条SIFT特征,每条特征128维,将此特征称为局部特 征,每一条局部特征构建一条特征向量,对得到的特征向量利用K-Means算法进行聚类,聚 类中心为K个,则每一个聚类中心即为一个视觉词汇,所有的聚类中心构成大小为K的视觉 词汇表。
[0016] 步骤2包括:在训练图像数据集中统计每个视觉词汇出现的次数,通过视觉单词的 频度赋予每个视觉词汇权值:较少出现的视觉词汇被认为有着更高的判别能力,则赋予较 高的权值;而经常出现的视觉词汇则赋予较低的权值。根据步骤1建立的视觉词汇表,为每 个视觉词汇计算权值,首先计算tf-idf (词频-逆文本频率指数)的值作为视觉词汇的权值, 方法如下:Tf-idf (词频-逆文本频率指数)实际上是:TF*IDF,TF词频(Term Frequency), IDF逆向文件频率(Inverse Document Frequency) JF表示视觉词汇在训练集中出现的频 率。包含视觉词汇ti的数量越少,也就是数量m越小,IDF越大,则说明视觉词汇ti具有很好 的类别区分能力。某一类图像C中包含视觉词汇七的个数为m,而其它类包含七的总数为h, 则所有包含ti的图像数m=mi+ki,当mi大的时候,ηι也大,按照IDF公式得到的IDF的值会小, 就说明该视觉词汇ti类别区分能力不强。如果一个视觉词汇在一个类的图像中频繁出现, 则说明该视觉词汇能够很好的代表这个类的图像的特征,这样的视觉词汇应该给它们赋予 较高的权重,并选来作为该类图像的特征词以区别与其它类图像。词频(term frequency, TF)指的是某一个给定的视觉词汇在该图像中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。对训练集中每个视觉词汇的词频(Term Frequency)和IDF逆向文件频率(Inverse Document Frequency)进行统计求和。
[0017] 步骤3包括:
[0018] 根据视觉词汇表,采用欧式距离,使用最近邻算法将训练图像数据集中所有图像 的局部特征分配给视觉词汇中最相近的视觉词汇。
[0019] 步骤4包括:
[0020]倒排序索引需要根据属性的值来查找记录,索引表中的每一项都包括一个属性值 和具有该属性值的各记录的地址,由属性值来确定记录的位置,根据步骤1建立的视觉词汇 表,对提取到的特征建立索引系统,索引的每一项对应于SIFT (Seal e-Invariant Feature T r a n s f o rm)特征构成的视觉词汇表中的一个视觉词汇。给定一个训练图像总数为N的训练 图像数据集代表训练图像数据集中的第i张训练图像,每张训练图像包含一 个由SIFT算法提取到的局部特征集合{AV}^,Xj表示训练图像的第j个局部特征,d是局部特 征的数量,将大小为K的视觉词汇表记为彳':^,A表示第ji个视觉词汇,则一维倒排序索 弓丨表示为见=取為,…-IM,在R中,每个项包含一列已索引的特征,并存储着由步骤2计算 得到的图像ID、TF值以及IDF的值。
[0021] 步骤5包括:
[0022]使用两种方法学习二值编码的投影方向,一种是基于空间距离相似性,另一种是 基于语义相似性,具体如下:
[0023]基于空间距离相似性的二值编码学习算法步骤为:给定一组局部特征X=[X1, X2, . . .,Xn],Xj代表第j个局部特征,待求的二值编码为Z=[bl,b2, . . .,bn],最小化相似特征 间的汉明距离,即目标函数为:
[0024]
[0025] Subject to:
[0026] bgE{-l,l}g,
[0027]
[0028] 其中%ι?/2为相似度矩阵,qi,q2为索引下标,表示矩阵的如行屯列位置的元素,采用 特征的欧式距离计算相似度矩K
[0029] 其中e定义为相似特征间的欧氏距离,心为对特征进行编码所得到的第g位二值 编码,约束1^的总和为0,表示每一位二值编码平衡,即拥有相同的0和1的个数,引入拉普拉 斯矩阵L:
[0030]
[0031]
[0032]将最小化相似特征间的汉明距离的目标函数转化为:
[0033] Minimize:trace(ZTLZ),
[0034] Subject to:bgE {-1,l}g,
[0035]其中traceO为矩阵的迹,Z为二值编码bg所构成的矩阵,
[0036] 松弛bge{-l,l}g约束,不再要求编码的总和为〇,则最终目标函数为:
[0037] Minimize: trace(PiTXLXTPi),
[0038] 其中PiS待学习的投影方向,P/SPi的转置矩阵,xTSx的转置矩阵,L为对应的拉 普拉斯矩阵,则学习到的投影方向Pi为XLX T不包含特征值0以外的最大t个特征值所对应的 特征向量;
[0039] 计算步骤如下:
[0040] (1)计算拉普拉斯矩阵 A/,.ft = Ai.ft - ;
[0041] (2)计算矩阵 XTLX;
[0042] (3)计算矩阵XTLX的最大t个特征值所对应的特征向量Pi。
[0043] 则丹即为所要求的投影方向。
[0044] 基于语义相似性的二值编码学习算法步骤为:
[0045]定义优化目标函数J(H):
[0046]
[0047] 其中Η为优化参数,H(Xj)表示特征Xj所对应的二值编码,e £表示特征~和 幻来自同一个标签类别,(义,七)£,表示特征属于同一视觉词汇,(xu,x〇eD表示特 征x4PXj既不来自于同一个标签类别也不属于同一个视觉词汇,参数λ用以平衡给予相同标 签类别与相同视觉词汇的相似二值编码间的关系;
[0048] 通过定义关联矩阵Α将目标函数转化为矩阵形式,关联矩阵为:
[0049]
[0050] 根据该优化目标函数,给定一组局部特征X=[X1,X2, . . .,χη],特征所属的类别标 签集[tagi,tag2, . . .,tagn],tagc为第c个局部特征对应的类别标签,特征所属的
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1