一种基于多标签最小二乘哈希算法的大规模图像检索方法

文档序号:8498704阅读:756来源:国知局
一种基于多标签最小二乘哈希算法的大规模图像检索方法
【技术领域】
[0001] 本发明涉及图像处理领域,具体涉及一种基于多标签最小二乘哈希算法的大规模 图像检索方法。
【背景技术】
[0002] 最邻近搜索(NN)是一个在尺度空间中寻找最近点的优化问题。问题描述如下:在 尺度空间M中给定一个点集S和一个目标点qGM,在S中找到距离q最近的点。很多情况 下,M为多维的欧几里得空间,距离由欧几里得距离或曼哈顿距离决定。随着互联网近几年 不断发展,互联网中产生了巨大规模的数据。在大规模数据中最近邻搜索往往需要很多时 间,许多情况下,我们选择近似最近邻搜索(ANN)算法,来近似NN的结果,使计算复杂度大 大下降。
[0003] 在ANN方法发展的这几年中,提出了许多哈希方法用于高效的近似最近邻ANN搜 索。这些哈希方法把高维数据嵌入在一个能够保持相似性的低维海明空间中,比较类似的 图像在低维海明空间距离比较小。如果把现有的哈希方法按监督信息划分,大致分为3中 类型:无监督哈希、有监督哈希、半监督哈希。
[0004] 当数据有监督信息的时候,有监督哈希方法性能总是表现的比无监督哈希方法要 好。在实际应用中,多标签数据会经常出现在监督搜索场景中(多标签指的是一个样本同 时有多个标签),比如对一张描述"江南"的图像来讲,可能有水、山、竹子、白云、人等事物同 时出现在图像中;所以,研宄多标签哈希方法在监督哈希领域有非常大有意义。然而,现有 的哈希方法主要是解决单标签的数据,很少有多标签哈希方法被提出。

【发明内容】

[0005] 为应对并处理有监督数据的图像,该发明提出了一种基于多标签最小二乘哈希算 法的大规模图像检索方法。该方法提高了模型的泛化能力,而且对多标签数据的图像搜索 结果有很大提尚。
[0006] 为实现上述目的,本发明的具体方案如下:
[0007] 一种基于多标签最小二乘哈希算法的大规模图像检索方法,包括以下步骤:
[0008] 步骤(1):提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数 据矩阵和监督信息矩阵,所述训练集中每幅图像均包括多个标签信息;
[0009] 步骤(2):对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最 优投影矩阵和第二次降维最优投影矩阵;
[0010] 步骤(3):优化两次降维后的视觉特征数据矩阵,求取最优旋转矩阵R以及两次降 维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;
[0011] 步骤⑷:检索图像库中的图像时,根据训练集得到的第一次降维最优投影矩阵、 第二次降维最优投影矩阵和最优旋转矩阵R,求取图像库中的每幅图像的哈希编码,并计算 图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈 希编码之间具有最小海明距离的图像。
[0012] 所述步骤(1)的具体过程为:
[0013] 步骤(1. 1):对训练集中每幅图像提取d维的视觉特征,得到一个dXn的原始视 觉特征数据矩阵X= [Xl,...,xn]ERdXn,其中,n表示训练集中训练样本的个数,所述训练 样本是具有标签的图像;
[0014] 步骤(1. 2):标注训练集中每张图中的标签,然后对所标注的结果进行筛选和统一;假设标注后图像库中的所有图像一共有k个标签,每幅图像的标签信息表示为kX1的 向量;
[0015] 当图像包含某个标签,标签向量中对应位置为1,否则为0,那么对于训练样本个 数为n的训练集得到一个kXn的监督信息矩阵Y= [yi,. . .,yn]eRkxn。
[0016] 所述步骤(2)的具体过程为:
[0017] 步骤(2. 1):使用与典型相关分析等价的最小二乘法,把训练集的原始视觉特征 数据矩阵均投影到与训练集的监督信息矩阵维度一致的低维空间中,得到训练集的第一次 降维后的视觉特征数据矩阵;
[0018] 步骤(2. 2):使用主成分析方法,把经过步骤(2. 1)降维后的视觉特征数据矩阵再 投影预设的哈希码长度的维度空间中,得到第二次降维后的视觉特征数据矩阵。
[0019] 所述步骤(2. 1)的具体过程为:
[0020] 步骤(2. 1. 1):确定投影矩阵Wdxk的求解模型,该模型采用典型 相关分析的等价形式的最小二乘法加上二范数约束的方法获得:
【主权项】
1. 一种基于多标签最小二乘哈希算法的大规模图像检索方法,其特征在于,包括以下 步骤: 步骤(1):提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩 阵和监督信息矩阵,所述训练集中每幅图像均包括多个标签信息; 步骤(2):对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投 影矩阵和第二次降维最优投影矩阵; 步骤(3):优化两次降维后的视觉特征数据矩阵,求取最优旋转矩阵R以及两次降维后 的视觉特征数据矩阵的哈希编码,得到标准哈希编码; 步骤(4):检索图像库中的图像时,根据训练集得到的第一次降维最优投影矩阵、第二 次降维最优投影矩阵和最优旋转矩阵R,求取图像库中的每幅图像的哈希编码,并计算图像 库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编 码之间具有最小海明距离的图像。
2. 如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(1)的具体过程为: 步骤(I. 1):对训练集中每幅图像提取d维的视觉特征,得到一个dXn的原始视觉特 征数据矩阵X= [Xl,...,xn] ERdxn,其中,n表示训练集中训练样本的个数,所述训练样本 是具有标签的图像; 步骤(1.2):标注训练集中每张图中的标签,然后对所标注的结果进行筛选和统一;假 设标注后图像库中的所有图像一共有k个标签,每幅图像的标签信息表示为kXl的向量; 当图像包含某个标签,标签向量中对应位置为1,否则为〇,那么对于训练样本个数为n 的训练集得到一个kXn的监督信息矩阵Y = [yi,? ? ?,yn] e Rkxn。
3. 如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(2)的具体过程为: 步骤(2. 1):使用与典型相关分析等价的最小二乘法,把训练集的原始视觉特征数据 矩阵均投影到与训练集的监督信息矩阵维度一致的低维空间中,得到训练集的第一次降维 后的视觉特征数据矩阵; 步骤(2. 2):使用主成分析方法,把经过步骤(2. 1)降维后的视觉特征数据矩阵再投影 预设的哈希码长度的维度空间中,得到第二次降维后的视觉特征数据矩阵。
4. 如权利要求3所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(2. 1)的具体过程为: 步骤(2. I. 1):确定投影矩阵Wdxk的求解模型
分析的等价形式的最小二乘法加上二范数约束的方法获得:
其中,f为类指示矩阵;Y为监督信息;X为原始视觉特征数据矩阵,(Wdxk)T是W dxk的转 值矩阵;《」是W dxk矩阵的第j列,w /是w」的转置;k指的是训练数据集中样本具有标签的 总个数,n是训练样本的个数;a表示系数; 步骤(2. 1.2):采用最小二乘QR分解方法来求解公式(1),得到Wdxk的最优投影矩阵, 记为^; 步骤(2. 1.3):将投影矩阵代入降维方程中,得到第一次降维后的视觉特征数据矩阵 X1,所述降维方程的表达式为:
其中,X为原始视觉特征数据矩阵;的转置矩阵。
5. 如权利要求3所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(2.2)中获取第二次降维后的视觉特征数据矩阵再投影预设的哈希码 长度的维度空间中的线性映射投影矩阵的具体过程为: 步骤(2.2. 1):假设把第二次降维后的视觉特征数据矩阵再投影预设的哈希码长度的 维度空间中的线性映射投影矩阵为Wkx%确定其优化函数:
其中,h (X)表示假定的哈希函数;c表示要将数据降到的维数;Wi表示W kXc;的第i列; <表示^的转置;n表示样本的个数;X为原始视觉特征数据矩阵;X为原始视觉特征数据 矩阵的元素; 步骤(2. 2. 2):对SgnO函数进行松弛,然后得到下列优化函数:
其中,X1为第一次降维后的视觉特征数据矩阵;时X1W")表示求取矩阵 ((灰的主对角线上的元素之和;n表示训练集的样本个数; 步骤(2.2.3):通过分解特征值,来求得各个特征值对应的特征向量,从而得到投影矩 阵WkXc;的最优矩阵ff/S。
6. 如权利要求3所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(2.2)中的第二次降维后的视觉特征数据矩阵&为: x2 xi (5) 其中,ar/sf为的转置矩阵;X1为第一次降维后的视觉特征数据矩阵。
7. 如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(3)中使用迭代量化方法优化经过步骤(2)降维后的视觉特征数据矩 阵。
8.如权利要求1所述的一种基于多标签最小二乘哈希算法的大规模图像检索方法,其 特征在于,所述步骤(3)中获取标准哈希编码的具体过程为: 步骤(3. 1):随机生成出一个旋转矩阵R ; 步骤(3.2):采用旋转矩阵R来旋转经过步骤(2)降维后的视觉特征数据矩阵; 步骤(3.3):采用符号函数SgnO,把使用步骤(3.2)旋转过后的视觉特征数据矩阵进 行二值化,得到二值化矩阵B ; 步骤(3.4):将旋转矩阵R和二值化矩阵B代入公式(6)中,重复步骤(3. 2)~步骤 (3. 3),得到公式(6)的局部最优解,也就是最优旋转矩阵R ;
其中,X2为第二次降维后的视觉特征数据矩阵;RT为R的转置矩阵; 步骤(3. 5):再重复步骤(3. 2)~步骤(3. 3),得到标准哈希编码。
【专利摘要】本发明公开了一种基于多标签最小二乘哈希算法的大规模图像检索方法,包括:提取训练集中图像的视觉特征和监督信息,分别得到原始视觉特征数据矩阵和监督信息矩阵,训练集中每幅图像均包括多个标签信息;对原始视觉特征数据矩阵进行两次降维处理,分别得到第一次降维最优投影矩阵和第二次降维最优投影矩阵;求取最优旋转矩阵及两次降维后的视觉特征数据矩阵的哈希编码,得到标准哈希编码;根据训练集得到的第一次降维最优投影矩阵、第二次降维最优投影矩阵和最优旋转矩阵,检索图像库中的图像时,求取图像库中的每幅图像的哈希编码,并计算图像库中的每幅图像的哈希编码与标准哈希编码之间的海明距离,输出图像库中与标准哈希编码之间具有最小海明距离的图像。
【IPC分类】G06F17-30, G06K9-62
【公开号】CN104820696
【申请号】CN201510213390
【发明人】许信顺, 汪胜圣, 郭山清, 崔立真, 王晓琳
【申请人】山东大学
【公开日】2015年8月5日
【申请日】2015年4月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1