一种基于聚类的距离方向直方图的图像检索方法

文档序号：9396873阅读：313来源：国知局

一种基于聚类的距离方向直方图的图像检索方法
【技术领域】
[0001] 本发明属于模式识别与信息处理技术领域，涉及计算机视觉方面的海量图像检索。
【背景技术】
[0002] 随着互联网和数字摄影设备的普及和发展，互联网上的图像呈爆炸性增长。如何从海量图像数据中，快速高效地获取自己感兴趣的图像显得尤为重要，吸引着越来越多专家学者的注意。随着图像规模的增加，图像检索的难度也相应增加，不仅要求高的检索准确率和效率，也要求尽可能低的存储开销，同时需要确保图像检索系统的可扩展性。因此，大规模的图像数据和其内容的多样性增加了对具有高辨识度的紧凑图像表达的需要。为了获取高辨识度的图像表达，研究者提出了多种有效的算法。其中，融合了发展相对成熟的文件索引技术和计算机视觉技术的词袋模型是一种应用广泛的图像检索模型。目前多数前沿的大规模图像检索系统依赖于图像的词袋模型来实现系统的可扩展性。然而训练图像集规模增加到百万级别，词袋模型面临着索引存储和相似度计算开销巨大的问题。通过聚合图像中大量的局部特征，生成图像的全局表达可以获得更好的检索性能。基于此，为了获得更紧凑的图像特征，Jegou等人结合了词袋模型Fisher Kernel的思想，将局部特征进行聚合生成一个紧凑的全局描述符，也就是VLAD描述符。VLAD描述符是比Fisher Kernel特征描述更加简单的聚合特征描述符，其检索性能较词袋模型更好。然而，VLAD描述符在量化的过程中，局部描述符的量化误差有正有负，可能出现彼此抵消的情况。同时，VLAD描述符只用了局部特征的描述符信息，而忽略了其他有用线索，例如空间信息，进而影响其检索性能和可扩展性。
[0003] 大规模图像检索的关键在于其可扩展性，在处理海量图像数据时仍能获得高检索准确率并保存尽量低的索引存储开销。为了实现这个目标，本发明针对现有方法的不足，吸取了计算机视觉理论和信息检索理论中的最新成果，研究了如何提取具有高辨识度和区分度的图像紧凑表达，来实现高效的大规模图像检索。基于此，本发明提出了一种用于检索的基于聚类的距离方向直方图。基于聚类的距离方向直方图利用整个图像集所提取的局部特征描述符的全局特性和规律，计算图像中的局部特征描述符相对于整个图像集的特征描述符的分布。这样的分布特性可以让图像相对于图像集中的其他图像具有高辨识度。同时通过利用局部特征的主方向信息，进一步提高其检索性能，具有更好的可扩展性，适用于大规模图像检索。

【发明内容】

[0004] 本发明要解决海量图像的检索问题，特别是包含百万或百万以上图像的训练图像集，由此在处理海量图像数据时，可以高效地检索出用户所感兴趣的图像。本发明的目的在于提供一种具有良好的可扩展性，适用于大规模图像检索的图像表达方法。
[0005] 为达到上述目的，本发明提出的一种基于聚类的距离方向直方图的图像检索方法，包括如下步骤：
[0006] 步骤1 :首先提取训练图像集中各图像的SIFT特征；
[0007] 步骤2 :对步骤1获得所有图像的局部特征进行聚类，获得局部特征的粗划分，对每个粗划分中的分量再进行聚类处理，获得局部特征的子划分；将步骤1获得的各局部特征的主方向划分为R个主方向区域，根据各局部特征的主方向将其划归入相应的主方向区域，使各区域中包含局部特征的数量相近；再根据主方向区域的划分方法来对局部特征的子划分进一步的划分为多个子区域；图像集中每幅图像的局部特征在同一个子区域的数目，组成该图像的全效表达，获得图像集中每幅图像的全效表达；
[0008] 步骤3 :若要对图像进行检索，则根据步骤1相同的方法提取目标图像的局部特征，将目标图像的各局部特征量化到距离最近的步骤2获得的子区域；
[0009] 步骤4 :统计每个子区域中目标图像的局部特征数目，组成目标图像的全效表达；
[0010] 步骤5 :找到与目标图像的全效表达距离最近的图像，即为与目标图像最相似的图像。
[0011] 进一步的，所述步骤2中采用κ-means方法对局部特征进行聚类处理。
[0012] 进一步的，所述步骤2中获得图像的全效表达后，再采用内标准化方法，对图像全效表达进行标准化；所述步骤4获得目标图像的全效表达后，采用相同的内标准化方法进行内标准化，所述步骤5计算内标准化后的全效表达之间的距离。
[0013] 进一步的，将步骤2获得的内标准化后的图像全效表达划分成K个子向量，并对每个子向量单独编码并存储；之后根据基于乘积量化器的近似最近邻搜索算法对图像全效表达建立索引，以及计算目标图像与图像集中图像的相似度。
[0014] 本发明的有益效果：
[0015] 本发明通过提取图像集中局部特征的分布信息，将图像局部特征很好地聚合为一个紧凑的全局描述，解决了大规模图像的检索问题，本发明具有以下优点和有益效果：
[0016] 1.采用层级K-means算法，快速实现对图像集局部特征空间的划分。
[0017] 2.在对图像集特征空间的划分中，不仅考虑了局部特征描述符，而且考虑了局部特征主方向信息，实现了对图像集局部特征空间更细致的划分。
[0018] 3.通过利用图像集局部特征全局特性和规律，将图像大量的局部特征聚合成一个紧凑的全局特征，能有效的减少特征的存储空间，提高检索准确率，获得更好的可扩展性。
【附图说明】
[0019] 图I VLAD和DOHC描述符在不同数目的干扰图像下的大规模图像检索性能图；
[0020] 图2 DOHC和VLAD描述符在Ukbench图像集上的平均准确率MAP (%);
[0021] 图3 DOHC和VLAD描述符在Holidays图像集上的平均准确率MAP (%);
[0022] 图4 DOHC和VLAD描述符在0xford5k Building图像集上的平均准确率MAP(%);
[0023] 图5 DOHC和VLAD描述符在Paris6k图像集上的平均准确率MAP (%);
[0024] 图6 DOHC和VLAD描述符的大规模图像检索性能对比。
【具体实施方式】
[0025] 为了使得本发明的目的、技术方案和有益效果更加清楚明白，以下结合具体案例，并参照附图，对本发明进行进一步详细的说明。
[0026] 本发明是用于大规模图像检索，特别是百万或百万以上图像的检索，图像全效表达方法。该方法统计训练图像集所提取的局部视觉特征的分布特性，将局部特征空间进行划分。通过目标图像局部特征的描述符和划分空间中心的距离，以及局部特征主方向和划分空间主方向之间的一致性将局部特征分配到距离最近的子区域中，进而生成图像全效表达。使用图像全效表达进行检索，能高效的完成对大规模图像的检索工作。通过大量的实验验证了本发明在使用较少计算量的情况下，有效的提高了图像检索的准确率，并在大规模图像集上获得了很好的可扩展性。
[0027] 本发明提出的用于大规模训练图像集中相似图像检索的图像全效表达包括如下步骤：
[0028] 步骤1 :为了提取出图像的视觉信息，首先利用已有的局部特征提取算法提取图像的局部特征。本发明采用的是经典的SIFT特征，提取出训练图像集和目标图像的SIFT 特征。每幅图像根据所提取的SIFT特征表示为I =比，f2，…，fM] e Rdxm，其中每个SIFT 特征A包括描述符d i，坐标U1，主方向Θ i和特征尺度s 1<3
[0029] 步骤2 :对步骤1所获得的图像集的局部特征，采用层次K-means对其进行聚类。我们利用K-means算法首先将图像集的SIFT特征描述符进行聚类，获得K个聚类C = [Cl，C2，…，cK]。其中K的取值设定为较少的整数值。本发明中，K的值设置为2的指数，从 8到128。然后，对获得的每个聚类(^再次使用K-means，聚类成N子聚类c ;= [c Cii2，… ，cliN]。采用这样的层次K-means聚类方式，可以快速地获得了 KXN个子聚类。在本发明中，认为每个聚类C1是一个对整个特征空间的粗划分，而每个子聚类。第1个粗划分空间中的一个子划分。通过层次聚类，我们获得了 KXN子聚类，也就是KXN个特征空间的子划分。我们采用聚类中心{μ:，μ2，...，μN}来表示局部特征的粗划分空间C= [C1,c2, ···，~]，采用子聚类的聚类中心{μu，μ 1ι2，...，μ 1ιΚ}来表示相应的子划分空间。
[0030] 然后统计图像集中提取出的SIFT特征的主方向，并根据图像集中SIFT特征主方向的分布，将主方向分为R个区域，R的具体数值是根据经验人为设定的，使每个区域内的 SIFT特征数目尽量相同。通过对主方向的划分，每个子划分空间C1^分为R子区域c h y。在本发明中，图像集的局部特征空间被划分为K

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董乐;张宁;
技术所有人：电子科技大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。