基于深度搜索的视觉图像检索方法及系统的制作方法

文档序号：8512545阅读：179来源：国知局

基于深度搜索的视觉图像检索方法及系统的制作方法
【技术领域】
[0001] 本发明涉及的是一种视觉图像检索领域的技术，具体是一种运用深度搜索和机器学习来挖掘检索图的高层语义信息，从而优化检索结果的方法及系统。
【背景技术】
[0002] 随着大数据时代的到来，每天都有数以亿计的数字图像被上传到云服务器端，供人们使用和分享。如何在海量的图像集合中找到满足用户需要的子集，就是图像检索的研宄课题。
[0003] 图像检索主要包括三个方面：一是提取图像特征。该特征是对图像的抽象概括，必须包含足够的信息来描述图像某方面特性（如形状或颜色等）。特征多为向量形式，便于储存和检索。二是建立索引结构。大型图像检索平台往往包含百万条数据记录，每次检索要遍历整个数据集显然缺乏效率。因此会对特征预处理，通过聚类或局部敏感哈希（local sensitive hash)等方法将相近的图像组成子集。这样检索时只要遍历与查询与检索图相近的子集便能得到结果。三是相似度匹配算法，用于衡量两个图像特征之间的相似度（如欧氏距离，KL距离等）。
[0004] 目前图像检索在电子商务、科普教育等领域都有广泛运用。以网购服装为例：首先，用户上传所中意的服饰照片作为查询图。然后，购物平台的检索系统会提取查询图的形状、颜色等不同特征，再通过索引结构，从数据库中快速找出与之相近的服装子集。最后根据匹配算法，计算查询图与存储图之间的相似度，按降序排序，返回给用户。由此可见，图像检索的速度主要依赖于索引结构，而检索的精度则取决于提取特征的有效性。
[0005] 根据所提取特征的不同，图像检索又可分为两种：基于文本的图像检索（Text-based Image Retrieval， CBIR) 和基于内容的图像检索（Content - based Image Retrieval，CBIR)。TBIR提取的是文本特征，包括图像周围的标签、描述性文字等。这种系统一般以关键词形式提问查询图像，与传统的文本检索有一定的共同性。CBIR则提取图像视觉特征，主要是依靠眼睛对图像底层内容进行感知，包括颜色、形状、纹理。其中颜色特征多采用色彩直方图来描述。纹理特征通常使用Leung-Malik(LM) ,Maximum Response(MR) 等滤波器银行（Filter Banks)方法来提取。形状特征主要有包括尺度不变特征转换 (Scale -invariant feature transform，SIFT)，方向梯度直方图（Histogram of Oriented Gradient，HOG)。前者具有位移、旋转、缩放不变性，后者能很好地描述物体的表象和形状。除此之外，还有以提取图像边缘轮廓为主的层次方向特征（Hierarchical Orientation Feature，HOF)，该特征不仅适用于自然图像，也支持草图、简笔画的检索。具体可以参考文献"R. Zhou，L. Chen，and L. Zhang. Sketch - based image retrieval on a large scale database. In ACM MM，2012. "。
[0006] 遗憾的是，以上提到的所有特征都聚焦于图像的底层特征，而非高层语义，因此在检索时往往会得到"形似而非"的结果。仍以服装为例，可以很好的描述衣服的纹理、颜色，但对于风格、款式等抽象概念却无法描述。由于特征算子的局限性，这些高层语义会在提取过程中丢失，导致检索结果欠佳。文献"Nancy Goyal，Navdeep Singh，A Review on Different Content Based Image Retrieval Techniques Using High Level Semantic Features，IJIRCCE 2014. "提供了一些现有解决方案。其中之一是使用多种不同视觉特征混合，这样可以从不同角度来描述图像，提高检索精度。但是这个方案需要更多的存储资源，同时也会提高匹配算法的复杂性。另一种方案是让用户输入关键字，用TBIR技术来描述语义信息。这无疑会增加用户负担，影响系统实用性。在更一般的应用场合，不能期望用户给出确切的文字描述。因此，需要研发一种新型的图像检索策略，同时兼顾底层视觉与高层语义的相似性，并且尽可能保持原有索引结构和特征向量。
[0007] 经过对现有技术的检索发现，中国专利文献号CN103020111A公开（公告）日 2013. 04. 03,公开了一种图像检索方法，基于词汇树层次语义模型实现。首先提取图像包含颜色信息的SIFT特征来构造图像库的特征词汇树，生成描述图像视觉信息的视觉词汇。并在此基础上利用Bayesian决策理论实现视觉词汇到语义主题信息的映射，进而构造了一个层次语义模型，并在此模型基础上完成了基于内容的语义图像检索算法。通过检索过程中用户的相关反馈，不仅可以加入正反馈图像扩展图像查询库，同时能够修正高层语义映射。实验结果表明，该技术的检索方法性能稳定，并且随着反馈次数的增加，检索效果明显提升。但该技术只限于运用SIFT特征进行检索的场合，基于其它视觉特征（如：H0G、H0F) 的检索系统无法使用该技术，此外该技术涉及大量人机交互过程，检索率依赖于用户反馈的优劣。

【发明内容】

[0008] 本发明针对现有技术存在的上述不足，提出一种基于深度搜索的视觉图像优化搜索方法及系统，克服图像视觉特征对高层语义描述的先天不足，通过在底层特征空间中深度搜索（Deep Search)来找回特征抽取过程中损失的语义信息，不需要用户输入额外的文本关键字。同时本发明适用于各种向量形式存储的检索系统，无需对检索结构和特征本身做改动，可以使用并行优化，从而达到更佳的检索速度。
[0009] 本发明是通过以下技术方案实现的：
[0010] 本发明涉及一种基于深度搜索的视觉图像优化搜索方法，通过在底层特征空间中深度搜索找到查询图的相似子集，在该相似子集上用机器学习方法分析查询图的语义，最后使用优化后的相似度匹配方式实现优化检索。
[0011] 所述的深度搜索包括以下步骤：
[0012] 1)检索查询图Q得到前M张最为相似的图，记D = (X1, X2,.. X1J，从D中查询一组图像Ds= {D i，D2. ·· DJ作为子查询集；
[0013] 2)以子查询集Ds中的每一张图为子查询图，重复步骤1进行第二次检索，记前k个返回结果为N k (Di) ,DiE D s，i = L..m，得到查询图的相似子集Sm (Q) =U Nk(Di)Ae D s，其中：Sm(Q)的大小为K，K = m*k。
[0014] 由于子查询集Ds中的每一张图D i之间相互独立，步骤2优选使用并行处理。
[0015] 所述的相似子集Sm(Q)中的图都经过两轮搜索，当需要得到更大的相似子集时，则可以以S m(Q)作为子查询集Ds'进行新一轮搜索。
[0016] 所述的子查询集Ds通过基于视觉的深度搜索、基于类别的深度搜索以及K近邻搜
[0017] 所述的信息熵索中的任意一种方式得到，并在每次查询后通过计算信息摘（entropy)评价查询图相似集 Sm(Q)的优劣：
【主权项】
1. 一种基于深度搜索的视觉图像优化搜索方法，其特征在于，通过在底层特征空间中深度搜索找到查询图的相似子集，在该相似子集上用机器学习方法分析查询图的语义，最后使用优化后的相似度匹配方式实现优化检索。
2. 根据权利要求1所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的相似子集中的图经过两轮检索。
3. 根据权利要求1或2所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的深度搜索包括以下步骤： 1) 检索查询图Q得到前M张最为相似的图，记D = (X1, X2,.. X1J，从D中查询一组图像 Ds= {D i，D2... DJ作为子查询集； 2) 以子查询集Ds中的每一张图为子查询图，重复步骤1进行第二次检索，记前k个返回结果为Nk (Di) ,DiE D s，i = L..m，得到查询图的相似子集Sm (Q) =U Nk(Di)Ae Ds，其中：Sm(Q)的大小为K，K = m*k。
4. 根据权利要求3所述的基于深度搜索的视觉图像优化搜索方法，其特征是，由于子查询集Ds中的每一张图D i之间相互独立，步骤2使用并行处理。
5. 根据权利要求2或3所述的基于深度搜索的视觉图像优化搜索方法，其特征是，当需要得到更大的相似子集时，则以Sm(Q)作为子查询集D s'进行新一轮搜索。
6. 根据权利要求3所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的子查询集Ds通过基于视觉的深度搜索、基于类别的深度搜索以及K近邻搜索中的任意一种方式得到，并在每次查询后通过计算信息熵评价查询图相似集S m(Q)的优劣。
7. 根据权利要求6所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的信息熵Z
其中：P (Ci I Sm (Q))代表 Sm(Q)中标记为(^的图像占总体的比例。
8. 根据权利要求1所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的分析查询图的语义是指：以查询图的相似子集S m (Q)中的图像特征及其标签作为样本，对统计模型进行训练，以此来预测查询图属于某一类别的概率并得到其语义信息。
9. 根据权利要求1所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的优化后的相似度匹配方式是指：为了优化检索结果，定义图像相似度测量函数为： diSnew(Q，Ik) = diS()ld(Q，Ik)*(l-P(c(Ik) |Q))，其中：diS()ld(Q，Ik)代表原系统中查询图 Q与Ik在视觉特征空间上的距离，P (c (I k) I Q)是Q与Ik属于同类，即语义一致的概率，通过分析查询图的语义得到。
10. 根据权利要求1或9所述的基于深度搜索的视觉图像优化搜索方法，其特征是，所述的优化后的相似度匹配方式中引入计算预测模型在训练样本集上的五折交叉校验精度 P，并用其表示p(c(ik) |Q)预测的有效性，得到图像样本空间位置关系为： Clisnew(Q，Ik) = diS()ld(Q，IkMl-P *P(c(Ik) IQ))，其中：diS()ld(Q，Ik)代表原系统中查询图Q与Ik在视觉特征空间上的距离，P (c (I k) IQ)是Q与Ik属于同类，即语义一致的概率，通过分析查询图的语义得到。
11. 一种实现上述任一权利要求所述方法的系统，其特征在于，包括：用于提取图像的视觉特征的特征提取模块，采用最小熵原则寻找查询图的相似集的相似集查找模块，采用 SVM预测查询图的语义类别及概率的语义分析模块，以及结合图像的低层特征和高层语义得到最终搜索结果的相似度匹配模块。
【专利摘要】一种图像处理领域的基于深度搜索的视觉图像优化搜索方法，通过在底层特征空间中深度搜索找到查询图的相似子集，在该相似子集上用机器学习方法分析查询图的语义，最后使用优化后的相似度匹配方式实现优化检索。本发明不需要用户输入额外的文本关键字。同时本发明适用于各种向量形式存储的检索系统，无需对检索结构和特征本身做改动，可以使用并行优化，从而达到更佳的检索速度。
【IPC分类】G06K9-62, G06F17-30, G06F17-27
【公开号】CN104834693
【申请号】CN201510198766
【发明人】周正中, 张丽清
【申请人】上海交通大学
【公开日】2015年8月12日
【申请日】2015年4月21日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周正中;张丽清;
技术所有人：上海交通大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。