一种基于n元图片索引结构的图片检索方法与系统的制作方法

文档序号:6492498阅读:151来源:国知局
一种基于n元图片索引结构的图片检索方法与系统的制作方法
【专利摘要】本发明公开了一种基于n元图片索引结构的图片检索方法与系统,涉及图像检索【技术领域】。本发明公开的方法包括:收到用户的检索操作时,判断用户输入的检索内容的形式为文本形式,则对用户输入的文本进行基于n元图片索引的文本内部向量化处理,利用处理结果在文本标签内的索引下进行图片检索,用户输入的检索内容的形式为图片形式时,对用户输入的图片进行基于n元图片索引结构的图片语义自动标注,提取n元图片,针对提取的n元图片的TF-IDF特征向量在语义标注的文本标签内的索引中进行图片检索,最后将检索到的图片按照相似度排序并输出。本发明还公开了基于n元图片索引结构的图片检索系统。本申请技术方案提高了检索效率和效果。
【专利说明】—种基于η元图片索引结构的图片检索方法与系统
【技术领域】
[0001]本发明涉及图像检索方法与系统,具体涉及一种基于η元(n-gram)图片索引的图片检索方法与系统,主要应用于图像检索领域。
【背景技术】
[0002]目前,图片检索主要分为两种方式,基于文本的图片检索(text-based imageretrieval)和基于内容的图片检索(content-based image retrieval)。在传统的基于文本的图片检索系统(TBIR)中,图片通常是经过人工标注后,用户通过关键词检索所需要的图片。这种方式的明显缺点是图片必须通过人工进行标注,在信息大爆炸的今天,这种方式是不现实的。为克服基于文本的图片检索的缺点,基于内容的图片检索方式在上世纪八十年代应运而生,其中1984年Chang在这方面做了开创性的工作。所谓基于内容的图片检索(CBIR),是指通过提取图片原始的底层视觉特征(如颜色特征,纹理特征,形状特征等)对图片进行索引,并最终通过图片的底层特征进行图片搜索的方式。较为著名的商业性的基于内容的图片检索工具有 QBIC、Photobook、Virage, VisualSEEK, Netra 和 SMPLIcity。
[0003]当前常用的图片检索系统,大多都是对图片数据集中的图片提取高维底层特征向量,通过对这些高维底层特征向量建立索引,或者对带有图片标注的图像,通过文本标签对图像建立索引。用户则通过提交文本或者示图像对索引系统进行检索。然而,通过这种方法的检索系统的检索效果和效率并不理想,其主要原因是通过底层特征进行检索本身就存在“语义鸿沟”问题,而且通过对高维底层特征建立的索引系统随着索引图片的数量的急剧增长,的检索效率非常低下,因此当前图片搜索引擎的索引图片数量也有限,其用户检索的图片效果不理想。并且当前大多数图片检索系统都没有利用到图片中带有的空间特征信息。当前解决“语义鸿沟”问题的主要方法是通过对图片进行自动标注,而当前大多数图片搜索引擎并没有将图片自动标注技术成功运用到图片检索系统中。
[0004]然而,当前文本检索的发展已相当成熟,其索引建立以及检索技术都有一定的积累,因此可以从文本检索方面借鉴相关技术,改进当前的图片检索系统的性能。

【发明内容】

[0005]本发明所要解决的技术问题是,提供一种基于n-gram图片索引结构的图片检索方法与系统,以提高图片检索效率和效果。
[0006]为了解决上述技术问题,本发明公开了一种基于η元图片索引结构的图片检索方法,包括:
[0007]收到用户的检索操作时,判断用户输入的检索内容的形式;
[0008]当用户输入的检索内容的形式为文本形式时,对用户输入的文本进行基于η元图片索引的文本内部向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出;
[0009]当用户输入的检索内容的形式为图片形式时,对用户输入的图片进行基于η元图片索引结构的图片语义自动标注,基于η元模型提取η元图片,针对提取的η元图片的词频-逆向文件频率(TF-1DF)特征向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并输出。
[0010]较佳地,上述方法还包括:
[0011]在用户进行检索操作前,构建基于η元图像的索引,所构建的索引包括以图像η元为索弓丨,以图像标注和图片详细信息为索引对象的索引结构,以及以图片标注为索弓丨,以图像η元以及图片详细信息为索引对象的索引结构。
[0012]较佳地,上述方法中,构建基于η元图像的索引的过程如下:
[0013]对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中提取“图像词元”;
[0014]根据所提取的“图像词元”构建相应的包含图像η元的图像词典;
[0015]根据所构建的图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图像η元,建立基于η元模型的图片索引。
[0016]较佳地,上述方法,对用户输入的文本进行基于η元图片索引的文本内部向量化处理指:
[0017]根据用户输入的文本内容,基于η元图片索引结构进行检索,根据检索到的图像η元的概率权值,对文本内容进行内部向量化处理。
[0018]较佳地,上述方法,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出指:
[0019]对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内的索引下的图片进行相似度计算,按照计算得到的相似度的大小对检索到的图片排序并输出。
[0020]本发明还公开了一种基于η元图片索引结构的图片检索系统,包括判断单元、第一索引单元和第二索引单元,其中:
[0021]所述判断单元,收到用户的检索操作时,判断用户输入的检索内容的形式,当用户输入的检索内容的形式为文本形式时,将用户输入的文本发送给所述第一索引单元,当用户输入的检索内容的形式为图片形式时,将用户输入的图片发送给所述第二索引单元;
[0022]所述第一索引单元,对用户输入的文本进行基于η元图片索引的文本内部向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出;
[0023]所述第二索引单元,对用户输入的图片进行基于η元图片索引结构的图片语义自动标注,基于η元模型提取η元图片,针对提取的η元图片的词频-逆向文件频率(TF-1DF)特征向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并输出。
[0024]较佳地,上述系统还包括:基于η元图片索引构建单元,建立基于η元图像的索引,该索引包括以图像η元为索引,以图像标注和图片详细信息为索引对象的索引结构,以及以图片标注为索弓丨,以图像η元以及图片详细信息为索引对象的索引结构。
[0025]较佳地,上述系统中,所述基于η元图片索引构建单元分为:
[0026]“图像词典”构建部件,对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中提取“图像词元”,根据所提取的“图像词元”构建相应的包含图像η元的图像词典;
[0027]索引构建部件,根据所述“图像词典”构建部件所构建的图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图像η元,建立基于η元模型的图片索引。
[0028]较佳地,上述系统中,所述第一索引单元对用户输入的文本进行基于η元图片索引的文本内部向量化处理指:
[0029]根据用户输入的文本内容,基于η元图片索引结构进行检索,根据检索到的图像η元的概率权值,对文本内容进行内部向量化处理。
[0030]较佳地,上述系统中,所述第一索引单元利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出指:
[0031 ] 对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内的索引下的图片进行相似度计算,按照计算得到的相似度的大小对检索到的图片排序并输出。
[0032]本申请技术方案,可以有效的将基于文本的图片检索和基于内容的图片检索方式结合起来,有效的提高了检索效率和效果。
【专利附图】

【附图说明】
[0033]图1为本实施例基于n-gram图片索引结构的图片检索流程示意图;
[0034]图2为本实施例中提取“图像词元”的流程图;
[0035]图3为本实施例中图像切割以及提取n-gram的示例图;
[0036]图4为以图像n-gram为索弓丨,以语义标签和图像为索引内容的图像索引结构示例图;
[0037]图5为以图像语义标签为索引,以图像n-gram和图像为索引内容的图像索引结构示例图;
[0038]图6为基于n-gram图片索引结构的图片语义自动标注流程示意图。
[0039]【具体实施方式】
[0040]为使本发明的目的、技术方案和优点更加清楚明白,下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
[0041]实施例1
[0042]本实施例提供一种基于n-gram图片索引结构的图片检索方法,该方法包括两种检索方式:即文本形式的图片检索以及图片形式的图片检索。该方法的实施原理如图1所示。具体包括如下步骤100到400:
[0043]步骤100,收到用户的检索操作时,判断用户输入的检索内容的形式,若为文本形式则进入步骤200 (a),若为图片形式则进入步骤200 (b);
[0044]步骤200(a),对用户输入的文本进行基于n_gram图片索引的文本内部向量化处理,进入步骤300 (a)。
[0045]具体地,本步骤根据用户输入的文本内容,对基于n-gram图片索引结构进行检索,根据检索得到的图像n-gram的概率权值,对文本内容进行内部向量化处理。
[0046]步骤200(b),对用户输入的图片进行基于n-gram图片索引结构的图片语义自动标注,基于n-gram模型提取n-gram图片,进入步骤300 (b)。[0047]该步骤先对用户输入的图片进行提取图像n-gram的操作,进而提取图片的特征向量,再对图片进行基于n-gram图片索引结构的语义标注处理。
[0048]步骤300(a),利用用户输入的文本内部向量化结果在文本标签内的索引中进行图片检索,计算检索到的图片的相似度,进入步骤400。
[0049]本步骤中,对用户输入的文本进行向量化后,根据向量化后的值对相应的文本索引下的图片进行相似度计算。
[0050]步骤300 (b),针对提取的 n-gram 图片的 TF (Term Frequency Term Frequency,词频)-1DF(Inverse Document Frequency,逆向文件频率)特征向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并输出。
[0051]该步骤对用户输入的图片进行语义自动标注之后,对图片提取的特征向量,在语义标注的文本索引下的图片中进行相似度计算。
[0052]步骤400,在进行相似度计算后,对检索到的图片按照相似度的大小排序并按照此排序向用户返回检索到的图片列表。
[0053]还要说明的是,在上述方法的基础上,还有一些优选方案,在用户进行检索操作前,还构建基于n-gram图像的索引,所构建的索引包括以图像η元为索引,以图像标注和图片详细信息为索引对象的索引结构,以及以图片标注为索弓丨,以图像η元以及图片详细信息为索引对象的索引结构。
[0054]具体地,构建基于n-gram图像的索引的过程如下:
[0055]对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中提取“图像词元”;
[0056]根据所提取的“图像词元”构建相应的包含图像η元的图像词典;
[0057]根据所构建的图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图像η元,建立基于η元模型的图片索引。
[0058]下面以优选的包括有构建基于n-gram图像的索引操作的方案为例,详细说明上述基于n-gram图片索引结构的图片检索过程。
[0059]第一步,通过随机选取的图片数据集学习图像词元,然后通过学习得到的“图像词元”构建“图像词典”。
[0060]其中,学习“图像词元”的过程如图2所示,包括如下步骤:
[0061]首先、对选取的图片进行文本化切分,文本化切分的方式可以根据不同的应用需求进行设计。本发明实施例中给出的一种图片文本化切分方法的范例是将图片均匀分割成大小为m*n的图像小块(如图3),每一小块可以看作类似文本处理中的一个“单词”,而每幅图像可以看作相应的“文章”,对图片进行文本化切割的方法不限于此。
[0062]其次、提取切分成的大小相等的图像小块的图像底层特征包括但不限于图像颜色特征,图像纹理特征。并将其多个底层特征进行融合,从而得到一个能反应图像小块多种底层特征的特征向量。
[0063]然后,对得到的每个图像小块的特征向量,采用聚类方法进行聚类操作,最后通过选取代表相应簇类的典型数据点作为“图像词元”。对获取的“图像词元”赋予相应的编号(如图3)。本发明采用的一种实施例(如图2),是通过对所有图像小块的特征向量做k-means聚类操作,预先确定聚类簇的数量,通过获取k_means聚类结果的质心得到“图像词元”。
[0064]最后,学习得到“图像词元”后,就是通过构造“图像词典”,为了进一步表示图像的空间特征,在“图像词典”中加入了 n-gram项,对于任一个“图像词元”,与其相邻的n_l个“图像词元”构成一个“图像词元”序列,将所有这些“图像词元”序列都作为一个项加入“图像词典”中,同时加入其长度小于η的其他“图像词元”序列,构成“图像词典”。例如,假设提取的“图像词元”为1、2、3,选取η为2,那么得到的“图像词典”包含的“图像词典”项为:
(I)、(2)、(3)、(1,1)、(1,2), (1,3), (2,I)、(2,2), (2,3), (3,I)、(3,2), (3,3)。对于提取“图像词元”数量为K,选用η为2的实施例中,“图像词典”包含的gram数量为K*K+K。
[0065]第二步,判断用户输入的检索内容的形式;
[0066]其中,本步骤之所以对用户输入的检索内容的形式进行判断,是为了确定系统应采取的下一步操作,并对相应的输入做适当的预处理。如果用户输入的是文本内容,则需要对文本内容作分词以及去掉停用词的处理;如果用户输入的是图片,那么则需要对图片进行相应的格式转化和大小归一化处理。
[0067]第三步、判断出用户输入的为文本形式时,进行基于n-gram图片索引结构的文本内部向量化处理,或者判断用户输入的为图片形式时,进行基于n-gram图片索引结构的图片语义自动标注;
[0068]第四步、利用用户输入的文本内部向量化结果或者基于n-gram模型的图片特征向量,在文本标签索引的图片中进行检索;
[0069]该步骤中、如果 用户输入的是文本形式,则对用户输入的文本进行基于n-gram图片索引的文本内部向量化处理,具体地文本内部向量化的方法是:首先在如图5的索引结构中进行检索,将相应的n-gram的Nweight值作为该文本向量化的向量分量权值,对于含有多个分词的文本,将最后的向量各分量值进行相加,得到用户输入的文本的内部向量化表不。
[0070]如果用户输入的是图片,则对用户输入的图片数据进行如图6所示的图片语义自动标注,并提取图片的TF-1DF特征向量,本实施例使用的TF-1DF计算方式如下:
【权利要求】
1.一种基于η元图片索引结构的图片检索方法,其特征在于,该方法包括: 收到用户的检索操作时,判断用户输入的检索内容的形式; 当用户输入的检索内容的形式为文本形式时,对用户输入的文本进行基于η元图片索引的文本内部向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出; 当用户输入的检索内容的形式为图片形式时,对用户输入的图片进行基于η元图片索引结构的图片语义自动标注,基于η元模型提取η元图片,针对提取的η元图片的词频-逆向文件频率(TF-1DF)特征向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并输出。
2.如权利要求1所述的方法,其特征在于,该方法还包括: 在用户进行检索操作前,构建基于η元图像的索引,所构建的索引包括以图像η元为索弓丨,以图像标注和图片详细信息为索引对象的索引结构,以及以图片标注为索弓丨,以图像η元以及图片详细信息为索引对象的索引结构。
3.如权利要求2所述的方法,其特征在于,构建基于η元图像的索引的过程如下: 对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中提取“图像词元”; 根据所提取的“图像词元”构建相应的包含图像η元的图像词典; 根据所构建的图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图像η元,建立基于η元模型的图片索引 。
4.如权利要求1至3任一项所述的方法,其特征在于,对用户输入的文本进行基于η元图片索引的文本内部向量化处理指: 根据用户输入的文本内容,基于η元图片索引结构进行检索,根据检索到的图像η元的概率权值,对文本内容进行内部向量化处理。
5.如权利要求4所述的方法,其特征在于,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出指: 对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内的索引下的图片进行相似度计算,按照计算得到的相似度的大小对检索到的图片排序并输出。
6.一种基于η元图片索引结构的图片检索系统,其特征在于,该系统包括判断单元、第一索引单元和第二索引单元,其中: 所述判断单元,收到用户的检索操作时,判断用户输入的检索内容的形式,当用户输入的检索内容的形式为文本形式时,将用户输入的文本发送给所述第一索引单元,当用户输入的检索内容的形式为图片形式时,将用户输入的图片发送给所述第二索引单元; 所述第一索引单元,对用户输入的文本进行基于η元图片索引的文本内部向量化处理,利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出; 所述第二索引单元,对用户输入的图片进行基于η元图片索引结构的图片语义自动标注,基于η元模型提取η元图片,针对提取的η元图片的词频-逆向文件频率(TF-1DF)特征向量在语义标注的文本标签内的索引中进行图片检索,将检索到的图片按照相似度进行排序并输出。
7.如权利要求6所述的系统,其特征在于,该系统还包括: 基于η元图片索引构建单元,建立基于η元图像的索引,该索引包括以图像η元为索弓丨,以图像标注和图片详细信息为索引对象的索引结构,以及以图片标注为索弓丨,以图像η元以及图片详细信息为索引对象的索引结构。
8.如权利要求7所述的系统,其特征在于,所述基于η元图片索引构建单元分为: “图像词典”构建部件,对带有文本标注的图片数据集进行预处理,从预处理后的图像数据集中提取“图像词元”,根据所提取的“图像词元”构建相应的包含图像η元的图像词血.ZN ? 索引构建部件,根据所述“图像词典”构建部件所构建的图像词典,对带有文本标注的图片数据集中的图片进行切割,提取相应的图像η元,建立基于η元模型的图片索引。
9.如权利要求6至8任一项所述的系统,其特征在于,所述第一索引单元对用户输入的文本进行基于η元图片索引的文本内部向量化处理指: 根据用户输入的文本内容,基于η元图片索引结构进行检索,根据检索到的图像η元的概率权值,对文本内容进行内部向量化处理。
10.如权利要求9所述的系统,其特征在于,所述第一索引单元利用文本内部向量化处理结果在文本标签内的索引下进行图片检索,将检索到的图片按照相似度排序并输出指: 对用户输入的文本进行向量化后,根据向量化处理后的值对文本标签内的索引下的图片进行相似度计算,按照计·算得到的相似度的大小对检索到的图片排序并输出。
【文档编号】G06F17/30GK103853797SQ201210523756
【公开日】2014年6月11日 申请日期:2012年12月7日 优先权日:2012年12月7日
【发明者】陆平, 董振江, 罗圣美, 刘丽霞, 陈清财, 刘胜宇 申请人:中兴通讯股份有限公司, 哈尔滨工业大学深圳研究生院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1