用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质的制作方法

文档序号:6497956阅读:109来源:国知局
用于搜索图像的方法和装置以及用于执行该方法的计算机可读记录介质的制作方法
【专利摘要】本
【发明内容】
涉及用于搜索图像的方法和装置,且涉及用于执行该方法的计算机可读记录介质。本公开内容的用于搜索图像的装置获取输入图像的特征;并且获取分别对应于特征的单词和靠近对应于特征的单词的邻近单词。在单词被指派给可视特征空间中所包括的多个单词单元中的第一单词单元时,邻近单词被指派给靠近第一单词单元的至少一个第二单词单元,其中所述多个单词单元被指派给不同的单词,且在离一单词预定距离内的至少一个单词被指派为邻近单词。该装置还被配置为基于与对应于单词的第一组图像相关联的信息以及与对应于邻近单词的第二组图像相关联的信息搜索与输入图像相同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。
【专利说明】用于搜索图像的方法和装置以及用于执行该方法的计算机 可读记录介质

【技术领域】
[0001] 本公开内容涉及图像搜索方法和装置以及非暂态计算机可读记录介质,其用于通 过以下增强图像搜索的精度:在输入图像的特征对应于特定单词或特定二进制码时,不仅 从对应于数据库中的特定单词或特定二进制码的第一组图像、而且也从对应于邻近单词或 邻近二进制码(该邻近单词或邻近二进制码靠近对应于特定单词或特定二进制码的第一 组图像)的第二组图像,搜索具有与输入图像的特征相同或相似的特征的图像。

【背景技术】
[0002] 在文档搜索中,文档可以被表示为从特定词表中所选择的单词的频率。基于关于 这种频率的比较衡量在文档之间的相似性。
[0003] 类似地,在图像搜索中,图像被表示成从特定的视觉词表选择的视觉单词的频率。 基于关于这种频率的比较衡量在图像之间的相似性。
[0004] 作为示例,图像1、2和3中的每一个具有三个特征,以使得图像1的特征分别对应 于单词" &"、%"、"(:",图像2的特征分别对应于单词"&"、",、"(1",且图像3的特征分别对 应于单词" &"、"(1"、"6"。在这种情况中,在图像1和图像2之间的相似性频率是2,且在图 像1和图像3之间的相似性频率是1。
[0005] 然而,不同于文本文档,由于噪声、拍摄角度等等,图像的视觉单词频繁地、微妙地 改变。即,应被表示成单词"a"的特征例如可以被表示成单词"e",该单词"e"靠近单词 "a"。在这种情况中,仅从对应于数据库中的单词"e"的标识的图像中搜索具有相同或相似 的特征的至少一个图像。因而,存在降低搜索精度的问题。
[0006] 例如,在 Josef Sivic 和 Andrew Zisserman 在 2〇〇3 年 " IEEE International Conference on Computer Vision (IEEE计算机视觉国际会议)"发表的标题为"Video Google:A Text Retrieval Approach to Object Matching in Videos(视频谷歌:视频中 的对象匹配的文本检索方法)"的论文中公开的、使用视觉单词搜索图像的技术,具有以上 所描述的问题。


【发明内容】

[0007] 技术问题
[0008] 本公开内容的目标是解决以上所描述的问题。
[0009] 另外,本公开内容的另一目标是增强图像搜索的精度。可以通过以下实现这种目 标:在输入图像的特征分别对应于特定单词或特定二进制码时,不仅从对应于数据库中的 特定单词或特定二进制码的第一组图像、而且也从对应于靠近第一组图像的单词或二进制 码的第二组图像搜索具有与输入图像的特征相同或相似的特征的图像。
[0010] 技术解决方案
[0011] 用于实现以上目标的本公开内容的代表性配置如下所示。
[0012] 根据本公开内容的一个方面,一种图像搜索方法包括:(a)由图像搜索装置获取 输入图像的特征;以及(b)由图像搜索装置获取相应特征所对应的单词和靠近特征所对应 的相应单词的邻近单词。在可视特征空间中所包括的多个单词单元中的第一单词单元被 指派给一个单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单 词,第二单词单元靠近被指派给该单词的第一单词单元。所述多个单词单元被指派给不同 的单词,并且在离该单词的预定距离内的至少一个单词被指定为邻近单词。该方法还包括 (c)基于与对应于单词的第一组图像相关联的信息以及与对应于邻近单词的第二组图像相 关联的信息,由图像搜索装置搜索与输入图像相同或相似的图像,与第一组和第二组图像 相关联的信息被存储在数据库中。
[0013] 根据本公开内容的一些其他方面,提供一种图像搜索方法,其包括:(a)由图像搜 索装置获取输入图像的特征;以及(b)由图像搜索装置获取相应特征分别对应于的二进制 代码。该方法还包括(c)基于与对应于二进制代码的第一组图像相关联的信息以及关于对 应于邻近二进制代码(该邻近二进制代码靠近对应于第一组图像的二进制代码且包括关 于到该二进制码的距离的信息)的第二组图像的信息,由图像搜索装置搜索与输入图像相 同或相似的图像,关于第一组和第二组图像的信息被存储在数据库中。在可视特征空间中 的多个单词单元中的第一单词单元被指派给二进制代码时,邻近二进制代码被指派给所述 多个单词单元中的至少一个的第二单词单元,第二单词单元靠近第一单词单元且包括关于 到第一单词单元的距离的信息。所述多个单词单元可以被指派给不同的二进制代码,并且 在离该单词的预定距离内的至少一个单词可以被指定为邻近单词。
[0014] 根据本公开内容的更进一步的方面,提供一种图像搜索方法,其包括:(a)由图像 搜索装置获取输入图像的特征;(b)由图像搜索装置获取输入图像的相应特征的特征描述 符;以及(c)由图像搜索装置把输入图像的特征的特征描述符映射到二进制代码。该方法 还包括(d)基于与对应于二进制代码的第一组图像相关联的信息和关于对应于邻近二进 制代码(其靠近第一组图像的二进制码,且包括指示邻近二进制代码靠近第一组图像的二 进制代码的距离信息)的第二组图像的信息,由图像搜索装置搜索与输入图像相同或相似 的图像。关于第一组和第二组图像的信息可以被存储在数据库中。在离二进制代码的预定 距离内的至少一个二进制代码可以被指定为邻近二进制代码。
[0015] 根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征获取单 元,其用于获取输入图像的特征;以及单词和邻近单词获取单元,其用于获取特征分别对 应的所述单词以及靠近所述单词的邻近单词。在此,在可视特征空间中所包括的多个单词 单元中的第一单词单元被指派给一单词时,邻近单词是被指派给所述多个单词单元的至少 一个第二单词单元的单词,该第二单词单元靠近单词被指派给的第一单词单元。所述多个 单词单元被指派给不同的单词,且在离该单词预定距离内的至少一个单词被指定为邻近单 词。该装置还包括:搜索单元,其基于与对应于单词的第一组图像相关联的信息以及与对应 于邻近单词的第二组图像相关联的信息,搜索与输入图像相同或相似的图像,关于第一组 和第二组图像的信息被存储在数据库中。
[0016] 根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征点获取 单元,其用于获取输入图像的特征点;以及二进制代码获取单元,其用于获取相应特征所对 应的二进制代码。该装置还包括:搜索单元,其基于与对应于二进制代码的第一组图像相关 联的信息以及与对应于靠近二进制代码的邻近二进制代码(且其包括关于到该二进制代 码的距离的信息)的第二组图像相关联的信息搜索与输入图像相同或相似的图像,关于第 一组和第二组图像的信息被存储在数据库中。在可视特征空间中的多个单词单元中的第一 单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元中的至少 一个第二单词单元的代码,第二单词单元靠近第一单词单元且包括关于到第一单词单元的 距离的信息。所述多个单词单元被指派给不同的二进制代码,并且,在离二进制代码的预定 距离内的至少一个二进制代码可以被指定为邻近二进制代码。
[0017] 根据本公开内容的更进一步的方面,提供一种图像搜索装置,其包括:特征获取单 元,其用于获取输入图像的特征;特征描述符获取单元,其用于获取用于输入图像的相应特 征的特征描述符;以及特征描述符-二进制代码映射单元,其用于把输入图像的特征的特 征描述符映射到二进制代码。该装置还包括:搜索单元,其基于与对应于二进制代码的第一 组图像相关联的信息以及与对应于邻近二进制代码(其靠近二进制代码,且包括指示邻近 二进制代码靠近二进制代码的信息)的第二组图像相关联的信息,搜索与输入图像相同或 相似的图像。关于第一组和第二组图像的信息可以被存储在数据库中。在离二进制代码的 预定距离内的至少一个二进制代码可以被指定为邻近二进制代码。
[0018] 另外,还提供非暂态计算机可读记录介质,其用于记录计算机程序,该计算机程序 用于执行用于实现本公开内容的各种实施方式的以上所描述的方法。
[0019] 有益效果
[0020] 根据本公开内容,在输入图像的特征分别对应于特定单词或特定二进制代码时, 不仅从与数据库中的特定单词或特定二进制码相关联的第一组图像、而且也从与邻近单词 或邻近二进制代码(其靠近与特定单词或特定二进制码的相关联的第一组图像)相关联的 第二组图像,搜索具有与输入图像的特征的相同或相似的特征的图像。因而,即使输入图像 受到噪声或拍摄角度影响,仍然可能精确地搜索图像。

【专利附图】

【附图说明】
[0021] 图1是根据本公开内容的一种实施方式的图像搜索系统的框图。
[0022] 图2到图4是表示通过服务器使用数据库中的图像来在数据库中构建索引和图像 信息的示意图。
[0023] 图5是根据本公开内容的另一实施方式的带有索引和图像信息的数据库结构的 示意图。
[0024] 图6是根据本公开内容的一种实施方式的服务器的框图。
[0025] 图7是根据本公开内容的一种实施方式的单词-邻近单词查找表的示意图。
[0026] 图8是根据本公开内容的另一实施方式的服务器的框图。
[0027] 图9是根据本公开内容的又一种实施方式的服务器的框图。
[0028] 图10是根据本公开内容的一种实施方式的搜索单元的框图。

【具体实施方式】
[0029] 在本公开内容的下列详细描述中,对附图进行引用,作为阐释,附图示出其中可以 实现本公开内容的特定实施方式。足够详细地描述这些实施方式以便允许本领域中的技术 人员实现本公开内容。应理解,本公开内容的各种实施方式尽管不同,但并不必定相互排 斥。例如,在此结合一种实施方式描述的特定的特征、结构和特性,在不偏离本公开内容的 精神和范围的前提下,可以在其他实施方式内实现。另外,应理解,在不偏离本公开内容的 精神和范围的前提下,可以修改在每一公开的实施方式内的个体元素的位置或排列。因此, 不应以限制性的意义理解下列的详细描述,且本公开内容的范围由所附权利要求以及等效 于权利要求所主张的范围的完全范围界定、适当地解释。附图中,类似的标号是指相同的或 相似的功能。
[0030] 在下文中,将参照附图详细描述本公开内容的各种实施方式,使得本领域中的技 术人员可以容易地实现本公开内容。
[0031] 图1是根据本公开内容的一种实施方式的图像搜索系统的框图。
[0032] 如图1中所示出,根据本公开内容的图像搜索系统100可以包括终端110、通信网 络120、服务器130和数据库140
[0033] 下面将描述图1中所示出的每个框的细节。
[0034] 首先,终端100可以是数字设备,该数字设备包括这样的功能:允许用户经由通信 网络120连接到服务器130并与之通信,且输入用于搜索的图像。终端110可以是个人计 算机(例如,台式计算机、笔记本计算机等等)、工作站、PDA、上网平板、蜂窝式电话等等。另 夕卜,尽管图1中阐释了仅一个终端110,但可以经由通信网络120连接多个用户终端。
[0035] 另外,通信网络120可以采用任何通信方案,例如有线或无线网络。可以采用各种 通信网络,例如局域网(LAN)、城域网(MAN)和广域网(WAN)。在此提及的通信网络100也 可以与万维网(WWW)通信。
[0036] 数据库140可以在其中存储多个图像。数据库140可以分离地存储图像的索引和 关于经索引图像中的每一个的图像信息。
[0037] 因而,在某些实施方式中,数据库140可以把可以不指示与在各特征之间的距离 相关联的信息的不同的一维单词(或一维数字)存储为索引。进一步,例如,关于图像的图 像信息可以包括关于图像的特征的信息。可以理解,被分组成特定的一维单词的图像的特 征可以包括它们是在预定距离范围内的关联距离信息,同时,被分组成与该特定单词不同 的一维单词的图像的特征可以包括它们具有大于预定范围的距离的关联距离信息。
[0038] 在数据库140中被存储为索引的一维单词(或一维数字)可以包括到另一单词的 距离的关联信息。例如,在数据库140中的索引是一维单词时,在它们的序列中邻近的单词 (例如,A和B、B和C等等)可以指示,相比于在它们的序列中不邻近的单词(例如,A和C、 A和D等等),它们更加相互接近的距离信息。进一步,在数据库140中的索引是一维数字 时,在它们的序列中邻近的数字(例如,100和101、101和102等等)可以指示,相比于在它 们的序列中不邻近的数字(例如,100和102U01和103等等),它们更加相互接近的距离 信息。
[0039] 根据另一实施方式,数据库140可以具有二进制码作为索引,其包括对应于海明 距离(hamming distance)的距离信息。例如,图像的图像信息可以包括关于图像的特征的 信息。被分组为对应于一个m维(位)二进制代码图像的特征可以指示各特征之间的距离 是在预定范围内。不同的m维二进制码可以被用来确定在不同的预定距离范围内的距离, 其中的每一个都覆盖对应于各个m维二进制码的各特征之间的距离。
[0040] 服务器130从数据库140中的多个图像搜索与输入图像相同或相似的图像。
[0041] 根据一种实施方式,服务器130可以提取关于数据库140中所存储的多个图像中 的每一个的特征的信息。可能已经提取所述多个相应图像的特征并将其存储在数据库140 中。在这种情况中,服务器130可以从数据库140检索关于多个相应图像的特征的信息。而 且,通过基于它们在可视特征空间中的位置把多个图像的特征聚类成接近特征的群集(例 如,使用K均值聚类技术),服务器130可以形成群集(在下文中称为单词单元)。另外,月艮 务器130可以按不同的一维单词(或数字)索引单词单元,且把对应于单词单元中的每一 个的图像信息存储在数据库140中。图像信息可以包括关于各个单词单元中所包括的图像 的特征的标识符和信息。此时,服务器130可以给单词单元指派不指示距离信息的一维单 词(或数字)或者指示关于在各单词单元之间的距离的信息的单词。即是说,在数据库140 中被存储为索引的一维单词(或一维数字)可以包括或不包括距离信息。另外,在服务器 130获取从终端110传输的作为查询的输入图像时,服务器130可以检测输入图像的特征并 提取关于特征的信息。在这种情况中,服务器130可以从终端110接收关于输入图像的特 征的信息。
[0042] 服务器130可以获取可视特征空间中的特征所对应于的单词以及紧靠该特征对 应的单词的邻近单词。在该单词不呈现距离信息时,可以使用稍后将描述的如图7中所示 出查找表来获取邻近单词。然而,在单词指示距离信息时,没有必要使用图7的查找表来获 取邻近单词。
[0043] 服务器130可以从数据库140中的图像搜索图像,该图像包括与输入图像的特征 相同或相似的、对应于该单词和该邻近单词的特征。
[0044] 根据另一实施方式,服务器130可以检测被存储在数据库140中的多个图像中的 每一个的特征,并提取关于这些特征的信息。在这种情况中,可能已经提取多个图像的特征 并将其存储在数据库140中。进一步,在这种情况中,服务器130可以从数据库140检索关 于多个相应图像的特征的信息。另外,通过基于多个图像的特征在可视特征空间中的位置 聚类接近特征(例如,使用K均值聚类技术),服务器130可以形成单词单元。服务器130 可以在数据库140中把不同的m维(比特)的二进制码存储为包括与在各单词单元之间的 距离相关联的信息的索引,且另外把关于对应于被指派给各个二进制码的单词单元的图像 的特征的标识符和信息存储为图像信息。
[0045] 另外,在获取作为查询从终端110传输的输入图像时,服务器130可以检测输入图 像的特征并提取关于特征的信息。在这种情况中,服务器130可以从终端110接收关于输 入图像的特征的信息。服务器130可以从与在可视特征空间中特征所对应于的m维二进制 代码和邻近的m维二进制代码对应的图像中搜索包括与输入图像的特征相同或相似的特 征的图像。
[0046] 与特征相关联的信息可以包括被表示成η维矢量的特征描述符。在Yunchao Gong 和 Svetlana Lazebnik 的、于 2011 年 4 月在"conference on computer vision and pattern recognition(CVPR)(计算机视觉和图案识别会议)"发表的、标题为"Iterative Quantization:A Procrustean Approach to Learning Binary Codes (迭代量化:学习二 进制码的暴力方法))的论文中,提出了用于把被表示成n维矢量的特征描述符映射到m维 二进制代码的技术。根据这种技术,即使被表示成η维矢量的特征描述符被映射到m维二 进制码,也可以保留原始特征描述符的原始距离信息。
[0047] 在转换成表示关于在各单词单元之间的距离的信息的不同的m维二进制码时,这 种技术可以由在如上所述的另一实施方式中的服务器130用来把每一单词单元的中心点 的描述符(例如,被表示成η维矢量的描述符)映射到m维二进制代码。
[0048] 根据另一实施方式,服务器130可以检测被存储在数据库140中的多个相应图像 的特征并提取关于特征的信息。可能已经提取多个相应图像的特征并将其存储在数据库 140中。在这种情况中,服务器130可以从数据库140检索关于多个相应图像的特征的信 息。另外,服务器130可以把多个图像的特征描述符映射到包括距离信息的不同的m维二 进制码。在多个图像的特征描述符当中,服务器130可以把具有在预定范围内的距离的特 征描述符映射到一个二进制代码。因此,具有落在多个不同的预定范围内的距离的多个特 征描述符可以对应于不同的二进制码。服务器130可以把包括距离信息的不同的m维二进 制码提供为索引,并把对应于相应单词单元的图像信息存储在数据库140中。图像信息可 以是关于与相应单词单元对应的图像的特征的标识符和信息。
[0049] 在上述另一实施方式中,服务器130搜遍带有m维二进制代码及其邻近的m维二 进制代码的图像,该m维二进制代码被指派给可视特征空间中特征被映射到的单词单元。 然而,根据又一种实施方式,服务器130可以直接使得输入图像的特征对应于m维二进制代 码,并搜遍带有m维二进制代码及其邻近的m维二进制代码的图像。
[0050] 在以上所描述的另一实施方式和又一种实施方式中,m维二进制码可以是具有关 于距离(该距离是海明距离)的信息的代码,且"m"可以表示小于"η"的整数。例如,在使 用128维矢量来表示特征描述符时,二进制代码可以是32比特或64比特。然而,"m"并不 必定是小于"η"的整数。另外,距离信息可以是关于欧几里得距离的信息。
[0051] 图2到图4是阐释服务器通过使用数据库中的图像来在数据库中构造索引和图像 信息的本公开内容的实施方式的图。
[0052] 图2阐释被存储在数据库140中的多个图像頂1到頂k。标号Π1、Π2和Πχ可 以指示在图像頂1的多个特征当中的三个特征。标号f21、f22和f2x可以指示在图像頂2 的多个特征当中的三个特征。标号fkl、fk2和fkx可以指示在图像IMk的多个特征当中的 三个特征。
[0053] 图3示出关于被存储在数据库140中的多个图像頂1到Mk的多个特征在二维可 视特征空间中的位置的信息,其中被表示成η维矢量的特征描述符的维数被减小,以便在 二维可视特征空间中表示。图3中所阐释的在二维可视特征空间中聚类多个图像ΙΜ1到 Mk的特征(例如,使用Κ均值聚类技术)可以形成八个单词单元,且这八个单词单元可以 被指派给单词A到H。另外,可以获取关于八个单词单元的中心点cl到c8的信息。在本公 开内容中,关于每一单词单元的中心点的信息可以是中心点的描述符,且中心点的描述符 可以是相应的单词单元中所包括的特征描述符的平均值。
[0054] 图4阐释具有根据本公开内容的一种实施方式的索引和图像信息的数据库。单词 A到Η可以被存储为分别用于图3中的单词单元的索引。进一步,对应于图3中的单词A的 图像IM1的标识符和特征f 11的特征描述符、图像IM2的标识符和特征f 12的特征描述符 等等可以被存储为图像信息。进一步,对应于图3中的单词B的图像IM2的标识符和特征 点f22的特征描述符及类似物可以被存储为图像信息。而且,对应于图3中的单词C的图 像IM1的标识符和特征Π2的特征描述符及类似物可以被存储为图像信息。以相同的方式, 数据库可以存储图像Mk的标识符和特征fkl的特征描述符及类似物(其对应于图3中的 单词D且可以被存储为图像信息)。而且,对应于单词E的图像Mk的标识符和特征fk2的 特征描述符及类似物可以被存储为图像信息。另外,对应于单词F的图像IMk的标识符和 特征fkx的特征描述符及类似物可以被存储为图像信息。另外,对应于单词G的图像IM2 的标识符和特征f2k的特征描述符及类似物被存储为图像信息。而且,对应于单词Η的图 像ΙΜ1的标识符和特征flk的特征描述符及类似物被存储为图像信息。在图4中,为方便 起见,各标识符分别被表示成頂1、頂2、…,且各特征描述符分别被表示成Π1、f21、f22、 fl2、flk、…。
[0055] 图5是带有根据本公开内容的另一实施方式的索引和图像信息的数据库结构的 示意图。在这一实施方式中,包括距离信息的四维(即,4比特)二进制码可以被分配给如 图3中所阐释的被指派给一个单词单元的一维单词,以便存储为索引。例如,如果二进制代 码"0000"是被分配给被指派给图3中的单词A的单词单元,则二进制代码"0001"可以被 分配给被指派给单词B且与被指派给单词A邻近的单词单元的单词单元。进一步,二进制 代码"0011"可以被分配给被指派给单词C的单词单元,且二进制代码" 1111"可以被分配 给被指派给单词Η的单词单元。二进制码可以是包括关于海明距离的信息的代码。因此, 相差一比特的二进制码"〇〇〇〇"和"0001"可以指示它们是具有为1的距离差的单词单元。 进一步,相差两个比特的二进制码"〇〇〇〇"和"0011"可以指示它们是具有为2的距离差的 单词单元。另外,相差四个比特的二进制码"〇〇〇〇"和"1111"将指示它们是具有为4的距 离差的单词单元。因而,单词Α的二进制代码与单词Β的二进制代码相差1比特,且单词Β 的二进制代码与单词C的二进制代码相差1比特。因而,二进制码包括指示单词A和B邻 近的距离信息。而且,二进制码包括指示单词B和C邻近的距离信息。
[0056] 另外,根据本公开内容的又一种实施方式,可以使用上面描述的把被表不为η维 矢量的特征描述符映射到m维二进制码的技术来构建图5中所阐释的数据库,而无需使用 图3的可视特征空间。
[0057] 在构建图5的数据库时,在m维二进制码当中,可以不索引包括不重要的图像信息 的二进制代码。作为示例,包括不重要的图像信息的二进制代码可以是相比于其他二进制 码包括关于较少数量的图像的特征的信息代码,但不限于此。
[0058] 图6是根据本公开内容的一种实施方式的服务器的框图。在这一实施方式中,月艮 务器130可以包括特征获取单元131、特征描述符获取单元133、单词和邻近单词获取单元 135和搜索单元137。
[0059] 下面将描述图6中所示出的每个框的功能。
[0060] 特征获取单元131可以获取输入图像的特征。特征描述符获取单元133可以获取 用于每一特征的特征描述符。特征描述符可以被表示为η维矢量。单词和邻近单词获取单 元135可以使用特征描述符来获取特征所对应于的单词和邻近单词。对于获取特征所对应 于的单词,可以获取被指派给包括图3的可视特征空间中的预先确定的特征的单词单元的 单词,作为特征所对应于的单词。替代地,可以通过以下获取特征所对应于的单词:通过计 算在预先确定的特征和单词单元的中心点cl到c8中的每一个之间的距离,并把被指派给 具有其中心点到预先确定的特征的最短距离的单词单元的单词分配给该特征所对应于的 单词。对于获取邻近单词,在获取特征描述符的单词时,根据图7中所阐释的一种实施方式 的单词-邻近单词表可以被用来根据距离差异获取邻近单词。图7的查找表指示,在图3的 可视特征空间中,在被指派给单词A的单元和被指派给单词B的单元之间的距离差是1,在 被指派给单词A的单元和被指派给单词C的单元之间的距离差是2,且在被指派给单词A的 单元和被指派给单词Η的单元之间的距离差是4。单词和邻近单词获取单元135可以存储 靠近查找表中的相应单词的邻近单词,以使得在获取输入图像的特征的单词时可以立即获 取邻近单词。然而,在各单词包括距离信息时,不需要使用图7的查找表来查找邻近单词。
[0061] 搜索单元137可以基于数据库140中的单词和邻近单词的图像信息搜索与输入图 像相同或相似的图像。例如,基于数据库140中的单词和邻近单词的图像信息,搜索单元 137可以考虑由特征描述符获取单元133获取的特征的特征描述符与单词和邻近单词的图 像信息中包括的特征的特征描述符的距离,并给该特征指派与包括具有最小距离的特征的 图像相同的标识符。以这种方式,搜索单元137可以把标识符分配给输入图像的特征,并把 其标识符被最频繁地分配的至少一个图像标识为相同或相似的图像。
[0062] 根据图6的实施方式,服务器130的搜索单元137可以搜遍图4中所阐释的数据 库以便定位与输入图像相同或相似的图像。
[0063] 图8是根据本公开内容的另一实施方式的服务器的框图。服务器130可以包括特 征获取单元131'、特征描述符获取单元133'、二进制代码获取单元135'和搜索单元137'。
[0064] 下面将描述图8中所示出的每个框的功能。
[0065] 特征获取单元131和特征描述符获取单元133'可以执行与图6中所阐释的特征 获取单元131和特征描述符获取单元133的那些功能相同或相似的功能。二进制代码获取 单元135'可以获取被分配给可视特征空间中特征所对应于的单词单元的二进制代码,即, 包括距离信息的二进制代码。可以通过以下获取用于该特征所对应于的单词单元的二进制 代码:计算输入图像的特征的描述符与单词单元的相应中心点cl到c8的描述符的距离,并 把先前被指派给包括其描述符具有最短距离的中心点的单词单元的二进制代码分配给输 入图像的特征点的描述符。
[0066] 基于用于由二进制代码获取单元135'提取的二进制代码及其邻近二进制代码的 图像信息,搜索单元137'可以搜索与输入图像相同或相似的图像。用于数据库140中的索 引的二进制代码可以包括距离信息。因而,在获取二进制代码时,搜索单元137'可以标识 其邻近二进制代码。另外,通过设置距离差,搜索单元137'还可以标识在预定距离差内的 邻近二进制代码。如果距离差被设置为1,则搜索单元137'可以基于彼此相差1比特的一 个和另一个二进制代码的图像信息搜索与输入图像相同或相似的图像。例如,基于在由特 征描述符获取单元133'获取的特征的特征描述符与由二进制代码获取单元135'获取的二 进制代码及其邻近二进制代码的图像信息中所包括的特征的相应特征描述符之间的距离, 搜索单元137'可以给具体的特征指派与包括具有最小距离的特征的图像的标识符相同的 标识符。以这种方式,搜索单元137'可以把标识符分配给输入图像的特征,并把其标识符 被最频繁地分配的至少一个图像分类为相同或相似的图像。
[0067] 根据图8的又一种实施方式,服务器130的搜索单元137'可以搜遍图5中所阐释 的数据库,以便标识与输入图像相同或相似的图像。
[0068] 图9是根据本公开内容的又一种实施方式的服务器的框图。服务器130可以包括 特征获取单元131"、特征描述符获取单元133"、特征描述符-二进制代码映射单元135" 和搜索单元137"。
[0069] 下面将描述图9中所示出的每个框的功能。
[0070] 特征获取单元131"和特征描述符获取单元133"可以执行与图6的特征获取单 元131和特征描述符获取单元133的那些功能相同或相似的功能。特征描述符-二进制代 码映射单元135 "可以把被表示成η维矢量的特征描述符映射成m维二进制代码,同时保 留关于在各特征之间的距离的信息。特征描述符-二进制代码映射单元135"可以使用在 CVPR中公开的上面所描述的技术来把特征描述符映射到m维二进制代码,而无需在可视特 征空间中形成特征的群集。这种技术可以把具有在预定范围内的距离的特征描述符映射到 相应的二进制代码。在此不描述搜索单元137"的功能的细节,这是因为参考上面关于图8 的搜索单元137'的描述可以容易地理解这一点。
[0071] 图10是根据本公开内容的一种实施方式的搜索单元的框图。搜索单元137可以 包括标识符分配单元137-1和分类单元137-2。
[0072] 下面描述图10中所示出的每个框的功能。
[0073] 基于在输入图像的特征和对应于单词和邻近单词的相应图像的特征之间的距离, 标识符分配单元137-1可以分配对应于单词或邻近单词的图像中的至少一个的信息。例 如,标识符分配单元137-1可以计算在输入图像的特征和对应于单词和邻近单词的图像的 相应特征之间的距离,并把对应于单词和邻近单词且包括具有最短距离的特征的图像的标 识符分配给输入图像的特征。
[0074] 基于被分配给输入图像的相应特征的图像的标识符,分类单元137-2可以标识与 输入图像相同或相似的图像。例如,分类单元137-2可以检查被分配给输入图像的相应特 征的图像的标识符,并把其标识符被最频繁地分配的图像标识为与输入图像相同或相似的 图像。
[0075] 不仅可以在图6的搜索单元的各实施方式中的一个中实现图10的搜索单元137, 而且也在图8的搜索单元137'和图9搜索单元137〃的各实施方式中的一个中实现图10 的搜索单元137。
[0076] 在上面的实施方式中已经描述了可以把输入图像作为查询从终端110传输出去, 且服务器130可以获取输入图像并执行图像搜索。然而,终端110可以检测输入图像的特 征,提取关于特征的信息并将其传输给服务器130。进一步,终端110可以获取特征所对应 于的单词和紧靠该单词的邻近单词,并把那些单词传输给服务器130。
[0077] 另外,在终端110下载数据库140中的图像中的一些并存储时,终端可以执行图像 搜索。即,终端可以自己输入一输入图像,并配备有图6到图10中所阐释的配置,以执行与 服务器130的图像搜索操作相同的图像搜索操作。
[0078] 根据本公开内容,可以使用海赛(Hessian)仿射检测器来检测特征。进一步,可以 使用尺度不变特征变换(scale invariant feature transform, SIFT)算法来提取特征描 述符。另外,在本公开内容中可以应用用于检测特征和提取点描述符的各种公知的技术。
[0079] 可以以程序命令的形式实现以上所描述的根据本公开内容的实施方式,可以通过 各种计算机组件执行该程序命令并将其存储在计算机可读记录介质中。计算机可读记录介 质可以单独地以组合方式包括程序命令、数据文件、数据结构等等。计算机可读记录介质中 所记录的程序命令可以是为本公开内容专门设计或配置的程序命令或已知由计算机软件 领域的中的技术人员使用的程序命令。计算机可读记录介质包括例如磁介质(例如硬盘、 软盘和磁带)、光记录介质(例如⑶-ROM和DVD、磁-光介质(例如光磁软盘(floptical disk))以及专门配置为存储和执行程序命令的硬件设备,例如ROM、RAM、闪速存储器等等。 程序命令包括例如可由使用解释器或类似物的计算机执行的高级语言代码以及由编译器 生成的机器代码。硬件设备可以被配置为使用一个或多个软件模块操作,以便执行根据本 公开内容的处理,且反之亦然。
[0080] 在前述的讨论中,尽管已经结合诸如特定组件、各种实施方式和附图等的特定事 项描述了本公开内容,但仅出于帮助理解本公开内容的目的而提供这些特定事项,且本公 开内容不限于这些实施方式。应明显看出,本领域中的技术人员可以从这些描述对其做出 各种修改和改变。
[0081] 因此,本公开内容的精神应不限于上面的实施方式,且所附权利要求及其同等地 或等效地对其修改的内容将被认为是落在本公开内容的范围之内。
【权利要求】
1. 一种图像搜索方法,包括: (a) 由图像搜索装置获取输入图像的特征; (b) 由所述图像搜索装置获取相应特征所对应的单词和靠近所述特征所对应的相应单 词的邻近单词,其中,在可视特征空间中所包括的多个单词单元中的第一单词单元被指派 给一个单词时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词, 所述第二单词单元靠近被指派给所述单词的所述第一单词单元,其中,所述多个单词单元 被指派给不同的单词,并且在离所述单词预定距离内的至少一个单词被指定为所述邻近单 词; (c) 基于与对应于所述单词的第一组图像相关联的信息以及与对应于所述邻近单词的 第二组图像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图像, 关于所述第一组和第二组图像的信息被存储在数据库中。
2. 如权利要求1所述的方法,其特征在于,步骤(a)包括获取用于所述输入图像的相应 特征的特征描述符。
3. 如权利要求1所述的方法,其特征在于,所述距离信息是关于欧几里德距离的信息。
4. 如权利要求2所述的方法,其特征在于,关于对应于所述单词的所述第一组图像的 信息包括与来自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所 述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近 单词的所述第二组图像的信息包括与靠近来自所述可视特征空间中的所述多个单词单元 当中的、所述单词被指派给的所述第一单词单元的至少一个第二单词单元相对应的相应第 二组图像的标识符和特征描述符。
5. 如权利要求4所述的方法,其特征在于,通过获取被存储在所述数据库中的多个相 应图像的特征,且基于所述可视特征空间中的位置,聚类所述多个图像的特征,来形成所述 可视特征空间中的所述多个单词单元,且所述多个单词单元被指派给不同的单词。
6. 如权利要求5所述的方法,其特征在于,所指派的单词包括关于在所述可视特征空 间中的所述多个单词单元之间的距离的信息。
7. 如权利要求5所述的方法,其特征在于,在步骤(b),通过使用关于中心点的信息,每 一中心点是对应于相应单词单元的图像的特征的平均值,来比较在所述输入图像的相应特 征和所述多个单词单元的相应中心点之间的距离,获取所述单词,并且,对于所述单词,获 取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的单词。
8. 如权利要求4所述的方法,其特征在于,步骤(c)包括: 基于所述输入图像的相应特征离所述第一组和第二组图像的相应特征的距离,把所述 第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像的每一特征;以及 基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入图像相同或相 似的图像。
9. 一种图像搜索方法,包括: (a) 由图像搜索装置获取输入图像的特征; (b) 由所述图像搜索装置获取相应特征所对应的二进制代码;以及 (c) 基于与对应于所述二进制代码的第一组图像相关联的信息,以及与对应于靠近所 述二进制代码且包括关于到所述二进制代码的距离的信息的邻近二进制代码的第二组图 像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图像,关于所述 第一组和第二组图像的信息被存储在数据库中,其中,在可视特征空间中的多个单词单元 中的第一单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元 中的至少一个第二单词单元的代码,所述第二单词单元靠近所述第一单词单元且包括关于 到所述第一单词单元的距离的信息,其中,所述多个单词单元被指派给不同的二进制代码, 且在离所述二进制代码的预定距离内的至少一个二进制代码被指定为所述邻近二进制代 码。
10. 如权利要求9所述的方法,其特征在于,步骤(a)包括获取所述输入图像的相应特 征的特征描述符。
11. 如权利要求10所述的方法,其特征在于,每一特征点的所述特征描述符被表示成η 维矢量,且所述二进制代码由m个比特组成,其中m小于η。
12. 如权利要求9所述的方法,其特征在于,关于所述距离的信息是关于欧几里德距离 的信息。
13. 如权利要求10所述的方法,其特征在于,关于对应于所述二进制代码的所述第一 组图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的、所述二进制代码 被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对 应于所述邻近二进制代码的所述第二图像的信息包括与在所述可视特征空间中的所述多 个单词单元当中的所述第二单词单元相对应的相应第二图像的标识符和特征描述符,所述 第二单词单元靠近所述第一单词单元且被指派给包括关于到所述二进制代码的距离的信 息的所述邻近二进制代码。
14. 如权利要求13所述的方法,其特征在于,通过获取被存储在所述数据库中的多个 相应图像的特征且基于在所述可视特征空间中的位置,聚类所述多个图像的所述特征,来 形成所述可视特征空间中的所述多个单词单元,且所述多个相应单词单元被指派给包括关 于在所述多个单词单元之间的距离的信息的二进制代码。
15. 如权利要求14所述的方法,其特征在于,在步骤(b),使用中心点的描述符,每一中 心点是对应于相应单词单元的图像的特征的平均值,来比较在所述输入图像的相应特征和 所述多个相应单词单元的相应中心点之间的距离,获取所述二进制代码,并且,对于所述二 进制代码,获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的二进 制代码。
16. 如权利要求14所述的方法,其特征在于,步骤(c)包括: 基于所述输入图像的相应特征离所述第一组和第二组图像的相应特征的距离,把所述 第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像的每一特征;以及 基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入图像相同或相 似的图像。
17. 如权利要求14所述的方法,其特征在于,关于所述距离的信息是关于海明距离的 信息。
18. -种图像搜索方法,包括: (a) 由图像搜索装置获取输入图像的特征; (b) 由所述图像搜索装置获取所述输入图像的相应特征的特征描述符; (C)由所述图像搜索装置把所述输入图像的所述特征的所述特征描述符映射到二进制 代码;以及 (d)基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于靠近所述 二进制代码且其包括指示邻近二进制代码靠近所述二进制代码的距离信息的邻近二进制 代码的第二图像相关联的信息,由所述图像搜索装置搜索与所述输入图像相同或相似的图 像,关于所述第一组和第二组图像的信息被存储在数据库中,其中,在离所述二进制代码的 预定距离内的至少一个二进制代码被指定为所述邻近二进制代码。
19. 如权利要求18所述的方法,其特征在于,每一特征的所述特征描述符被表示成η维 矢量,且所述二进制代码由m个比特组成,其中m小于η。
20. 如权利要求18所述的方法,其特征在于,所述距离信息是关于欧几里德距离的信 肩、。
21. 如权利要求19所述的方法,其特征在于,步骤(d)包括: 基于所述输入图像的相应特征到所述第一组和第二组图像的相应特征的距离,把关于 所述第一组和第二组图像中的至少一个图像的信息分配给所述输入图像的每一特征;以及 基于被分配给所述输入图像的每一特征的关于至少一个图像的信息,标识与所述输入 图像相同或相似的图像。
22. 如权利要求18所述的方法,其特征在于,步骤(c)包括获取被存储在所述数据库中 的多个相应图像的特征,获取所述多个图像的相应特征的特征描述符,并且把具有在多个 不同的预定范围内的距离的多个特征描述符映射到不同的二进制代码。
23. 如权利要求18所述的方法,其特征在于,所述距离信息是关于海明距离的信息。
24. 如权利要求18所述的方法,其特征在于,步骤(c)包括把具有在预定范围内的距离 的所述输入图像的相应特征描述符映射到相应的二进制代码。
25. -种图像搜索装置,包括: 特征获取单元,其用于获取输入图像的特征; 单词和邻近单词获取单元,其用于获取相应特征所对应的单词和靠近所述单词的邻近 单词,其中,在可视特征空间中所包括的多个单词单元中的第一单词单元被指派给一单词 时,邻近单词是被指派给所述多个单词单元的至少一个第二单词单元的单词,所述第二单 词单元靠近所述单词被指派给的所述第一单词单元,且所述多个单词单元被指派给不同的 单词,并且在离所述单词预定距离内的至少一个单词被指定为所述邻近单词;以及 搜索单元,其基于与对应于所述单词的第一组图像相关联的信息以及与对应于所述邻 近单词的第二组图像相关联的信息搜索与所述输入图像相同或相似的图像,关于所述第一 组和第二组图像的信息被存储在数据库中。
26. 如权利要求25所述的装置,其特征在于,所述单词和邻近单词获取单元与包括关 于被映射到所述可视特征空间中的所述单词的所述邻近单词的信息的查找表相关联。
27. 如权利要求25所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信 肩、。
28. 如权利要求25所述的装置,进一步包括特征获取单元,其用于获取所述输入图像 的相应特征的特征描述符,其中,关于对应于所述单词的所述第一组图像的信息包括与来 自所述可视特征空间中的所述多个单词单元当中的、所述单词被指派给的所述第一单词单 元相对应的相应第一组图像的标识符和特征描述符,且关于对应于所述邻近单词的所述第 二组图像的信息包括与靠近来自所述可视特征空间中的所述多个单词单元当中的、所述单 词被指派给的所述第一单词单元的至少一个第二单词单元相对应的相应第二组图像的标 识符和特征描述符。
29. 如权利要求28所述的所述装置,其特征在于,通过获取被存储在所述数据库中的 多个相应图像的特征并且基于在所述可视特征空间中的位置聚类所述多个图像的所述特 征,来形成所述可视特征空间中的所述多个单词单元,且所述多个单词单元被指派给不同 的单词。
30. 如权利要求29所述的装置,其特征在于,所指派的单词包括关于在所述可视特征 空间中的所述多个单词单元之间的距离的信息。
31. 如权利要求29所述的装置,其特征在于,所述单词和邻近单词获取单元使用关于 中心点的信息,每一中心点是对应于相应单词单元的图像的特征的平均值,来比较在所述 输入图像的相应特征和所述多个单词单元的相应中心点之间的距离,并且,对于所述单词, 获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的单词。
32. 如权利要求28所述的装置,其特征在于,所述搜索单元包括: 标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的相应 特征的距离,把所述第一组图像和所述第二组图像的至少一个图像的标识符分配给所述输 入图像的每一特征;以及 分类单元,其基于被分配给所述输入图像的相应特征的所述标识符,标识与所述输入 图像相同或相似的图像。
33. -种图像搜索装置,包括: 特征点获取单元,其用于获取输入图像的特征点; 二进制代码获取单元,其用于获取相应特征所对应的二进制代码;以及 搜索单元,其基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于 靠近所述二进制代码且其包括关于到所述二进制代码的距离的信息的邻近二进制代码的 第二组图像相关联的信息,来搜索与所述输入图像相同或相似的图像,关于所述第一组和 第二组图像的信息被存储在数据库中,其中,在可视特征空间中的多个单词单元中的第一 单词单元被指派给二进制代码时,邻近二进制代码是被指派给所述多个单词单元中的至少 一个第二单词单元的代码,所述第二单词单元靠近所述第一单词单元且包括关于到所述第 一单词单元的距离的信息,所述多个单词单元被指派给不同的二进制代码,并且,在离所述 二进制代码的预定距离内的至少一个二进制代码被指定为邻近二进制代码。
34. 如权利要求33所述的装置,进一步包括特征获取单元,其用于获取所述输入图像 的相应特征的特征描述符。
35. 如权利要求34所述的装置,其特征在于,每一特征的所述特征描述符被表示成η维 矢量,且所述二进制代码由m个比特组成,其中m小于η。
36. 如权利要求33所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信 肩、。
37. 如权利要求33所述的装置,其特征在于,关于对应于所述二进制代码的所述第一 组图像的信息包括与在所述可视特征空间中的所述多个单词单元当中的、所述二进制代码 被指派给的所述第一单词单元相对应的相应第一组图像的标识符和特征描述符,且关于对 应于所述邻近二进制代码的所述第二组图像的信息包括与在所述可视特征空间中的所述 多个单词单元当中的所述第二单词单元相对应的相应第二组图像的标识符和特征描述符, 所述第二单词单元靠近所述二进制代码被指派给的所述第一单词单元,且被指派给包括关 于到所述二进制代码的距离的信息的所述邻近二进制代码。
38. 如权利要求37所述的装置,其特征在于,通过获取被存储在所述数据库中的多个 相应图像的特征并且基于所述可视特征空间中的位置聚类所述多个图像的所述特征,来形 成所述可视特征空间中的所述多个单词单元,且所述多个相应单词单元被指派给包括关于 在所述多个单词单元之间的距离的信息的二进制代码。
39. 如权利要求38所述的装置,其特征在于,所述二进制代码获取单元使用中心点的 描述符,每一中心点是对应于相应单词单元的图像的特征的平均值,比较在所述输入图像 的相应特征和所述多个相应单词单元的相应中心点之间的距离,且对于所述二进制代码, 获取被指派给其中心点最接近所述输入图像的所述相应特征的单词单元的二进制代码。
40. 如权利要求37所述的所述装置,其特征在于,所述搜索单元包括: 标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的所述 特征的距离,把所述第一组和第二组图像中的至少一个图像的标识符分配给所述输入图像 的每一特征;以及 分类单元,其基于被分配给所述输入图像的所述特征点中的每一个的所述标识符,标 识与所述输入图像相同或相似的图像。
41. 如权利要求33所述的装置,其特征在于,所述距离信息是关于海明距离的信息。
42. -种图像搜索装置,包括: 特征获取单元,其用于获取输入图像的特征; 特征描述符获取单元,其用于获取用于所述输入图像的相应特征的特征描述符; 特征描述符-二进制代码映射单元,其用于把所述输入图像的所述特征的所述特征描 述符映射到二进制代码;以及 搜索单元,其基于与对应于所述二进制代码的第一组图像相关联的信息以及与对应于 靠近所述二进制代码且其包括指示邻近二进制代码靠近所述二进制代码的信息的邻近二 进制代码的第二组图像相关联的信息,搜索与所述输入图像相同或相似的图像,关于所述 第一组和第二组图像的信息被存储在数据库中,其中,在离所述二进制代码的预定距离内 的至少一个二进制代码被指定为邻近二进制代码。
43. 如权利要求42所述的装置,其特征在于,每一特征的所述特征描述符被表示成η维 矢量,且所述二进制代码由m个比特组成,其中m小于η。
44. 如权利要求42所述的装置,其特征在于,所述距离信息是关于欧几里德距离的信 肩、。
45. 如权利要求42所述的装置,其特征在于,所述搜索单元包括: 标识符分配单元,其基于所述输入图像的相应特征到所述第一组和第二组图像的相应 特征的距离把关于所述第一组和第二组图像中的至少一个图像的信息分配给所述输入图 像的每一特征;以及 分类单元,其基于被分配给所述输入图像的每一特征的关于至少一个图像的信息,标 识与所述输入图像相同或相似的图像。
46. 如权利要求42所述的装置,其特征在于,获取被存储在所述数据库中的多个相应 图像的特征,获取用于所述多个图像的相应特征的特征点描述符,以及具有在离不同的二 进制代码的多个不同的预定范围内的距离的多个特征描述符。
47. 如权利要求42所述的装置,其特征在于,所述距离信息是关于海明距离的信息。
48. 如权利要求42所述的装置,其特征在于,所述特征描述符-二进制代码映射单元把 用于具有在预定范围内的距离的所述输入图像的相应特征描述符映射到相应的二进制代 码。
49. 一种非暂态计算机可读记录介质,其用于记录用于执行根据权利要求1到24中的 任何一项的所述方法的计算机程序。
【文档编号】G06F17/30GK104094255SQ201280067115
【公开日】2014年10月8日 申请日期:2012年11月12日 优先权日:2011年11月16日
【发明者】T-H·金, M·朴, S·崔 申请人:英特尔公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1