自适应图像检索数据库的制作方法

文档序号：6437820阅读：174来源：国知局

专利名称：自适应图像检索数据库的制作方法
技术领域：
本发明涉及检索，尤其涉及图像检索。
背景技术：
随着因特网技术的发展，诸如Bing 、Google ·和Yahoo 等搜索引擎当前向因
特网用户提供基于文本的图像搜索服务。这些图像搜索服务允许用户输入描述用户想要寻找的图像的关键字，并基于所输入的关键字检索一个或多个数据库图像。然而，为了检索所需的图像，输入的关键字需要准确地和/或充分地描述图像。此外，这种类型的图像搜索要求数据库图像具有一个或多个文本注释以便允许对该特定数据库图像进行比较和检索。考虑到因特网上存在数百万个图像，这不可避免地对搜索引擎施加了巨大的工作负担。而且，必须用文本注释准确且完整地标记图像以便使用文本搜索查询来发现图像。考虑到基于文本的图像搜索的缺点，一些搜索引擎现在提供基于内容的图像检索 (CBIR)服务。用户向搜索引擎提交查询图像，搜索引擎随后分析查询图像的实际内容(例如，颜色、形状和纹理)。基于分析的结果，搜索引擎检索与查询图像类似或相关的图像。然而，这种类型的基于内容的图像检索仍处于不成熟的阶段。正积极地进行研究以确定有效且准确的图像搜索和检索策略和/或算法。此外，当前技术水平的基于内容的图像检索方法是以数据为中心而不是以用户为中心的。例如，现有的图像检索系统不考虑用户的偏好。

发明内容
提供本概述以便介绍将在以下详细描述中进一步描述的自适应图像检索系统的一些简化概念。本概述并不旨在标识所要求保护的主题的必要特征，也不旨在用于帮助确定所要求保护的主题的范围。本申请描述了自适应图像检索的示例实施例。在一个实施例中，自适应图像检索系统从一个或多个客户机接收图像查询日志数据。图像查询日志数据包括在预定时间段内由一个或多个客户机查询的或提交供查询的图像。系统至少基于此接收到的查询日志数据来更新特征码本。

参考附图阐述详细描述。在附图中，附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用同一附图标记指示相似或相同的项。图1示出了包括示例自适应图像检索系统的示例性环境。图2更详细地示出了图1的示例自适应图像检索系统。图3示出了基于图像查询日志数据来更新图像搜索/检索算法的示例性方法。图4示出了响应于由客户机所提交的图像查询来检索一个或多个数据库图像的第一示例性方法。图5示出了响应于由客户机所提交的图像查询来检索一个或多个数据库图像的第二示例性方法。图6示出了响应于由客户机所提交的图像查询来检索一个或多个数据库图像的第三示例性方法。
具体实施例方式概览如上文所指出的，当前技术的CB^(基于内容的图像检索)系统不考虑用户的偏爱，并返回不能反映用户的偏好和/或兴趣的当前趋势的图像。这些系统检索图像时不考虑某些图像比较频繁地被用户查询，而其他图像可能很少被访问。此外，用户偏好和兴趣会随着时间而变化。过去用户感兴趣的图像可能现在用户没有兴趣。此外，新颖的并且新的图像查询不能被并入图像搜索/检索算法的构建中。典型示例是关于汽车的图像查询。例如，大多数用户可能对新车型感兴趣。如果用户提交包括汽车的查询图像，则搜索引擎需要察觉到用户可能希望获得新车型的图像，而不是旧车型。简言之，现有技术的图像搜索不能满足并反映用户偏好和/或兴趣的这种趋势。这常常导致返回尽管类似于查询图像但是不是用户所希望的那些图像。本发明描述了将图像查询日志数据并入到搜索策略和/或算法中并便于反映用户的当前偏好和兴趣的图像的检索的自适应图像检索。一般而言，自适应图像检索系统从一个或多个客户机接收图像查询日志数据。此图像查询日志数据可以包括以前由一个或多个客户机所提交的多个查询图像。基于日志数据，系统更新或重构其搜索策略和/或算法，以便于检索更加可能与客户机的当前兴趣更为相关的图像。例如，如果系统使用特征码本来标识和检索图像，则可以基于接收到的图像查询日志数据来重构此特征码本。然后，使得到的重构的码本的特征偏向代表由用户最近查询的图像的特征。另外地或另选地，可以基于图像查询日志数据，更新图像非相似度度量，以便使重构的码本的特征偏离与由用户最近查询的图像的特征不同的特征。换句话说，自适应图像检索系统可以被配置成增加将返回具有类似于由用户最近查询的图像的特征的图像的似然率和/或降低将返回具有与由用户最近查询的图像不同的特征的图像作为搜索结果的似然率。所描述的系统允许图像检索反映用户偏好和/或兴趣的趋势，因此，降低当将不相关的图像(尽管类似于查询图像)返回给用户时用户遇到的挫折感。下面将描述多个不同的实现和实施例。在下面的部分，描述了适于实施各种实现的示例性环境。在此讨论之后，描述了自适应图像检索系统的系统、设备和过程的说明性实现。示例性体系结构图1示出了可被用来实现自适应图像检索系统的示例性环境100。环境100包括一个或多个用户102-1，102-2，· · · 102-M (统称为102)、网络104和自适应图像检索系统106。用户102使用一个或多个设备108-1，108-2，. . . 108_N(统称为108)通过网络104与自适应图像检索系统106进行通信。设备108可以被实现为各种常规计算设备，包括，例如，服务器、台式PC、笔记本或便携式计算机、工作站、大型计算机、移动计算设备、手持式设备、移动电话、因特网设备、网络路由器等等或其组合。网络104可以是无线或有线网络，或其组合。网络104可以是彼此互连并用作单个大型网络的各单独网络的集合(例如，因特网或内联网)。这样的单独网络的示例包括，但不仅限于，局域网(LAN)、广域网(WAN)、以及城域网(MAN)。此外，各个网络也可以是无线或有线网络，或其组合。在一个实施例中，设备108包括耦合到存储器112的处理器110。存储器112包括浏览器114及其他程序数据116。存储器112可以耦合到诸如网络服务器、路由器和/或其他设备108之类的其他设备，或与它们相关联，和/或可以它们被访问。在一个实施例中，用户102使用设备108的浏览器114将图像查询提交到自适应图像检索系统106。在为图像查询检索一个或多个相关图像之后，自适应图像检索系统106 将相关图像返回给用户102。图2更详细地示出了自适应图像检索系统106。在一个实施例中，系统106可以包括，但不限于，处理器202、网络接口 204、系统存储器206，以及输入/输出接口 208。存储器206包括诸如随机存取存储器(RAM)之类的易失性存储器形式的计算机可读介质和/或诸如只读存储器(ROM)或闪存RAM之类的非易失性存储器形式的计算机可读介质。存储器206包括程序模块210和程序数据212。存储器206是计算机可读存储介质的一个示例。程序数据212可以包括图像查询日志数据214、图像数据库216，及其他程序数据218。虽然此处将图像数据库216描述为被包括在系统106的存储器206中，但是，图像数据库216也可以与系统106分开并可被系统106访问。可以从一个或多个客户机直接收集图像查询日志数据214。另选地或另外地，可以从一个或多个其他系统106或搜索引擎(未示出)收集图像查询日志数据214。图像查询日志数据214可以包括在预定时间段内(例如，可以是一天、一星期或一个月)收集的多个图像。在一个实施例中，这多个图像可以包括已经由一个或多个客户机102查询或提交供查询的图像。在另一实施例中，这多个图像还可以包括响应于相应的图像查询已经返回给一个或多个客户机102的数据库图像。另选地或另外地，这多个图像可以包括已经实际上被一个或多个客户机102选定的那些已返回的数据库图像。在多个图像包括所选数据库图像的情况下，图像查询日志数据214还可以包括所选数据库图像的相应的相似度分数。所选数据库图像的相似度分数表示所选数据库图像相对于对应的查询图像的相对相似性，该相对相似性基于，例如，所选数据库图像的特征和对应的查询图像的特征之间的相似度。例如，第一图像相对于第二图像的相对相似性可以基于对于第一和第二图像共同的特征的数量相对于两个图像的特征的平均数的比率。图像查询日志数据214还可以包括在预定时间段内收集的多个图像的各自的查询频率。另选地或另外地，图像查询日志数据214还可以包括在预定时间段内收集的多个图像的各自的查询时间。在一个实施例中，图像查询日志数据214还可以包括已经提交多个图像的一个或多个客户机的信息。客户机的信息可以包括，但不限于，客户机的标识信息、以及客户机提交图像查询所使用的计算设备的信息。在收集有关客户机的个人信息的情况下，可以给予客户机选择停止将这样的信息作为个人可识别的信息进行共享的机会。此外，代替将实际图像存储在图像查询日志数据214中，可以将存储在图像数据库216中的实际图像的指针、索引或散列值存储在图像查询日志数据214中。程序模块210可以包括查询接收模块220。查询接收模块220从客户机接收图像查询。图像查询包括客户机用来查找他/她希望的图像的查询图像。在接收到图像查询之后，查询接收模块220可以将接收到的查询图像记录到图像查询日志数据214中，连同诸如对应的查询时间之类的额外的信息。可另选地，查询接收模块220可以等待直到到达预定的记录时间，并将所有查询图像连同相应的额外的信息记录到在该预定记录时间内获得的图像查询日志数据214中。查询接收模块220还可以将查询图像传输到特征提取模块222，该特征提取模块222提取代表查询图像的特征。特征提取模块222可以采用诸如奇异矢量分解(SVD)、视觉关键词袋等等之类的一种或多种特征提取技术。特征的示例包括，但不限于，尺度不变特征变换(SIFT)，以及强度直方图。取决于系统200在哪一种模式下执行，所提取的特征可以被馈送到搜索分层模块 224、码本重构模块226、相似度测量模块228，或者其任何组合中的任何一个。在一个实施例中，响应于从特征提取模块222接收到所提取的特征，搜索分层模块2M将所提取的特征与现有特征码本进行比较。特征码本，有时也叫做“视觉关键词”，可以例如通过将图像特征聚集成多个簇来生成。码本的特征或视觉关键词可以被定义为，例如多个簇中的一个簇的中心。在此类型的码本构造之下，可以通过将每一所提取的特征分配到其最近的簇中心，利用视觉关键词/特征的出现次数的直方图来表示图像。在将每一所提取的特征分配到码本的其中一个视觉关键词之后，可以根据图像相似度度量，将这些分配的视觉关键词与每一数据库图像的视觉关键词进行比较。图像相似度度量是两个图像之间的相似度的度量，并可以返回表示数据库图像相对于查询图像的相对相似性的相似度 /非相似度分数。在一个实施例中，相似度测量模块2 基于所提取的特征或分配的视觉关键词，计算数据库图像相对于查询图像的相似度/非相似度分数。例如，相似度测量模块 2 基于查询图像和数据库图像的共同的特征或视觉关键词的数量相对于它们的特征或视觉关键词的平均数的比率，来计算相似度/非相似度分数。在另一实施例中，代替与每一数据库图像的视觉关键词进行比较，相似度测量模块2 可以将分配的视觉关键词与每一图像类(例如，汽车类)的代表性的视觉关键词进行比较，每一图像类都包括共享预定数量或百分比的共同的视觉关键词的多个数据库图像。此预定数量或百分比的共同的视觉关键词可以由系统106的管理员或操作员来进行设置。在又一个实施例中，相似度测量模块2 可以使用具有多个级别的搜索分层结构。搜索分层结构的每一级别都可以包括η个节点，其中，η可以是大于零的任何整数。搜索分层结构的每一个节点都具有代表性的视觉特征集合。在一个实施例中，节点的代表性的视觉特征集合可以是属于该节点以及其子节点的所有图像的视觉关键词的簇中心。可以将所提取的特征或分配的视觉关键词与一个级别的每一个节点的代表性的视觉特征集合进行比较。在找到具有该级别的相对于所提取的特征或分配的视觉关键词的最近的视觉特征集合的节点之后，比较下一级别的对应的一个或多个子节点，以此类推，直到到达叶节点。然后，可以将与此叶节点相关联的一个或多个数据库图像作为图像查询的结果返回给客户机。此外，相似度测量模块2 还可以获得这些数据库图像相对于查询图像的一个或多个相似度/非相似度分数。返回的图像查询的结果可以具有根据它们的相似度/非相似度分数排列的一个或多个数据库图像，例如，按照它们的相似度分数/非相似度分数的降序排列。虽然被描述为单独的模块，但是，搜索分层模块2 和相似度测量模块2 可以被视为执行其所有上文所描述的操作的单个模块。当更新或重构系统106的图像搜索/检索策略或算法时，可以更新或重构图像相似度度量、特征码本或两者。在一个实施例中，可以定期地，例如，每天、每一星期、每个月或每年，更新或重构系统106的图像搜索或检索策略或算法。在另一实施例中，可以响应于图像查询日志数据中的图像的数量达到预定数量阈值来更新或重构系统106的图像搜索/检索策略或算法。预定数量阈值可以被设置为图像数据库216中的图像的总数的某一百分比 (例如，)或一绝对值(例如，1000个图像)。在又一个实施例中，可以响应于图像查询日志数据214中的所有选定数据库图像的相似度分数的平均值(即，平均相似度分数)小于预定相似度分数阈值，来更新或重构系统106的图像搜索或检索策略或算法。可另选地，可以响应于图像查询日志数据214中的所有选定数据库图像的非相似度分数的平均值大于预定非相似度分数阈值，来更新或重构系统106的图像搜索或检索策略或算法。例如，如果查询图像和数据库图像之间的完美匹配具有相似度分数1或非相似度分数0，则可以响应于例如平均相似度分数小于0. 7或平均非相似度分数大于0. 3，来更新或重构码本。可另选地，可以将上面的三个策略组合起来，每当达到上面的预定时间或阈值中的一个，或当达到两者时，就更新或重构图像搜索/检索策略或算法。应该注意，上面的时间、百分比和分数值只用于说明性用途。可以根据，例如，准确性和/或计算要求，由系统106的管理员或操作员使用和设置任何值。按如下方式来描述两个示例性更新/重构算法。所描述的更新/重构算法相对于具有低于第一查询频率的第二查询频率的第二查询的图像的特征，增大了检索到具有第一查询频率的第一查询的图像的特征的似然率。然而，下列更新/重构算法只用于说明性用途。当前说明书涵盖了将图像查询日志数据包括到图像搜索/检索策略或算法的更新/重构的任何算法。示例图像相似度度量此算法的一个目的是将来自图像查询日志数据的用户的行为信息包括到视觉关键词加权框架中。直观地，更频繁访问的视觉关键词(来自图像查询)将具有更高的权重，增大检索到具有更频繁访问的视觉关键词的那些数据库图像的似然率。更具体而言，根据基于查询-日志加权和常规tf-idf加权方案，形成均勻的概率性框架。从用户的偏好和数据分布的观点来看，查询-日志相关的组件和词频组件可以被视为互补的先验信息。视觉关键词的词频被定义为视觉关键词出现在图像中的次数。通过边缘化相对于数据库图像和图像类的每一词频，获取每一个视觉关键词的查询-日志相关的先验概率，并将其充当用于对每一视觉关键词重新加权的重要权重。此新的视觉关键词重要性加权方案被定义为 qf-tf-idf (其中，qf表示查询频率)，并可以充当用户同心CB^系统的重要构件。为了描述，此处首先定义某些记号。令图像集合表示为D，第i个图像表示成Ip 图像集合的大小，即，图像的数量，被假设为N= |D|0假设图像数据库中的图像类(或概念)的数量为K。通过聚类(例如，K均值聚类)，生成视觉关键词(V)的集合或码本，被表示为V1, V2, ... VM，其中，M是码本的大小。在常规的tf-idf框架中，第j个图像中的词频nf被表示为给定视觉关键词Vi出现在该图像中的次数。此频率通常被归一化，以防止从每一图像中提取的特征或视觉关键词 (例如，SIFT特征)的数量不平衡。如此，按如下方式来计算归一化的词频
权利要求
1.一种计算机实现的方法，包括从一个或多个客户机接收G02)图像查询日志数据，所述图像查询日志数据包括在预定时间段内由一个或多个客户机查询的多个图像；以及至少基于所接收到的查询日志数据来更新(404)特征码本。
2.如权利要求1所述的计算机实现的方法，其特征在于，所述方法还包括从请求客户机接收包括示例图像的图像查询；以及从所述示例图像提取多个特征；将所提取的多个特征与所述更新后的特征码本中的特征进行比较；以及至少基于所述比较从数据库检索一个或多个数据库图像。
3 如前述权利要求中任一项所述的计算机实现的方法，其特征在于，所述图像查询日志数据还包括对应于所查询的多个图像的多个查询频率，且其中更新所述特征码本包括相对于具有低于第一查询频率的第二查询频率的所查询的第二图像的特征，增加检索到具有所述第一查询频率的所查询的第一图像的特征的似然率。
4.如前述权利要求中任一项所述的计算机实现的方法，其特征在于，所述图像查询日志数据还包括对应于所查询的多个图像的多个查询时间，且其中更新所述特征码本包括相对于具有在第一查询时间之前的第二查询时间的所查询的第二图像的特征，增加检索到具有所述第一查询时间的所查询的第一图像的特征的似然率。
5.一种计算机实现的方法，包括从客户机接收(50 包括示例图像的图像查询；从所述示例图像提取(504)多个特征；将多个所提取的特征与特征码本进行比较(506)，以从所述特征码本获取一个或多个特征；至少基于一个或多个所获取的特征，将一个或多个数据库图像提供(508)给所述客户机；以及至少基于从所述示例图像提取的多个特征，更新(510)所述特征码本。
6.如权利要求5所述的计算机实现的方法，其特征在于接收所述客户机选择所述一个或多个数据库图像中的数据库图像的指示；进一步基于所选的数据库图像的特征来更新所述特征码本。
7.如前述权利要求中任一项所述的计算机实现的方法，其特征在于，所述方法还包括对所述一个或多个数据库图像中的每一个提供分数，所述分数表示基于所提取的所述示例图像的多个特征所述一个或多个数据库图像中的每一个与所述示例图像的相对相似性。
8.如前述权利要求中任一项所述的计算机实现的方法，其特征在于，更新所述特征码本包括从所查询的多个图像中提取多个特征；以及至少基于从所查询的多个图像提取的所述多个特征，更新所述码本的各特征的权重。
9.如前述权利要求中任一项所述的计算机实现的方法，其特征在于，所述方法还包括响应于更新所述码本预定的次数，归一化所述更新后的特征码本，所述归一化包括按照缩放因子重定所述码本的各特征的权重。
10.如前述权利要求中任一项所述的计算机实现的方法，其特征在于，所述查询日志数据还包括在预定的时间段内由所述一个或多个客户机选择的多个数据库图像。
全文摘要
本发明涉及自适应图像检索数据库。自适应图像检索图像允许检索更有可能反映用户偏好和/或兴趣的当前趋势的图像，从而可向图像搜索提供相关结果。自适应图像检索包括从一个或多个客户机接收图像查询日志数据，并基于接收到的查询日志数据更新特征码本。图像查询日志数据包括在预定时间段内由一个或多个客户机查询的图像。
文档编号G06F17/30GK102521233SQ20111035269
公开日2012年6月27日申请日期2011年11月1日优先权日2010年11月2日
发明者倪冰冰, 杨林军, 田奇申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨林军;田奇;倪冰冰
技术所有人：微软公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。