图像搜索中的交互式概念学习的制作方法

文档序号:6479223阅读:118来源:国知局
专利名称:图像搜索中的交互式概念学习的制作方法
图像搜索中的交互式概念学习背景对诸如将会由于基于元数据的系统中所固有的限制而在例如万维网上的图像搜 索中遇到的图像检索的兴趣正日益增长。当前大多数图像搜索都是通过使用关键字搜索来 进行的。这要求通过将搜索查询中的关键字与同图像相关联的元数据进行匹配来定位图 像。这种类型的搜索需要能够经由元数据来描述每一个图像的机制(诸如人标记),这对于 非常大的数据库,或者对于诸如例如从监视照相机自动生成的图像是不切实际的。诸如搜索万维网上的图像等图像搜索是困难的另一个原因部分地是因为少数关 键字通常不足以表征图像的视觉属性,诸如例如,所寻求的其中具有垂直线的图像。流行的 搜索引擎已经开始提供一组基于图像的简单特性自动生成的元标记(诸如黑白图像或包 含脸部的图像的标记),但这些方法受到不清楚最终用户想要能够在检查web图像搜索结 果时使用什么标记的事实的限制。概述提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定 所要求保护的主题的范围。此处所描述的交互式概念学习图像搜索技术允许最终用户基于图像的图像特性 来创建其自己的用于对响应于搜索查询而返回的图像进行排序或重新排序的规则。这些图 像特性可包括例如视觉以及语义特征或特性,或其组合。一旦创建了一个或多个规则,最终 用户然后就可根据其规则或规则的任何组合来对任何将来的图像搜索结果进行排序或重 新排序。在该技术的一个实施例中,最终用户提供每一个规则都应匹配的示例图像以及该 规则应拒绝的图像的示例。该技术学习示例图像的共同图像特性作为规则或概念并且然后 可根据习得的概念来对任何当前或将来图像搜索、图像列表或图像数据库进行排序或重新 排序。在对本发明的各实施例的以下描述中,对附图进行了参考,附图构成了实施例的 一部分且在其中作为说明示出了可在其中实践本发明的技术的具体实施例。可以理解,可 以使用其它实施例并且可以做出结构上的改变而不背离本发明的范围。


参考以下描述、所附权利要求书以及附图,将更好地理解本公开的具体特征、方面 和优点,附图中图1提供了其中通常执行图像搜索的一个可能的环境的概览。图2是描绘其中可采用图像搜索中的交互式概念学习技术的一个实施例的一个 示例性体系结构的图示。图3是描绘采用图像搜索中的交互式概念学习技术的一个实施例的过程的通用 示例性实施例的流程图。图4是描绘采用图像搜索中的交互式概念学习技术的一个实施例的过程的另一
5示例性实施例的流程图。图5是其中可以实现本发明的图像搜索中的交互式概念学习技术的示例性计算 设备的示意图。详细描述在以下对图像搜索中的交互式概念学习技术的描述中,对附图进行参考,附图形 成该描述的一部分,且通过可用于实现图像搜索中的交互式概念学习技术的说明性示例示 出。可以理解,可以利用其他实施例,并且可以作出结构上的改变而不背离所要求保护的主 题的范围。1. 0图像搜索中的交互式概念学习交互式概念学习图像搜索技术提供允许最终用户基于图像的图像特性来快速创 建其自己的用于对图像进行排序或重新排序的规则的图像搜索应用程序。这些图像特性可 包括视觉特性或语义特征或特性,或这两者的组合。然后可根据所创建的一个或多个规则 来对任何当前或将来图像搜索结果进行排序或重新排序。最终用户提供每一个规则都应匹 配的图像的示例以及该规则应拒绝的图像的示例。该技术学习这些示例的共同图像特性。 然后可根据习得的规则中的一个或多个来对任何当前或将来图像搜索的搜索结果进行排 序或重新排序。图像搜索中的交互式概念学习技术可按照个人计算机或类似计算设备上的独立 应用程序部署在网页中或集成在web浏览器中。图像搜索中的交互式概念学习技术的各实施例提供许多意料之外的结果和优点。 例如,用户可基于他们正在查找的图像的图像特性来创建其自己的图像搜索规则。该图像 搜索可以完全独立于与web上、数据库中、或用户的计算设备或相关联的服务器上的图像 相关联的任何搜索字或元数据。或者,搜索项可以与习得的规则组合以创建该技术的混合 实施例。图像搜索中的交互式概念学习技术可用于搜索诸如万维网的任何图像储存库或 驻留在用户的计算设备上的图像数据库。1.1搜索实施例图1提供了其中可执行诸如例如web或其它网络上的图像搜索等图像搜索的示例 性环境的概览。通常,用户在因特网或局域网(LAN)(例如,企业内部)上搜索关于一主题 的信息。因特网是链接在一起并且在计算机网络上进行通信的数百万个计算机的集合。个 人家庭计算机102可以使用电话线和调制解调器、数字用户线(DSL)、无线连接、或者与因 特网服务提供商(ISP) 106对话的电缆调制解调器来链接到因特网或web。诸如企业等大型 实体中的计算机通常将具有将其直接连接到该企业内部的局域网(LAN)IlO的网络接口卡 (NIC)。企业然后可使用如Tl线112的高速电话线来将其LAN 210连接到ISP 106。ISP 然后连接到更大的ISP 114,并且最大的ISP 116维护整个国家或地区的光纤“主干”。以 此方式,因特网上的每一个计算机都可连接到因特网上的每一个其它计算机。万维网(此处有时被称为web)是经由因特网访问的相互链接的超文本文档的系 统。在万维网上有数百万个信息和图像页面可用。当正在进行搜索的人设法找到关于特 定主题的信息或者特定类型的图像时,他们通常经由浏览器访问因特网搜索引擎以便在其它web上找到该信息。尽管不同的搜索引擎的工作方式有所不同,但它们通常爬行web (或 其它网络或数据库),检查它们查找的内容,保存它们查找的词以及在哪里找到这些词的索 弓丨,并且允许用户在该索引中查询或搜索词或词组合。通过索引搜索以查找信息涉及用户 构建搜索查询并经由浏览器或客户机端应用程序通过搜索引擎提交搜索查询。响应于查询 而返回的网页上的文本和图像可包含到相同或不同网站处的其它网页的超链接。应当注意,虽然图像搜索中的交互式概念学习技术可用于如上所述地搜索LAN 110或因特网上的图像,但该技术能够很好地同等地用于搜索诸如稍后参考图5讨论的用 户的计算设备上的图像。1. 2示例性体系结构其中可采用图像搜索中的交互式概念学习技术的一个示例性体系结构200(驻留 在诸如稍后参考图5讨论的计算设备500上)在图2中示出。为了获取图像集202,可采用 图像搜索202,该图像搜索处理通常经由浏览器输入到搜索引擎中的搜索查询。web浏览器 是使得用户能够显示通常位于万维网或其它网络上的网站处的网页上的文本、图像和其它 信息并与其交互的软件应用程序。搜索查询通常返回经由用户界面210向用户显示并由用 户操纵的搜索结果集。图像搜索中的交互式概念学习技术模块206与用户界面(UI) 210接口,该UI与浏 览器和搜索引擎接口并向用户显示从搜索或其它图像数据库202返回的图像集,并且还允 许用户提供具有想要查找的图像特性的图像的示例(或者不具有想要查找的图形特性的 图像的示例)208。该技术的图像搜索中的交互式概念学习模块206基于示例图像的图像特 性来学习关于用户正试图查找的图像类型的规则或概念,并且根据习得的规则来重新排列 搜索中所返回的图像(响应于当前搜索而返回的图像或者将来搜索的新图像集220)。规 则或概念学习涉及在特征提取模块212中提取图像集和示例图像中的图像的图像特性的 特征。规则学习模块214通过基于示例图像的图像特性的特征来对图像集中的图像进行排 序来试图学习规则。这涉及在特征加权模块216中对图像集中的每一个图像的特征进行加 权。然后在排序模块218中基于习得的一个或多个规则来对图像集中的图像进行排序或重 新排序。可将经排序的图像存储在经重新排序的图像数据库222中。1. 3采用图像搜索中的交互式概念学习技术的示例性过程采用图像搜索中的交互式概念学习技术的通用示例性过程在图3中示出。在非 常一般的意义上,该技术的这一实施例如下操作。获取图像集(框302)。该图像集可例如 通过在网络上通过关键字搜索该图像集,或者通过在用户的计算设备上搜索该图像集来获 取。提供具有想要找到的图像特性的图像的示例(框304)。例如,这些示例图像可选自响 应于上述用户搜索而返回的图像集。基于所提供的示例图像经由机器学习技术来学习指定 想要查找哪一种类型的图像(哪些图像将在图像集中排序较高)的规则或概念(框306)。 可以使用各种机器学习技术,诸如例如,支持向量机(SVM)、回归、贝叶斯网络、或最邻近分 类器。然后可采用习得的规则或概念基于图像的图像特性来对诸如在图像搜索中找到的图 像进行排序或重新排序(框308)。具有想要查找的图像特性的图像的排序高于不具有想要 查找的图像特性的图像。还可基于查找的图像特性来对另一图像集应用习得的规则或概念 (例如,新搜索或不同的图像数据库中返回的图像)(框310)。采用交互式概念学习图像搜索技术的另一更详细的示例性过程在图4中示出。
7获取图像集(框402)。计算图像集中的每一个图像的诸如例如视觉特征等多个特征(框 404)。用户然后选择图像的示例,或者具有他们正在查找的图像类型的特征的正例,或者不 具有他们正在查找的图像类型的特征的反例(框406)。(应当注意,用户可继续向规则提供 正例或反例,即使他们对其它搜索查询应用该规则。事实上,如此连续训练有时在使得规则 尽可能稳健方面是重要的。)通过基于所提供的一个或多个示例图像来计算图像集中的每 一个图像的特征的权重以确定该图像集中的最相关图像来学习概念或规则(框408)。然后 根据计算出的权重来对图像集中的图像进行重新排序并且向用户显示这些图像(框410)。 用户评估经重新排序的图像(框412)并且如果不满意经重新排序的图像(框414),则提 供附加示例图像(406)。这继续直到用户对经重新排序的图像中的最相关图像包含该用户 正在查找的一个或多个图像感到满意。应当注意,也有可能向用户提供选择的示例图像集 供该用户指定哪一个图像更像他们正在查找的图像以加速确定最相关图像(例如,具有所 查找的图像特性的那些图像)的过程(框416)(例如,如将在稍后详细讨论的主动学习)。 另外,在需要时对完全不同的图像集应用习得的一个或多个规则(框418)也是可能的。1. 4示例性实施例可以实现图像搜索中的交互式概念学习技术的各替换实施例。图像搜索中的交互式概念学习技术的一个示例性实施例可被实现为从基于关键 字的web图像搜索引擎中检索图像的应用程序,但该技术可以同等地很好地适用于执行对 存储在台式计算机或其它计算设备上的图像的图像搜索。图像搜索中的交互式概念学习技 术允许根据用户基于图像的图像特性创建的规则来对图像数据库中的图像搜索结果或图 像进行排序或重新排序。在图像搜索中的交互式概念学习技术的一个实施例中,每一个规则都被定义为最 邻近分类器,以便计算指示一图像与用于训练该规则的示例有多类似的分数。这些规则的 训练需要从最终用户提供的示例中学习距离函数。为了帮助最终用户提供帮助图像搜索中 的交互式概念学习技术确定该用户正在创建什么规则的信息示例,在一个实施例中,图像 搜索中的交互式概念学习技术实现主动学习准则以帮助用户提供用于学习规则的良好示 例。图像搜索中的交互式概念学习技术的这些和其它实现的细节在下文中更详细地讨论。应当注意,对所讨论的实施例的许多替换实施例也是可能的,并且此处所讨论的 步骤和元素可取决于特定实施例而改变、添加或消除。这些替换实施例包括可使用的替换 步骤和替换元素,以及可做出的结构上的改变,而不脱离本发明的范围。1. 4. 1用于获取图像集的图像查询在如图2所示的一个示例性实施例中,图像搜索中的交互式概念学习技术在程序 上使用查询来检索图像以便使用多个搜索引擎中的任一个来进行图像搜索202。在该技术 的一个实施例中,查询中的格式参数指示引擎应当以XML格式返回其结果列表,并且图像 搜索中的交互式概念学习技术下载每一个图像的缩略图(但对该技术也可使用全尺寸图 像)。在下载响应于搜索查询而返回的每一个图像时分析这些图像的图像特性212,并且根 据任何主动习得规则来对所得图像进行排序214、216。或者,可以在web爬行器首次找到并 索引图像时分析图像的图像特性,并且在下载搜索结果时只需下载而非计算这些特性。1. 4. 2根据习得的最终用户规则来对图像结果进行排序如上所述,通过应用一组最终用户创建的规则来对图像进行排序或重新排序。在该技术的一个示例性实施例中,用户可以启用和禁用习得的规则或概念(例如,在一个示 例性用户界面中,通过在用户界面210的显示上的主动规则和可用规则窗格之间移动习得 的规则)。在一个实施例中,用户208还可改变规则集中的一个规则的相对权重。例如,在 一个示例性用户界面210中,每一个主动规则上的滑块控件允许用户控制多个规则的相对 权重。在该实施例中,每一个主动规则计算每一个图像的分数,并且将分数乘以诸如例如-1 和1之间的权重。由此通过分数的加权和来对图像进行排序。在数学上,图像i的图像分 数可被表达为 其中权重,是规则的权重而分数Ji)是图像i对于规则r的分数。1. 4. 3经由最邻近分类器来应用概念规则在图像搜索中的交互式概念学习技术的一个实施例中,每一个规则都经由最邻近 分类器来学习。每一个规则都被定义为一组正例(示出规则应匹配什么的图像)、一组反例 (示出规则应拒绝什么的图像)、以及距离度量。给定这些参数,规则通过计算图像集中的 新图像和每一个正例或反例图像之间距离,然后将与最近正例的距离除以与最近正例和最
近反例的距离之和来为该图像打分。在数学上,图像对于给定规则的分数可被表达为 其中最短距离P是图像和正例图像之间的最短距离而最短距离N是图像和反例图 像之间的最短距离。注意,分数Ji)的范围在0到1之间,当i靠近正例并远离反例时逼近 1,当i同等地靠近或远离最近正例和反例时具有值.5,且当i靠近反例并远离正例时逼近 0。对于其距离度量,图像搜索中的交互式概念学习技术使用一组若干分量距离度量的加权 和 其中两个图像之间的总距离通过按其相对重要性来加权的每一个度量的距离之 和来描述。权重是习得的因子(如下文所描述的)并且这些因子的集合唯一地定义每一个 规则。给定该方法,该技术的根据图像的图像特性来对图像进行重新排序的能力的这一 实施例的核心在于分量距离度量的集合以及图像搜索中的交互式概念学习技术学习如何 对这些不同的度量进行加权的能力。1. 4. 3. 1 距离度量在一个实施例中,图像搜索中的交互式概念学习技术例如基于色调、饱和度、以及 像素亮度的直方图、边缘直方图、全局形状直方图、以及纹理直方图来实现图像距离度量。 该技术计算并存储每一个图像的这些直方图,使用这些直方图来高效地计算图像之间的距罔。在该实施例中,对每一个缩略图像中的像素计算色调、饱和度、亮度、以及边缘直
9方图,并对其标准化以考虑不同大小的缩略图(或者在使用全尺寸图像的情况下的全尺寸 图像)。在该实施例中,为每一个直方图定义两个距离度量。第一个距离度量是两个直方图 之间的二次距离,即考虑直方图中的不同柱之间的相似性的直方图距离度量。例如在亮度 直方图的情况下,亮度完全为1. 0的图像被认为更类似于亮度完全为0. 8的图像而非亮度 完全为0.4的图像(较简单的欧几里得比较会将这两个图像视作与第一个图像同等地不相 似,只要这三个亮度值在不同的直方图柱中)。每一个图像的直方图的第二个度量是直方图 熵差。在该实施例中,还通过对整个图像应用形状描述符来计算表示每一个图像的总体 结构的直方图。该描述符在覆盖整个图像的对数极靶形(target-shaped)区域上将局部图 像梯度合计成柱,以标准化所得直方图。类似的直方图(使用欧几里得距离)对应于具有 类似总体结构的图像,并且描述符提供对照明、平移、缩放、以及旋转的一定程度的不变性。 例如,该距离度量通常将指示脸部的两个正面特写是相似的并且汽车的两个驾驶员侧视图 是类似的。它通常还将指示脸部的特写不同于汽车的视图。形状描述符不考虑颜色,并因 此它补充颜色直方图度量。最后,计算纹理直方图,该纹理直方图与全局形状直方图相比保存较少的几何信 息但允许在不考虑其布置的情况下在存在于图像中的结构分布之间进行区分。在一个实施 例中,应用对来自图像的多个面片进行采样的字袋(bag-of-words)方法。出于效率考虑, 在部分重叠的块的规则网格上进行采样并计算每一个块的描述符。使用对大型图像数据库 的离线递归群集分析来学习一组区别纹理,并且在运行时通过基于所标识的区别纹理来将 每一个所采样的块解析成柱来计算直方图。较不正式地,如果图像包含类似面片,则该度量 认为图像是相似的。该度量可能认为两个不同的城市地平线的图像是相似的,而先前所讨 论的全局形状描述符可能认为这两个地平线是不同的。在该技术的其它实施例中,还可包括诸如关键字等非视觉距离度量作为距离度 量。许多搜索引擎索引并返回对于每一内容片段的多个关键字。因此,如果例如“汽车” 是用于检索一组图像的关键字,则这些图像中的每一个都还将具有与其相关联的其它关键 字,诸如对于一个图像的“蓝色,四轮驱动、保时捷”或者对于另一个图像的“黄色、敞篷、快 速”。实际上,虽然在本发明中焦点主要在图像特性上,但可使用与图像或内容相关联的任 何特性。1. 4. 3. 2学习距离度量如上所述,图像搜索中的交互式概念学习技术从规则应匹配或拒绝的图像的正例 和反例中学习规则。给定一组正例,存在一个人可能试图指定的许多概念。在最邻近算法 的大多数应用中,系统开发者基于其对正在解决的问题的知识来仔细地调节距离函数。然 而,对于当前技术,事先不知道什么相似性概念将适于最终用户的规则。如果试图同等地对 待所有距离度量,则将需要维度保证非常多的图像以指定甚至最简单的规则。如以上参考 图2所讨论的,在一个实施例中,图像搜索中的交互式概念学习技术由此将概念或规则学 习问题定义为基于哪一距离度量最佳地对应于所提供的示例来学习一组权重216。图像搜 索中的交互式概念学习技术可以学习例如一组图像是由于其颜色直方图、其全局形状描述 符、还是两者的组合而是相似的。接下来描述一种用于学习这些权重的方法。给定一组正例和反例,图像搜索中的交互式概念学习技术的一个实施例学习一组
10距离度量权重以使得最小化具有相同标记(正例或反例)的两个图像之间的距离并且最大 化具有不同标记的两个图像之间的距离。具体而言,最小化将这两个类尽可能地分开的目 标函数,同时保持相同类的示例靠近在一起。在数学上,这可被描述为 前一等式中的前两项对应于类内距离,因此该函数的最小化偏爱最小化相同类的 数据之间的距离的权重。第三项考虑所有示例并偏爱最大分隔。项的组合因此偏爱折叠每 一类同时最大化具有不同标记的数据之间的距离的权重。该函数的凸的,并且使用标准非 线性优化技术来高效地找到唯一的全局最小值。较不正式地,图像搜索中的交互式概念学习技术基于用户已提供的示例来学习什 么距离相关的概念。例如,如果所提供的所有正例大多数是黄色的,且这些正例没有其它共 同特性,并且反例大多数不是黄色的,则图像搜索中的交互式概念学习技术将学习到色调 相似性是相关距离(给予该距离度量大权重并给予其它距离度量小权重)。所得规则将对 具有类似于用于训练规则的那些正例的色调直方图给予图像高分。在其中正例具有多个共 同特性的情况下,这些特性将各自接收某一权重。1. 4. 4主动学习以提供更好的示例图像如以上例如参考图4所讨论的,因为有时可能难以确定最终用户应提供什么图像 作为示例以帮助图像搜索中的交互式概念学习技术学习正确的概念或规则,所以图像搜索 中的交互式概念学习技术使用主动学习技术416来从返回自当前查询的一组图像中标识 提供关于一个人正在创建的规则的最多信息的图像。一般而言,在该技术的这一方面,在一 个实施例中,向用户提供该技术最混淆的两个或更多图像以供选择这些图像中的哪一个最 容易表示该用户正试图建立的规则或概念。在一个实施例中,图像搜索中的交互式概念学习技术的第一主动学习过程从图像 集中找出在给定当前习得的距离度量集的情况下最接近正例和反例之间的边界的图像。这 些图像是该技术最不确定的图像,因此标记这些图像提供当前距离权重所定义的空间内的 最多信息。在一个实施例中,在数学上,图像搜索中的交互式概念学习技术选择具有最小值 的图像不确定(i)=绝对值(最短距离p_最短距离N)图像搜索中的交互式概念学习技术的第二主动学习过程从图像集中找出将导致 探查到距离度量的新权重的图像。对于图像搜索中的交互式概念学习技术的一个实施例, 应用选择具有最小值的图像的活动距离(i),即基于数据密度和不确定性的试探活动距离(i)=(最短距离p+最短距离N) *不确定(i)该试探背后的直觉是找出在空间的密集部分中(在其它已标记的示例附近)但仍 然非常不确定的图像。第一项捕捉密度,因为与正例和反例的距离在空间的密集部分中将 会较低。第二项捕捉不确定性,如在前一段中所讨论的。选择具有低分的图像,并且标记这 些图像向图像搜索中的交互式概念学习技术给予供在查找推动正例和反例彼此远离的距 离度量的权重时使用的新信息。1. 4. 4. 1用户界面情况考虑事项
存在关于该技术应如何向用户呈现数据的各种考虑事项。在用户通过提供新示例 图像来编辑概念或规则时,用户界面如何呈现规则对于当前图像集的效果是一考虑事项。 存在应得到仔细关注的编辑用户界面的规则的一个实施例的两个维度。此处被称为编辑呈 现的第一个维度是界面如何在编辑规则时呈现规则对于当前图像集的效果。此处被称为主 动学习呈现的第二个维度是界面如何呈现由主动学习过程标识的示例。交叉这两个维度产 生图像搜索中的交互式概念学习技术的六个可能的用户界面实施例。1. 4. 4. 1. 1编辑呈现显示经排序的图像在编辑规则或概念时,该技术需要呈现已习得什么规则。呈现形成规则的基础的 正例和反例是直截了当的。上述习得的距离度量可通过示出根据正在编辑的规则来排序的当前查询结果或 者图像集中的图像来示出。编辑呈现考虑该技术是应当在通过正在编辑的规则来排序时 显示整个图像集(单一),还是只示出图像的小子集,即排在顶部的图像和排在底部的图像 (拆分)。用于显示经排序的图像的单一方法向最终用户提供对来自当前查询的整个图像 集的访问权,由此他们在训练规则时有更多的图像来选择。但该规则不太可能是十全十美 的,因此一个人可能变得过度注重正例和反例图像之间有噪声的边界,从而继续提供不再 显著改进规则的训练示例。显示经排序的图像的拆分方法避免继续提供不再显著地改进规则的训练示例的 可能性,因为最终用户仅可提供训练示例直到自排序的顶部显示的图像的小子集匹配所需 概念并且自排序的底部显示的图像的小子集是已经正确地拒绝的图像的示例。这以在提供 训练示例时可供选择的图像较少为代价。1. 4. 4. 1. 2主动学习呈现显示主动学习示例在考虑如何呈现由该技术的主动学习过程选择的图像时探查类似的折衷。通过定义,这些图像将存在于图像查询空间的最不确定区域中。这些图像因此可 帮助参与者快速找到有效示例,或者它们的存在可引导参与者甚至在它们不再显著地改进 规则后继续提供示例。主动学习呈现考虑图像搜索中的交互式概念学习技术是应将主动学 习图像放置在单独的窗格中(显式)、在结果集的顶部或底部附近随机分布主动图像以便 希望这些图像在视觉上与附近的图像不同可导致主动学习图像被选用作正例或反例(嵌 入式),还是依靠经排序的查询结果(无)。1. 4. 4. 1. 3用于最优规则编辑和主动学习图像呈现的用户界面情况在图像搜索中的交互式概念学习技术的一个实施例中,交叉上述主动学习呈现和 编辑呈现的这两个维度产生如下所述的应在设计该技术的各实施例的用户界面时考虑的 六个用户界面情况。1)拆分-显式。在其中只显示排在顶部和底部的图像并且显式地显示主动学习图 像的情况下,在该技术的一个实施例中,拆分-显式情况使用三个滚动窗格来向用户显示 该数据。在一个示例性实施例中,这三个窗格呈现1)排在前50位的图像;2)该技术的主 动学习过程所选择的10个图像;以及3)排在后50位的图像结果。2)拆分-嵌入式。在其中只显示图像集中的排在顶部和底部的图像并目.主动学习 图像是嵌入式图像的情况下,在一个实施例中,拆分-嵌入式情况用户界面使用两个滚动
12窗格来显示数据。在一个实施例中,第一个窗格呈现排在前50位的结果,以及5个随机播 种的主动学习图像。第二个窗格呈现排在后50位的结果,以及5个随机选择的主动学习结^ ο3)在一个实施例中,在其中只显示排在顶部和底部的图像并且不示出 主动学习图像的情况下,该拆分_无技术使用两个滚动窗格。在一个实施例中,这些窗格呈 现排在前50位的结果和排在后50位的结果。4)在一个实施例中,在其中该技术向最终用户提供对整个图像集的 访问以使得他们在训练规则时有更多图像来选择并且显式地显示主动学习图像的情况下, 拆分-显式情况使用两个滚动窗格。在一个滚动窗格中显示十个主动学习结果。另一窗格 显示图像集中的经排序的图像的其余部分。5) j^^A^在一个实施例中,在其中该技术向最终用户提供对整个图像集 的访问以使得他们在训练规则时有更多图像来选择并且主动学习图像是嵌入式的情况下, 该单一 _嵌入式情况使用一个滚动窗格。该情况使用与拆分_嵌入式情况相同的过程来将 主动学习结果播种在排序的顶部和底部并且然后在一个滚动窗格中显示整个经修改的排序。在一个实施例中,在其中该技术向最终用户提供对整个图像集的 访问以使得他们在训练规则时有更多图像来选择并且不示出主动学习图像的情况下,该单 一-无情况使用一个滚动窗格。该情况显示所有经排序的查询图像。另外,在一个实施例中,向用户示出实际距离度量以及与其相关联的权重(即,系 统将哪些距离度量选为是重要的)。用户然后可手动编辑这些权重,例如,以便指示他们不 想要“颜色”作为重要度量,而是想要“形状”。2. 0计算环境图像搜索中的交互式概念学习技术被设计成在计算环境中操作。以下描述旨在提 供对其中可实现图像搜索中的交互式概念学习技术的合适的计算环境的简明、概要描述。 该技术可用各种通用或专用计算系统环境或配置来操作。可能合适的公知的计算系统、环 境、和/或配置的示例包括但不限于,个人计算机、服务器计算机、手持式或膝上型设备(例 如,媒体播放器、笔记本计算机、蜂窝电话、个人数字助理、语音记录器)、多处理器系统、基 于多处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、包括 任何以上系统或设备的分布式计算环境等等。图5示出合适的计算系统环境的示例。计算系统环境只是合适的计算环境的一个 示例,而非意在对本发明的技术的使用范围或功能提出任何限制。也不应将该计算环境解 释为对示例性操作环境中示出的任一组件或其组合有任何依赖性或要求。参考图5,用于实 现图像搜索中的交互式概念学习技术的示例性系统包括诸如计算设备500等计算设备。在 其最基本的配置中,计算设备500通常包括至少一个处理单元502和存储器504。取决于计 算设备的确切配置和类型,存储器504可以是易失性的(如RAM)、非易失性的(如ROM、闪 存等)或是两者的某种组合。该最基本配置在图5中由虚线506来示出。另外,设备500 还可具有附加特征/功能。例如,设备500还可包含附加存储(可移动和/或不可移动), 包括但不限于磁盘、光盘或磁带。这些附加存储在图5中由可移动存储508和不可移动存 储510示出。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块
13或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介 质。存储器504、可移动存储508和不可移动存储510都是计算机存储介质的示例。计算机 存储介质包括但不限于,RAM、ROM、EEPR0M、闪存或其他存储器技术、CD-ROM、数字多功能盘 (DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或者可用于存储所需信息 并且可由设备500访问的任何其他介质。任何这样的计算机存储介质都可以是设备500的 一部分。设备500具有显示器518,并且还可包含允许该设备与其它设备通信的通信连接 512。通信连接512是通信介质的一个示例。通信介质通常以诸如载波或其他传输机制等 已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据,并包括任意信息 传送介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式 被设定或更改,从而改变了信号的接收设备的配置或状态的信号。作为示例而非限制,通信 介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如声学、RF、红外线和其 他无线介质。如此处所使用的术语“计算机可读介质”包括存储介质和通信介质两者。设备500可具有诸如键盘、鼠标、笔、照相机、触摸输入设备等输入设备514。还可 以包括诸如扬声器、打印机等输出设备516。所有这些设备在本领域中是公知的并且不必在 此详细讨论。本发明的图像搜索中的交互式概念学习技术可在由计算设备执行的诸如程序模 块等的计算机可执行指令的通用上下文中描述。一般而言,程序模块包括执行特定任务或 实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。本发明的图像搜索中的交 互式概念学习技术可以在任务由通过通信网络链接的远程处理设备执行的分布式计算环 境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远 程计算机存储介质中。还应当注意,可以按所需的任何组合来使用此处所述的上述替换实施例的任一个 或全部以形成另外的混合实施例。尽管用结构特征和/或方法动作专用的语言描述了本主 题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。例如,即使 所述实施例中的某一些使用视觉特性来学习一个或多个规则以便对在搜索中发现的图像 进行排序,视觉特性也可以与搜索关键字组合以学习一个或多个规则以便对图像集中的特 性进行排序以创建对在搜索中发现的图像进行排序的混合实施例。上述具体特征和动作是 作为实现权利要求的示例形式公开的。
权利要求
一种用于查找具有所需图像特性的一个或多个图像的计算机实现的过程,包括获取图像集(302);提供具有想要查找的图像特性的示例图像(304);经由机器学习技术来学习用于基于所述示例图像的图像特性来对图像进行排序的一个或多个规则(306);以及基于所述一个或多个习得规则来对所述图像集进行排序(308)。
2.如权利要求1所述的计算机实现的过程,其特征在于,还包括对第二图像集应用所 述一个或多个习得规则。
3.如权利要求1所述的计算机实现的过程,其特征在于,还包括在对所述图像集进行 排序之前组合两个或更多习得规则。
4.如权利要求1所述的计算机实现的过程,其特征在于,还包括响应于通过计算机网 络提交的搜索查询来获取所述图像集。
5.如权利要求1所述的计算机实现的过程,其特征在于,还包括通过在计算设备上本 地地搜索图像来获取所述图像集。
6.如权利要求1所述的计算机实现的过程,其特征在于,还包括重复以下动作 提供具有想要查找的图像特性的图像的示例;经由机器学习技术来学习用于基于所述示例图像的图像特性来对图像进行排序的一 个或多个规则;以及基于所述一个或多个习得规则来对所述图像集进行排序,直到所述图像集中的图像已被排序且具有想要查找的图像特性的图像排序最高。
7.如权利要求1所述的计算机实现的过程,其特征在于,每一个规则都基于学习距离 度量,所述距离度量为所述图像集中返回的每一个图像计算指示在所述图像集中返回的每 一个图像与具有想要查找的图像特性的图像示例有多相似的分数。
8.如权利要求7所述的计算机实现过程,其特征在于,还包括 计算对所述图像集中的每一个图像中的像素计算的一组图像直方图; 计算该组图像直方图中的每一个直方图的两个距离度量;计算通过对整个图像应用形状描述符来表示所述图像集中的每一个图像的总体结构 的结构直方图;计算所述图像集中的每一个图像的纹理直方图;以及使用计算出的图像直方图、计算出的图像直方图中的每一个的距离度量、每一个图像 的结构直方图和纹理直方图来为所述图像集中的每一个图像计算指示所述图像集中的每 一个图像与具有想要查找的图像特性的示例图像和不具有想要查找的图像特性的示例图 像有多相似的分数。
9.如权利要求1所述的计算机实现的过程,其特征在于,还包括学习用于基于用于表 示任何给定图像与任何其它给定图像的距离的距离度量集来对图像进行排序的一个或多 个规则。
10.如权利要求8所述的计算机实现的过程,其特征在于,所述两个距离度量包括 两个图像的图像直方图之间的二次距离;以及两个图像之间的直方图熵距离。
11.如权利要求9所述的计算机实现的过程,其特征在于,所述距离度量集基于视觉特 性或语义特性。
12.一种用于搜索具有所需图像特性的图像的计算机实现的过程,包括 获取图像集(402);计算所述图像集中的每一个图像的视觉特征(404);选择示例图像,或者是具有正在查找的图像类型的特征的正例图像,或者是不具有正 在查找的图像类型的特征的反例图像(406);通过基于所提供的一个或多个示例图像来计算所述图像集中的每一个图像的特征的 权重以确定所述图像集中的最相关图像来学习规则(408);以及 根据计算出的权重来对所述图像集中的图像进行排序(410)。
13.如权利要求11所述的计算机实现过程,其特征在于,还包括 向用户显示经排序的图像;所述用户评估所述经排序的图像并且如果不满意所述经排序的图像,则提供一个或多 个示例图像直到所述用户对所述经排序的图像中的最相关图像包含所述用户正在查找的 一个或多个图像感到满意。
14.如权利要求12所述的计算机实现过程,其特征在于,还包括向所述用户提供示例 图像以使得所述用户能够在所述用户提供新示例图像之前指定至少一个图像更像所述用 户正在查找的图像。
15.如权利要求12所述的计算机实现的过程,其特征在于,还包括对新图像集应用习 得规则中的一个或多个以便对所述新图像集进行排序。
16.一种用于对响应于图像搜索而检索到的图像进行排序的系统,包括 通用计算设备(500);包括可由所述通用计算设备执行的程序模块的计算机程序,其中所述计算设备可由所 述计算机程序的程序模块来引导以便 响应于图像搜索来接收图像集(204); 指定具有想要查找的图像特性的图像的示例(210);基于响应于所述图像搜索而接收到的图像集中的每一个图像以及所指定的示例图像 的图像特性来提取特征(212);基于所述示例图像的图像特性的特征来学习规则(214); 对所述图像集中的每一个图像的特征进行加权(216); 基于一个或多个习得规则来对所述图像集中的图像进行排序(218);以及 向用户(208)显示所述图像集中的经排序的图像(222)。
17.如权利要求16所述的系统,其特征在于,还包括用于应用一个或多个习得规则以 便对新图像集进行排序的模块。
18.如权利要求16所述的系统,其特征在于,还包括用于使用关键字来检索所述图像 搜索中的图像集的模块。
19.如权利要求18所述的系统,其特征在于,还包括使用与想要查找的图像特性的特 征组合的关键字来学习一个或多个规则以便对所述图像集进行排序。
20.如权利要求16所述的系统,其特征在于,还包括显示所述图像集中的经排序的图像并提供供所述用户选择以加速所述规则的学习的正例和反例图像的用户界面。
全文摘要
一种允许最终用户基于图像的图像特性来快速创建其自己的用于对图像进行重新排序的规则的交互式概念学习图像搜索技术。这些图像特性可包括视觉特性以及语义特征或特性,或者可包括这两者的组合。最终用户然后可根据其自己的一个或多个规则来对任何当前或将来图像搜索结果进行排序或重新排序。最终用户提供每一个规则都应匹配的图像的示例以及该规则应拒绝的图像的示例。该技术学习这些示例的共同图像特征,并且然后可根据习得的规则来对任何当前或将来图像搜索结果进行排序或重新排序。
文档编号G06F17/30GK101896901SQ200880121327
公开日2010年11月24日 申请日期2008年11月10日 优先权日2007年12月12日
发明者A·卡珀, D·S·谭, J·A·福格蒂, S·A·J·温德尔 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1