对象敏感的图像搜索的制作方法

文档序号：6439775阅读：168来源：国知局

专利名称：对象敏感的图像搜索的制作方法
技术领域：
本发明涉及搜索技术，尤其涉及图像搜索。
技术背景
基于文本的搜索引擎传统上基于文本信息来检索相关图像或其他元素(例如视频、文档等)。例如，搜索引擎可接收图像查询“汽车”，然后搜索数十亿文档并最终基于文档中的文本信息来提供相关图像。这些传统搜索引擎可通过考虑诸如链接结构、链接文本、锚文本或任何其他合适的文本信息来确定“相关性”。例如，web图像可用来自图像标题、周围文本或类似内容的词来索引，以使得搜索引擎基于图像的标题而非图像的可视内容本身来确定web图像的相关性。
虽然基于文本的搜索引擎可以在返回基于文本的文档方面工作地很出色，但是基于文本的搜索引擎不把图像的可视信息考虑在内，并因此可能会提供不准确的基于图像的查询结果。发明内容
提供本发明内容以便介绍将在以下具体实施方式
中进一步描述的对象敏感的图像搜索的简化概念。本发明内容并不旨在标识所要求保护的主题的必要特征，也不旨在用于确定所要求保护的主题的范围。
在某些实例中，本文描述的对象敏感的图像搜索包括基于使用多实例学习(MIL) 获得的对象信息对图像重新排序。该技术通过将搜索结果图像的可视信息考虑在内来为对象级查询的排序列表中的相关查询结果排定优先次序，从而能够在返回对象(例如，动物、植物、产品等)的图像方面提供非常高的精度。
在一实现中，对象敏感的图像搜索技术可被配置为离线系统，它可以利用自由公开信息来为对象敏感的重新排序构建MIL模型。在该实现中，服务供应商的计算系统(例如，位于“后端”上)可以训练MIL模型。
在另一实现中，该技术可被配置为在线系统，它可以利用查询结果中的伪正面和伪负面样本来为对象敏感的重新排序构建MIL模型。在该实现中，用户的计算系统(例如，位于“前端”上)可以训练该MIL模型。

参考附图阐述详细描述。在附图中，附图标记中最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记指示相似或相同的项。
图1表示可以实现离线和在线对象敏感的图像搜索的说明性计算环境。
图2是在图1中的计算环境中实现的对象敏感的图像搜索系统的示例离线方法的框图。
图3是示出利用图2的示例离线对象敏感的图像搜索系统的、对象敏感的图像搜索实现的在线方法的过程的细节的流程图。
图4更详细地表示图1的对象敏感的图像搜索计算环境的离线方法。
图5是在图1中的计算环境中实现的对象敏感的图像搜索系统的示例在线方法的框图。
图6是示出利用图5的示例在线对象敏感的图像搜索系统的、对象敏感的图像搜索实现的在线方法的过程的细节的流程图。
图7更详细地表示图1的对象敏感的图像搜索计算环境的在线方法。
具体实施方式
概览
本公开描述了对象敏感的图像搜索。例如，描述了用于接收对对象的图像的查询、生成包括包含对象的图像的查询结果、对图像排序、以及基于对图像的排序向用户提供经排序的查询结果列表的各种系统和方法。在某些实例中，经排序的列表基于图像内的对象的突出性(例如，大小、位置等)。例如，响应于接收图像查询“汽车”，该系统和方法可以返回至少部分地按照所返回的图像中的汽车的突出性的次序来排序的图像列表一而不是简单地经由与图像相关联的文本或元数据来确定的最相关的图像。由此，在该示例中，那些包括大型或位于中心的汽车的图像可被提供在所返回的经排序的列表的顶部。
另外地或另选地，对象敏感的图像搜索可以生成被训练成标识对象(例如，汽车) 的常见图案的预先训练的多实例学习模型。在其他示例中，对象敏感的图像搜索可以生成 “在进行中”被训练成标识对象的常见图案的多实例学习模型。
如上所讨论的，虽然基于文本的搜索引擎可以在返回基于文本的文档方面提供非常高的精度，但是基于文本的搜索引擎常常不把图像的可视信息考虑在内，且因此可能提供不精确的基于图像的查询结果。然而，本公开在以下详细地描述了可以向提交基于图像的查询的用户提供准确的图像结果的对象敏感的图像搜索系统和方法。
虽然本公开中所描述的技术可以相对于诸如对象的静止图像等的图像来描述，但还可以构想其他形式的图像。例如，本公开中所描述的技术可以相对于诸如视频、动画等的图像来描述。
说明性对象敏感的图像搜索计算环境
图1表示其中可以实现对象敏感的图像搜索的离线方法和/或在线方法的说明性计算环境。仅作为示例，图1示出用户102经由计算设备106执行对对象的图像(在该示例中，“汽车”的图像)的查询104。如图所示，计算设备可包括存储在存储器112中且可由处理器114执行的对象敏感的排序模块108以及浏览器110。然而，在某些实例中，对象敏感的排序模块108可另外地或另选地驻留在计算设备106的远程，如下所讨论的。
此处，图1示出计算设备106经由网络118与服务供应商116通信耦合。服务供应商116可包括一个或多个服务器120 (1)-120 (N)，这些服务器可包括处理器122和存储器 124。图1还示出一个或多个服务器120(1)-120(N)的存储器1 可包括对象敏感的排序模块126、搜索引擎128、和图像处理模块130、自由图像模块132以及图像数据134，这些可由处理器122执行。
一般地，当用户102提交对对象(例如，“汽车”)的图像的查询104时，图1中示出的实现可以组合地或单独地利用存储在一个或多个服务器120 (1)-120 (N)的存储器IM 中的对象敏感的排序模块126和/或存储在计算设备106的存储器112中的对象敏感的排序模块108。对象敏感的排序模块108和对象敏感的排序模块1 两者都可被配置成基于经排序的图像向用户102提供经排序的查询结果列表。例如，图1中示出的计算环境可以利用存储在一个或多个服务器120 (1)-120 (N)的存储器IM中的对象敏感的排序模块1 以离线的方法基于经排序的图像向用户102提供经排序的查询结果列表。或者，图1中示出的计算环境可以利用存储在计算设备106的存储器112中的对象敏感的排序模块108以在线的方法基于经排序的图像向用户102提供经排序的查询结果列表。
在任一情况下，该模块可以提供根据搜索对象的突出性(例如，大小、位置等)来排序的列表。例如，在用户102进行对“汽车”的搜索的示例中，该模块可以分析由传统的基于文本的技术所返回的那些图像来确定其中的汽车的突出性。然后该模块可以根据所检测的突出性对图像重新排序，从而使得主要被汽车占据的图像可以比包括较不可视汽车或根本没有汽车的图像排序相对较高。通过这样做，对象敏感的排序组件108和/或126向用户提供了与传统的仅基于文本的技术相比更好的搜索体验。
对于离线方法，图1示出服务供应商116的一个或多个服务器120(1)-120(N)经由网络118与多个计算设备136(1)-136(N)通信耦合。计算设备136 (1)-136 (N)中的每一个可包括存储在存储器140中且可由一个或多个处理器142执行的浏览器138。此外，多个用户144可以利用计算设备136(1)-136 (N)中的每一个。这些用户144可以利用计算设备 136 (I)-(N)来共享多个网站处的图像、提交多个对对象的图像的查询等。
在离线方法中，存储在一个或多个服务器120 (1)-120 (N)的存储器124中的自由图像模块132可以监视用户在一个或多个搜索引擎处所提交的查询来确定用户倾向于搜索哪些对象。有了该信息，服务供应商116可以选择为其训练多实例学习(MIL)模型的一个或多个对象以供对象敏感的排序模块126使用。例如，服务供应商116可以看到用户144 最常搜索“汽车”、“鲜花”等并可以相应地为这些相应的对象训练MIL模型。
在确定了要为其训练MIL模型的对象之后，自由图像模型132可以分析在多个内容提供者146(例如，网站等)处的这些对象的图像来构建预先训练的MIL模型。例如，自由图像模块132可以分析在一个或多个照片共享网站(例如，？^沙^⑧等)处的与诸如“汽车”等的特定对象相关联(例如，经由用户提供的标签)的每一张照片。自由图像模块130 随后可以为对象“汽车”构建MIL模型以供对象敏感的排序模型1 使用。在该离线实现中，预先训练的MIL模型中的每一个可被训练成识别对象的常见图案。有了该信息，对象敏感的排序模块126可以通过将搜索结果的每一图像与相应的MIL模型比较来判定图像中的对象是否突出从而对后续查询的搜索结果进行排序或重新排序。
与离线方法相反，在在线方法中，对象敏感的排序模块108“在进行中”训练MIL模型。例如，当用户102提交查询104(例如，“汽车”)时，对象敏感的排序模块108可以使用采用传统搜索引擎技术所返回的查询结果来训练MIL模型。此处，在该实现中，MIL模型可被训练成识别用户102所提交的查询104的对象的常见图案。有了该模型，对象敏感的排序模块108随后对图像重新排序来将突出地显示所搜索的对象(例如，“汽车”)的图像放置在返回给用户的搜索结果的顶部附近。
存储在一个或多个服务器120 (1)-120 (N)的存储器IM中的对象敏感的排序模块126和存储在计算设备106的存储器112中的对象敏感的排序模块108两者都可利用存储在存储器1 中的图像数据134连同MIL模型一起来执行对象敏感的排序和/或重新排序。虽然图1示出了存储在存储器IM中的图像数据134，但图像数据134也可以存储在计算设备106的存储器112中。因而，存储在一个或多个服务器120 (1)-120 (N)的存储器124中的对象敏感的排序模块1 和存储在计算设备106的存储器112中的对象敏感的排序模块 108两者都可利用图像数据134连同MIL模型一起来执行对象敏感的排序和/或重新排序，无论该数据是存储在存储器124、存储器112、还是任何其他合适的存储器存储位置上。
说明性离线对象敏感的图像搜索系统
图2是在图1的计算环境中实现的对象敏感的图像搜索系统的示例离线方法的框图。图2示出该系统的后端202可包括服务供应商116的一个或多个服务器120 (1)-120 (N) 的存储器124，而该系统的前端204可包括客户机计算设备106的存储器112。如上所讨论的，存储器1 可包括用于部分地或完全地实现对象敏感的图像搜索的对象敏感的排序模块126、搜索引擎128、图像处理模块130、自由图像模块132、和图像数据134。
在该实施例中，图2示出自由图像模块132可包括公共查询分析器模块206。公共查询分析器模块206还可包括用于监视和分析用户114先前做出的搜索引擎查询的监视模块208和分析模块210。一般地，公共查询分析器模块206可以利用监视模块208来监视用户144所提交的查询，并利用分析模块210来确定用户144倾向于搜索哪些对象。公共查询分析器模块206可将所确定的用户144倾向于搜索的对象存储在对象类别212中。对象类别220可包括多个动物、植物、和/或产品作为用户144倾向于搜索的对象。
为了标识用户倾向于搜索的查询，公共查询分析器模块206可以咨询查询日志 214，该日志存储了用户144先前进行搜索的一个或多个查询216。在分析用户所提交的查询216之后，自由图像模块132可以构建包含每一查询216及其属于对象类别212中的一对象的对象220的词典218。S卩，对象查询的词典218可包括来自多个查询216的多个对象220。例如，多个对象220可包括公共查询分析器模块206通过监视多个用户144先前提交的查询而确定为用户144倾向于搜索的多个动物、植物、和/或产品。有了这些对象的知识，然后可以为对象中的每一个如下所述地构建MIL模型。
为了为词典218中的每一已标识的对象220构建MIL模型，随后可以从图1的一个或多个内容提供者146收集正面训练数据222和负面训练数据224。在一示例中，公共查询分析器模块206可以分析在一个或多个照片共享网站(例如，Flickr 等)处的与诸如 “汽车”等的特定对象相关联(例如，经由用户提供的标签)的每一张照片。例如，如果用户 144已经对带有对象“汽车”的图像进行了标记，则公共查询分析器模块206可以将该图像标记为正面实例，否则将该图像标记为负面实例。MIL训练模块2 随后可以训练预先训练的MIL模型2 来标识每一对象220的常见图案。更具体地，MIL训练模块2 可以利用为词典218中的每一对象220收集的正面训练数据222和负面训练数据2M来训练预先训练的MIL模型228。预先训练的MIL模型228中的每一个可以存储在MIL模型230的集合中以便用于向用户102提供经排序的查询结果列表。
图2还示出离线的对象敏感的图像搜索系统包括图1的搜索引擎128。此处在图 2中示出的离线的对象敏感的图像搜索系统可以经由搜索引擎1 从浏览器110接收查询 104。搜索引擎1 可包括结果模块232，它可以提供与查询结果相关联的图像234。图1的图像处理模块可包括用于处理搜索引擎1 所提供的图像234的分割模块236和特征提取模块238。例如，图像处理模块130可被配置成将图像234中的每一个分割成区域240并从区域MO中提取特征。区域240和特征可被预先训练的MIL模型2 用来从查询结果中选择包含区域MO中的对象的常见图案的图像234。
图2示出在图1中示出的对象敏感的排序模块126，该模块可包括被配置成从MIL 模型230的集合中为与所接收的查询中的对象220匹配的查询104选择预先训练的MIL模型228的MIL选择器模块238。例如，响应于接收对“汽车”的查询，MIL选择器模块238可以选择与对象“汽车”相关联的MIL模型。此处，图2示出可以为图像选择244配置预先训练的MIL模型228，图像选择244如上所讨论的可用于从查询结果中选择包含区域240中的对象220的常见图案的图像234。图2还示出对象敏感的排序模块1 还可包括可以包含区域质量模块248的排序模块M2。区域质量模块248还可包括区域大小模块250、区域位置模块252、区域数量模块254以及常见图案时间模块256。一般地，区域质量模块248可以提供排序图像234，该图像是预先训练的MIL模型2 基于包含对象220的常见图案的区域MO中的每一个的质量来选择的。例如，区域质量模块248可以利用区域大小模块250、区域位置模块252、区域数量模块254、和/或常见图案时间模块256来单独地或组合地分别确定区域大小、区域位置、区域数量、和/或常见图案在区域中的时间量。排序模块对2 随后可以经由浏览器110向计算设备106提供基于经排序的图像的经排序的或经重新排序的查询结果列表以供用户102查看。例如，排序模块242可以对图像结果的集合重新排序，从而将主要被“汽车”占据的图像与那些具有小汽车或汽车不在图像中心附近的图像相比放置在列表中较靠前处。
说明性离线对象敏感的图像搜索过程
本文描述的这些过程被示为逻辑流程图中的框的集合，这表示可用硬件、软件或其组合实现的一系列操作。框的集合在可以执行框中所描述的各种操作的相应的实体下进行组织。在软件的上下文中，这些框表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，这些指令在由一个或多个处理器执行时执行既定操作。一般而言，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的次序并不旨在被解释为限制，并且任何数量的所述框可以按任何次序和/ 或并行地组合以实现该过程。过程中的操作与可以执行这些操作的可能的设备/行动者相一致。然而，所示出的安排仅仅是说明性的且可以使用其他设备/行动者安排来实现这些过程。这适用于本文描述的每一过程。
图3是示出利用图2的示例离线对象敏感的图像搜索系统的、对象敏感的图像搜索实现的在线方法的过程的细节的流程图。
在该特定实现中，过程300可包括可以表示分析来自诸如查询日志214等的查询日志的多个查询的框302。例如，公共查询分析器模块206可以监视用户144在一个或多个搜索引擎处所提交的查询来确定用户倾向于搜索哪些对象。有了该信息，公共查询分析器模块206可以选择为其训练MIL模型的一个或多个对象以供对象敏感的排序模块1 使用。过程300还可包括表示生成对象查询的词典的框304。如上所讨论的，图2的词典218 可以从查询日志214中生成。此处，自由图像模块132可以生成包含每一查询216及其属于对象类别212中的一对象的、公共查询分析器模块206已经确定为用户144倾向于搜索的对象的词典218。
过程300还可包括表示生成正面训练数据222和负面训练数据224的框306。此处，公共查询分析器模块206可以分析在一个或多个照片共享网站处的、与用户倾向于搜索的对象相关联的照片。如果用户144已经对带有对象的图像进行了标记，则公共查询分析器模块206可以将该图像标记为正面实例，否则将该图像标记为负面实例。例如，模块 206可以标识那些已经用“汽车”来标记的照片以用作正面训练数据222，以及那些还未用 “汽车”标记的照片以用作负面训练数据224。
在框308处，MIL训练模块2 可以训练MIL模型来标识每一对象220的常见图案。例如，框308可以表示MIL训练模块2 利用图2的正面训练数据222和负面训练数据2 来训练MIL模型以标识每一对象220的常见图案。例如，MIL训练模块2 可以为对象“汽车”训练模型。同时框310可以表示图2的MIL训练模块2 形成包括经训练的 MIL模型228的预先训练的MIL模型230的集合。
过程300还可包括框312，它可以表示搜索引擎1 从用户102接收诸如查询“汽车”或包括对象“汽车”的另一查询等的查询104。框312之后可以是框314，它可以表示搜索引擎128生成包括用户102正在进行基于图像的搜索的实例中的图像234的查询结果。接着，在框316处，图像处理模块130可以将所返回的图像234中的每一个分割成区域240 并从区域240中提取特征。框316之后可以是框318，它可以表示对象敏感的排序模块1 选择预先训练的MIL模型228。此处，对象敏感的排序模块可包括被配置成从MIL模型230 的集合中为与所接收的查询中的对象220匹配的查询104选择预先训练的MIL模型2 的 MIL选择器模块238。例如，该模块可以响应于接收查询“汽车”或包括术语“汽车”的查询来选择已经为对象“汽车”训练的MIL模型。
过程300还可包括框320，它可以表示针对来自查询结果的图像234运行所选择的预先训练的MIL模型2 来标识那些包括一个或多个区域240中的对象220的常见图案的图像234。例如，框320可以表示将从区域240中所提取的特征与对象220的常见图案进行比较来标识来自查询结果的包括对象220的常见图案的图像234。过程300随后可包括框 322，它可以表示对查询结果402的图像234进行排序。例如，框322可以表示排序模块242 对参考预先训练的MIL模型2 被确定为包括对象220的常见图案的图像234进行排序。此处，排序模块242可以基于包括对象220的常见图案的区域MO中的每一个的质量(例如，区域大小、区域位置、区域数量、和/或常见图案在区域中的时间量)对所选图像234进行排序。最后，过程300可包括可以表示向用户(例如，用户10 提供经排序的图像的框 324。例如，框3M可以表示基于所选图像234的排序向用户提供经排序的查询结果列表。
图4更详细地表示图1的对象敏感的图像搜索计算环境的离线方法。一般地，图 4可以示出基于图像的排序向用户提供经排序的查询结果列表的对象敏感的图像搜索的离线方法。此处，图4可以示出用户102经由设备106的浏览器100启动对“汽车”的图像的查询104。接着，图4示出设备106将来自前端204的查询104传递给后端202上的搜索引擎128。搜索引擎128随后可以经由结果模块232生成包括图像234的查询结果402。结果模块232可以利用传统技术来生成查询结果，如执行所接收的查询和与所搜索的图像相关联的元数据(例如，标签等)之间的文本匹配。
在结果模块生成包含图像234的查询结果402之后，随后图像处理模块130可以接收搜索结果图像234以便处理。例如，图像处理模块130可以使用分割模块234将图像234中的每一个分割成区域M0。此处，分割模块234可以使用JSEG图像分割算法，如 2001 年 8 月出版的 Yining Deng 所著的“Unsupervised SeRmentation of Color-Texture Regions in Images and Video，，(《对图像和视频中的饩彩纹理区域的未监督分割》)中所提出的，并通过参考结合于此，将图像234中的每一个分割成一个或多个区域M0。虽然图 4示出分割模块234使用JSEG图像分割算法，但也可以使用任何其他合适的图像算法将图像234中的每一个分割成区域M0。
图像处理模块130还可以使用特征提取模块来从每一经分割的区域240中提取特征。图4示出图像处理模块130可以提供图像234及其相应的区域240作为图像数据134 以供对象敏感的排序模块126使用。此外，图4示出对象敏感的排序模块1 可包括可以从MIL模型230的集合中选择预先训练的MIL模型238的MIL选择器模块238。
图4示出可能已经由自由图像模块132生成的MIL模型230的集合。此处，自由图像模块132被示为从图像共享网站收集训练数据。具体地，自由图像模块132在图4中被示为与网络118通信耦合并监视用户144执行图像共享动作(例如，在网站处共享图像、提交对对象的图像的查询等)。图4示出自由图像模块132可包括公共查询分析器模块206、对象查询词典218、MIL训练模块226以及经训练的MIL模型230的集合。
一般地，自由图像模块132可用于使用来自监视用户在网站处共享图像的自由训练数据来生成MIL模型。此外，MIL模型一般用于标识图像中的对象并处理其中标记不可用于每一单独实例而只可用于实例袋的问题。例如，多实例学习涉及如果一个袋包含正面实例，则将其标记为正面的，如果袋中的所有实例都是负面的，则将其标记为负面的。因此， MIL可适于标识图像中的对象，因为关于图像是否包含具体对象的信息一般是可用的。更具体地，当在图像分类中应用MIL算法时，每一图像可以是袋而区域可以是实例。另外，MIL 算法不仅能够对袋进行分类而且还能够标识正面的实例。这意味着，给定诸如“汽车”等的具体对象和若干正面及负面训练图像(即，如果图像包含该对象，则是正面的，否则是负面的)，MIL算法能够判定新的图像是否包含该对象并标识哪个区域包含该对象。此处，在对象敏感的图像搜索的离线方法的这个实现中，自由图像模块132可以使用公共查询分析器模块206来分析公共查询并生成该数据的词典218以供MIL训练模块2 使用。MIL训练模块226随后可以使用来自监视用户在网站处共享图像的自由训练数据的词典218来训练用于web图像的MIL模型230。
转回图4的对象敏感的排序模块126，排序模块242可以对经训练的MIL模型230 所选择的图像进行排序。例如，排序模块242可以基于区域MO中的每一个的质量对区域 240进行排序。具体地，区域质量模块248可以单独地或组合地将区域大小、区域位置、区域数量、和/或常见图案在区域中的时间量确定为区域240的质量。排序模块242随后可以生成经排序的查询结果图像142的列表404并向用户102提供经排序的查询结果列表。此处，图4示出经排序的列表404可被提供给计算设备106的浏览器110以供用户102查看。图4示出对象敏感的搜索的离线方法所提供的经排序的列表404可包括作为最高排序图像406(即，第一个图像)的最大最清晰的图像以及作为较低排序图像(即，该示例集合中的最后一个图像)的较小图像408。虽然图4示出经排序的列表404包括四个图像，但经排序的列表404可包括任何其他数量的一个或多个图像。
说明性在线对象敏感的图像搜索系统
图5是在图1的计算环境中实现的对象敏感的图像搜索系统的示例在线方法的框图。此处，在该实现中，计算设备106的存储器112可包括对象敏感的排序模块108，该模块可包括与图2中所述的离线对象敏感的图像搜索系统的对象敏感的排序模块1 类似的模块。例如，对象敏感的排序模块108可包括排序模块对2。此外，如上所讨论的，排序模块 242可包括区域质量模块M8，它可包括区域大小模块250、区域位置模块252、区域数量模块254、和/或常见图案时间模块256。MIL训练模块2 和浏览器110也可存储在图5的在线对象敏感的搜索系统的存储器112中。
此处，在该实现中，MIL训练模块2 可以利用存储在计算设备106的存储器112 中的伪训练样本502来训练MIL模型504。图5示出伪训练样本502可包括伪正面样本506 和伪负面样本508。虽然图5示出计算设备106的存储器112包括伪训练样本502，但伪训练样本502可以完全地或部分地存储在任何合适的存储器位置中。例如，伪训练样本502 的一部分可以存储在存储器112中，而另一部分可以存储在存储器124中。此外，伪训练样本502可以完全存储在存储器124中，或者，完全存储在存储器112中。
图5还示出存储器112可包括可以选择伪训练样本502的伪相关模块510。此处，伪相关模块510可以利用重新排序算法从搜索引擎128的结果模块232所生成的查询结果402中选择伪正面样本506和伪负面样本508。例如，伪相关模块510可以利用在2003 年 7 月 24-25 曰出版的 Rong Yan、Alexander Hauptmann 禾口 Rong Jin 所著的“Multimedia Search with Pseudo-Relevance Feedback，，(《用伪相关反馈的多媒体搜索》)中所描述的并通过参考结合于此的伪相关反馈(PRF)，来选择伪正面样本506和伪负面样本508。虽然伪相关模块 510 可以利用 “Multimedia Search with Pseudo-Relevance Feedback” 中所描述的PRF，但它也可利用适于从查询结果402中选择正面和负面样本的任何其他相关反馈。图5还示出存储器IM还可包括被配置成确定用户102所提交的查询的对象220的查询分析器模块512。
类似地，且如上所讨论的，在图5的在线对象敏感的搜索系统中，存储器IM可包括图像处理模块130。图像处理模块130可包括用于处理搜索引擎1 所生成的图像234 的分割模块234和特征提取模块236。例如，图像处理模块130可被配置成将图像234中的每一个分割成区域240并从区域MO中提取特征。此外，经分割的图像234和区域240可作为图像数据134存储在存储器IM中。此处，在该实现中，区域240和特征可被经训练的 MIL模型504用来从查询结果中选择包含区域MO中的对象220的常见图案的图像234。
图5示出存储器112还可包括图像数据134。图像数据1；34可由一个或多个服务器 120 (1)-120 (N)提供给计算设备106以便使用经训练的MIL模型504来标识来自查询结果的包含对象220的常见图案的图像234。虽然图5示出存储器IM存储图像处理模块130，但在其他实例中，存储器112也可存储该模块130。例如，一个或多个服务器120 (1)-120 (N) 的搜索引擎1 可以处理用户(例如，用户102)的查询(例如，查询104)并将查询结果提供给位于计算设备106的存储器112中的图像处理模块130。
说明性在线对象敏感的图像搜索过程
图6是示出利用图5的示例在线对象敏感的图像搜索系统的、对象敏感的图像搜索实现的在线方法的过程的细节的流程图。在该特定实现中，过程600可包括框602，它可以表示搜索引擎1 从用户102接收对对象220的图像的查询106。图6示出框602之后可以是框604，它可以表示包括结果模块232的搜索引擎1 基于查询106生成可以包含对象的图像234的查询结果。例如，结果模块232可以如上所讨论地利用传统的文本匹配技术来生成初步查询结果。
过程600还可包括框606，它可以表示图像处理模块130将图像234中的每一个分割成区域240并从区域MO中提取特征。过程600可对框608继续，它可以表示伪相关模块510选择伪训练样本502。此处，伪训练样本502可以从搜索引擎1 的结果模块232 所生成的查询结果中选择。此外，伪相关模块510可以从结果模块232所生成的查询结果 402中选择伪正面样本506和伪负面样本508。
过程600还可包括框610，它表示MIL训练模块2 训练MIL模型504来标识对象 220的常见图案。例如，框610可以表示MIL训练模块2 利用图5的伪正面训练样本506 和伪负面训练样本508 “在进行中”训练MIL模型504以标识对象220的常见图案。虽然图5示出存储器112包括MIL训练模块226，但在其他实例中，存储器IM也可包括MIL训练模块226。例如，MIL训练模块2 可以在后端202上训练MIL模型504并随后将经训练的MIL模型504传送到前端204上的对象敏感的排序模块108。此外，MIL训练模块2 还可将“在进行中”训练的MIL模型504存储在存储器中以供稍后使用。例如，MIL训练模块 226可以将经训练的MIL模型504存储在存储器中的MIL模型集合中以供对象敏感的排序模块108稍后使用。例如，MIL选择器模块(例如，MIL选择器模块238)可被包括在存储器112中且可被配置成从MIL模型集合中为与用户102的查询104的对象220匹配的查询 104选择经训练的MIL模型504。
框610之后可以是框612，它可以表示使用经训练的MIL模型504从查询结果中选择包含区域MO中的对象220的常见图案的图像234。过程600可包括框614，它可以表示对查询结果402的图像234进行排序。例如，框614可以表示排序模块242对使用经训练的MIL模型504标识的图像234进行排序。此处，如上所讨论的，排序模块242可以基于包括对象220的常见图案的区域MO中的每一个的质量(例如，区域大小、区域位置、区域数量、和/或常见图案在区域中的时间量)对所选图像234进行排序。例如，在一实现中，排序模块242可以将所有图像234排序为从包含常见图案的最大计算区域大小作为最高排序图像，到包含常见图案的最小计算区域大小作为最低排序图像。框614之后可以是框616，它可以表示基于在框614处执行的对所选图像的排序对查询结果重新排序。过程600可以在框618处完成，它可以表示向用户提供经重新排序的查询结果。
图7更详细地表示图1的对象敏感的图像搜索计算环境的在线方法。一般地，图 7可以示出基于查询图像的排序向用户提供经重新排序的查询结果列表的对象敏感的图像搜索的在线方法。此处，图7可以示出用户102在设备106的浏览器100上启动对“汽车” 的图像的查询104。接着，图7示出设备106将来自前端204的查询104传递给后端202 上的搜索引擎128。后端202上的搜索引擎128随后可以经由结果模块232生成包括图像 234的查询结果402。在结果模块生成包含图像234的查询结果402之后，随后图像处理模块130可以接收包含图像234的查询结果402以便处理。例如，图像处理模块130可以使用分割模块234将图像234中的每一个分割成区域M0。类似地，如上所讨论的，分割模块 234可以使用JSEG图像分割算法将图像234中的每一个分割成区域M0。再一次，虽然图7可以示出分割模块234使用JSEG图像分割算法，但也可以使用任何其他合适的图像算法将图像中的每一个分割成区域。图像处理模块130还可以使用特征提取模块从每一经分割的区域MO中提取特征。
图7示出图像处理模块130可以提供图像234及相应的区域240作为图像数据 134以供前端204上的对象敏感的排序模块108使用。虽然图7示出图像处理模块130在后端202上处理并存储图像数据134，但图像处理模块130可另选地位于前端204上。例如，图像处理模块130可以存储在存储器112中，其中图像处理模块130然后可以处理并存储图像数据134。
此处，在对象敏感的图像搜索的在线方法的这个实现中，伪相关模块510可以从结果模块232所生成的查询结果402中选择伪正面样本506和伪负面样本508作为伪训练样本502。MIL训练模块226随后可以训练MIL模型504来标识图像234的区域240中的对象220的常见图案。此外，可以为图像选择2 配置经训练的MIL模型504，其中经训练的MIL模型504可以从查询结果402中选择包含区域MO中的对象220的常见图案的图像。包括区域质量模块248的排序模块242随后可以基于区域240中的每一个的质量对图像234进行排序。具体地，区域质量模块248可以单独地或组合地将区域大小、区域位置、区域数量、和/或常见图案在区域中的时间量确定为区域MO的质量。排序模块M2随后可以生成经排序的查询结果图像142的列表。对象敏感的排序模块108随后可以基于对所选图像的排序对查询结果402重新排序。
此处，图7示出经重新排序的列表702可被提供给计算设备106的浏览器110以供用户102查看。图7示出对象敏感的搜索的在线方法所提供的经重新排序的列表702可包括作为最高排序图像704(即，第一个图像)的最大最清晰的图像以及作为较低排序图像 (即，该示例集合中的最后一个图像)的较小图像706。虽然图4示出经排序的列表404包括四个图像，但经排序的列表404可包括任何其他数量的一个或多个图像。
结论
虽然已经用对结构特征和/或方法动作专用的语言描述了各实施例，但是应该理解，本发明不必限于所述的具体特征或动作。相反，这些具体特征和动作是作为实现各实施例的说明性形式而公开的。
权利要求
1.一种至少部分由执行存储在存储器中的计算机可执行指令的一个或多个处理器执行的计算机实现的方法，所述计算机实现的方法包括确定(30 与先前提交的查询相关联的对象；为所述对象收集(306)正面训练数据和负面训练数据；使用所述正面训练数据和所述负面训练数据来训练(308)与所述对象相关联的多实例学习(MIL)模型以标识所述对象的常见图案；在训练所述MIL模型之后，从用户接收(312)与所述对象相关联的查询；至少部分地基于接收到所述查询来生成(314)包括与所述对象相关联的图像的查询结果；将所述图像分割(316)成各区域并从所述各区域中提取特征；将从各区域中提取的特征与来自所述MIL模型的对象的常见图案进行比较(320)以从查询结果中标识包括所述对象的常见图案的图像；至少部分地基于包括所述对象的常见图案的每个区域的质量来对包括所述对象的常见图案的图像进行排序(322)；以及至少部分地基于所述图像的排序将包括所述图像的查询结果提供(324)给用户。
2.如权利要求1所述的计算机实现的方法，其特征在于，所述质量包括包含所述常见图案的区域的计算大小。
3.如权利要求2所述的计算机实现的方法，其特征在于，所述质量还包括包含所述常见图案的区域的计算位置。
4.如权利要求2所述的计算机实现的方法，其特征在于，所述质量还包括含有所述常见图案的区域的计算数量或区域中出现常见图案的计算时间。
5.如权利要求2所述的计算机实现的方法，其特征在于，所述排序包括将来自查询结果的具有包含所述常见图案的最大计算区域的图像排序为查询结果的最高排序图像。
6.如权利要求1所述的计算机实现的方法，其特征在于，还包括为要为其构建相应MIL 模型的对象构建词典，所述词典中的每一个对象与先前提交的查询相关联。
7.如权利要求6所述的计算机实现的方法，其特征在于，所述多个对象包括多个动物、植物和产品。
8.如权利要求1所述的计算机实现的方法，其特征在于，为所述对象收集正面训练数据和负面训练数据包括分析一个或多个照片共享网站处与对象相关联的照片。
9.一种或多种存储计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在被执行时使得一个或多个处理器执行以下动作，包括从用户接收(60 指定对象的基于图像的查询；至少部分地基于接收到所述查询来生成(604)包括与所述对象相关联的图像的查询结果；将每一个图像分割(606)成各区域；从查询结果中选择(608)多个伪正面和伪负面样本作为训练数据；以及使用所述训练数据来训练(610)多实例学习(MIL)模型以标识图像区域中的对象的常见图案以将查询结果的经重新排序的列表提供给用户。
10.如权利要求9所述的计算机可读存储介质，其特征在于，还包括从所述查询结果中选择包括区域中的对象的常见图案的图像；至少部分地基于包括对象的常见图案的每个区域的质量来对每一个所选图像进行排序；至少部分地基于所选图像的排序来对查询结果重新排序；将经重新排序的查询结果提供给用户。
11.如权利要求10所述的计算机可读存储介质，其特征在于，所述质量包括含有常见图案的区域的计算大小、含有常见图案的区域的计算位置、包含常见图案的区域的计算数量或区域中出现常见图案的计算时间。
12.如权利要求11所述的计算机可读存储介质，其特征在于，所述排序包括将来自查询结果的具有包含所述常见图案的最大计算区域的图像排序为查询结果的最高排序图像。
13.一种计算系统，包括一个或多个处理器(122)；存储计算机可执行指令的存储器(1 )，所述计算机可执行指令在被执行时使得所述一个或多个处理器执行以下动作，包括从用户接收(60 指定对象的基于图像的查询；至少部分地基于接收到所述查询来生成(604)包括与所述对象相关联的图像的查询结果；将每一个图像分割(606)成各区域；从所述查询结果中选择(608)包括区域中的对象的常见图案的图像；至少部分地基于包括对象的常见图案的每个区域的质量来对每一个所选图像进行排序(614)；以及至少部分地基于所述图像的排序将查询结果的经排序的列表提供(618)给用户。
14.如权利要求13所述的计算系统，其特征在于，还包括训练多实例学习(MIL)模型以标识图像的区域中的对象的常见图案。
15.如权利要求14所述的计算系统，其特征在于，所述对象包括动物、植物或产品。
16.如权利要求14所述的计算系统，其特征在于，在从所述用户接收查询之前训练所述MIL模型。
17.如权利要求16所述的计算系统，其特征在于，使用从分析一个或多个照片共享网站处的图像中生成的正面训练数据和负面训练数据来所述训练MIL模型。
18.如权利要求17所述的计算系统，其特征在于，为对象查询的词典中的每一个对象生成正面训练数据和负面训练数据。
19.如权利要求14所述的计算系统，其特征在于，在从用户接收到查询之后并至少部分地响应于从用户接收到查询来训练所述MIL模型。
20.如权利要求19所述的计算系统，其特征在于，使用来自查询结果的多个伪正面和伪负面样本来训练所述MIL模型。
全文摘要
本文描述了用于对象敏感的图像搜索的方法和系统。这些方法和系统可用于接收对于对象图像的查询并基于图像的排序来向用户提供查询结果的经排序的列表。对象敏感的图像搜索可生成从来自在网站处共享图像的用户的自由训练数据中训练的预先训练的多实例学习(MIL)模型来标识对象的常见图案，和/或可生成从查询结果的伪正面和伪负面样本中“在进行中”训练的MIL模型来标识对象的常见图案。由此，向用户呈现包括在结果顶端附近突出地显示对象的图像的查询结果。
文档编号G06F17/30GK102541999SQ20111039164
公开日2012年7月4日申请日期2011年11月15日优先权日2010年11月16日
发明者华先胜, 宋彦, 汪萌申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪萌;华先胜;宋彦
技术所有人：微软公司
我是此专利的发明人

上一篇：基于h_s二维直方图和区域颜色匹配的车辆颜色检测方法
上一篇：应用程序控制方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。