通过图像的任务聚焦搜索的制作方法

文档序号：13986919阅读：168来源：国知局

背景技术：

随着人们查看越来越多在线内容(特别是非文本内容，其包括图像、视频、音频等)，他们关于该内容好奇并且常常想要知道更多。例如，当人(计算机用户)查看同事的在线博客的内容时，计算机用户可能遇到他/她可能希望知道更多的图像。实际上，即使当图像被加字幕和/或周围的内容描述图像的主题的方面时，视图/计算机用户可能仍然具有未回答的问题，至少在未采取特定动作找到信息的情况下是未回答的。

备选地，计算机用户可能想要执行难以用词语制定的网络搜索任务，例如，通过其外表购买时尚物品、基于照片找到旅行目的地(或其他位置)等。通过图像搜索(对比通过文本搜索)是在这样的场景中进行的逻辑事情。许多这样的任务实际上是研究——人们在没有采集的明确目标的情况下搜索，而不是他们需要许多视觉辅助探索以形成意见并且变窄到确切地所追求的。一些提供商已经实现有时返回针对查询图像的文本注释的通用通过图像搜索(search-by-image)特征，但是搜索相关性和注释覆盖通常不是令人满意的。一些应用利用用于注释的人类众包并且呈现对应的文本搜索结果。注释常常是太模糊的，并且由于搜索结果基于文本注释，因而结果不是视觉中心的。通常，搜索结果的相关性不是令人满意的且非高效的，未提供交互式细化体验。还缺少的是使视觉搜索商品化并且实现有活力的生态系统的平台支持。

技术实现要素：

本概述被提供以引入以在详细描述中下面进一步描述的简化形式的概念的选择。本概述不旨在标识要求保护的主题的关键特征或基本特征，其也不旨在被用于限制要求保护的主题的范围。

在一个方面中，提供了一种用于执行图像搜索的方法。从用户接收包括图像的搜索查询。标识与图像相关联的分段。标识与图像和分段相关联的用户意图。与所标识的分段和用户意图相关联的搜索结果被生成并且被呈现给用户。在此所描述的技术可以通过提供相关结果为用户提供更有效的搜索会话，而不需要多个搜索。

附图说明

所公开的主题的前述方面和许多伴随优点将随着其通过参考结合以下附图理解的以下描述而变得更容易理解，其中：

图1是描绘适于与在此所描述的技术的方面一起使用的示例性操作环境的高层示图；

图2图示了适于与在此所描述的技术的方面一起使用的用户计算设备与视觉搜索系统之间的示例性交互；

图3是图示适于与在此所描述的技术的方面一起使用的视觉搜索系统的示例性部件的块图；

图4图示了适于与在此所描述的技术的方面一起使用的示例性用户接口；

图5图示了适于与在此所描述的技术的方面一起使用的示例性用户接口；

图6图示了适于与在此所描述的技术的方面一起使用的示例性用户接口；

图7图示了适于与在此所描述的技术的方面一起使用的示例性高层工作流；以及

图8图示了适于与在此所描述的技术的方面一起使用的示例性操作环境。

具体实施方式

在此所描述的技术可以通过提供相关结果为用户提供更高效的搜索会话，而不需要多个搜索。时常地，当通过图像搜索查看网络上的内容时，用户打算完成与图像作为整体有关或与图像内的一个或多个对象有关的任务。例如，用户可能想要买图像内所描绘的特定物品、找到图像内所描绘的食品的食谱、基于图像查找旅行目的地，等等。

对于呈现给用户的图像而言，包括用于任务完成的全部所要求的信息的图像是期望的。然而，情况不总是这样，这是因为可能不存在可用于当前查看的图像内容的足够的内容，或者所呈现的信息可能不满足用户的期望的意图(例如，图像中的商品的价格可能太高、图像中的商品的食谱可能太复杂等)。在这样的情况中，如果基于图像内的内容(和/或附加信息)呈现有聚焦在任务完成周围的视觉相似图像，则用户将极大地受益，因此，用户可以浏览视觉类似内容的结果集以便完成用户的预期的任务。附加信息可以包括来自托管图像的网页的数据或者来自提供图像的移动设备的数据(诸如gps数据、当日时间等)。附加信息还可以包括上下文位置数据。例如，如果用户当在商店处时调用搜索，则可以确定用户往往进行比较购物。作为另一示例，如果用户在餐馆中时调用针对食品的搜索，则可以确定用户想要计算卡路里而不是搜索食谱，然而如果用户提交杂志封面上描写的食品的图像，则可以确定用户正在搜索食谱。

一些方面提供以下各项中的一项或多项：多模式视觉搜索相关性(例如，视觉+可选的文本+可选的移动设备传感器信息)；相关性反馈(针对会话和/或用户)、ux和相关性方面二者；通用视觉搜索；分段检测和分段特定模型；实现支持的分段中的新应用的平台；引导新分段的平台；检测被呈现给消费者的查询图像内的任何完成意图的主集；对于多个意图而言，当多个(或没有)潜在的意图被标识时对于用户细化意图的交互式体验；约束结果集以帮助用户完成特定任务；以及插入分段特定视觉类似等级使得视觉搜索可以扩大到各种各样的网络场景并且扩大到数十亿图像文档的能力。

在所公开的主题的方面中，提供视觉内容存储库。视觉内容存储库包括图像数据库和与图像相关联的附加信息(诸如描述被存储在数据库中的图像的属性和/或方面的注释)。视觉内容存储库可以被实现在用户计算设备上、远离用户设备被实现(例如，在一个或多个网络设备上)或者可以被分布在用户设备和/或一个或多个网络设备之间。在一方面中，视觉搜索系统提供被提供给用户的视觉搜索功能，并且被配置为与视觉内容存储库相互作用以获得关于在用户设备上被呈现/被显示给用户的视觉内容的一个或多个商品的附加信息。根据各个方面，在检测到获得更多信息或者执行关于特定图像的视觉搜索的用户指示时，视觉搜索系统访问视觉内容存储库以确定图像是否与视觉内容存储库中的图像匹配。如果这样的话，则视觉搜索系统可以取回信息的至少一部分以用于呈现给用户。

附加地或者备选地，所取回的信息可以被用于标识与图像相关联的分段和/或与图像相关联的用户意图/任务。如在此所使用的，“分段(segment)”是特定类型的人、地点、东西、活动、地点等的类别或分类，其被用于约束图像搜索的搜索结果。分段的示例包括名人、演员、政客、国家、州、城市、公园、休假区、操场、衣服、服装、毛衣、珠宝、宠物、狗、猫、电影、戏剧、体育事件等。当与查询图像相关联的分段被标识时，图像搜索可以然后被限于对应于所标识的分段的图像/信息。

例如，如果用户/顾客想要购买一双鞋，但是不知道确切地哪些鞋，则用户可以将图像搜索中的一双鞋的图像提交到视觉搜索系统。在标识图像包括一对鞋时，视觉搜索系统可以选择对应于与鞋有关的内容的“鞋”分段。视觉搜索功能可以基于视觉图像了解顾客喜欢什么并且不喜欢什么(例如，视觉搜索系统可以将一系列图像呈现给用户，其与提交的图像视觉类似，即，其包括鞋)。视觉搜索系统可以因此基于各种类型的鞋图像指导用户有关选项，并且可以实际上与用户进行对话以细化使被呈现给用户的进一步的图像/选择变窄的建议。因此，使得购物过程愉快并且高效。有时这样的活动比任务完成(与“窗口购物”类似)对于用户的娱乐而言更多。共同需要在此将允许交互式以视觉为中心的搜索(在此被称为视觉搜索或图像搜索)。对于高效和相关视觉搜索的需要随着具有比台式计算机消耗对视觉内容强得多的需求的基于移动的信息消耗而不断增加。

在第一方面中，提供了图像搜索的方法。从用户接收包括图像的搜索查询。标识与图像相关联的用户意图。与用户意图相关联的搜索结果被生成并且被呈现给用户。

在第二方面中，提供了执行图像搜索的方法。接收包括图像的搜索查询。标识与图像相关联的分段。标识与图像和分段相关联的用户意图。与所标识的用户意图和分段相关联的搜索结果被生成并且被呈现给用户。

在第三方面中，执行图像搜索的方法被提供给用户。接收包括图像的搜索查询。标识与图像相关联的一个或多个分段。用户可选择的选项被呈现给用户，其实现来自所标识的一个或多个分段的一个或多个分段的用户选择。接收一个或多个分段的选择。标识与一个或多个所选择的分段中的每个分段相关联的相应的用户意图。基于图像，从所选择的一个或多个分段中的每个分段生成相应的搜索结果。相应的搜索结果被呈现给用户。

在第四方面中，标识与图像相关联的用户意图包括：分析图像的内容以标识与图像相关联的一个或多个潜在的用户意图；在用户接口上呈现用于用户从一个或多个潜在的用户意图进行选择的选项；接收对潜在的用户意图的选择，使得所选择的潜在的用户意图被标识为与图像相关联的用户意图。

在第五方面中，标识与图像相关联的用户意图包括：分析图像的内容以标识与图像相关联的一个或多个潜在的用户意图；在用户接口上呈现用于用户选择一个或多个细化参数的选项；接收一个或多个细化参数的选择；以及使用所选择的一个或多个细化参数标识来自所标识的一个或多个潜在的用户意图中的用户意图。

在第六方面中，标识与图像相关联的分段包括：分析图像的内容以标识与图像相关联的一个或多个潜在分段；在用户接口上呈现用于用户从一个或多个潜在分段进行选择的选项；接收对潜在分段的选择，使得所选择的潜在分段被标识为与图像相关联的分段。

在第七方面中，分析图像的内容以标识与图像相关联的一个或多个潜在分段包括：访问图像数据库，其包括图像以及图像与相应属性之间的关联；确定数据库是否包括与接收到的图像匹配的图像，当数据库包括与接收到的图像匹配的图像时，然后访问与匹配图像相关联的相应属性以确定与匹配图像先前地相关联的一个或多个分段；以及将与匹配图像先前地相关联的一个或多个分段标识为与图像相关联的一个或多个潜在分段。

考虑到所公开的主题的该一般描述，现在对附图进行参考。现在参考图1，其描绘了适于与在此所描述的技术的方面一起使用的示例性操作环境的高层示图，并且通常被称为系统100。系统100仅是适合的计算环境的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。系统100也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。系统100包括视觉搜索部件110、视觉内容存储库112、用户简档数据存储库114以及与用户118相关联的用户设备116。在一方面中，系统100的各种元件中的一个或多个元件经由网络120通信。在一些方面中，系统100可以包括未示出的附加元件，或者可以包含比示出更少的元件。

视觉搜索部件110被配置为接收由用户118经由用户设备116提交的图像搜索查询。除了图像之外，搜索查询可以包括或者隐含地或者明确地由用户所提供的多模态输入(诸如来自托管图像的网页的数据、移动设备传感器信息等)。视觉搜索部件110标识与图像相关联的用户意图。用户意图可以是任务完成意图，其是执行或完成与图像或图像中所描绘的一个或多个特征有关或相关联的特定任务的意图。标识与图像相关联的用户意图可以包括访问视觉内容存储库112。在一方面中，视觉内容存储库112包括图像的数据库和与图像相关联的附加信息(诸如描述被存储在数据库中的图像的属性和/或方面的注释)。虽然视觉内容存储库112被描绘为分离的实体，但是在一些方面中视觉内容存储库可以被分布在多个存储设备之间和/或被分布在用户设备116与一个或多个存储设备之间。在一方面中，与被存储在视觉内容存储库112中的图像相关联的附加信息包括先前地已经被确定为与所存储图像相关联的一个或多个用户意图。

视觉搜索部件110可以访问或搜索视觉内容存储库112以确定由用户118提交的图像是否匹配被存储在视觉内容存储库112中的图像中的任一图像。如该上下文中所使用的术语“匹配”可以包括确切匹配，但是不限于确切匹配。在一方面中，如果图像是所存储图像的变更版本，则可以确定匹配。例如，如果所提交的图像是所存储图像的缩放版本，则可以确定匹配。如果所提交的图像是所存储的彩色图像的颜色调整(例如，黑白)版本或者反之亦然，则可以确定匹配。如果所提交的图像与所存储图像的裁剪部分相同(或者类似)或者反之亦然，则可以确定匹配。在各个方面中，“匹配”可以尤其基于以上类型的匹配中的任何或全部的组合而被确定。如果找到匹配，则视觉搜索部件110可以取回与匹配的所存储图像相关联的信息的至少一部分，并且使用所取回的信息标识与所存储图像先前地相关联的一个或多个用户意图。

补充或者取代访问视觉内容存储库112，标识与所提交的图像相关联的用户意图可以包括访问用户简档数据存储库114。在一方面中，用户简档数据存储库114包括与用户118相关联的用户简档数据。用户简档数据可以包括对于各种产品、活动、娱乐类型、网站等的用户偏好、用户喜欢和不喜欢。用户简档数据还可以包括或者在当前搜索会话中或者在先前的搜索会话中由用户118所执行的先前搜索的历史。视觉搜索部件110可以访问或搜索用户简档数据存储库114以确定图像或图像中所描绘的一个或多个特征是否与用户的偏好、喜欢、不喜欢等相关联。在一方面中，如果上文所描述的视觉内容存储库112的搜索导致与所提交的图像相关联的多个用户意图，则来自用户的简档的信息被用于将所标识的用户意图过滤或者限于符合用户的兴趣等的那些用户意图。在实施例中，关于其他用户的搜索、购买、在线活动等的历史信息被用于标识和/或过滤与图像相关联的一个或多个用户意图。

视觉搜索部件110还被配置为利用所提交的图像并且将搜索的结果限于与所标识的用户意图一致的那些结果来执行基于图像的搜索。由视觉搜索部件110呈现给用户的搜索结果将因此使得用户能够有效地执行或者完成与用户意图相关联的任务。

在一方面中，视觉搜索部件110被配置为基于与用户118的交互式会话，细化或约束所标识的用户意图。例如，如果上文所描述的视觉内容存储库112的搜索导致与所提交的图像相关联的多个用户意图，则视觉搜索部件可以向用户呈现一个或多个可选择的选项以细化用户意图的确定。选项可以包括特定选择或问题，诸如：“你想要购买商品吗？”、“你对服装或珠宝感兴趣吗？”等。选项还可以包括填充的文本输入，其中用户118可以录入一个或多个文本搜索项。呈现的选项可以基于在所提交的图像中所描绘的所标识的特征而被确定，例如，如果图像描绘穿裙子的妇女某种特定类型的珠宝，则裙子和珠宝可以各自被标识为图像中的特征。一旦细化选项已经从用户118被接收，视觉搜索部件110就可以利用接收到的细化选项过滤或约束用户意图，并且基于所标识的用户意图来执行基于图像的搜索。

现在参考图2，描绘了适于与在此所描述的技术的方面一起使用的用户计算设备210与视觉搜索系统212之间的示例性交互200(通常被称为交互200)。交互200仅是适合的交互的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。交互200也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。

如由箭头214所指示的，请求216在用户设备210处被生成/被制定以执行图像搜索。根据所公开的主题的方面，请求216包括由用户210所提供的图像。在各个方面中，用户210可以选择来自被存储在用户设备210上的图像中的图像。备选地或者附加地，用户210可以选择在线呈现的图像。图像的副本或部分可以被包括在请求216中，和/或标识图像的图像地址(诸如url或其他指针)可以被包括在请求216中。除了图像或图像标识符之外，上下文信息可以被包括在请求216中。上下文信息可以包括注释、文本信息、与内容相关联的字幕和/或与内容有关的描述、图像内的一个或多个个体特征的选择和/或可以被用于细化图像搜索的其他类型的信息。上下文信息还可以包括来自托管图像的网页的数据、来自移动设备的传感器信息数据(诸如gps数据、当日时间等)和/或上下文位置数据。一旦请求216被生成或制定，其就被提交给视觉搜索系统212，如由箭头218所指示的。在接收到请求216时，视觉搜索系统212标识查询图像中所描绘的特征，如由箭头220所指示的。在一方面中，特征基于在先前地所标识的图像和图像特征上训练的图像识别技术而被标识。请求216中所提供的附加信息还可以被利用在识别图像中所描绘的特征中。基于图像和/或所标识的特征，视觉搜索系统212可以访问视觉内容存储库222，其存储图像和先前地相关联的属性的数据库。视觉内容存储库222可以是视觉搜索系统212的一部分或可以与视觉搜索系统212分离。在视觉内容存储库222中所访问的信息被用于标识与查询图像相关联的一个或多个分段，如由箭头224所指示的。当多个分段被标识时，视觉搜索系统212可以利用交互式分段消歧236的过程，其中对话与用户发生以标识最相关的(一个或多个)分段。视觉搜索系统212还可以访问视觉内容存储库222以标识与查询图像相关联的一个或多个用户意图，如由箭头226所指示的。当多个意图被标识时，视觉搜索系统212可以利用交互式意图消岐(未示出)的过程，其中对话与用户发生以标识最相关的(一个或多个)意图。如由箭头228所指示的，视觉搜索系统212执行由一个或多个所标识的分段约束的图像搜索，并且基于所标识的用户意图中的一个或多个，对搜索结果230进行约束或过滤。搜索结果230被返回到用户设备210，如由箭头232所指示的，其中搜索结果230被呈现给计算机用户，如由箭头234所指示的。

现在参考图3，描绘了图示适于与在此所描述的技术的方面一起使用的视觉搜索系统的示例性部件的块图，并且通常被称为视觉搜索系统300。视觉搜索系统300仅是适合的视觉搜索系统的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。视觉搜索系统300也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。

在一方面中，视觉搜索系统300被实现在单个计算设备上。然而，在一些方面中，视觉搜索系统300被实现在多个计算设备和/或存储设备上。如在图3中所描绘的，视觉搜索系统300包括通过系统总线334相互连接的至少一个处理器302(或处理单元)和存储器304。如将容易地理解到，存储器304通常(但非总是)包括易失性存储器306和非易失性存储器308二者。易失性存储器306保持或存储信息，只要存储器被供应有功率。相反，非易失性存储器308能够甚至在电源不可用时存储(或者保存)信息。一般而言，ram和cpu高速缓存存储器是易失性存储器306的示例，然而rom、固态存储器设备、存储器存储设备和/或存储器卡是非易失性存储器308的示例。

处理器302执行在执行各种功能时从存储器304所取回的指令(特别地关于响应于关于图像搜索的信息请求，诸如附图中的请求216)。处理器302可以包括任何各种商业可用的处理器(诸如单处理器、多处理器、单核单元和多核单元)。系统总线334提供用于移动设备的各种部件相互通信的接口。系统总线334可以任何数种类型的总线结构，其可以将各种部件相互连接(包括内部部件和外部部件二者)。如所描绘的配置的示例性视觉搜索系统300还包括用于将视觉搜索系统300与其他网络可访问计算机、在线服务和/或网络实体以及计算机网络(诸如图1的网络108)上的其他设备相互连接的网络通信部件316。可以经由有线连接、无线连接或二者由网络通信部件316进行该通信。如由本领域的技术人员将容易地理解到，网络通信部件(诸如网络通信部件316)通常包括发送和接收数字和/或模拟信号的硬件和/或固件部件(并且还可以包括或包括软件部件)。

还包括在视觉搜索系统中的是视觉搜索api314。视觉搜索api314是实现用于接收并且响应图像搜索查询(诸如图2的请求216)的服务的可执行部件。一般而言，视觉搜索api314是计算机用户的计算设备上的服务获得与图像有关的附加信息/图像的门户。视觉搜索api314在处理来自计算机用户的图像查询时与其他部件(如下面所描述的)相互作用。如关于图2的箭头220所讨论的，特征标识部件320标识查询图像内的特征。视觉搜索api314可以在部分或全部地在以下各项内被实现或跨越其分布：操作系统、网络浏览器、在线网站接口、用户接口等。在一方面中，提供使视觉搜索api314可用于第三方(诸如零售商、供应商、服务提供商等)的平台。这样，第三方能够向其客户提供经改进的搜索/购物体验。例如，百货商店“acmeretail”可以实现对其网站上的视觉搜索api314的访问，使得用户可以借助于视觉搜索api314来搜索acmeretail的产品。在这样的配置中，搜索可以被引导向acmeretail的产品类别，并且潜在分段的列表可以被定制到acmeretail的产品线。因此，如果用户提交穿裙子的名人的图像，则视觉搜索api314将不利用分段(诸如“名人”)，因为名人不是百货商店的产品线。相关分段可以是“裙子”，其可以将图像搜索限于在acmeretail的产品类别的裙子。在一方面中，提供使得开发者引导新分段(即，创建尚未由视觉搜索api314提供的新分段)的平台。这样的平台将包括开发者工具，其用于定义分段和指定与新分段相关联的特定种类的商品的相关联的参数和/或定义新分段与可以被存储在视觉内容存储库(诸如视觉内容存储库330)中或被添加到其的特定图像之间的关联。

一旦特征被标识，分段标识部件322标就识与查询图像相关联的一个或多个分段。分段的标识可以涉及多个过程，包括访问视觉内容存储库330、用户简档数据存储库314和/或与用户的交互式细化过程。在实施例中，关于其他用户的搜索、购买、在线活动等的历史信息被用于标识和/或过滤与图像相关联的一个或多个分段。分段的标识还可以利用或者隐含地或者明确地由用户所提供的多模态输入(诸如来自托管图像的网页的数据、移动设备传感器信息、上下文位置数据等)。

意图标识部件312标识与查询图像相关联的一个或多个用户意图。与标识分段一样，用户意图的标识可以涉及多个过程，包括访问视觉内容存储库330、用户简档数据存储库和/或与用户的交互式细化过程。意图的标识还可以利用或者隐含地或者明确地由用户所提供的多模态输入(诸如来自托管图像的网页的数据、移动设备传感器信息、上下文位置数据等)。在一方面中，视觉搜索api利用所标识的(一个或多个)用户意图和(一个或多个)分段以执行图像搜索，其返回特定于与(一个或多个)用户意图相关联的用户任务的搜索结果。

信息优先化部件318可以对搜索结果进行排序和优先化。根据图像查询请求216的上下文、计算机用户的偏好和/或优先级、关于内容的一般用户偏好等，可以进行该排名/优先化。附加地或者备选地，信息优先化部件318可以利用排名部件324。在一方面中，排名部件324基于与所提交的查询图像的视觉相似性，对搜索结果进行排名。排名部件324可以包括多个个体分段特定排名部件，并且分段特定排名部件基于其对与查询图像相关联的所标识的分段的对应性而被选择。信息呈现部件318还可以处理搜索结果，以用于在计算设备116上呈现给计算机用户。

现在参考图4，描绘了适于与在此所描述的技术的方面一起使用的示例性用户接口，并且通常被称为用户接口400。用户接口400仅是适合的用户接口的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。用户接口400也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。用户接口400描绘已经执行的一般图像搜索，其中用户已选择图像410，并且图像搜索结果412被显示呈现视觉相似的图像。

现在参考图5，描绘了适于与在此所描述的技术的方面一起使用的示例性用户接口，并且通常被称为用户接口500。用户接口500仅是适合的用户接口的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。用户接口500也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。用户接口500描绘已执行的任务聚焦图像搜索，其中用户已选择图像510，并且图像搜索结果512基于用户意图是购买裙子的确定而被显示。呈现视觉相似的图像，其表示具有价格指示(或在一些情况下裙子售完的指示)类似的销售中的裙子。

在一方面中，分段特定排序器被用于基于与所提交的图像的视觉相似性，对搜索结果图像的呈现进行排名或排序。术语“分段特定”意味着排序器被定制用于与特定分段一起使用。例如，非分段特定排序器可以被设计或被训练以对一组搜索结果图像进行排名，而不管所提交的图像中所描绘的主题。因此，查询图像是否描绘自行车、裙子、狗等，相同的非分段特定等级可以被用于基于与所提交的查询图像的视觉相似性，对搜索结果图像进行排名。相反，分段特定排序器被设计和/或被训练以对落在特定分段的搜索结果图像进行排名(例如，如果查询图像描绘自行车，则可以利用特别地被训练/被设计以将自行车图像排名的分段特定排序器)。分段特定排序器提供比一般排序器更准确的排名，因为其“知道”什么特性和属性通常与自行车相关联，因此可以在对搜索结果图像进行排名时利用专业知识。

现在参考图6，描绘了适于与在此所描述的技术的方面一起使用的示例性用户接口，并且通常被称为用户接口600。用户接口600仅是适合的用户接口的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。用户接口600也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。

用户接口600描绘已提交给用于图像搜索的视觉搜索系统的图像614。如在图6中所描绘的，视觉搜索系统已标识所提交的图像中的两个特征——“名人的脸”和“钱包”。作为所标识的特征的结果，两个分段可以被标识——“名人”和“钱包”。为了标识哪个分段与用户的意图最相关，视觉搜索系统已显示围绕名人的脸的边界框610和围绕钱包的边界框612。在一方面中，当用户选择边界框之一时，视觉搜索系统然后将分段限于与所选择的边界框相关联的特征。例如，如果用户点击边界框612，则视觉搜索系统可以将“钱包”标识为相关分段，并且将返回与分段“钱包”相关联的搜索结果。

现在参考图7，描绘了适于与在此所描述的技术的方面一起使用的示例性高级工作流，并且通常被称为工作流700。工作流700仅是适合的工作流的一个示例并且不旨在提出关于在此所描述的技术的使用或功能方面的范围的任何限制。工作流700也不应当被解译为具有与所图示的部件中的任一个或组合有关的任何依从性或要求。工作流700包括关于图1至图6上文所描述的过程和功能中的一些过程和功能(诸如检测/标识图像中的对象或特征、呈现边界框、分段/类别分类等)。

“洞察”指代针对视觉内容存储库中的图像而聚集的图像信息/属性。“jd”指代潜在地使用视觉搜索api(诸如上文所描述的视觉搜索api314)的第三方。“局部特征”指代用于图像内的局部区域的机器学习的特征。“dnn特征”指代用于图像的基于深度神经网络的特征。“类别分类”指代各种类别/分段(诸如裙子、鞋、食品等)中的输入图像的分类。“属性分类”指代图像的所得到的属性(诸如长裙、t字形长裙等)，其进一步辅助视觉内容存储库(诸如上文所描述的视觉内容存储库330)中的图像查找。

“重复聚类床”指代聚类床，其是内部地被用于实现用于几毫秒内找到几十亿图像的语料库内的视觉相似图像的基于快速查找的搜索。可以存在聚类床的不同的实例——一个找到重复图像，另一个找到视觉相似图像(基于视觉特征的最近邻居)等。“注释聚类床”指代一旦类似页已被标识就将与图像相关联的文本注释从结果集传播到查询图像，以使用文本特征辅助图像搜索。“is/聚类床”指代聚类床的附加/不同的实现。

现在参考图8，适于与在此所描述的技术的方面一起使用的示例性操作环境被示出并且通常被指定为计算设备800。计算设备800仅是适合的计算环境的一个示例并且不旨在提出关于各方面的使用或功能的范围的任何限制。计算设备800也不应当被解译为具有与所图示的部件中的任一个或组合800有关的任何依从性或要求。

在此所描述的技术中的一些方面可以被描述在计算机代码或机器可用指令的通用上下文中，包括由计算机或其他机器(诸如个人数字助理或其他手持式设备)执行的计算机可执行指令(诸如程序模块)。通常，包括例程、程序、对象、组件、数据结构等的程序模块指代执行特定任务或实现特定抽象数据类型的代码。在此所描述的技术的一些方面可以被实践在各种系统配置中，包括手持式设备、消费者电子装置、通用计算机、更多特殊性计算设备等。在此所描述的技术的一些方面还可以被实践在分布式计算环境中，其中任务由通过通信网络链接的远程处理设备执行。

参考图8，计算设备800包括总线810，其直接地或间接地耦合以下设备：存储器812、一个或多个处理器814、一个或多个呈现部件816、输入/输出端口818、输入/输出部件820以及图示的电源822。总线810表示什么可以是一个或多个总线(诸如地址总线、数据总线或其组合)。虽然出于清晰的缘故利用线来示出图8的各个块，但是实际上，描绘各种部件不是这样清楚的，并且比喻地线将更准确地是灰色并且模糊的。例如，人们可以认为呈现部件(诸如显示设备)是i/o部件。而且，处理器具有存储器。我们认识到本领域的性质是这样，并且重申图8的示图仅图示可以结合在此所描述的技术的一个或多个方面使用的示例性计算设备。未在诸如“工作站”、“服务器”、“膝上型电脑”、“手持式设备”等的类别之间进行区别，这是因为全部被预期在图1的范围内并且参考“计算设备”。

计算设备800通常包括各种计算机可读介质。以示例而非限制的方式，计算机可读介质可以包括：随机存取存储器(ram)、只读存储器(rom)、电可擦可编程只读存储器(eeprom)、闪速存储器或其他存储器技术、cdrom、数字通用光盘(dvd)或其他光学或全息介质、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、载波、或可以被用于编码期望信息并且由计算设备800访问的任何其他介质。

存储器812包括以易失性存储器和/或非易失性存储器的形式的计算机存储介质。存储器可以是可移除的、不可移除的或者其二者。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。如在此所使用的，计算机存储介质不包括信号自身。

计算设备800包括从各种实体(诸如存储器812或i/o部件820)读取数据的一个或多个处理器。(一个或多个)呈现部件816向用户或其他设备呈现数据指示。示例性呈现部件包括显示设备、扬声器、打印部件、振动部件等。i/o端口818允许计算设备800逻辑地耦合到包括i/o部件820的其他设备，其中的一些i/o部件820可以内置。说明性部件包括麦克风、操纵杆、游戏板、卫星盘、扫描器、打印机、无线设备等。

从前述内容，将看到在此所描述的技术很好地适于实现在上文中阐述的所有目的和目标连通对于结构明显并且固有的其他优点。将理解到，某些特征和子组合具有实用性并且可以在不参考其他特征和子组合的情况下被采用。这由权利要求预期并且在权利要求的范围内。由于许多可能方面可以由在此所描述的技术制造而不脱离其范围，因而将理解到，在此附图中所阐述或所示出的所有主题将被解译为说明性而非限制性意义。

实施例

实施例1.一种图像搜索的方法，包括：生成用户接口，其从用户接收对用于搜索查询的图像的指定；经由用户接口接收搜索查询，其包括对图像的指定；访问视觉内容存储库，其包括存储图像以及与存储图像相关联的属性；从视觉内容存储库标识与图像相关联的一个或多个属性；基于与图像相关联的一个或多个属性，标识与图像相关联的用户预期的任务；生成与用户预期的任务相关联的搜索结果；以及经由用户接口向用户呈现搜索结果。

实施例2.根据实施例1的方法，其中与图像相关联的一个或多个属性包括关于以下各项中的一项或多项的信息：由一个或多个用户所执行的搜索、购买和/或在线活动。

实施例3.根据实施例1或2的方法，其中标识与图像相关联的用户预期的任务包括：基于与图像相关联的一个或多个属性，标识与图像相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户从一个或多个潜在的用户预期的任务进行选择的选项；以及接收对潜在的用户预期的任务的选择，其中所选择的潜在的用户预期的任务被标识为与图像相关联的用户预期的任务。

实施例4.根据实施例1或2的方法，其中标识与图像相关联的用户预期的任务包括：基于与图像相关联的一个或多个属性，标识与图像相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户选择一个或多个细化参数的选项；接收对一个或多个细化参数的选择；并且利用所选择的一个或多个细化参数来标识来自所标识的一个或多个潜在的用户预期的任务中的用户预期的任务。

实施例5.根据实施例1、2、3或4的方法，其中从视觉内容存储标识与图像相关联的一个或多个属性包括：确定视觉内容存储中的存储图像与图像匹配；并且将与存储图像相关联的一个或多个属性标识为与图像相关联的一个或多个属性。

实施例6.根据实施例1、2、3、4或5的方法，还包括标识与图像相关联的分段，其中所生成的搜索结果与用户预期的任务和分段相关联。

实施例7.根据实施例6的方法，其中标识与图像相关联的分段包括：分析图像的内容以标识与图像相关联的一个或多个潜在分段；在用户接口上呈现用于用户从一个或多个潜在分段进行选择的选项；以及接收对潜在分段的选择，其中所选择的潜在分段被标识为与图像相关联的分段。

实施例8.根据实施例7的方法，其中分析图像的内容以标识与图像相关联的一个或多个潜在分段包括：访问数据库，其包括存储图像以及存储图像与相应属性之间的关联；确定数据库包括与图像匹配的存储图像；基于与存储图像相关联的相应属性，标识与存储图像相关联的一个或多个分段；以及将与存储图像相关联的一个或多个分段标识为与图像相关联的一个或多个潜在分段。

实施例9.根据实施例7的方法，其中分析图像的内容以标识与图像相关联的一个或多个潜在分段包括：使用图像识别技术标识图像中所描绘的一个或多个特征；访问数据库，其将一个或多个属性与所标识的一个或多个特征相关联；以及基于与所标识的一个或多个特征相关联的一个或多个属性，标识一个或多个潜在分段。

实施例10.根据实施例8的方法，其中确定数据库中的存储图像与图像匹配包括以下各项中的一项或多项：确定图像是对存储图像的确切匹配；确定图像是存储图像的变更版本；或者确定存储图像是图像的变更版本。

实施例11.一个或多个计算机存储介质，其具有在其上实现的计算机可用指令，其当由一个或多个计算设执行时执行一种图像搜索的方法，包括：生成用户接口，其从用户接收对用于搜索查询的图像的指定；经由用户接口接收搜索查询，其包括对图像的指定；访问视觉内容存储库，其包括存储图像以及与存储图像相关联的属性；至少部分地基于图像与存储图像之间的对应性，从视觉内容存储库标识与图像相关联的一个或多个属性；至少部分地基于与图像相关联的一个或多个属性，标识与图像相关联的类别；标识与图像相关联的用户预期的任务；执行由类别约束的图像搜索，其中搜索结果被生成；基于用户预期的任务，对搜索结果进行过滤；以及经由用户接口将搜索结果呈现给用户。

实施例12.根据实施例11的介质，其中与图像相关联的一个或多个属性包括关于以下各项中的一项的多项的信息：由一个或多个用户所执行的搜索、购买和/或在线活动。

实施例13.根据实施例11或12的介质，其中标识与图像相关联的用户预期的任务包括：基于与图像相关联的一个或多个属性，标识与图像相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户从一个或多个潜在的用户预期的任务进行选择的选项；以及接收对潜在的用户预期的任务的选择，其中所选择的潜在的用户预期的任务被标识为与图像相关联的用户预期的任务。

实施例14.根据实施例11或12的介质，其中标识与图像相关联的用户预期的任务包括：基于与图像相关联的一个或多个属性，标识与图像相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户选择一个或多个细化参数的选项；接收对一个或多个细化参数的选择；并且使用所选择的一个或多个细化参数来标识来自所标识的一个或多个潜在的用户预期的任务中的用户预期的任务。

实施例15.根据实施例11或12的介质，其中标识与图像相关联的用户预期的任务包括：标识与视觉内容存储库中的存储图像相关联的用户预期的任务。

实施例16.根据实施例11、12、13、14或15的介质，其中图像与存储图像之间的对应性至少部分地基于：a)图像是对存储图像的确切匹配的确定；b)图像是存储图像的变更版本的确定；或者c)存储图像是图像的变更版本的确定。

实施例17.一种用于执行图像搜索的系统，包括：一个或多个计算机存储介质；一个或多个处理器，其a)接收包括图像的搜索查询，b)基于视觉内容存储库中的图像与存储图像之间的对应性，标识与图像相关联的分段，其中视觉内容存储库将属性与存储图像相关联，c)向用户呈现用户可选择的选项，其中用户可选择的选项实现来自所标识的分段中间的用户选择，d)接收对分段的选择，e)标识与分段相关联的用户预期的任务，f)使用图像生成由分段和用户预期的任务约束的搜索结果，以及g)向用户呈现相应的搜索结果。

实施例18.根据实施例17的系统，其中标识与分段相关联的用户预期的任务包括：分析图像的内容以标识与分段相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户从一个或多个潜在的用户预期的任务进行选择的选项；以及接收对潜在的用户预期的任务的选择，其中所选择的潜在的用户预期的任务被标识为与图像相关联的用户预期的任务。

实施例19.根据实施例17的系统，其中标识与分段相关联的用户预期的任务包括：分析图像的内容以标识与分段相关联的一个或多个潜在的用户预期的任务；在用户接口上呈现用于用户选择一个或多个细化参数的选项；接收对一个或多个细化参数的选择；以及使用所选择的一个或多个细化参数标识来自所标识的一个或多个潜在的用户预期的任务中的用户预期的任务。

实施例20.根据实施例17、18、或19的系统，其中图像与存储图像之间的对应性至少部分地基于：a)图像是对存储图像的确切匹配的确定；b)图像是存储图像的变更版本的确定；或者c)存储图像是图像的变更版本的确定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A·萨切蒂;叶明;杨林军;K·哈珊;P·科姆勒夫
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种化工废气焚烧预处理设备的制作方法
上一篇：一种生活垃圾热解时调节温度的弯管形结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。