交互式多模图像搜索的制作方法

文档序号：6485193阅读：153来源：国知局

交互式多模图像搜索的制作方法
【专利摘要】在移动设备上的视觉搜索的机构利用了在移动设备上的多模和多触摸输入。通过从口头搜索查询中提取词汇实体并将所述词汇实体与图像标签进行匹配，该机构为每个实体提供了候选图像。所选的候选图像之一被用于在查询画布上构造合成的视觉查询图像。所选候选图像在合成的视觉查询图像中的相对大小和位置(不需要现有的图像)为正被提交给知晓上下文的视觉搜索的合成的视觉查询图像的上下文的定义做出了贡献。
【专利说明】交互式多模图像搜索
[0001]版权通告和许可
[0002]本专利文献的公开的一部分可能包含受到版权保护的材料。版权所有人不反对任何人对该专利文献或专利公开内容按照其在(美国)专利和商标局的专利文件或记录中的形式进行复制，但版权所有人保留其它所有的权利。应对本文献应用以下通告:Copyright ? 2011, 2007Microsoft Corp0
[0003]背景
[0004]提供对因特网和万维网访问的移动设备正变得越来越普遍地用作为个人因特网冲浪的门卫(concierge)，它在行进的同时为用户提供了对日益增加的数据量的访问。
[0005]用于移动设备的一些搜索应用支持将内建在移动设备内的相机所获取的照片作为视觉查询，这被称为捕捉-到-搜索。在捕捉-到-搜索中，典型地先抓取(snap)图片，随后将快照作为在各种纵向领域中搜索匹配的查询来提交。由于在长句子的语义含义的机器学习中的间隙的原因，现有的搜索引擎对于很好地处理长查询来说能力有限。例如，诸如“查找在白色房屋前面有几颗绿树的图像(find an image with several green trees infront of a white house) ”的文本查询可能不会产生任何相关的搜索结果。
[0006]一些用于桌面的搜索引擎使用用户提交的草图来进行搜索，采用各种过滤器，例如“类似图像”、颜色、样式或脸作为搜索意图的指示，或者支持将现有图像上传作为用于搜索的查询，类似于上述的捕捉-到-搜索模式。一种搜索程序允许用户将查询图像中某些区域强调作为关键搜索分量，而另一搜索程序使用一组标签的位置和大小来过滤排名最前的基于文本的搜索结果，而又另一搜索程序使用对合成画布上的多个色彩提示的选择作为视觉查询。但，与桌面的用户交互不同于与移动设备的用户交互。
[0007]移动设备目前并没有提供一种有助于某些类型的搜索的平台，特别是在没有捕捉搜索主题的照片的情况下搜索图像或视频。另外，文本输入或语音输入并不能很好地适合于视觉搜索。例如，在电话上打字通常是乏味的，而口头查询不适合于表达视觉意图。而且，在视觉搜索过程中查明用户意图有点复杂，并且可能并不能很好地由文本片段(或转录到文本的语音)来表达
[0008]概述
[0009]本文档描述了用于在移动设备上的视觉搜索的机构，该机构利用了包括在移动设备上的触摸输入的多模输入。通过从包括口头搜索查询的搜索查询中提取词汇实体并将所述词汇实体与图像标签进行匹配，该机构为每个实体提供了候选图像。该机构提供了对特定候选图像的选择。该机构使用所选择的候选图像(包括它们的大小和位置)来在查询画布上构造一个合成的视觉查询。该合成的视觉查询不需要是现有的图像。
[0010]提供本
【发明内容】
是为了以简化的形式介绍将在以下【具体实施方式】中进一步描述的选择的概念。本
【发明内容】
不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。例如，术语“技术”或“机构”可以指上述上下文和通篇文档所准许的设备、系统、方法、和/或计算机可读指令。【专利附图】

【附图说明】
[0011]参考附图来描述【具体实施方式】。在附图中，附图标记最左边的数字标识该附图标记首次出现的附图。在各附图中，使用相同的标号来指示相同的特征和组件。
[0012]图1是通过移动设备实现交互式多模图像搜索的示例框架的图示。
[0013]图2是在移动设备上的交互式多模图像搜索的示例用户界面的图示。
[0014]图3是从说明在移动设备上的知晓上下文的图像搜索的多模查询的变形中实现交互式多模图像搜索的示例用户界面的图示。
[0015]图4是示出表示选择要操作的实体并形成合成视觉查询的候选图像的图示。
[0016]图5是示出配置用于移动交互式多模图像搜索的示例移动设备的选择部件的框图。
[0017]图6是实现移动交互式多模图像搜索的示例过程的流程图。
[0018]图7是用于使用串接直方图描述的比较图像的示例过程的流程图。
[0019]图8是示出用于生成候选图像的示例的基于群集的过程的流程图。
[0020]图9是示出知晓上下文的基于合成图像的图像搜索过程的数学上注释的视图的流程图。
【具体实施方式】
[0021]一种移动交互式多模图像搜索工具提供了丰富的功能集来获得视觉搜索的相关结果。与主要支持文本-到-搜索的桌面计算机相比较，移动设备为用户交互提供了更加丰富的接口集，使用所述接口集可以容易使用和获得更加相关的结果。例如，除了在桌面环境中接收的传统的键盘和鼠标输入之外，移动设备允许接收附加的多模输入。除了在一些情况下接受多触摸输入的触摸屏接口之外，移动设备接口还可以将文本输入通过内建的相机与视觉模态以及通过语音识别与语音模态相结合。多触摸启用接口识别多个同时发生的触摸输入。
[0022]视觉搜索所面临的一个挑战在于搜索意图可以是隐含的。搜索意图是隐含的意味着用户可能不是处于对应于特定视觉搜索意图的周围，使得捕捉-到-搜索是切实可行的，但是用户可以通过其他模态，例如在语音描述或文本输入中，来表达搜索意图。
[0023]例如，用户可以查找具有红色的门和在其前面有两头石狮的饭店。然而，用户可能不记得该饭店的名字来以此为基础开始搜索。在这个示例中，如由在此所述的移动交互式多模图像搜索工具所提供的，能够将长文本或音频(例如口头查询)转换到视觉查询并利用用户交互的客户端侧工具可以被用于标识该饭店并确定该饭店的名字和位置。作为另一个示例，用户可以参观城市并记住饭店(或饭店连锁店)在该特定城市中有一个位置但没有记住该位置，所以，用户可以将该城市作为口头查询的部分。
[0024]移动交互式多模图像搜索工具利用了包括触摸和多触摸交互的多模交互来帮助确定隐含的搜索意图并改善包括当查询图像最初不可用时的视觉搜索的性能。在此所述的搜索过程包括下述阶段:1)接收初始输入，例如诸如说出的自然语句之类的音频输入，作为给移动设备的查询，2)使用语音识别来将语音输入转换成文本，3)通过实体提取将文本分解成关键字，4)通过图像群集处理根据所提取的实体标识候选图像，5)接收对可以视觉上表示每个实体的特定候选图像的选择，6)接收对彼此相关的所选特定候选图像的细化以合成查询图像，以及7)使用所合成的查询图像作为视觉查询来搜索类似的图像。
[0025]在此所述的移动交互式多模图像搜索工具提供了一种图像搜索的知晓上下文的方案，方案考虑了在分开的图像间的空间关系，这些图像被作为图像的片来对待，例如，表示视觉单词的小的子图像。移动交互式多模图像搜索工具呈现了一种用于新的搜索模式的界面，所述模式允许用户通过以下方式来制定合成的查询图像:选择特定候选图像、操控所选的候选图像(包括重新调整大小和相对彼此操纵它们，并将这些操控的图像放置在一起，如同七巧板的各片以在交互画布上创建合成的查询图像。
[0026]示例框架
[0027]图1示出如在此所述的交互式移动图像搜索的框架100。示例框架100被示出为具有由至少一个服务器104主控的云侧102。服务器104包括存储器106、存储编程108以及处理器110。来自客户端侧114的一个或多个移动设备112通过网络116 (由虚线所示)可以连接到服务器104和其他基于云的设备。服务器104可以包括，例如，web服务器、应用服务器以及任意数目的其他数据服务器。网络116表示任何类型的通信网络，包括例如因特网。移动设备112表示被配置成通过网络116发送和接收数据的任何类型的移动设备。例如，移动设备112可被实现为移动电话、个人数字助理(PDA)、上网本、平板计算机、手持式计算机和其他这样的由减少的形状因素和资源限制所表征的移动计算设备等。
[0028]框架100使用来自移动设备112多模交互性来识别搜索意图并可以组合不同的视觉描述符(例如比例不变特征变换(SIFT)、颜色以及边缘)以用于视觉搜索。虽然，某些操作被示为在图1的云102中发生，但在各种实现中，这些操作的一种或多种可以在移动设备112上发生。
[0029]在所示出的示例中，移动设备112通过麦克风和语音处理器接收自然语句输入以启动语音查询，如在118处所示。例如，移动设备112接收诸如“查找具有湖、天空和树的图像(find an image with a lake, the sky, and a tree) ”,如在 118 处所示。所述系统使用语音识别(SR)引擎120来将118处接收的语音转换成文本片段。随后，所述系统使用实体提取引擎122来提取实体，对于文本来说就是名词。因此，工具从词典124中识别出“湖”、“天空”和“树”作为三个实体。图像群集引擎126从图像数据库128中标识出候选图像，所述候选图像对应于所述三个实体中的每个实体并可以被用作表示所识别的实体的对应的图像片。
[0030]将所提取的实体直接用作图像搜索的文本查询可能不能返回相关的结果，因为搜索围绕匹配图像标签的文本仅仅分开地处理每个实体，而不是作为一个组。另外，它没有提供一种考虑表示所提取的实体的图像相对于彼此的位置和/或大小的机构。因此，交互式多模图像搜索工具呈现了预定数目的候选图像，这样，可以选择每个实体的特定图像并且可以从所选的图像中构成合成的视觉查询，如在130处所示。
[0031]交互式多模图像搜索工具利用合成的视觉查询从图像数据库128中搜索相关的图像或者在一些实例中从诸如因特网之类的其他源进行搜索。交互式多模图像搜索工具基于所选图像的相对的位置和大小以及它们各自的可视内容进行知晓上下文的图像搜索，如在132处所示。响应于知晓上下文的图像搜索，交互式多模图像搜索工具使得视觉结果被返回给移动设备112。
[0032]示例用户界面[0033]图2，在200处，示出了在移动设备112上的交互式多模图像搜索中使用的用户界面组件的示例。在所示的示例中，移动设备112表示Windows Phone?设备，但还可以类似地使用其他移动电话、智能手机、平板计算机和其他这样的移动设备。在移动设备112上，硬或软按钮202的激活指示启动音频输入的期望。如上所述，音频输入通过例如语音识别引擎120被接收并转换成文本。经转换的文本可以被呈现在移动设备112的屏幕上，如在204处所示，这允许在文本的一部分被错误转换的情况下进行编辑。在一些替换实例中，可以通过移动设备112上的硬或软按键接收文本输入，而不是初始音频输入，来启动交互式多模图像搜索。
[0034]因此，在各种实施例中，交互式多模图像搜索工具利用语音输入来帮助用户通过使用SR引擎，例如基于隐马尔可夫模型(HMM)的SR引擎，来启动查询，所述SR引擎能够接受自然语句和短语片段，并随后将所述语音转录成文本。
[0035]示例SR引擎120使用统计建模框架，在其中，所接收的发言先被转换成特征空间中的紧凑和有意义的表示(矢量)。示例SR引擎120的解码器将特征矢量作为输入，并基于声学和语言模型生成假设的词语序列的概率。
[0036]来自示例SR引擎120的输出可以被用作图像搜索的查询。交互式多模图像搜索工具处理来自SR引擎120的输出以提取实体，所述实体是诸如“树”、“湖”、“车”和“房屋”之类的名词关键字。实体提取引擎122可以检测由几个候选图像所表示的词语。当标识了多个候选图像时，可以选择候选图像中的特定图像用于细化以示出搜索意图。因此，该工具将视觉上有意义的名词词语/短语检测为实体，例如“房屋”、“湖”和“树”，同时丢弃非视觉描述性的名词，例如“法律”和“假期”。在一些实现中，被检测为实体的城市名可以被作为非视觉描述性名词来对待。在几个这样的实例中，丢弃城市名，在其他实例中，保存城市名作为单独的名词类别以供日后使用。
[0037]为此目的，交互式多模图像搜索工具可以通过收集具有具体的视觉表示的名词(例如从155，287个词语中收集117，798个名词)来构建实体字典或词典，例如词典124。在示例实现中，一个名词是否具有具体视觉表示的判定是基于该名词是否被包括在图像数据库128中的任意图像标签内，所述判定被定期更新。在至少一个实现中，交互式多模图像搜索工具忽略具有低于图像数据库中阈值数目的图像(例如100)的名词，使得保留较少数目的唯一的词语(例如保留22，117个唯一词语)。
[0038]另外，在至少一个实现中，交互式多模图像搜索工具包括其他实体，例如名人名字、流行产品以及路标以考虑诸如“超人”和“埃菲尔”之类的输入。交互式多模图像搜索工具可以通过挖掘因特网来获得这些附加实体，并且/或者这些附加实体可以基于来自商业搜索引擎的查询。在示例实现中，作为由实体提取引擎122所执行的实体提取的一部分，将口头搜索查询中的词语分配给来自词典124的它们的最长的匹配。例如，“北极熊”和“埃菲尔铁塔”是提供了已知的语义含义的短语。这样，它们被提取作为短语实体，所述短语实体被匹配于来自词典124的短语。每个所提取的实体以其最长的形式被单独用在由图像群集引擎126所执行的图像群集中。这样，所提取的短语实体被图像群集引擎126用作短语，而不是单独名词。因此，随后被用作知晓上下文的图像搜索132的合成的视觉查询中的图像片的所选图像可以表示短语，而不是单独的名词。
[0039]在示例实现中，所提取的实体在移动设备112的屏幕上被呈现为标签，如在206处所示。同时，实体的候选图像可以被呈现在移动设备112的屏幕上，如在208处所示。在所示示例中，一个实体“树”的候选图像被以单个水平功能区格式呈现，从其中可以通过拖放到移动设备112的屏幕的画布区域210上来选择特定图像。同时，已经通过拖放到移动设备112的屏幕的画布区域210上来选择了实体“湖”和“天空”的特定候选图像。然而，其他格式也同时是可能的和预期的。例如，可以在屏幕的一个部分上的垂直或水平功能区中同时呈现超过一个的实体的候选图像，以便选择表示每个实体的特定候选图像。
[0040]通过包括多触摸输入的触摸，画布区域210接受对所选图像的操控，以在画布区域210内重新调整图像大小和操纵图像。在这种方式中，通过每个图像片在合成的查询图像中的大小和位置来定义用于视觉搜索的合成的查询图像，而不要求现有的查询图像。在所示的示例中，交互式多模图像搜索工具将湖的位置记录为在画布区域210的框架中比树和天空更低。同时，树被记录为被定位到画布区域210的框架中的右边在天空之下，而天空在画布区域210的顶部。在各种实现中，在画布区域210内形成合成的查询图像时，一个或多个所选图像的全部或部分可以覆盖另一个所选图像。当图像部分由于覆盖而被遮挡时，所遮挡的部分可以被丢弃，或被给予较低的计算权重和/或正被覆盖的所述部分可以被给予较高的计算权重。基于所选的特定的候选图像的视觉内容，各个实体的内容包括天空中的积云、没有叶子的树以及具有某种可视岸线的平静的湖。
[0041]搜索按钮212的激活开始了基于在画布区域210中所定义的合成的视觉查询图像的知晓上下文的视觉搜索132。在其他实现中，双击或其他输入可以开始知晓上下文的视觉搜索132在各种实现中，搜索按钮212的激活可以使得与所选图像相关联的标签被保存以备交互式多模图像搜索工具的日后使用。
[0042]如在214处的所示示例中示出的，移动设备112被配置为在屏幕上呈现知晓上下文的视觉搜索132的结果。使用屏幕上的触摸输入，可以滚动结果，并且通过轻击或其他这样的输入，可以选择结果之一，例如，以检索关于结果图像的附加信息。或者，如果没有结果满足搜索意图，则后退按钮216的激活将使得屏幕复原到先前的画布，这样，合成的查询图像可以被进一步操控。在另一方面，通过激活开始按钮218可以访问移动设备的其他功能。
[0043]图3，在300处，示出使用移动交互式多模图像搜索工具从同一特定所选候选图像中正被组成的两个合成的视觉查询。如在所示的示例中示出的，所选图像被作为图像片来对待，其相对位置和大小有助于使用该合成的图像作为视觉查询的知晓上下文的图像搜索的执行。在302处虚线的左侧上表示的合成的视觉查询已经与水平方向上朝向左边并在垂直方向上在画布的中间的树组合在一起。同时，在304处虚线的右侧上表示的合成的视觉查询已经与水平方向上朝向右边并在垂直方向上在画布的中间的树组合在一起。在其他示例中，也可以改变图像片的大小以获得附加结果。如在300处所示，在两个合成的视觉查询中的具有相同的存储的标签的相同图像片的不同位置可能导致返回不同的查询结果。
[0044]如上所述，在此所述的交互式多模图像搜索工具利用了移动设备的多模功能，包括触摸屏交互，来允许视觉查询的合成。对于从诸如音频或文本输入之类的初始输入中提取的每个实体，所述系统返回了一组候选图像。从正被拖放到形成合成的视觉查询的画布上的所选图像中识别为每个实体选择特定图像。通过对所选图像中的每个图像的操控以用作合成的视觉查询中的图像片来实施所述合成的视觉查询的形成。所述操控，例如，可以包括例如通过触摸和/或多触摸来调整画布区域210上的每个所选图像的位置和大小。这样的多模交互解决了在现有的基于文本的图像搜索系统中存在的各种歧义，包括例如多义、
形态、观点、位置和属性。
[0045]在本公开的上下文中，多义、形态、观点、位置和属性具有下述含义:多义是指词语
具有多个含义，例如苹果(水果或产品)，足球(欧式足球或美式足球)；形态指示一个词语
可能表示多个概念，例如苹果(公司或产品)，足球(物体或比赛)；视点是指从不同的角度
或视角来看物体具有各种外观，例如车(侧面图和前视图)或办公室(内部或外部)；位置
指示物体在目标图像中所期望的位置；而属性定义了实体的特性，例如颜色、类型和装饰。
这些歧义中的每个可以导致在从音频或文本查询中得到视觉搜索意图的困难。
[0046]表1列出了可以被用于表示各种图像特征的符号，如在图4中所示。
[0047]
【权利要求】
1.一种方法，包括: 通过计算设备(112)接收查询输入(204)；基于所述查询输入生成候选的图像集(208)；接收对所述候选的图像集(208)中的一个或多个图像的选择(612)；促进包括来自所述候选的图像集(208)的一个或多个图像的合成的图像(414)的合成，所述促进包括通过所述计算设备(112)的用户界面接收所述一个或多个图像在画布(210)上的放置的指示；以及使用所述合成的图像(414)作为查询图像来执行视觉搜索。
2.如权利要求1所述的方法，其特征在于，至少部分基于从所述查询输入中提取的实体来生成所述候选的图像集。
3.如权利要求1所述的方法，其特征在于，所述放置的指示包括: 所述一个或多个图像在所述画布上的放置的位置；或所述一个或多个图像
4.如权利要求1所述的方法，其特征在于，所述合成的图像的合成包括接收所述一个或多个图像在所述画布上的大小的指示，所述大小的指示包括: 一个或多个所述图像在所述画布上的大小的修改；或所述一个或多个图像中的至少两个图像在所述画布上的相对大小。
5.如权利要求1所述的方法，其特征在于，所述查询输入包括音频输入。
6.如权利要求1所述的方法，其特征在于，所述计算设备包括移动设备。
7.如权利要求1所述的方法，其特征在于，所述用户界面包括触摸界面。
8.如权利要求1-7中任一权利要求所述的方法，其特征在于，还包括在存储器中记录所述合成的图像。
9.一种包括处理器和存储器的系统，所述系统被配置为执行如在权利要求1-7中任一权利要求所述的操作。
10.一种在其上编码了计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在被执行时将一种设备编程为执行如权利要求1-7中的任一项所述的操作。
【文档编号】G06F17/30GK103946838SQ201180075049
【公开日】2014年7月23日申请日期:2011年11月24日优先权日:2011年11月24日
【发明者】T·梅, S·李, J·王, Y·王申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T·梅;S·李;J·王;Y·王
技术所有人：微软公司
我是此专利的发明人

上一篇：基于反射对称的三维模型压缩方法以及装置制造方法
上一篇：基于具有复制点的空间树的位置编码的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。