视觉以及多维搜索的制作方法

文档序号:6455357阅读:228来源:国知局
专利名称:视觉以及多维搜索的制作方法
视觉以及多维搜索
祖旦 冃豕
常规的基于计算机的搜索一般是极端以文本为中心的,因为搜索引擎一般 分析字母数字搜索查询以返回结果。就视觉化被并入搜索中而言,这通常例如
通过使用元数据来执行,其中项目用对应于视觉项目的物理属性的元数据手动 预先标记。换言之,传统的搜索引擎采用预索引的元数据以便响应于搜索查询 返回图像数据。
搜索引擎代理,通常被称之为蜘蛛(spider)或爬寻器,按照有条理的方 式导航网站并检索关于所访问的站点的信息。例如,爬寻器可对网站和相关信 息的全部或一部分制作副本。搜索引擎然后分析由一个或多个爬寻器捕捉的内 容以确定将如何索引页面。某些引擎会对网站上的所有词语进行索引,而另外 的引擎可仅对与诸如以下的特定标签相关联的项索引标题、头部或元标签。 爬寻器必需周期性地重新访问网页以检测和捕捉自最后一次索引以来对其进 行的改变。
一旦生成了索引, 一般向它们分派关于某些关键词的排序,且索引被存储 在数据库中。通常釆用专有的算法对索引评估相关ti,例如基于词语在网页上 的频率和位置等。常规搜索引擎之间性能的区别因素在于分别采用的排序算 法。
当输入一个或多个关键词作为搜索查询时,搜索引擎从数据库检索匹配查 询的经索引的信息,生成与匹配站点中每一个相关联的文本的片断,并向用户 显示结果。用户之后可巻动通过多个返回站点结合确定站点是否与用户的兴趣 有关。然而,这可能是极端耗时且令人挫败的过程,因为搜索引擎通常返回大 量站点。多半,用户被迫通过更换和/或添加关键词和布尔运算符来进一步迭代 地縮减搜索以集中到提供所寻找信息的网站。需要解决对快速、高效和无缝搜 索的日益增长的需求的改善的搜索范例。概述
此处公开并要求保护的本发明在其一个方面中包括可分析多维输入并基 于从多维输入提取的特征建立搜索查询的系统。例如,图像数据可用作搜索机 制的输入。从而,可采用模式识别和图像分析来建立对应于从图像输入提取的 特征的搜索查询。
在另一方面中,系统可便于索引多维可搜索项目从而使其可作为搜索查询 的结果被检索。更具体地,系统可釆用文本分析、模式和/或语音识别机制从可 搜索项目中提取特征。这些提取的特征可用来索引可搜索项目。
本发明提供以类似于人类结合基于视觉的线索进行思维搜索的方式执行 搜索的动态的基于视觉搜索的系统。例如,根据实施例,如果在搜索查询中使 用项"蓝色",则系统可搜索拥有物理特征"蓝色"的项目,而不论该项目是 否用"蓝色"元数据预标记。
在其他方面中,根据本发明的搜索可在不同的维度上执行。搜索查询的一 部分可包括个体在特定上下文(例如,时间、地方、状态)内的图片。因此, 例如,可将图像用作输入,而非手动键入文本查询。图像提取组件可从所输入 的图像提取相关信息(例如,主体特征、时间、地方、状态)、制定搜索查询 (例如基于文本和/或图像的),并采用模式识别组件以便于定位与图像输入的 主题/上下文有关的所有结果(例如,网站)。
为了实现前述及相关目的,在这里结合以下描述及附图来描述本发明的某 些说明性方面。然而,这些方面仅指示了可采用本发明的原理的各种方法中的 少数几种,且本发明旨在包括所有这样的方面及其等效方式。当结合附图考虑 以下本发明的详细描述时,本发明的其它优点和特征将变得显而易见。
附图简述


图1示出了根据本发明的一方面便于根据多维输入建立搜索查询的搜索 系统的框图。
图2示出了根据本发明的一方面便于根据多维输入生成搜索查询的过程 的示例性流程图。
图3示出了根据本发明的一方面便于分析具有文本、听觉和视觉特征的输说明书第3/16页
入的过程的示例性流程图。
图4示出了根据本发明的一方面便于索引多维可搜索项目的系统的框图。 图5示出了根据本发明的一方面在建立搜索查询和/或索引可搜索项目时
采用文本、音频和图像分析的体系结构框图。.
图6示出了根据本发明的一方面采用语言解析器、语音识别和模式识别机
制来建立搜索查询的输入分析器组件的框图。
图7示出了根据本发明的一方面采用结果配置组件来过滤和/或组织搜索
结果的系统的框图。
图8示出了根据本发明的一方面的示例性结果配置组件。 图9示出了根据本发明的一方面的图像输入的示例性屏幕截图。 图10示出了根据图9的输入的示例性结果集。
图11示出了根据本发明的一方面覆盖在输入图像上的示例性选择区。 图12示出了根据图11的所选区的示例性文本和图像结果集。 图13示出了可用于执行所公开的体系结构的计算机的框图。 图14示出了根据本发明的示例性计算环境的示意性框图。
详细描述 一
现在参照附图描述本发明,其中相同的附图标记用于指代全文中相同的元 素。在以下描述中,为解释起见,阐明了众多具体细节以提供对本发明的全面 理解。然而,显然,本发明可以在没有这些具体细节的情况下实现。在其它情 况下,以框图形式示出了公知的结构和设备以便于描述本发明。
如在本申请中所使用的,术语"组件"和"系统"旨在表示计算机相关的 实体,它可以是硬件、硬件和软件的结合、软件、或者执行中的软件。例如, 组件可以是但不限于在处理器上运行的进程、处理器、对象、可执行代码、 执行的线程、程序和/或计算机。作为说明,运行在服务器上的应用程序和服务 器都可以是组件。 一个或多个组件可以驻留在进程和/或执行的线程内,而组件 可以位于一台计算机内上/或分布在两台或更多的计算机之间。
如此处所使用地,术语"推断"或"推论" 一般指的是从经由事件和/或 数据捕捉到的一组观察值推理或推断系统、环境和/或用户的状态的过程。例如,
7推断可用于标识特定的上下文或动作,或可生成状态的概率分布。推断可以是 概率性的,即,基于对数据和事件的考虑计算所关注状态的概率分布。推断也 可以指用于从一组事件和/或数据合成更高级事件的技术。这类推断导致从一组 观察到的事件和/或储存的事件数据中构造新的事件或动作,而无论事件是否在 相邻时间上相关,也无论事件和数据是来自一个还是若干个事件和数据源。
尽管参考如屏幕截图的各个附图示出并描述了向用户显示信息的一些方 式,但相关领域的技术人员可以认识到,可采用各种其他备选方案。术语"屏 幕"、"网页"和"页面"在本文中一般可互换使用。页面或屏幕作为显示描 述、作为图形用户界面或通过描绘屏幕(例如,无论是个人计算机、PDA、移 动电话还是其他合适的设备)上的信息的其他方法被存储和/或传输,其中要显 示在页面上的布局和信息或内容被存储在存储器、数据库或另一存储设施中。
一开始参考附图,图i示出了具有至少两个总体方面的多维搜索系统ioo。
首先,系统100可从具有多个维度(例如,文本、音频、视频、'多媒体)的输 入提取特征和数据。 一旦提取,即可采用这些特征来生成(或修改)搜索查询。
搜索查询又可用于返回与输入有关的搜索结果。系统100的另一方面是基于可
搜索数据项目的特征定位搜索结果的能力。换言之,系统ioo可便于分析可搜
索数据项目(例如,网页、图像文件、音频文件、多媒体文件)以便于提取特
征。 一旦从数据项目提取了特征,系统100即可便于返回和/或索引项目,使其
可用于搜索。这些场景的每一个都会在以下详细描述。
一般而言,多维搜索系统100可包括输入分析器组件102和搜索引擎组件 104。如图所示,可将输入(例如,文本、声音、图像)传送到其中可从输入 提取特征(例如,属性、特征)的输入分析器组件H)2。如将在以下所述地, 在一个方面中,可使用模式识别从图像输入确定属性和/或特征。在更具体的示 例中,假定输入是个体站在地标之前的图像,则输入分析器可使用专门形式的 模式识别(例如,面部识别)以便于确定用户的身份。类似地,可使用模式识 别来通过分析地标确定该个体的位置。
一旦确定了这些和其他的特征和属性,就可建立搜索查询并将其传送到搜 索引擎104。可使用搜索引擎104来根据查询检索搜索结果。在其他示例中, 搜索引擎104可从因特网、内联网、本地或远程服务器/存储等检索结果。实际上,本发明的各实施例便于根据多个非常规输入建立搜索查询。
尽管传统的系统可呈现各种数据类型(例如,文本、网页链接、图像文件) 的结果,但这些常规系统仍是以文本为中心的,因为它们依赖于手动生成的元 数据和标签以便于将搜索查询映射到潜在结果。就并入视觉化而言,这样的视 觉化一般是通过使用用户定义的元数据来执行的,可搜索项目用对应于项目属 性的元数据手动预标记。
与常规搜索机制相反,本系统100的一个特征是从输入提取特征和属性。 例如,系统可接收图像文件作为输入,并提取包括但不限于颜色、模式、位 置等的特征。在此方面中,可采用模式识别系统来分析图像,之后建立可用来 检索相关搜索结果的搜索查询。
搜索中所考虑的性质可包括文档的大小和结构,包括文档长度、文档是否 以如可能在学术文献中所包括的参考文献集合结束、文档内含有的图形的数 目、分布和总体性质(例如,线条画、卡通、图像、数字表、图表、文档内所 包含的一个或多个图像的直方图的参数的规定)的方面。
在各方面中,关于文档中所包含图形的细节可被识别并索引,诸如关于地 图或其他对地心内容的基于图形或图像的指示在文档内是否出现的信息的识 别和编码。其他示例包括识别图表在文档中的存在与否,以及诸如在图的各个 轴上具有特定性质(例如,以文本或其他记号表示)的笛卡尔图或其他三维图
的包含与否等性质的识别。
索引和检索中使用的性质甚至可包括这样的图形中心视觉化中自动识别 的结构,诸如所包含的图像数据是否显示示出"随时间数量增加"的趋势,诸 如"财务图"示出一个或多个度量随时间在经济价值上增加。
对这样的图形所识别出的性质以及这些类的视觉分量诸如可变物的图形 的使用是众多其他视觉对象的潜在类之一的示例。
页面或文本或图形内容之间图形内容与文本内容以及与指针或URL (统 一资源定位符)之间的关系可在索引和检索时以类似于在索引和检索文本内容 时使用指针的方式考虑。 '
除文本中心的查询以外,可与文本信息一起或不与文本信息一起使用图形 性质的低层或高层规格的图形内容来制定查询。例如,诸如示例图形或其他图形组件的图形内容的示例可用于制定查询。
除其在索引和检索时的使用以外,除文本内容以外,图形内容的性质可用
于响应于输入査询构造项目的显示。
提供以下场景以便洞察本发明,以下场景不旨在以任何方式限制本发明。 为此,可以理解可能存在采用本发明的特征的其他场景。这些其他场景被包括 在本发明及所附权利要求书的范围之内。
如上所述,根据本发明的搜索可在不同的维度上执行。例如,搜索查询的 一部分可包括个体在特定上下文内的图片。因此,例如代替输入文本搜索查询 如"比尔*克林顿穿着蓝色套装,晚餐时坐在查尔斯王子旁边",这样的事件 的图像可用作对系统100的输入。根据图1的系统100,输入分析器组件102 可从输入的图像提取相关信息(例如,比尔*克林顿和查尔斯王子的身份、蓝 色套装以及晚餐的上下文),制定查询(基于文本和/或图像的),并便于定位 涉及上述事件的所有网站。
图2示出了根据本发明的一方面根据输入生成搜索查询的方法。尽管出于 解释简明的目的,此处例如以流程图形式示出的一个或多个方法被示出并描述 为一系列动作,但是可以理解和明白,本发明不受动作的次序的限制,因为根 据本发明,某些动作可以按不同次序和/或与此处所示并描述的其它动作同时发 生。例如,本领域技术人员将会明白并理解,可以选择把方法表现为一系列相 互关联的状态或事件,诸如以状态图的形式。而且,并非所有示出的动作都是 实施根据本发明的方法所必需的。
在202,可接收表示特定类型数据的输入。例如,输入可包括含有但不限
于文本、图像音频等形式的数据。而且,输入可采取多维数据的形式,由此输 入可包括一个以上类型的数据。例如,视频流可包括图像和音频数据。输入可
在204处分析以便于标识与输入相关联的特征、属性和/或特性。例如,如上所 述,可对图像文档应用模式识别机制以标识特定图像的主题和上下文。在特定 示例中,可分析体育比赛的空中影像以确定诸如哪些队正在比赛、体育场的名 称、比赛的时间(白天或夜晚)等准则。这些特征可用来生成搜索查询。
参考特定示例,可采用模式识别来确定图像描绘在"三河体育馆"进行的 "匹兹堡海盗"与"巴尔的摩金莺"之间的"棒球比赛"。从而,在206可使用所提取的特征"三河体育场举行的匹兹堡海盗与巴尔的摩金莺之间的棒球比 赛"来制定搜索查询。
根据从图像输入建立的搜索查询,在208可检索结果。继续该示例,可检
索与1971年和1979年世界职业棒球锦标赛有关的结果。更具体地,可返回与 1971年和1979年世界职业棒球锦标赛中三河体育场举行的海盗与巴尔的摩金L 莺有关的网页链接、图像、视频以及音频文件。在210可呈现(例如,显示) 这些结果。
图3示出了根据本发明的一方面分析输入的方法。在302,可接收如上所 述基本上可以是任何媒体类型的输入。例如,输入可以是文本、图像、流传送 音频、流传送视频或其组合。如在审阅以下方法之后将理解地,可采用本发明 来分析几乎任何多维(以及单维)输入。
在304,作出得到输入是否包括文本数据的结论的判断。如果是,则在306 可解析并分析输入以确定关键词。类似地,在308,可作出得到输入是否包括 听觉数据的结论的判断。如果输入包括听觉数据,则在310,可使用语音识别 机制来建立与该听觉数据相关联的关键词。作为示例,如果听觉数据是歌曲, 则可使用语音识别针对该歌曲将听觉语音转换成文本歌词。
此外,在312,作出输入是否包含视觉数据(例如,图像数据)的判断。 如同上述文本和声音一样,如果存在视觉数据,则在314可经由模式识别机制 建立关键特征(例如,属性和/或特性)。在一个特定方面中,可釆用面部识别 机制来确定图像中个体的身份。此外,可采用模式识别来确定图像内所包括的 其他特性,诸如例如地方、建筑物、地标、颜色、地点等。
一旦分析了输入(例如304-314),则在316即可利用所收集的信息建立 搜索查询。随后,在318可检索相对于搜索查询的结果。如将在以下参考下面 的附图更详细描述地,在向用户呈现(例如,显示)时可按需配置结果(例如, 过滤、排序、定序)。
现在参考图4,示出了多维搜索系统IOO的替换框图。更具体地,系统IOO 的替换方面示出,搜索引擎104可包括结果检索组件402、多维索引生成器组 件404和搜索索引406。在操作中,这三个子组件(402、 404、 406)可便于关 于搜索查询动态索引和/或检索多维项目。如上所述,在一个方面中,系统100可提供以人类结合基于视觉的线索进 行思维搜索的方式执行搜索的动态视觉搜索。例如,根据本发明的实施例,如 果在输入中使用了项"蓝色"或如果颜色"蓝色"出现在输入图像中,则系统 可识别该特征,并搜索拥有物理特征"蓝色"的项目,而无论该项目是否用"蓝
色"元数据手动预标记。为此,搜索引擎104可采用结果检索组件402来动态 定位具有该属性的结果。更具体地,搜索引擎104可例如采用模式识别系统(经 由结果检索组件402)从可搜索项目中提取视觉信息。在另一方面中,这种视 觉信息的提取可作为如图4所示的索引系统的一部分执行。根据图4所示的方 面,多维索引生成器组件404可基于与数据项目(例如,网页、文件、图像数 据、流传送音频或视频数据)相关联的特征建立索引406。
现在转向图5,示出了系统100的替换框图。具体地,图5的系统100示 出输入分析器组件102和多维索引生成器组件402各自可包括文本分析器 (502、 504)、音频分析器(506、 508)和图像分析器(510、 512)。尽管每 一组件(102、 402)被示为包括内容分析器组件(502-512),但可以理解, 可提供单个内容分析器组件的集合,且该集合可由输入分析器组件102以及多 维索引生成器402采用以便于发现分别包括在输入和可搜索项目内的特征。
如上所述,子组件(502-512)中的每一个允许系统从输入以及可搜索项 目中提取特征。在一个方面中,这种特征提取允许用户输入被分析,之后根据 所提取的特征建立搜索查询。在另一方面中,这种特征提取便于可搜索项目的 自动且动态的索引。换言之,根据这种索引机制,系统可从可搜索项目自动和 /或动态地提取特征,之后使其可用于基于特定的一个或一组查询的搜索。
转向输入分析器组件102,图6示出了可实现特定分析的输入分析器组件 102的示例性子组件。更具体地,在一个方面中,文本分析器502可包括可解 析输入以建立适当的搜索查询的语言解析器602。如可以理解地,解析输入可 将输入的词语分解成可转换成搜索查询关键词的功能单元。在另一示例中,解 析机制可将诸如"比尔,克林顿最后一次是在哪里会见查尔斯王子的?"的输 入解释成关键词"地方、比尔*克林顿、会见、查尔斯王子"。这些关键词可 用作搜索査询以返回相关联的结果。
在其他方面中,音频分析器504可包括语音识别组件604,图像分析器组件506可包括模式识别组件606。例如,假定输入是图像。因此,可采用图像
处理机制使用可标识阴影、颜色和关系、图形、形状等的技术来分析图像。模
式识别组件606的图像处理功能可按照扫描或例如经由数码相机捕捉到的位图
图形格式处理图像。
模式识别606可指机器学习和推理(MLR)范畴内的一领域,其中系统 可基于先验知识和/或从图像内标识的模式中提取的统计信息对数据的模式进 行分类。通常,分类后的模式是在适当的多维空间中定义点的测量或观察值的 组。模式识别系统606可包括收集要分类或如上所述的观察值的一个或一组传 感器。可采用特征提取机制根据观察值计算信息(例如,数字或符号)。而且, 模式识别系统可包括实际上基于所提取的特征分类或描述观察值的分类或描 述机制。图像分析是针对输入到模式识别系统的数字图像的一种形式的模式识 别。
本质上,图像分析指的是从图像提取有意义的信息。可以理解,图像分析 技术的范围包括从诸如条形码读取器的简单任务到诸如可基于对面部特征的 分析识别个体的面部识别系统的更复杂和高级的分析。
现在转向图7,示出了其中多维搜索系统包括结果配置组件702的系统100 的替换方面。在操作中,结果配置组件702可便于按所需方式过滤、分拣、索 引、排序并在之后显示结果。在一个特定的示例中,本发明的特征在于允许搜 索结果采用更为视觉中心的形式。例如,代替提供基于文本的统一资源定位符 (URL)或串作为搜索结果,结果可用一个图像(或一组图像)的形式表示, 因此便于可匆匆扫视。另外,结果可包括文本、视觉和听觉数据的组合,从而 增强了本发明的呈现机制。 '
而且,如图7宁所示,搜索输入可在多个维度上进行,其中外来的维度数 据(例如,时间、音频、视觉、上下文、情绪、事件等)可被映射到搜索查询 和结果以允许跨多个维度索引和查看大量数据。
图8示出了根据本发明的一方面的示例性结果配置组件702。如图所示, 结果配置组件702可包括过滤组件802、排序组件804和定序组件806。可根 据所需偏好和/或多维上下文而采用这些组件中的每一个来影响搜索结果的实 现。例如,可采用过滤组件802至少部分地基于一天中的时间、位置、设备上 下文等自动过滤搜索结果的子集。在每一场景中,过滤组件802可基于外来的 多维因素推断适当的分拣和/或过滤准则。类似地,可采用排序组件804和定序 组件806基于确定和/或推断的上下文或外来多维数据来组织结果。
提供以下场景以便洞察本发明,以下场景不旨在以任何方式限制本发明。 换言之,提供以下场景以示出本发明的某些特征,而不旨在限制本公开和/或所 附权利要求书的范围。
现在转向图9,示出了根据本发明一方面的搜索输入的屏幕截图。更具体 地,如图所示,搜索操作的输入可以是城市天际线的图像。如上所述,本发明 的特征可对图像执行图像分析以确定和提取图像的特征。 一旦提取了特征,系 统即可基于所提取的特征建立搜索查询。
图IO示出了示例性搜索结果集。如图所示,结果可根据与所建立的搜索 查询的相关性来按序呈现。在该示例中,系统可经由图像分析确定图像是纽约 市(New York City)。为此可进行搜索,且结果如图10呈现。尽管图10的结 果以文本形式示出,但可以理解和领会,可采用呈现结果的其它手段(例如, 视觉、听觉),而不背离本发明的精神和/或范围。例如,在另一方面中,除文 本结果以外或代替文本结果,可呈现图像,从而增强审阅时间(例如,扫视能 力)。
图11示出可采用选择机制1102来标识图像中要用作输入的部分。在此示 例中,选择机制1102是定义世贸中心(World Trade Center)周围区域的正方 形。如图所示,图12示出了可基于根据选择自动制定的搜索查询呈现的示例 性结果集1202、 1204。
如图所示,结果可包括以任何方式定序、排序和/或过滤的文本结果1202。 例如,结果可基于用户上下文(例如,时间、位置、设备类型、用户状态、心 情...)配置。而且,为了增强扫视能力,可添加图像或代替所示文本结果插入 图像。类似地,可对结果添加注释(例如,突出显示、下划线、字体格式化) 技术,以便增强呈现结果的效果。这些注释技术被包括在本发明及所附权利要 求书的范围之内。
另外,根据本发明的功能,系统可返回对应于搜索查询的图像1204。如
14上所述,这些图像可通过从如上所述的潜在搜索结果提取特征来提供。在不同 方面中,可根据所提取的特征索引可搜索项目。因此,系统可搜索索引,之后 呈现结果。类似地,系统可在运行时提取特征从而根据搜索查询呈现基于图像 的结果,来代替预先索引。
根据本发明各方面,系统100可采用MLR组件(未示出),该组件便于
根据本发明自动化一个或多个特征。在此特定实现中,MLR组件可放置成与 输入分析器组件102、搜索引擎104和结果配置组件702中每一个通过接口连 接。为此,可采用MLR组件根据此处所述的每一组件的功能来自动化和/或推 断动作。
本发明(例如,结合查询生成/修改、结果选择/配置、可搜索项目索引) 可采用各种基于MLR的方案来实现其各个方面。例如,经由自动分类器系统 和过程可便于用于基于输入考虑上下文因素预测哪些结果是所需的以及它们 应如何呈现的学习和推理过程。
分类器是将输入属性向量xKxl, x2 ,;c3, x4, x")映射为类标签class(x)的函 数。分类器也可以输出输入属于一个类的置信度,即f(x)=Confidence(class(x))。 这样的分类可采用概率和/或其它统计分析来预测或推断用户期望自动执行的 动作。
支持向量机(SVM)是可采用的分类器的一个示例。SVM通过在可能的 输入空间中查找以最佳方式将触发输入事件和非触发事件分离开来的超曲面 进行操作。直观上,这使得分类对于接近但不等同于训练数据的测试数据正确。 可采用其它定向和非定向模型分类方法,包辉,例如,朴素贝叶斯、贝叶斯网 络、决策树、神经网络、模糊逻辑模型以及提供不同独立性模式的概率分类模 型。此处所使用的分类也包括用于开发排序或优先级模型的统计回归。
如从本说明书中可以每易地理解,本发明可以使用显式训练(例如,经由 一般训练数据)以及隐式训练(例如,经由观察用户行为、接收外来信息)的 分类器。例如,SVM经由分类器构造器和特征选择模块内的学习或训练阶段 来配置。因此,可采用分类器根据预定准则自动学习和执行多个功能。
在一个更具体的示例中,MLR组件可基于上下文信息(例如, 一天中的 时间、周、位置、用户角色)等考虑确定和/或推断的查询以及应如何呈现结果来学习什么类型的结果是合乎需要的。例如,如果用户例行公事地查询特定信 息并随后从所呈现的结果中选择相同或相似的结果集,则随着时间的流逝, MLR组件可学习这种使用模式。因此,系统可推理(或预测)存在用户在执 行相同或相似搜索查询时将再次选择同样的结果的高度可能性。从而,可用该 信息并为在查询执行时以所需方式呈现特定的结果集的目的生成统计模型。
可训练个性化模型以基于与用户偏好以及用户对早先搜索的反懷相关的 历史数据提取特征。可对包括此处所述的实施例的设备部署种子分类器,且这 样的分类器可在使用时由消费者调谐。而且,可对输入的某些特征给予比其它 特征重的权重。例如,图片中心处的权重可被给予更重的权重,因为这样的图 像与第三级(tertiary)图像相比,相关的可能性更高。同样地,与人类语音相 关联的频率范围内的音频特征可被给予比这样的频带外的声音高的权重。可采 用像素映射技术根据相同的颜色和邻近度关联像素组(例如,图片上部的所有 蓝色图像表示天空)。根据此处所述的实施例,可采用任何合适的方案来便于 提取特征。
现在参见图13,示出了可用于执行所公开的视觉和多维搜索的体系结构 的计算机的框图。为了向本发明的各个方面提供附加上下文,图13及以下讨 论旨在提供其中可实现本发明各个方面的合适的计算环境1300的简要、 一般 描述。尽管本发明以上是在可在一个或多个计算机上运行的计算机可执行指令 的一般上下文中进行描述的,但是本领域的技术人员将认识到,本发明也可结 合其它程序模块和/或作为硬件和软件的组合来实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、' 程序、组件、数据结构等等。此外,本领域的技术人员可以理解,本发明的方 法可用其它计算机系统配置来实施,包括单处理器或多处理器计算机系统、小 型机、大型计算机、以及个人计算机、手持式计算设备、基于微处理器的或可 编程消费电子产品等,其每一个都可操作上耦合到一个或多个相关联的设备。
所示的本发明的各方面也可在分布式计算环境中实施,其中某些任务由通 过通信网络链接的远程处理设备来执行。在分布式计算环境中,程序模块可以 位于本地和远程存储器存储设备中。
计算机通常包括各种计算机可读介质。计算机可读介质可以是可由计算机访问的任一可用介质,并包括易失性和非易失性介质、可移动和不可移动介质。 作为示例,而非限制,计算机可读介质可以包括计算机存储介质和通信介质。 计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或
其他数据的信息的任何方法和技术实现的易失性和非易失性、可移动和不可移
动介质。计算机存储介质包括但不限于,RAM、 ROM、 EEPROM、闪存或其 它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁 带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机 访问的任一其它介质。
通信介质通常以诸如载波或其它传输机制等已调制数据信号来体现计算 机可读指令、数据结构、程序模块或其它数据,且包含任何信息传递介质。术 语"已调制数据信号"指的是其一个或多个特征以在信号中编码信息的方式被 设定或更改的信号。作为示例而非限制,通信介质包括有线介质,诸如有线网 络或直接线连接,以及无线介质,诸如声学、RF、红外线和其它无线介质。上 述中的任意组合也应包括在计算机可读介质的范围之内。
再次参考图13,用于实现本发明的各方面的示例性环境1300包括计算机 1302,计算机1302包括处理单元1304、系统存储器1306和系统总线1308。 系统总线1308将包括但不限于系统存储器1306的系统组件耦合到处理单元 1304。处理单元1304可以是各种市场上可购买到的处理器中的任意一种。双 微处理器和其它多处理器体系结构也可用作处理单元1304。
系统总线1308可以是若干种总线结构中的任一种,这些总线结构还可互 连到存储器总线(带有或没有存储器控制器)、外围总线、以及使用各类市场 上可购买到的总线体系结构中的任一种的局部总线。系统存储器1306包括只 读存储器(ROM) 1310和随机存取存储器(RAM) 1312。基本输入/输出系统 (BIOS)储存在诸如ROM、 EPROM、 EEPROM等非易失性存储器1310中, 其中BIOS包含帮助诸如在启动期间在计算机1302内的元件之间传输信息的基 本例程。RAM 1312还可包括诸如静态RAM等高速RAM用于高速缓存数据。
计算机1302还包括内部硬盘驱动器(HDD) 1314 (例如,EIDE、 SATA), 该内部硬盘驱动器1314还可被配置成在合适的机壳(未示出)中外部使用; 磁软盘驱动器(FDD) 1316 (例如,从可移动磁盘1318中读取或向其写入);
17以及光盘驱动器1320 (例如,从CD-ROM盘1322中读取,或从诸如DVD等 高容量光学介质中读取或向其写入)。硬盘驱动器1314、磁盘驱动器1316和 光盘驱动器1320可分别通过硬盘驱动器接口 1324、磁盘驱动器接口 1326和光 盘驱动器接口 1328连接到系统总线1308。用于外部驱动器实现的接口 1324 包括通用串行总线(USB)和IEEE 1394接口技术中的至少一种或两者。其它 外部驱动器连接技术在本发明所考虑的范围之内。
驱动器及其相关联的计算机可读介质提供了对数据、数据结构、计算机可 执行指令等的非易失性存储。对于计算机1302,驱动器和介质容纳适当的数字 格式的任何数据的存储。尽管以上对计算机可读介质的描述涉及HDD、可移 动磁盘以及诸如CD或DVD等可移动光学介质,但是本领域的技术人员应当 理解,示例性操作环境中也可使用可由计算机读取的任何其它类型的介质,诸 如zip驱动器、磁带盒、闪存卡、盒式磁带等等,并且任何这样的介质可包含 用于执行本发明的方法的计算机可执行指令。
多个程序模块可储存在驱动器和RAM 1312中,包括操作系统1330、 一 个或多个应用程序1332、其它程序模块1334和程序数据1336。所有或部分操 作系统、应用程序、模块和/或数据也可被高速缓存在RAM 1312中。可以理 解,本发明可用各种市场上可购得的操作系统或操作系统的组合来实现。
用户可以通过一个或多个有线/无线输入设备,例如键盘1338和诸如鼠标 1340等定点设备将命令和信息输入到计算机1302中。其它输入设备(未示出) 可包括话筒、IR遥控器、操纵杆、游戏手柄、指示笔、触摸屏等等。这些和其 它输入设备通常通过耦合到系统总线1308的输入设备接口 1342连接到处理单 元1304,但也可通过其它接口连接,如并行端口、 IEEE 1394串行端口、游戏 端口、 USB端口、 IR接口等等。
监视器1344或其它类型的显示设备也经由接口,诸如视频适配器1346 连接至系统总线1308。除了监视器1344之外,计算机通常包括诸如扬声器和 打印机的其它外围输出设备(未示出)。
计算机1302可使用经由有线和/或无线通信至一个或多个远程计算机,诸 如远程计算机1348的逻辑连接在网络化环境中操作。远程计算机1348可以是 工作站、服务器计算机、路由器、个人计算机、便携式计算机、基于微处理器的娱乐设备、对等设备或其它常见的网络节点,并且通常包括以上相对于计算 机1302描述的许多或所有元件,尽管为简明起见仅示出了存储器/存储设备
1350。所描绘的逻辑连接包括到局域网(LAN) 1352和/或例如广域网(WAN) 1354等更大的网络的有线/无线连接。这一 LAN和WAN联网环境常见于办公 室和公司,并且方便了诸如内联网等企业范围计算机网络,所有这些都可连接 到例如因特网等全球通信网络。
当在LAN网络环境中使用时,计算机1302通过有线和/或无线通信网络 接口或适配器1356连接到局域网1352。适配器1356可以方便到LAN 1352的 有线或无线通信,并且还可包括其上设置的用于与无线适配器1356通信的无 线接入点。
当在WAN网络环境中使用时,计算机1302可包括调制解调器1358,或 连接到WAN 1354上的通信服务器,或具有用于通过WAN 1354,诸如通过因 特网建立通信的其它装置。或为内置或为外置的调制解调器1358以及有线或 无线设备经由串行端口接口 1342连接到系统总线1308。在网络化环境中,相 对于计算机1302所描述的程序模块或其部分可以存储在远程存储器/存储设备 1350中。应该理解,所示网络连接是示例性的,并且可以使用在计算机之间建 立通信链路的其它手段。
计算机1302可用于与操作上设置在无线通信中的任何无线设备或实体通 信,这些设备或实体例如有打印机、扫描仪、台式和/或便携式计算机、便携式 数据助理、通信卫星、与无线可检测标签相关联的任何一个设备或位置(例如, 公用电话亭、报亭、休息室)以及电话。这至少包括Wi-Fi和蓝牙TM无线技术。 由此,通信可以如对于常规网络那样是预定义结构,或者仅仅是至少两个设备 之间的自组织(adhoc)通信。
Wi-Fi,或无线保真,允许从家里沙发、—酒店房间的床上或工作的会议室 连接到因特网而不需要线缆。Wi-Fi是一种类似蜂窝电话中使用的无线技术, 它使得诸如计算机等设备能够在室内和室外,在基站范围内的任何地方发送和 接收数据。Wi-Fi网络使用称为IEEE 802.11 (a、 b、 g等等)的无线电技术来 提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连 接到因特网以及连接到有线网络(使用IEEE 802.3或以太网)。Wi-Fi网络在未许可的2.4和5 GHz无线电波段内操作,例如以11 Mbps(802.1 la)或54 Mbps(802.11b)数据速率操作,或者具有包含两个波段(双波段)的产品,因此该网络可提供类似于许多办公室中使用的基本10BaseT有线以太网的真实性能。
现在参见图14,示出了根据本发明的示例性的计算环境1400的示意性框图。系统1400包括一个或多个客户机1402。客户机1402可以是硬件和/或软件(例如,线程、进程、计算设备)。客户机1402可例如通过本发明而容纳cookie和/或相关联的上下文信息。
系统1400也包括一个或多个服务器1404。服务器1404也可以是硬件和/或软件(例如,线程、进程、计算设备)。服务器1404可以例如通过使用本发明来容纳线程以执行变换。在客户机1402和服务器1404之间的一种可能的通信能够以适合在两个或多个计算机进程之间传输的数据分组的形式进行。数据分组可包括例如cookie和/或相关联的上下文信息。系统1400包括可以用来使客户机1402和服务器1404之间通信更容易的通信框架1406 (例如,诸如因特网等全球通信网络)。 一
通信可经由有线(包括光纤)和/或无线技术来促进。客户机1402操作上被连接到一个或多个可以用来存储对客户机1402本地的信息(例如,cookie和/或相关联的上下文信息)的客户机数据存储1408。同样地,服务器1404可在操作上连接到一个或多个可以用来存储对服务器1404本地的信息的服务器数据存储1410。
上面描述的包括本发明的示例。当然,出于描述本发明的目的而描述每一个可以想到的组件或方法的组合是不可能的,但本领域内的普通技术人员应该认识到,本发明的许多进一步的组合和排列都是可能的。因此,本发明旨在涵盖所有这些落入所附权利要求书的精神和范围内的更改、修改和变化。此外,就在说明书或权利要求书中使用术语"包括"而言,这一术语旨在以与术语"包含"在被用作权利要求书中的过渡词时所解释的相似的方式为包含性的。
权利要求
1. 一种多维搜索系统,包括从输入提取特征的输入分析器;以及至少部分地基于所提取的特征的子集制定搜索查询的搜索引擎。
2. 如权利要求1所述的多维搜索系统,其特征在于,所述输入是图像数据。
3. 如权利要求1所述的多维搜索系统,其特征在于,所述输入是文本、视频和音频数据中至少两个的组合。
4. 如权利要求1所述的多维搜索系统,其特征在于,所述搜索引擎包括 多维索引生成器,跨多个维度收集和索引搜索相关信息;以及 索引项目定位器组件,至少部分地基于所提取的特征的子集跨所述多个维度中的一个或多个进行搜索。
5. 如权利要求4所述的多维搜索系统,其特征在于,还包括便于索引搜索 相关信息的文本分析器、声音分析器以及图像分析器。
6. 如权利要求l所述的多维搜索系统,其特征在于,还包括文本分析器、 图像分析器和声音分析器中的至少一个。
7. 如权利要求6所述的多维搜索系统,其特征在于,所述文本分析器包括 从所述输入提取特征的语言解析器。
8. 如权利要求6所述的系统,其特征在于,所述声音分析器包括从所述输 入提取特征的语音识别组件。
9. 如权利要求6所述的系统,其特征在于,所述图像分析器包括从所述输 入提取特征的模式识别组件。
10. 如权利要求1所述的多维搜索系统,其特征在于,还包括管理与所 述输入相关的多个搜索结果的结果配置组件。
11. 如权利要求10所述的多维搜索系统,其特征在于,所述结果配置 组件包括根据用户上下文、用户偏好、关于输入的相关性因素和设备上下文中 的至少一个分拣所述多个搜索结果的过滤组件。
12. 如权利要求10所述的多维搜索系统,其特征在于,所述结果配置组件包括至少部分地基于用户偏好和相关性因素之一安排所述多个搜索结果 的子集的排序组件。
13. 如权利要求10所述的多维搜索系统,其特征在于,所述结果配置组件包括关于所述多个搜索结果的子集确定显示次序的定序组件。
14. 如权利要求1所述的系统,其特征在于,还包括采用基于概率和统 计的分析中的至少一个推断用户期望自动执行的动作的机器学习和推理组件。
15. —种执行多维搜索的计算机实现的方法,包括接收输入;从所述输入提取多个特征项;至少部分基于所提取特征的子集建立多个搜索项;以及 至少部分所述搜索项的子集检索多个结果。
16. 如权利要求15所述的方法,其特征在于,还包括 识别所述输入查询中的图像模式;以及 将所识别的成像模式转换成所述搜索项的子集。
17. 如权利要求15所述的方法,其特征在于,还包括 收集搜索相关数据;分析所述搜索相关数据;以及索引所述搜索相关数据;所述多个结果被包括在所述搜索相关数据内。
18. 如权利要求16所述的方法,其特征在于,还包括 配置所述多个搜索结果的子集;以及 向用户呈现所述多个搜索结果的子集。
19. 一种计算机可执行系统,包括 用于接收输入的装置;用于从所述输入提取多个特征的装置;以及 用于至少部分地基于所述多个特征的子集生成搜索查询的装置。
20. 如权利要求19所述的计算机可执行系统,其特征在于,还包括 用于跨多个维度收集搜索相关信息的装置; 用于索引所收集的搜索相关信息的装置;以及用于至少部分地基于所述搜索查询对所述搜索相关信息进行搜索的装置。
全文摘要
一种可分析多维输入并在之后基于从输入提取的特征建立搜索查询的系统。在特定的示例中,图像可用作搜索机制的输入。可对图像应用模式识别和图像分析,之后建立对应于从图像输入提取的特征的搜索查询。系统也可便于索引多维可搜索项目从而使其可作为搜索查询的结果被检索。更具体地,系统可采用文本分析、模式和/或语音识别机制从可搜索项目中提取特征。这些提取的特征可用来索引可搜索项目。
文档编号G06F17/30GK101479728SQ200780024431
公开日2009年7月8日 申请日期2007年6月26日 优先权日2006年6月28日
发明者A·古普塔, C·A·米克, E·D·布瑞尔, E·J·霍维茨, G·W·弗雷克, J·T·古德曼, O·惠斯特-席勒, R·纳姆, S·乔德里, S·劳勒 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1