基于实体的搜索和解析的制作方法

文档序号:6385912阅读:171来源:国知局
专利名称:基于实体的搜索和解析的制作方法
基于实体的搜索和解析
背景技术
给定搜索查询字符串,Web搜索引擎传统上返回超链接的列表,所述超链接在选择之后链接到被认为与输入搜索查询相关的Web上的页面。最近,搜索引擎结果页面通常经由垂直信息域名而常常还包括更丰富的内容。随着这个趋势继续,搜索将会聚到一点,其中,信息的索引和检索不仅相对于Web页面被执行,而且还相对于诸如(例如,来自应用市场的)应用、电影、电视节目、人、名人、事件、城市、饭店、剧场、公司等而被执行。为了浮现实体,搜索引擎必须爬取(crawl)多个非结构化Web页面和/或订阅关于特定实体类型的结构化提要,解析横跨这个多源数据的实体的实例,以及在用户的意图指的是所述实体和/或它的实体类型时浮现所述(归并的)实体的表示。执行如下操作的需要使得与索引和搜索实体相关联的并发症更加复杂,所述操作为基于近似描述来检索实体;检索实体的广泛集合——其中的一些可能不通过查询字符串直接地描述;基于不流行的源中的实体的描述从流行的源中检索关于其的元数据;一般地组合横跨多个源的被索引的实体的特征和排名;对实体执行分面搜索;以及一般地通过将来自多个网页的信息整合成复合整体来执行整合搜索。对实体搜索问题的现有技术解决方法都可以被归类成两个方法中的一个,每个方法都遭受着各自的缺点。最初,专用于单一信息垂直的垂直引擎结果页面(VERP)常常根据包含基本实体属性的索引对单一类型的实体(例如,电影实体)的集进行搜索。这样的解决方法在提供了未出现在索引中的语义上相关的文本或模糊不清的描述的查询上会失效(例如,查询“movie with a sinking boat starring DiCaprio ( DiCaprio 主演的沉船的电影)”可能不返回电影“Titanic (泰坦尼克)”,或者查询“Batman (蝙蝠侠)”可能不返回电影“The Dark Knight (黑暗骑士)”)。第二种通用的方法使用Web搜索,Web搜索具有利用了 Web链接结构和锚文本的相关术语的大型索引的优点,其包括强大的意图分析,以及使用了自动拼写校正。此方法的缺点是如果被索引的页面未用实体进行解析,则由VERP提供的丰富的内容可能根本不会被浮现。而且,因为被索引的页面未针对彼此被解析,即使丰富的内容被检索,链接到相同基本实体的实例的大量结果可能被一起检索,消弱了结果的多样性。

发明内容
本发明内容被提供来以简化的形式介绍概念的选择,这些概念在下面的具体实施方式
中被进一步描述。本发明内容既不打算识别所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。本发明的实施例涉及尤其用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富的搜索体验的系统、方法以及计算机可读存储媒体。搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对确定为对于已确定的实体类型是权威的源的预定列表被执行。虽然某个源对所述实体类型可能是权威的,但是它还可以包括针对其它实体类型的信息,以及同样地,识别与多个实体类型相关的结果。因此,源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源所识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。被分配给合并的实体的所述排名值是从针对来自不同源的实体而提供的单独的排名值所计算的合计排名值。所述结果的至少一部分然后被呈现给用户。


本发明作为例子被示出并且不限于附图,其中,相同的附图标记指示相似的单元,以及其中
图1是适合于在实施本发明的实施例中使用的示范性计算环境的方块 图2是其中本发明的实施例可以被利用的示范性计算系统的方块 图3是示出了根据本发明的实施例的、源特定搜索的结果的示范性屏幕显示的示意
图4是示出了当实体搜索根据本发明的实施例被实施时,演示了为什么过滤有时被认为是必要的示范性屏幕显示的示意 图5是示出了根据本发明的实施例所实施的实体搜索的示范性屏幕显示的示意 图6是示出了根据本发明的实施例所实施的另一实体搜索的示范性屏幕显示的示意
图7是图示了根据本发明的实施例所实施的整合搜索的结果的示范性呈现的屏幕显示的示意 图8A和图SB是图示了根据本发明的实施例的、分面实体搜索的示范性呈现的屏幕显示的示意 图9是示出了根据本发明的实施例的、用于基于实体类型确定Web搜索的目标并且解析其结果的示范性方法的流程图;以及
图10是示出了根据本发明的实施例的、用于基于实体类型确定Web搜索的目标并且解析其结果的另一示范性方法的流程图。
具体实施例方式本发明的主题在本文中被具体地描述以满足法定的要求。然而,描述本身不打算限制本专利的范围。相反,本发明人已经设想到所要求保护的主题也可能结合其它当前或未来的技术以其它方式被体现,以包括不同的步骤或与在本文档中所描述的步骤类似的步骤的组合。此外,尽管术语“步骤”和/或“方块”可以在本文中被使用来暗示所利用的方法的不同的单元,但是所述术语不应该被解释为在本文中所公开的各种步骤之中或之间隐含任何特定的次序,除非和除了明确地描述了单独的步骤的次序时。在本文中所描述的技术的各种方面通常针对尤其用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富的搜索体验的系统、方法以及计算机可读存储媒体。根据本发明的实施例,“实体”是某种真实世界对象或项目的描述。也就是说,实体是不同于Web文档的真实世界概念的表示。不是将Web文档与出现在搜索查询中的术语相匹配,本发明的实施例设法使实体或真实世界项目(有形的或无形的)与查询相匹配,从而使得更丰富的搜索体验可以被提供,如在下面更充分地描述的那样。共享共同属性的实体可以被分组成诸多实体类型。根据本发明的实施例,搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对被认为对于已确定的实体类型是权威的源的预定列表被执行。虽然某个源对于所述实体类型可能是权威的,但是它还可以包括针对其它实体类型的信息,以及同样地,识别与多个实体类型相关的结果。因此,源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。被分配给合并的实体的所述排名值是从针对来自所述不同源的实体而提供的单独的排名值所计算的合计排名值。所述结果的至少一部分然后被呈现给用户。因此,本发明的一个实施例针对存储计算机可用指令的一个或多个计算机可读存储媒体,当所述计算机可用指令被一个或多个计算设备使用时,使所述一个或多个计算设备执行用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法。所述方法包括接收搜索查询并且针对已接收到的搜索查询确定至少一个实体类型。所述方法进一步包括针对已接收到的搜索查询执行Web搜索,所述Web搜索被限制于已经针对所述至少一个实体类型被识别的多个源。更进一步地,所述方法包括过滤所述Web搜索的结果以便创建搜索结果的经过滤的列表,在搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关。进一步地,所述方法包括合并由所述多个源中的不同源识别的等同实体以便创建搜索结果的合并列表,在搜索结果的所述合并列表中的每个搜索结果都与所述至少一个实体类型的不同实体有关。最后,所述方法包括基于排名值对搜索结果的所述合并列表进行排序,其中,被分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是合计排名值,所述合计排名值是从针对这样的实体被提供的单独的排名值而计算的,所述实体与来自所述多个源中的所述不同源的至少一部分的搜索结果中的所述至少一个相关联。在另一个实施例中,本发明针对由包括至少一个处理器的一个或多个计算设备执行的方法,所述方法用于基于实体类型确定Web搜索的目标和解析所述Web搜索的结果。所述方法包括将至少一个实体类型与接收到的搜索查询相关联;搜索针对所述至少一个实体类型所识别的多个预定的Web源以确定搜索结果的列表;以及关于所述至少一个实体类型来过滤搜索结果的所述列表以便创建搜索结果的经过滤的列表。搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关。所述方法进一步包括将搜索结果的所述经过滤的列表与解析的实体列表相比较,以便确定由所述多个预定源中的不同源识别的等同实体;以及通过合并确定为已经被所述多个预定源中的所述不同源识别的所述等同实体来创建搜索结果的合并列表。在搜索结果的所述合并列表中的每个搜索结果与所述实体类型的不同实体有关。更进一步地,所述方法包括基于排名值对搜索结果的所述合并列表进行排序,其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是从针对与所述搜索结果中的所述至少一个相关联的实体而被提供的单独的排名值所计算的合计排名值,所述单独的排名值由所述多个预定源中的所述不同源的至少一部分提供。在再另一个实施例中,本发明针对一种用于基于实体类型确定Web搜索的目标的系统。所述系统包括与搜索引擎相关联的计算设备,所述计算设备具有一个或多个处理器以及一个或多个计算机可读存储媒体和与所述搜索引擎耦合的数据存储。所述搜索引擎被配置成接收搜索查询,针对已接收到的搜索查询确定至少一个实体类型,识别与所述至少一个实体类型相关联的多个权威源,搜索所述多个识别的权威源以确定搜索结果的列表,以及过滤搜索结果的所述列表以创建搜索结果的经过滤的列表。在搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关。所述搜索引擎被进一步配置成将搜索结果的所述经过滤的列表与解析的实体列表相比较,以便确定由所述多个权威源中的不同源识别的等同实体,并且通过合并确定为已经被所述多个权威源中的所述不同源识别的所述等同实体来创建搜索结果的合并列表。在搜索结果的所述合并列表中的每个搜索结果都与所述实体类型的不同实体有关。所述搜索引擎被进一步配置成基于排名值对搜索结果的所述合并列表进行排序,其中,分配给搜索结果的所述合并列表中的搜索结果中的所述至少一个的排名值是从针对与所述搜索结果中的所述至少一个相关联的实体而提供的单独的排名值所计算的合计排名值,所述单独的排名值由所述多个权威源中的所述不同源的至少一部分提供。已经简要地描述了本发明的实施例的概要,本发明的实施例可以在其中被实施的示范性操作环境在下面被描述,以便提供针对本发明的各种方面的一般上下文。一般性地参考图并且特别地首先参考图1,用于实施本发明的实施例的示范性的操作环境被示出并且通常被指定为计算设备100。所述计算设备100只是合适的计算环境的一个例子,并且并不打算对本发明的实施例的使用或功能性的范围提出任何限制。计算设备100不应该被解释为具有与所图示的构件中的任何一个或组合相关的任何依赖或要求。本发明的实施例可以在计算机代码或机器可用指令的一般上下文中被描述,所述计算机代码或机器可读指令包括由计算机或其它机器(诸如个人数字助理或其它手持设备)执行的诸如程序模块这样的计算机可用或计算机可执行的指令。通常,包括例行程序、程序、对象、构件、数据结构等的程序模块指的是执行特定任务或实施特定的抽象数据类型的代码。本发明的实施例可以在各种各样的系统配置中被实践,所述系统配置包括手持式设备、消费电子、通用计算机、更专用的计算设备等等。本发明的实施例还可以在分布式计算环境中被实践,其中任务由通过通信网络而被链接的远程处理设备执行。继续参考图1,计算设备100包括总线110,其直接地或者间接地耦合以下设备存储器112 ;—个或多个处理器114 ;一个或多个呈现构件116 个或多个输入/输出(I/O)端口 118 ;—个或多个I/O构件120 ;以及说明性的电源122。总线110表示可能是一条或多条总线的事物(诸如地址总线、数据总线或它们的组合)。尽管为了清楚起见,图1的各种方块用线示出,但是实际上,这些方块表示逻辑的(未必是实际的)构件。例如,一个人可以将诸如显示设备这样的呈现构件认为是I/O构件。同样地,处理器具有存储器。本发明的发明人认识到这是本领域的性质,并且重申图1的图仅仅是对可以结合本发明的一个或多个实施例被使用的示范性的计算设备的说明。在诸如“工作站”、“服务器”、“膝上型电脑”、“手持式设备”等等这样的类别之间不做区分,因为全部都被设想在图1的范围内并且称为“计算设备”。计算设备100典型地包括各种各样的计算机可读媒体。计算机可读媒体可以是能够被计算设备100访问的任何可用的媒体,并且包括以任何方法或技术实施的易失性和非易失性媒体、可移除和不可移除媒体,用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息。计算机可读媒体包括但不限于RAM、R0M、EEPR0M、闪速存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储装置、磁带盒、磁带、磁盘存储装置或其它磁存储设备、或可以被使用来存储期望的信息并且可以被计算设备100访问的任何其它介质。上述中的任何的组合也被包括在计算机可读媒体的范围内。存储器112包括易失性和/或非易失性存储器形式的计算机存储媒体。存储器可以是可移除的、不可移除的或它们的组合。示范性的硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括一个或多个处理器,其从诸如存储器112或I/O构件120这样的各种实体读取数据。(一个或多个)呈现构件116将数据指示呈现给用户或其它设备。示范性的呈现构件包括显示设备、扬声器、打印构件、振动构件等等。I/O端口 118允许计算设备100被逻辑地耦合到包括I/O构件120的其它设备,所述I/o构件中的一些可以被内置。说明性的构件包括话筒、操纵杆、游戏手柄、碟形卫星天线、扫描器、打印机、无线设备等。如先前提到的,本发明的实施例通常针对尤其用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富的搜索体验的系统、方法以及计算机可读存储媒体。搜索查询被接收并且实体类型针对所述查询被确定。对于所述查询的Web搜索然后针对确定为对于已确定的实体类型来说是权威的源的预定列表被执行。虽然某个源对于所述实体类型来说可能是权威的,但是它还可以包括针对其它实体类型的信息,以及同样地,识别与多个实体类型相关的结果。因此,源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,每个结果与确定为与所述查询相关联的实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源所识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。分配给合并的实体的所述排名值是从针对来自所述不同源的实体而提供的单独的排名值所计算的合计排名值。所述结果的至少一部分然后被呈现给用户。现参考图2,提供了图示本发明的实施例可以在其中被利用的示范性计算系统200的方块图。大体上,计算系统200图示了其中可以基于针对输入搜索查询被确定的实体类型而实施确定了目标的Web搜索以及解析其结果的环境。在未被示出的其它构件中,计算系统200通常包括用户计算设备210、搜索引擎212以及数据存储214,全部都经由网络216彼此进行通信。网络216可以包括(但不限于)一个或多个局域网(LAN)和/或广域网(WAN)0这样的联网环境在办公室、企业范围的计算机网络、内联网(intranet)以及因特网中是常见的。因此,网络216在本文中不被进一步描述。应该理解,任何数量的用户计算设备和搜索引擎可以在本发明的实施例的范围内的计算系统200中被利用。每个都可以包括单个设备/接口或在分布式环境中协作操作的多个设备/接口。例如,搜索引擎212可以包括布置在分布式环境中的多个设备和/或模块,其共同地提供在本文中所描述的搜索引擎212的功能性。另外,未被示出的其它构件/模块也可以被包括在计算系统200内。
在一些实施例中,所图示的构件/模块中的一个或多个可以被实施为独立的应用。在其它实施例中,所图示的构件/模块中的一个或多个可以经由用户计算设备210而被实施为基于因特网的服务,或者被实施为搜索引擎212内部的模块。本领域的普通技术人员应当理解,图2中所图示的构件/模块在性质上和在数目上是示范性的,并且不应该被解释为限制的。任何数量的构件/模块可以被利用来实现本发明的实施例的范围内的期望的功能性。而且,构件/模块可以位于任何数量的搜索引擎或用户计算设备上。仅仅作为例子,搜索引擎212可以作为单个服务器(如所示出的)、服务器的集群或远离剩余构件中的一个或多个的计算设备而被提供。应该理解,在本文中所描述的这个和其它的布置仅作为例子被阐述。其它的布置和单元(例如,机器、接口、功能、次序以及功能的分组等)可以附加于或者代替所示出的那些而被使用,并且一些单元可以被完全省略。而且,在本文中描述的许多单元是功能实体,其可以被实施为分立的构件或分布式构件或者结合其它构件被实施,以及在任何合适的组合和位置中被实施。在本文中被描述为由一个或多个实体执行的各种功能可以通过硬件、固件和/或软件而被执行。例如,各种功能可以由执行存储在存储器中的指令的处理器执行。用户计算设备210可以包括任何类型的计算设备,例如,诸如参考图1描述的计算设备100。通常,客户端计算设备210包括浏览器218和显示器220。浏览器218尤其被配置成再现搜索引擎主页(或其它的在线登陆页面),并且与客户端计算设备210的显示器220相关联地再现搜索引擎结果页面。浏览器218被进一步配置成接收针对各种网页(包括搜索引擎主页)的请求的用户输入,接收用户输入的搜索查询(通常经由在显示器220上呈现的用户接口输入,并且准许字母数字和/或文本输入到指定的搜索框中),并且被配置成例如从搜索引擎212接收用于在显示器220上呈现的内容。应当指出,在本文中被描述为由浏览器218执行的功能性可以由能够再现Web内容的任何其它应用执行。任何和所有这样的变例以及它们的任何组合被设想在本发明的实施例的范围内。搜索引擎212被配置成接收它从与用户计算设备相关联的构件(例如,与客户端计算设备210相关联的浏览器218)接收的请求并且对所述请求进行响应。本发明的领域中的技术人员将认识到,本发明可以用任何数量的搜索工具来实施。例如,因特网搜索引擎或数据库搜索引擎可以利用本发明。这些搜索引擎在本领域中是众所周知的,并且商业上可得到的引擎共享许多相似的的过程,这些过程在本文中不被进一步描述。如图示的,搜索引擎212包括查询接收构件222、实体类型确定构件224、权威源确定构件226、搜索构件228、过滤构件230、实体合并构件232、排序构件234以及呈现构件236。所图示的搜索引擎212还具有对数据存储214的访问权。数据存储214被配置成存储与搜索查询、实体以及权威源有关的信息。在各种实施例中,这样的信息可以包括(但不限于)搜索查询日志、实体类型和对应的实体的索引、确定为相对于被索引的实体类型的是权威的源的索引或其它列举、以及解析的实体的列表。在实施例中,数据存储214被配置成对于与其相关联地存储的项目中的一个或多个是可搜索的。本领域的普通技术人员应当理解和了解,与数据存储214相关联地存储的信息可以是可配置的,并且可以包括与搜索查询、实体类型和对应的实体、以及可搜索的源相关的任何信息。这样的信息的内容和容量不打算以任何方式限制本发明的实施例的范围。而且,虽然数据存储214被图示为单个独立的构件,但是其实际上可以是多个存储设备(例如数据库集群),其中的部分可以与搜索引擎212、客户端计算设备210、另一外部计算设备(未示出)和/或它们的任何组合相关联地存在。搜索引擎212的查询接收构件222被配置成接收对于呈现满足输入搜索查询的搜索结果的请求。典型地,这样的请求经由与客户端计算设备相关联的浏览器(例如,与客户端计算设备210相关联的浏览器218)被接收。在实施例中,搜索查询还可以被隐式地调用并且由查询接收构件222例如通过以下的动作或者通过其它方式来接收,所述动作诸如用户指向(例如,屏幕、电视机上或物理世界中的)某物;将鼠标指针移动到图标/文本;在电话上和某人谈话;发送SMS、推特(tweet)或状态更新。也就是说,本发明的实施例不限于用户将搜索查询输入到屏幕显示的传统查询输入区域中。实体类型确定构件224被配置成确定与接收到的搜索查询相关的至少一个实体类型。查询理解的标准技术可以被使用来将查询意图映射到一个或多个实体类型。例如,针对实体类型的静态和动态的相关分数可以通过与每个类型相关的数据内的静态内容被获得。仅仅作为例子,这样的内容可以包括相关实体的数据库中的文本、相关实体上的非结构化的Web页面以及限制于那些Web页面的Web的链接结构、以及用于确定查询字符串的特征何时与实体类型及其对应实体的特征相匹配的训练分类器。实体类型还可以从上下文例如通过以下的用户的动作或者通过其它方式而被隐式地确定,所述用户动作诸如用户指向(例如,屏幕上、电 视机上或物理世界中的)某物;将鼠标指针移动到图标/文本;在电话上和某人谈话;发送SMS、推特(tweet)或状态更新。任何和所有这样的变例以及它们的任何组合被设想在本发明的实施例的范围内。如果实体类型确定构件224确定一个以上的实体类型与输入搜索查询相关,则后续实体搜索的结果可以被平整成单个搜索结果页面,每个类型的实体以某种方式被交错/混合。替换地,针对分面搜索的接口可以被呈现,其中,用户可以使搜索缩小到(一个或多个)建议的实体类型,从最后的结果中有效地过滤掉后续实体搜索中的一些的结果。这在下面相对于图8A和图8B被更充分地描述。任何和所有这样的变例以及它们的任何组合被设想在本发明的实施例的范围内。权威源确定构件226被配置成识别预先确定为对于给定的实体类型是权威的多个源。权威源是所有爬取的源或可从针对实体类型的订阅的结构化提要得到的源的子集。这些源可以特定于区域性市场,但是它们也可以是全球的。作为说明性的例子,特定于美国市场的电影源可以包括頂DB、ROVI/AMG、NETFLIX、HULU, YAHOO ! REVIEWS、FLIXTER 以及METACRITIC。在这些之中,权威源可以被识别为頂DB (即,www.1mdb. com)、ROVI (BP,www.Allrov1. com)以及 NETFLIX (即,www. netflix. com)。对哪些源是权威的选择可以取决于许多因素。在一个极端,所有源都可能是权威的。在另一极端,仅一个是权威的。通常,好的权威源是将产生关于源特定Web搜索的结果的那些源。例如,不被Web搜索引擎索引的源可能不是针对权威源的好的候选。而非常好的权威源候选可能是从许多其它网站链接到的、具有丰富的锚文本以及具有关于由Web搜索引擎索引的源站点的丰富的元数据的一个源。给定具有已经和特定的实体类型相匹配的意图的用户的查询,则搜索构件228被配置成通过使用Web搜索引擎(例如,由华盛顿雷德蒙德的微软公司提供的众所周知的商业搜索引擎BING)对每个权威的源站点执行Web搜索,以便针对输入搜索查询执行源特定搜索。例如,搜索与查询“in space no one can hear you scream(在太空中没有人能听到你的尖叫)”匹配的电影实体,搜索构件228可以依照如下使用BING发出查询
对 MDB
http://www. bing. com/search q=site%3Awww.1mdb. com+in+space+no+one+can+hear+you+scream ;
对 NETFLIX
http://www.bing. com/search q=site%3Awww. netflix. com+in+space+no+one+can+hear+you+scream ;
对 ROVI
http://www. bing. com/search q=site%3Awww. allrov1. com+in+space+no+one+can+hear+you+scream。图3是示出了这个源特定搜索的示范性的屏幕显示300的示意图。如所期望的,电影“Alien(外星人)”被浮现,因为来自该电影的引述(在此例子中包括用户查询)被包含在ALLROVI网站上的丰富 的非结构化文本中,或者因为指向R0VI“Alien(外星人)”网页的超链接使用此引述作为锚文本。类似的搜索可以通过类似的HTTP POST请求、或者经由通过Web搜索引擎浮现的替换的API而被发出给任何主要的搜索引擎。源特定Web搜索的结果是文档的列表,所述文档被查询的Web搜索引擎认为是与所述查询以某种方式相关的。取决于什么信息可被Web搜索引擎提供,所述引擎的内部相关分数还可以针对每个列举的文档被返回。过滤构件230被配置成过滤由权威的源特定Web搜索所返回的文档的每个列表,并且仅保留潜在地与感兴趣的实体类型相关的URL。图4是示出了演示为什么过滤有时被认为是必要的示范性的屏幕显示400的示意图。在所图示的例子中,权威的源网站包含许多页面,其与实体类型(在此例子中,实体类型为“电影”)不是直接相关的。多个方法中的任何一个可以被使用来过滤掉不相关的页面。下文打算是说明性而不是本发明的限制性的实施例。正则表达式URL模式可以针对每个实体类型和权威源而被手动地确定。和所述模式匹配的源特定搜索结果将保持未过滤的,而和所述模式不匹配的URL将被过滤掉。此外,所述模式可以指定源自己的内部实体思想在哪里被表示,其可以被使用来在实体合并/解析步骤中识别实体的源的呈现,所述实体合并/解析步骤参考实体合并构件232在下面被更充分地描述。针对頂DB和NETFLIX的示例性模式包括
IMDB 模式www.1mdb. com/title/ {ID starting with tt};
NETFLIX 模式www. netf lix. com/Movie/ {string} / {numeric id}。这些URL模式还可以在给定一组示例性的文档的情况下从与给定的实体类型相关的权威的源网站被自动地提取。实体搜索引擎212相反可以浮现API,源网站和提要通过该API提交URL模式。或者,Web网页与特定实体类型的相关性连同内部源ID可以使用预定的标准而被嵌入在那些页面上。任何和所有这样的变例以及它们的任何组合被设想在本发明的实施例的范围内。如果内部数据源ID是不可从在源特定搜索中浮现的页面中得到的,则实体解析可以被使用来将那些页面结果与来自数据源的实体相匹配。下面参考实体合并构件232对实体解析进行更充分的描述。在这里所描述的、实体解析的该附加应用可以提供浮现的URL与内部ID之间的映射,从而使能由实体合并构件232进行的过滤。实体合并构件232被配置成通过实体解析管道来运行针对实体类型的所有源,并且被配置成将实体解析的结果与经过滤的源特定结果相比较。给定来自多个源的实体的集,实体解析表示在高层次上的两个步骤的过程,其解析源之间的等同实体并且然后将等同实体的集合归并成基础实体的单个、更丰富的表示。最初,仅实体解析是必要的。归并稍后对于在本文中所描述的方法的最后步骤是需要的,其中,查询相关的实体的单个归并的表示通过实体搜索而被浮现,如在下面更充分地描述的那样。解析和归并利用实体的特征或属性。针对实体类型“电影”的例子包括片名、发布年份、(一个或多个)导演、演员阵容、放映时间、制片厂、(一个或多个)流派等。针对实体类型“人”,特征或属性可以包括名字、生日/年龄、性别、职业、地理位置、家庭地址、电话号码以及其它的个人识别信息。来自不同源的相同实体类型的实体关于它们的属性被比较,最终导致产生匹配实体的集合。对匹配实体的这些集合采用归并,并且针对其中的每个通过归并和组合成员实体的单独的属性来产生原型的实体。实体解析的结果与经过滤的源特定搜索的结果进行组合。因为源特定搜索在已经通过实体解析运行的、实体数据的源上运行,所以搜索引擎212可以对通过搜索所检索到的文档进行分组,所述文档被已知是相关的实体(归因于过滤构件230)并且已经被与相同实体的所有其它已知的表示进行匹配(通过使用实体解析的结果)。以这种方式,搜索引擎212对来自相同的、经过滤的源特定搜索的实体相关的文档进行分组。从源特定搜索链接到实体解析结果是通过使用源内部实体ID被完成的,如在上文所描述的那样。每个权威源都被分配了质量系数Q。所述系数是基于在Web搜索期间可以被浮现的源中的实体的总数目的。此步骤的结果是与用户提交的查询相关的URL的集合,其表示感兴趣的实体类型(如由输入搜索查询所表示的)的相同实体。例如,以下的两个URL可以包括针对Batman (蝙蝠侠)1989电影的这些结果集合中的一个
www.1mdb. com/title/tt0096895 ;www. netflix. com/Movie/Batman/287290。排序构件234被配置 成对从实体解析和经过滤的源特定Web搜索中提取的等同或相同的实体的集合进行排序。若干方法可以被遵循来产生这样的排名。信号中的两个主要源针对排名被提取。第一个源是来自源特定Web搜索的文档的排名(以及可选地由Web搜索引擎所返回的相关分数,如果有的话)。在没有相关分数的情况下,这些搜索结果针对每个经过滤的文档产生排名(例如,第一个文档可能被分配排名一,第二个为排名二等等)。如果可得到的话,相关分数可以被分配给已返回的文档。用于在对等同实体的相关集合进行排名中使用的信号的第二个源可以来自对输入到实体解析中的数据源中的查询字符串应用标准数据库搜索。例如,查询字符串可以被解析成字,并且这些关键字与实体的属性匹配。取决于对于实体搜索引擎可用的数据,信号的额外的源也可能是可得到的。例如,可能存在诸如用户评级这样的的流行信息,所述用户评级被使用于针对推荐进行协同过滤。另一例子可以是关于过去由实体搜索引擎浮现的归并实体的历史点击率数据。沿着相似的线路,来自权威站点的工具栏数据可以被使用于一般的Web搜索排名,但是对于实体搜索可能是更相关的,使得通过将它们作为信号包括在实体搜索中,它们可以接收比它们针对它们对于源特定相关分数的贡献所接收到的加权更高的加权。
排名或相关分数组合步骤然后被应用到源特定搜索排名、搜索特定的搜索相关分数、基于属性的搜索相关分数以及相关信号的其它源的集合。基本上,这样的步骤将来自这些许多单独的排名的多个相关分数组合,作为针对被分组的实体的元排名的特征。然后,此步骤的结果是关于不同的实体的排名,所述不同的实体已经由实体解析通过单独的源特定搜索进行了分组。呈现构件236被配置成呈现与用户提交的查询相关的实体的经排序的列表的至少一部分。根据实体解析的归并可以被使用来归并来自横跨不同的爬取的/索引的/订阅的源的实体的单独的表示的属性。插图/图像、元数据、实体行为以及甚至实体特定的广告可以通过实体搜索系统以自然的和一致的方式而被浮现,如在下面更充分地描述的图7的屏幕显示700中所图示的那样。另外,搜索引擎212可以利用分面搜索来向用户建议它们的搜索结果可以如何被缩小或者进一步细化。例如,如果多个实体类型在整合的搜索结果页面中被浮现,则用户可以被提供一种选择权来取消选择类型(例如,从结果中保留饭店但移除咖啡馆)。小平面可以以更加细粒度的级别被呈现在单个实体类型内。例如,如果向用户呈现了电影结果,则搜索引擎212可以允许用户指定流派(例如,科幻小说)和发行年份范围(例如,2000年以后发行的电影)。用于呈现分面搜索的一个实施例在图8A和图SB的屏幕显示中被示出,它们在下面被更充分地描述。现转向图5,示出的是示范性的屏幕显示500,其图示了根据本发明的实施例的、针对输入搜索查询“James Bond(詹姆斯 邦德)”的实体搜索例子。最初,实体类型已经被识别为“电影”。因此,在这个图示的实施例中,可以假定用户期望在James Bond(詹姆斯 邦德)特许经营中(例如,在NETFLIX上)找电影,但是不知道电影片名。即使输入查询字符串(即,“James Bond”)未被包括在最终浮现的电影片名中的任何一个中(以及可能不属于针对NETFLIX上的所期望的电 影的其它属性),作为结果的电影也被浮现了,因为所述查询字符串可以出现在链接到NETFLIX的锚文本中,或者潜在地出现在针对NETFLIX被解析并且由搜索引擎索引的另一个源(例如,带有评论“Diamonds are Forever is my favoriteJames Bond movie (永远的钻石是我最喜欢的詹姆斯 邦德电影)”的博客文本)中。而且,通过执行根据本发明的实施例的整合实体搜索,搜索引擎(例如,图2的搜索引擎212)可以浮现关于相关的实体的元数据。注意到,在已浮现的电影实体的右边是表示权威源和/或实体行为(例如,买票、流动、出租等)的多个可选择的图标。用户可以选择例如NETFLIX图标,并且根据示范性的意图而被导航到对应的James Bond电影的NETFLIX版本。参考图6,示出的是示范性的屏幕显示600,其图示了根据本发明的实施例的另一实体搜索例子,这次是针对输入搜索查询“Neo and Trinity”。再次,实体类型已经被识别为“电影”。如所图示的那样,用户正寻找Matrix三部曲中的电影中的一个,但是不记得电影的名字,仅仅记得两个主要人物的名字。通过在包括演员阵容和他们饰演的人物、评论家和爱好者评论、情节等等的站点上整合源特定搜索,执行根据本发明的实施例的实体搜索的搜索引擎能够检索所期望的实体。注意到,人物名字“Neo”和“Trinity”不大可能已经出现在与传统地搜索的源相关联的电影的概要中。参考图7,图示了根据本发明的实施例实施的整合搜索的结果的示范性的呈现的屏幕显示700被示出。在所图示的例子中,用户查询是针对来自电影Highlander的电影引述“there can be only one (只能有一个)”的。注意实体解析和源特定搜索的归并结果如何以一致的方式被显示。每个电影实体通过插图、片名以及元数据被显示。提供实体行为(诸如租用、流动、阅读评论、购买等等)的数据的不同的源通过在右手侧的垂直堆叠的图标的一致的接口被浮现。还注意,仅在期望的实体类型中的文档被浮现(归因于源特定搜索和过滤),以及每个不同的实体如何仅仅存在一个结果(归因于实体解析和合并)。参考图8A和图SB,图示了根据本发明的实施例的分面实体搜索的屏幕显示被示出。针对初始搜索(图8A),多个类型的实体潜在地映射到输入搜索查询(即,“Superman (超人)”)。在所图示的例子中,“Superman”可以指娱乐实体类型“电影(Movies)”、“电视连续剧(TV Series)”或“歌曲(Songs)”中的任何一个。在图8A的图示的屏幕显示中,用户能够选择小平面并且通过这样做使所显示的实体的特性缩小。例如,图8B表示了实体类型“电视连续剧(TV Series)”的用户选择。现转向图9,显示根据本发明的实施例的示范性方法900的流程图被图示,所述方法用于基于实体类型确定Web搜索的目标并且解析其结果。最初,如在方块910处所指示的,例如由图2的搜索引擎212的查询接收构件222接收搜索查询。如在方块912处所指示的,至少一个实体类型针对已接收到的搜索查询被确定。这可以例如通过利用图2的搜索引擎212的实体类型确定构件224来完成。Web搜索针对已接收到的搜索查询被执行,如在方块914处所指示的(例如,通过利用图2的搜索构件228)。Web搜索被限制于多个源,所述多个源已经被识别为对于针对已接收到的搜索查询所确定的所述至少一个实体类型来说是权威的。如在方块916处所指示的,Web搜索的结果被过滤以便创建搜索结果的经过滤的列表(例如,通过利用图2的过滤构件230)。搜索结果的经过滤的列表中的每个搜索结果都与针对已接收到的搜索查询确定的所述至少一个实体类型的实体有关。由所述多个源中的不同的源所识别的等同实体被合并(如在方块918处所指示的),以便创建搜索结果的合并列表。这可以例如通过利用图2的实体合并构件232来完成。搜索结果的合并列表中的每个搜索结果都与针对已接收到的搜索查询确定的所述至少一个实体类型的不同的实体有关。如在方块920处所指示的,搜索结果的所述合并列表例如通过利用图2的排序构件234基于排名值被排序以用于呈现。被分配给在表示等同实体的搜索结果的合并列表中的搜索结果的排名值是从针对来自所述多个源中的所述不同的源的至少一部分的实体而提供的单独的排名值所计算的合计排名值。参考图10,显示根据本发明的实施例的另一示范性的方法1000的流程图被图示,所述方法1000用于基于实体类型确定Web搜索的目标并且解析其结果。最初,如在方块1010处所指示的,至少一个实体类型例如通过利用图2的搜索引擎212的实体类型确定构件224被与接收到的搜索查询相关联。如在方块1012处所指示的,针对所述至少一个实体类型识别为权威的多个预定的Web源被搜索以便确定搜索结果的列表(例如,通过利用图2的搜索构件228)。如在方块1014处所指示的,所述搜索的结果关于所述至少一个实体类型被过滤以便创建搜索结果的经过滤的列表(例如,通过利用图2的过滤构件230)。在搜索结果的经过滤的列表中的每个搜索结果都与针对所接收到的搜索查询确定的所述至少一个实体类型的实体有关。如在方块1016处所指示的,搜索结果的经过滤的列表然后被与解析的实体列表相比较,以便确定由所述多个预定的源中的不同的源所识别的等同实体。确定为已经由所述多个源中的不同的源识别的等同实体被合并(如在方块1018处所指示的),以便创建搜索结果的合并列表。这可以例如通过利用图2的实体合并构件232来完成。在搜索结果的合并列表中的每个搜索结果都与针对所接收到的搜索查询确定的所述至少一个实体类型的不同的实体有关。如在方块1020处所指示的,搜索结果的合并列表例如通过利用图2的排序构件234基于排名值而被排序以用于呈现。被分配给在表示等同实体的搜索结果的合并列表中的搜索结果的排名值是从针对来自所述多个源中的所述不同的源的至少一部分的实体而提供的单独的排名值所计算的合计排名值。可以理解,本发明的实施例提供了用于整合垂直搜索的优点和Web搜索的优点以便利用实体类型表征来提供丰富搜索体验的系统和方法。本发明已经关于特定的实施例进行了描述,这些特定的实施例在所有方面打算是说明性的而不是限制性的。在不背离其范围的情况下,替换的实施例对本发明所属的领域中的普通技术人员将变得明显。虽然本发明易受到各种修改和替换的构造的影响,但是本发明的某些图示的实施例在图中被示出并且已经在上文被详细地描述。然而,应当理解,不存在将本发明限制于所公开的特定形式的意图,而是恰恰相反,意图是涵盖落入本发明的精神和范围内的所有修改、替换的构造以及等同物。本领域的普通技术人员应当理解,在图9的方法900和图10的方法1000中示出的步骤的次序并不意味着以任何方式限制本发明的范围,并且实际上,所述步骤可以在本发明的实施例中以各种各样的不同的顺序出现。任何和所有的这样的变例以及它们的任何组合被设想在本发明的实施例的范围内。
权利要求
1.存储计算机可用指令的一个或多个计算机可读存储媒体,当所述计算机可用指令被一个或多个计算设备使用时,使所述一个或多个计算设备执行用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果的方法(900),所述方法包括 接收(910)搜索查询; 针对所述接收到的搜索查询确定(912)至少一个实体类型; 针对所述接收到的搜索查询执行(914)Web搜索,所述Web搜索被限制于已经针对所述至少一个实体类型被识别的多个源; 过滤(916)所述Web搜索的结果以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关; 合并(918)由所述多个源中的不同源所识别的等同实体以便创建搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所述至少一个实体类型的不同实体有关;以及 基于排名值对搜索结果的所述合并列表进行排序(920),其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是合计排名值,所述合计排名值是从针对这样的实体而提供的单独的排名值所计算的,所述实体与来自所述多个源中的所述不同源的至少一部分的搜索结果中的所述至少一个相关联。
2.根据权利要求1所述的一个或多个计算机可读存储媒体,其中,过滤所述Web搜索的结果以便创建搜索结果的所述经过滤的列表包括至少部分地通过利用统一资源定位符模式来过滤所述Web搜索的所述结果。
3.根据权利要求1所述的一个或多个计算机可读存储媒体,其中,合并由所述多个源中的所述不同源识别的所述等同实体以创建搜索结果的所述合并列表包括将搜索结果的所述经过滤的列表与解析的实体列表相比较,以便确定由所述多个源中的所述不同源识别的所述等同实体。
4.根据权利要求1所述的一个或多个计算机可读存储媒体,其中,所述方法进一步包括呈现搜索结果的所述经排序的列表的至少一部分。
5.根据权利要求4所述的一个或多个计算机可读存储媒体,其中,与搜索结果的所述经排序的列表的所述被呈现的部分中的至少一个搜索结果相关联的信息是从所述多个源中的多个源导出的。
6.根据权利要求5所述的一个或多个计算机可读存储媒体,其中,从所述多个源中的所说的多个源的至少一个中导出的所述信息不与所述至少一个搜索结果相关联地被呈现。
7.根据权利要求5所述的一个或多个计算机可读存储媒体,其中,所述方法进一步包括呈现所述多个源中的所说的多个源的至少一部分的指示,与所述至少一个搜索结果相关联的所述信息是从其导出的。
8.根据权利要求7所述的一个或多个计算机可读存储媒体,其中,所述多个源中的所说的多个源的所述指示的至少一部分是可选择的。
9.一种由包括至少一个处理器的一个或多个计算设备执行的方法(1000),其用于基于实体类型确定Web搜索的目标并且解析所述Web搜索的结果,所述方法包括 将至少一个实体类型与接收的搜索查询相关联(1010); 搜索(1012)针对所述至少一个实体类型识别的多个预定的Web源以确定搜索结果的列表; 关于所述至少一个实体类型过滤(1014)搜索结果的所述列表以便创建搜索结果的经过滤的列表,搜索结果的所述经过滤的列表中的每个搜索结果都与所述至少一个实体类型的实体有关; 将搜索结果的所述经过滤的列表与解析的实体列表相比较(1016),以便确定由所述多个预定源中的不同源识别的等同实体; 通过合并确定为已经被所述多个预定源中的所述不同源识别的所述等同实体来创建(1018)搜索结果的合并列表,搜索结果的所述合并列表中的每个搜索结果都与所述实体类型的不同实体有关;以及 基于排名值对搜索结果的所述合并列表进行排序(1020),其中,分配给搜索结果的所述合并列表中的搜索结果中的至少一个的排名值是从针对这样实体而提供的单独的排名值所计算的合计排名值,所述实体与所述搜索结果中的所述至少一个相关联,所述单独的排名值由所述多个预定源中的所述不同源的至少一部分提供。
10.根据权利要求9所述的方法,其中,关于所述至少一个实体类型过滤搜索结果的所述列表以便创建搜索结果的所述经过滤的列表包括至少部分地通过利用统一资源定位符模式来过滤搜索结果的所述列表。
11.根据权利要求9所述的方法,进一步包括呈现搜索结果的所述经排序的列表的至少一部分。
12.根据权利要求11所述的方法,其中,与搜索结果的所述经排序的列表的所述被呈现的部分中的至少一个搜索结果相关联的信息是从所述多个预定源中的多个源导出的。
13.根据权利要求12所述的方法,其中,从所述多个预定源中的所说的多个源的至少一个中导出的所述信息不被呈现。
14.根据权利要求12所述的方法,进一步包括呈现所述多个预定源中的所说的多个源的至少一部分的指示,与所述至少一个搜索结果相关联的所述信息是从其导出的。
15.根据权利要求14所述的方法,其中,所述多个预定源中的所说的多个源的所述指示的至少一部分是可选择的。
全文摘要
提供了用于通过利用实体类型表征来提供丰富搜索体验的系统、方法以及计算机可读存储媒体。搜索查询被接收并且实体类型针对所述查询被确定。针对所述查询的Web搜索然后针对确定为对于已确定的实体类型是权威的源的预定列表被执行。源特定搜索的结果基于所述实体类型而被过滤,提供了结果的经过滤的列表,所述结果各与确定为与所述查询相关联的所述实体类型的实体有关。所述经过滤的列表然后被与解析的实体的列表相比较以确定由不同的搜索到的源识别的等同实体,所述等同实体被组合成单个潜在的搜索结果。所述合并的搜索结果然后基于排名值被排序。所述结果的至少一部分然后可以被呈现给用户。
文档编号G06F17/30GK103064954SQ20121058500
公开日2013年4月24日 申请日期2012年12月28日 优先权日2011年12月30日
发明者A.K.钱德拉, O.J.达布罗夫斯基, D.J.格梅尔, B.鲁宾斯坦 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1