用于分类搜索结果以确定页面元素的方法和系统的制作方法

文档序号:6479109阅读:173来源:国知局
专利名称:用于分类搜索结果以确定页面元素的方法和系统的制作方法
技术领域
本发明涉及响应于搜索确定待显示的页面元素。
背景技术
搜索引擎使用户能够搜索网页。用户可以将查询提交给搜索引擎。在一个示例 中,用户可以使用客户端上的浏览器来提交查询。浏览器可以将查询作为超文本传输协议 (HTTP)请求发送。可以将包含查询的HTTP请求发送给服务器。服务器进而将该HTTP请求 发送到搜索引擎上。搜索引擎将结果的集合返回给服务器。服务器可以生成向用户显示结 果的集合的页面。在一个示例中,可以以超文本标记语言(HTML)对页面编码。服务器然后 可以将页面作为HTTP向应发送给客户端。浏览器然后可以呈现页面以供用户查看。除结果的集合外,服务器可以将页面元素包括在页面上。页面元素可以对应于分 类。服务器可以确定分类,并且触发对应于该分类的页面元素。传统方法基于查询来确定分类。由于查询可能是用户的意图的不明确指示符,所 以这种方法会有问题。例如,如果查询为“burns”,则可能在页面中生成与医疗条件有关的 页面元素。然而,如果用户用“burns”是指喜剧演员George Burns,则与医疗条件有关的页 面元素可能与用户不相关。需要用来生成更准确地对应于用户的意图的页面元素的方法和系统。

发明内容
本发明涉及响应于搜索确定待显示的页面元素。本发明的一个方法实施例基于搜 索结果的集合来确定页面元素。该方法包括(1)基于搜索结果的集合来确定结果分类的 集合,以及(2)基于结果分类的集合来确定页面元素。每一个结果分类包括结果类别和结 果分值。本发明的一个系统实施例基于搜索结果来生成页面。该系统包括基于搜索结果来 确定结果分类的集合的至少一个分类器。每一个结果分类包括结果类别和结果分值。页面 元素触发管理器基于结果分类的集合来生成页面。在一个实施例中,至少一个分类器可以 包括URL分类器、标签分类器、标签直方图分类器、摘录分类器以及标题分类器中的至少一 个。这样,基于搜索结果来确定分类,并且基于分类来生成页面元素。通过使用搜索结 果,与仅仅使用查询相对,生成与搜索结果内的对用户的查询的主导(predominant)解释 相对应的页面元素。结果,在大部分情况下,页面元素可以准确对应于用户的意图。在下面将参考附图详细描述本发明的更多实施例、特征和优势,以及本发明的各种实施例的结构和操作。


参考附图描述本发明的实施例。在附图中,相同的参考数字可以指示相同的或功 能上相似的元素。图1是根据本发明的实施例的用于通过对搜索结果分类来显示页面的系统的体 系结构图。图2更详细地示出了图1中的系统的组件。图3示出了图2的组件可以如何互相操作,包括组件可以相互发送的数据。图4A和4B更详细地示出了图3的数据结构。图5A包含示出根据本发明的实施例的用于通过对搜索结果分类来显示页面的方 法的流程图,所述方法可以在图1中的系统的操作中使用。图5B图示了用来执行在图5A中示出的用来对搜索结果分类的步骤的各种方法。图5C图示了用来执行在图5A中示出的用来确定页面元素的步骤的各种替选方法。图6图示了来自图5B的用于通过确定类别和权重基于来自搜索结果的统一资源 定位符(URL)、标题或摘录对搜索结果分类的一种方法。图7图示了在基于URL对搜索结果分类时,图6中的方法所使用的确定类别和权 重的方法。图8图示了在基于标题或摘录对搜索结果分类时,图6中的方法所使用的确定类 别和权重的方法。图9图示了来自图5B中的方法的用于基于来自搜索结果的标签对搜索结果分类 的步骤。图10更详细地图示了来自图5B中的方法的用于基于标签直方图对搜索结果分类 的步骤。图11更详细地图示了来自图5A中的方法的用于确定显示哪些页面元素的步骤。图12A和12B图示了来自图11中的方法的用于基于搜索结果的分类来确定显示 哪些页面元素的步骤的替选方法。图13图示了搜索结果的示例集合。图14A-C图示了类别的示例层级。图15-17图示了根据图6和图7中的方法来确定URL分类的示例操作。图18图示了根据图8中的方法来确定标题或摘录的类别和权重的示例操作。图19图示了根据图9中的方法来确定标签分类的示例。图20图示了根据图10中的方法来确定标签直方图分类的示例。图21图示了基于分类器权重来确定分值的示例。
具体实施例方式本发明涉及用于对搜索结果分类以确定待显示的页面元素的系统和方法。本发明 的实施例对搜索结果分类并且使用分类来确定在生成供显示的页面中使用哪些页面元素。通过对搜索结果分类,与仅仅使用查询相对,本发明的实施例生成与搜索结果内的对用户 的查询的主导解释相对应的页面元素。结果,在大部分情况下,页面元素可以准确对应于用 户的意图。本发明在此的详细描述中,对“一个实施例”、“实施例”、“示例实施例”等的引用指 示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以不必包括该特定 特征、结构或特性。此外,这样的短语不必是指同一实施例。此外,在关于实施例描述特定 特征、结构或特性时,所认为的是,关于无论是否明确描述的其它实施例实现这样的特征、 结构或特性在本领域技术人员的知识范围内。实施例的详细描述被分成数个部分。第一部分关于图1-4B描述根据本发明的实 施例的系统。第二部分关于图5A-12B描述根据本发明的实施例的方法,其可以在系统的操 作中使用。第三部分关于图13-21图示了方法的示例。系统本部分关于图1-4B描述了根据本发明的实施例的系统。图1是根据本发明的实施例的用于通过对搜索结果分类来显示页面的系统的体 系结构图。图1示出了系统100。系统100包括由一个或多个网络120连接的客户端110、 搜索引擎140以及服务器150。客户端110、搜索引擎140和服务器150中的每一个可以在计算设备上实现。这 样的计算设备可以包括但不限于个人计算机、诸如移动电话的移动设备、工作站、嵌入式系 统、游戏控制台、电视或机顶盒。这样的计算设备可以包括但不限于具有用于执行以及存储 指令的处理器和存储器的设备。这样的计算设备可以包括软件、固件以及硬件。软件可以 包括一个或多个应用和操作系统。硬件可以包括但不限于处理器、存储器和图形用户界面 显不。客户端110、搜索引擎140和服务器150可以在同一或不同位置处的一个或多个计 算设备上实现。例如,客户端110、搜索引擎140和服务器150可以在耦接到诸如网络120 的网络的不同计算设备上而互相远离。在又一个示例中,服务器150和搜索引擎140可以 在共同位置处的一个或多个计算设备上实现并且通过网络120耦接到远程客户端110。可 以使用用于布置客户端110、服务器150和搜索引擎140的其它组合和配置,这对本描述的 领域的技术人员而言是显而易见的。网络120可以是携载数据通信的任何网络或网络的组合。这样的网络120可以包 括但不限于局域网、中域网和/或诸如因特网的广域网。网络120可以支持包括但不限于 万维网协议和/或服务的协议和技术。可以基于特定应用或环境在系统100的组件之间提 供中间web服务器、网关或其它服务器。客户端110包括浏览器112。例如,浏览器112可以是web浏览器或用于浏览内 容的其它类型的浏览器。浏览器112可以通过网络120将请求发送给服务器150并且从服 务器150接收响应。作为一个示例,而不限制本发明,请求可以是HTTP请求。HTTP请求可 以包含用户使用用户界面输入的参数。响应可以是HTTP响应。HTTP响应可以包含web内 容,诸如超文本标记语言(HTML)、图像、视频或多媒体内容。服务器150可以包括web服务器或可以耦接为与在相同或不同位置处的web服务 器通信。Web服务器是以HTTP响应对超文本传输协议(HTTP)请求作出响应的软件组件。作为说明性示例,web服务器可以不受限制地为Apache HTTP服务器、Apache Tomcat、微 软互联网信息服务器、JBoss应用服务器、WebLogic应用服务器或Sun Java系统Web服务 器。Web服务器可以包含响应于HTTP请求而生成内容的web应用。Web服务器可以对所生 成的内容进行封装并且以HTTP响应的形式将内容派发给客户端。这样的内容可以包括超 文本标记语言(HTML)、可扩展标记语言(XML)、文档、视频、图像、多媒体特征或以上的任何 组合。该示例是绝对说明性的并且不限制本发明。根据实施例,服务器150包括页面生成器160。页面生成器160确定待显示哪些页 面元素并且生成包含那些页面元素的页面。在说明性示例中,页面可以包括搜索结果和根 据本发明的实施例确定包括在页面中的其它页面元素。在一个示例中,可以以HTML对页面 编码以及页面元素可以是包含一些文本的HTML的部分。该示例是说明性的并且并不意在 限制本发明。在实施例中,页面生成器160包括页面元素触发管理器165和搜索分类器163。页 面元素触发管理器165触发页面元素。页面元素是包括一些内容的页面的部分。搜索分类器163基于搜索结果确定至少一个分类。每一个分类可以包括类别和分 值。页面元素触发管理器165使用分类来确定在生成页面中使用哪些页面元素。这将在下 面详细描述。通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成与如由搜 索结果所表示的搜索引擎140对用户的查询的主导解释相对应的页面。结果,在大部分情 况下,页面元素可以准确对应于用户的意图。浏览器112、页面生成器160、搜索分类器163、页面元素触发管理器165以及搜索 分类器163中的每一个可以作为软件、硬件、固件或以上的任何组合来实现。图2示出了系统100的组件。如图2中所示,客户端110可以与服务器150通信, 以及服务器150可以与搜索引擎140通信。如前所述,该通信可以在诸如因特网的一个或 多个网络120上发生。服务器150包含查询分类器202。查询分类器202基于查询来确定查询分类。查 询分类可以包括类别和分值。在实施例中,页面元素触发管理器165可以协同来自搜索分 类器163的分类使用查询分类来确定在生成页面中使用哪些页面元素。通过使用搜索结果 来确定显示哪些页面元素,服务器150生成与搜索引擎140对用户的查询的主导解释相对 应的页面。结果,在大部分情况下,页面元素可以准确对应于用户的意图。页面生成器160包括页面元素触发管理器165和搜索分类器163。搜索分类器163 可以包括URL (统一资源定位符)分类器220、标签分类器222、标签直方图分类器224、摘录 分类器226和/或标题分类器228。那些组件中的每一个可以基于由搜索引擎140生成的 搜索结果的部分来生成分类。URL分类器220基于URL来确定分类;标签分类器222基于 标签来确定分类;标签直方图分类器224基于标签来确定分类;摘录分类器226基于摘录 来确定分类;以及标题分类器228基于标题来确定分类。分类然后由页面元素触发管理器 165使用来选择页面元素。在下面将更详细地描述如何生成每一个分类以及如何基于那些 分类来选择页面元素。通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成 与搜索引擎140对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素 可以准确对应于用户的意图。查询分类器202、URL分类器220、标签分类器222、标签直方图分类器224、摘录分类器226和标题分类器228中的每一个可以作为硬件、软件、固件或以上的任何组合来实 现。图3示出了系统100的组件可以如何互相操作,包括组件可以相互发送的数据。浏览器112可以将查询302发送给服务器150。一个示例,查询302可以是由浏 览器使用HTML表单生成的HTTP参数。在一个示例中,HTML表单可以由用户界面向用户显 示。用户使用用户界面将表示查询的数据输入到HTML表单中。用户然后按下在HTML表单 上的提交按钮。这触发浏览器生成包括作为HTTP参数的查询302的HTTP请求。该示例仅 为说明性的并且并不意在限制本发明。一旦服务器150接收查询302,查询分类器202可以使用查询302来生成查询分类 304。在一个示例中,查询分类304可以包括类别和分值。页面元素触发管理器165可以协 同来自搜索分类器163的分类使用查询分类304来确定显示哪些页面元素。服务器150还将查询302发送到搜索引擎140上。响应于查询302,搜索引擎140 生成搜索结果306。搜索引擎140可以使用任何已知的搜索技术来生成搜索结果306。搜 索结果306包括来自搜索的命中项和关于命中项的信息。将在下面关于图4A更详细地描 述搜索结果306。并不是为查询找到的所有命中项均必须在结果集合中出现。搜索结果306由服务器150和每一个分类器220至228接收。每一个分类器220 至228分析搜索结果的不同部分并且返回分类响应308。每一个分类响应308包括分类。 将在下面关于图4B提供关于分类响应308的更多细节。页面元素触发管理器165使用分类响应308来生成页面310。页面310包括基于 分类响应308确定的页面元素。一旦生成页面310,服务器150将页面310发送到客户端 110上以由浏览器112显示。图4A和4B更详细地示出了图3的数据结构。图4A示出了搜索结果306的结构。搜索结果306包括结果集合410和标签直方 图430。结果集合410包括结果430A-N。示出了多个结果,但实际上可能使用一个或多个。 每一个结果430A-N表示搜索中的命中项。在web搜索的示例中,命中项表示所找到的与查 询302有关的网站。每一个结果430A至N包含位置412、URL 416、标题414、摘录418以及标签420。 位置412为在结果集合中的位置。通常,位置412与相关性有关。例如,更相关的结果在结 果集合中较前面,从而具有较低的位置412。URL 416是所找到的网站的统一资源定位符。 标题414可以是所找到的网站的标题。摘录418是来自所找到的网站的节选。标签420是 描述网站内容的标签。结果可以具有零或多个标签420。搜索结果306还包含标签直方图402。标签直方图402包括标签的列表和对应的 频率。频率可以指示该标签在搜索结果的集合中的实例的数量。图4B示出了分类响应308。分类响应308包括分类集合440。分类集合440包括 分类446A-N。为了清晰,示出了多个分类446A-N,但是实际上可能使用一个或多个。分类 集合440中的每一个元素还包含类别442和分值444。为了清晰,来自URL分类器220的分 类可以被称为URL分类;来自标签分类器222的分类可以被称为标签分类;来自标签直方 图分类器224的分类可以被称为标签直方图分类;来自摘录分类器226的分类可以被称为 摘录分类;以及来自标题分类器228的分类可以被称为标题分类。
10
分类响应308还包括文档的数量450。文档的数量450可以指示分类器用来生成 分类的结果的数量。操作本部分关于图5A-12B描述了根据本发明的实施例的方法,其可以在系统的操作 中使用。图5A包含示出根据本发明的实施例的用于通过对搜索结果分类来显示页面的方 法的流程图,所述方法可以在系统100的操作中使用。图5A包含方法500。为了清晰,关于系统100来描述方法500,并不意在局限于此。方法500是用来生成页面的方法的高层次概述。方法500以接收查询(步骤502) 开始。例如,查询可以是从浏览器112发送到服务器150的查询302。然后,基于查询确定查 询分类。查询分类器202可以确定查询分类。诸如搜索引擎140的搜索引擎接收查询(步 骤506)。例如,由服务器150接收搜索引擎生成的搜索结果(步骤504)。基于搜索结果确 定分类响应(步骤510)。将在下面进一步详细描述步骤510。基于分类响应和/或查询分 类生成页面(步骤512)。将在下面进一步详细描述该步骤。最后,输出页面(步骤514)。 例如,可以在步骤514将页面从服务器150输出到浏览器112,并且在步骤516浏览器112 显示页面310。通过使用搜索结果来确定显示哪些页面元素,方法500生成与搜索结果内的对用 户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确对应于用户 的意图。步骤510可以随所使用的分类器而变化。图5B示出了方法可以在各种分类器之 间如何变化。图5B示出了确定URL、标题或摘录分类过程使用方法510A。方法510A取决 于正对URL分类还是正对标题或摘录分类。如果正对URL分类,则在610A确定URL权重和 类别。如果正在确定标题或摘录类别,则方法510A使用方法610B来确定标题或摘录类别 和权重。标签分类器222使用方法510B。标签直方图分类使用方法510C。将在下面更详 细地描述方法。步骤512也可以变化。在图5C中示出了步骤512的两个替选。作为替选,步骤 512可以利用负信号或正信号。在方法1106A中说明了负信号,而在1106B中说明了正信 号。将在下面更详细地描述方法。图6示出了用于确定URL、标题或摘录分类的方法510A。方法510A可以例如由URL 分类器220、摘录分类器226或标题分类器228使用。方法510A以为搜索结果306中的每 一个结果确定类别和对应的权重(步骤602)开始。将在下面更详细地描述步骤602。然 后,根据其在搜索结果306中的位置调节每一个权重(步骤604)。合计(aggregate)关于 每一个类别的权重以确定该类别的分值(步骤606)。然后,可选的步骤基于子类别来合计 权重以确定分类响应308 (步骤608)。该方法例如可以由URL分类器220、摘录分类器226 和标题分类器228执行。图7图示了在基于URL对搜索结果分类时,方法510A在步骤602所使用的确定类 别和权重的方法。图7示出了方法602A。方法602A以为整个URL确定类别和对应的权重 (步骤702)开始。然后,方法602A仅为URL的主机名确定类别和对应的权重(步骤704)。 在两个情况下,可以例如使用简单的查找表来确定类别和权重。然后,可以为完整URL和仅
11主机名的权重确定加权平均值(步骤706)。该方法例如可以由URL分类器220执行。图8图示了在基于标题或摘录对搜索结果分类时,方法510A在步骤602所使用的 确定类别和权重的方法。方法602B示出了关于标题或摘录的步骤602的示例。循环变量n 等于1 (步骤802)。方法602B为具有长度n的每一个单词序列确定类别(步骤804)。这 可以例如使用简单的查找表来确定。每一个类别的权重作为n的函数来确定(步骤806)。 例如,一个单词的序列产生比五个单词的序列低的权重。控制随标题或摘录中的单词的数 量是否等于n而改变(判定块808)。如果在标题或摘录中的单词的数量等于n,则n递增 (步骤810),否则方法602B结束。该方法例如可以由摘录分类器226和标题分类器228执 行。图9图示了由方法500使用的用于基于来自搜索结果的标签对搜索结果分类的方 法。图9图示了用于确定标签分类的方法510B。作为一个示例,标签分类可以由标签 分类器222确定。方法510B以检查前n个搜索结果的标签(步骤902)开始。然后,对于 每一个标签,方法510B为该标签确定所有的标签类别(步骤904)。这可以例如使用简单的 查找表来确定。方法510B通过采用符合特定类别的所有标签与标签的数量的比率,来为该 特定类别确定权重(步骤906)。图10图示了由方法500使用的用于基于标签直方图来对搜索结果分类的方法。图10图示了用于确定标签直方图分类的方法510C。作为一个示例,标签直方图分 类可以由标签直方图分类器224确定。方法510C以检查前n个标签分布(步骤1002)开 始。然后,将每一个标签映射到一个类别(步骤1004)。类别可以例如使用简单的查找表来 确定。最后,基于分布为每一个类别确定分值(步骤1006)。图11图示了由方法500使用的用于生成页面的方法。图11包含方法512,其更详 细地图示了方法500中的步骤512。在一个示例中,方法512可以由页面元素触发管理器 165执行。方法512以移除具有低于某一阈值的分值的分类(步骤1102)开始。接着,方法 512确定结果分类集合。结果分类集合是结果分类的集合。每一个结果分类包含类别和分 值。方法512可以基于分类器权重来确定结果分值(步骤1104)。作为一个示例,可以使用 加权平均值来确定结果分值。可以使用自适应最优化算法来对权重进行优化。自适应最优 化算法的示例包括但不限于爬山法、随机爬山法、A星法或遗传算法。可以使用文档的数量 450来对权重进行优化。在未示出的步骤中可以将结果分类集合与所使用的结果的数量封装在一起。共同 地,这形成分类响应。方法512使用结果分类来确定显示哪些页面元素(步骤1106)。将在下面更详细 地论述步骤1106的数个变更。在步骤1106后,方法512结束。图12A和12B图示了来自方法512的用于基于搜索结果的分类来确定显示哪些页 面元素的步骤1106的替选方法。图12A示出了方法1106A。方法1106A协同结果分类使用查询分类。方法1106A 以评估查询分类是否在前N个结果分类中(判定块1202)开始。如果查询分类是前N个 结果分类,则方法1106A允许显示与查询分类相关联的页面元素(步骤1204)。否则,方法
121106A不允许显示与查询分类相关联的页面元素(步骤1206)。图12B示出了方法1106B。方法1106B显示与具有最高分值的结果分类相关联的 页面元素(步骤1202)。通过使用搜索结果来确定显示哪些页面元素,页面生成器160生成与搜索结果内 的对用户的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确反映 用户的意图。示例操作本部分描述本发明的实施例中的方法500的示例。同样,该示例说明了本发明的 实施例中的系统100的操作。该示例是说明性的,并且并不意在限制本发明。示例搜索结果图13图示了示例搜索结果1300。搜索结果1300可以由诸如搜索引擎140的搜索 引擎响应于诸如查询302的查询而生成。图13示出了示例结果集合1302和示例标签直方图1304。示例结果集合1302包 含N个结果。在所述N个结果中,结果1320被示出在位置1,结果1330被示出在位置2以 及结果1340被示出在位置3。结果集合1302作为表示出,其中每一行示出了结果以及每 一列示出了结果的元素。列1306示出了位置。列1308示出了标题。列1310示出了摘录。 列1312示出了 URL。列1314示出了一个或多个标签。在所提供的示例中,结果1320和结果1330与烧伤(burns)医疗条件有关,而结果 1340与喜剧演员George Burns有关。简洁起见,许多稍后的示例仅使用这些结果,然而,可 以使用任何数量的结果。标签直方图1304示出了搜索结果中的各种标签以及对应的频率。一旦每一个分类器接收示例搜索结果1306,每一个分类器确定诸如分类响应308 的分类响应。确定示例分类响应—旦每一个分类器接收示例搜索结果1306,每一个分类器确定分类响应。如关于 图4B所描述的,每一个分类响应包含一个或多个分类。每一个分类包括类别和分值。首先, 本部分关于图14A-C描述示例类别。其次,本部分关于图15-19描述每一个分类器如何确 定分类响应。图14A-C示出了在该示例中使用的类别的层级。可以将类别结构化为树。树包含 根类别。根类别可以具有孩子类别。孩子类别可以是进一步孩子类别的父母。图14A示出了与健康(health)有关的类别树。该树的根是根类别“health”。该 根类别具有孩子“health/conditions (健康/条件)”和“health/treatment (健康/治 疗)”。类别“health/health-conditions (健康/健康-条件)”具有进一步的孩子“health/ health-conditions/burns (健康 / 健康-条件 / 烧伤),,。图14B示出了与政府(government)有关的类别树。在该树的根处为根类别 "government”。该根类另Ij具有孩子"government/governmentagencies (政府 / 政府机构),, 和"government/federal (政府 / 联邦),,。图14C示出了与喜剧(comedy)有关的类别树。该树的根是类别“comedy”。该根 类别具有孩子“ comedy/TV (喜剧/电视)”和“ comedy/radio (喜剧/广播)”。
13
确定示例URL分类响应图15-17图示了根据方法510A和方法602B确定URL分类的示例操作。图15示出了 URL分类器的示例操作。为了确定URL分类,URL分类器必须对URL 类别和权重分类。这例如如方法602A中所示的那样来完成。方法602A以在步骤702为整个URL确定类别和对应的权重开始。这在图15中的 步骤1502处示出,其中将搜索结果1330的整个URL映射到类别和对应的权重的集合。注 意到,该类别的集合来自在图14A-C中示出的树。搜索结果1320和1340,整个URL为主机 名,因此在1504和1508分别为结果1320和1340确定整个URL的类别和权重。类别和权 重可以例如使用简单的查找表来确定。在步骤704,仅为URL的主机名部分确定类别和权重。在1506,为搜索结果1330 确定URL的主机名版本的类别和权重。在步骤1504和1508,分别为搜索结果1320和1340 确定类别和权重。类别和权重可以例如使用简单的查找表来确定。在计算了完整URL和仅主机名类别和权重后,必须确定URL的类别和权重。这可 以如在步骤706通过采用加权平均值来完成。在图16示出了一个示例。如果使用加权平 均值,则必须确定对应的仅主机名和完整URL的权重。在所示出的示例中,仅主机名的权重 为.3以及完整URL的权重为.7。两个权重必须总计达1。权重可以例如使用自适应最优 化算法来确定。由于结果1320和1340对于完整URL和仅主机名具有相同的权重,所以采 用加权平均值没有效果。然而,搜索结果1330具有不同的完整URL和主机名,因此必须如 在1602所示合计那两个值。图16如所示合计各种类别并示出新的权重。一旦确定每一个搜索结果的类别和权重,必须为每一个类别评估分值。这在图17 中示出。为了计算分值,如在步骤604,必须应用位置偏向。位置偏向调整权重,使得来自具 有较低位置的结果的权重计数大于具有较高位置的结果的。由于通常具有较低位置的结果 比具有较高位置的结果更相关,所以这使分值更准确。在图17中示出的示例中,位置偏向 为函数g(n) =ιΓ°_5。该函数在1702示出。该示例仅为说明性的,可以使用任何递减函数。 在表1704,根据位置偏向调节权重。换句话说,为每一个结果的每一个类别评估位置偏向, 并且根据对位置偏向的计算调节权重。调节后的权重在结果列中。最后,需要跨所有结果 合计权重以确定每一个类别的分值。这在1706示出。一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入URL分类 中。所有的URL分类共同形成URL分类集合。可以将URL分类集合与用来生成分类集合的 结果的数量封装在一起形成URL分类响应。确定示例标题或摘录分类响应图18图解了确定标签或摘录分类的摘录分类器226和标题分类器228的示例操 作,其在方法510A中图解。为了确定标签或摘录分类,必须确定类别和摘录的类别和权重。 这例如根据方法602B来完成。简洁起见,图18仅为一个标题-结果1330的标题图解了方法602B的示例。然而, 相同的过程被用于每一个结果的每一个标题和摘录。表1802示出了方法602B的示例。结 果 1330 的标题为 “Nationallnstitute of Health”。在步骤802,循环变量η被设置为1。在步骤804,为每个一个单词的序列确定类 别。行1810、1812和1814每一个包含一个单词的序列。每一个单词映射到至少一个类别。
14。接着在步骤806,将权重指定为循环变量η的函数。 在所示出的示例中,函数为在该特定短语中的单词的数量与在所评估的所有短语中的所有 的单词的数量的总和的数量的比率。该示例仅是说明性的,并且并不限制本发明。在此被 评估的跨所有大量的短语的所有单词的总和为10。对于在行1810、1812和1814的序列,单 词的数量为1,因此权重为1除以10或.1。在判定块808,控制随η是否等于标题或摘录中的单词的数量而改变。在此,标题 中的单词的数量等于3,以及η等于1。因此,控制行进到步骤810。在步骤810,将循环变量η递增至2。行1818和1816示出了在步骤804确定的两 个单词的序列。在行1818的序列为“Institute of Health”。在示例实施例中,由于“of” 为简短介词,所以这可以仅算作两个单词。在每一行1818和1816,确定类别。确定关于行 1818和1816的权重。最后一次递增循环变量η以使其等于3。行1820示出了三个单词的序列。确定类 别。最后,为该类别计算权重。一旦为所有标题和摘录确定了类别和权重,必须为每一个类别确定分值。这可以 如在图17中所示的通过向每一个应用位置偏向并且合计每一个类别的偏向后的权重来完 成。一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入标题或摘 录分类中。所有的标题或摘录分类共同形成标题或摘录分类集合。可以将标题或摘录分类 集合与用来生成分类集合的结果的数量封装在一起形成标题或摘录分类响应。确定示例标签分类响应图19图示了根据方法510Β确定标签分类的示例。步骤902检查前η个搜索结果。在示例中,前η个搜索结果为结果1320、1330和 1340。在步骤904,对于每一个标签,为该标签确定一个或多个类别。这可以利用例如简单 的查找表来完成。表1902示出了每一个结果的类别。行1910、1912和1914分别将标签映 射到结果1320、1330和1340的类别。步骤906通过采用与特定类别相关联的标签与标签的数量的比率来为每一个特 定类别确定分值。这在表1904中示出。一旦计算了每一个类别的分值,可以将每一个类别和对应的分值封装入标签分类 中。所有的标签分类共同形成标签分类集合。可以将标签分类集合与用来生成分类集合的 结果的数量封装在一起形成标签分类响应。确定示例标签直方图分类响应图20图示了根据方法510C确定标签直方图分类的示例操作。该方法可以在标签 直方图分类器224的操作中使用。表2002表示来自搜索结果的标签直方图。表2002包含标签的列表。每一个标签 映射到频率。步骤1002检查前η个标签分布。在此,η等于4,因此前4个标签分布被用来确定 标签直方图分类。4个标签分布在表2004处。步骤1004将每一个标签映射到至少一个类 别。表2004示出了标签如何映射到各个类别。下一步骤1006为每一个类别确定分值。以表2006来看步骤1006的示例。在该
15率的总和的比率来确定分值。在该情况下,所有频 率的总和为200加上50加上45加上20等于315。对于类别“health/treatment”,唯一 的出现在具有频率50的行2014。因此,分值为50除以315,其等于.16。类别“health/ health-conditions”在关于标签disease (疾病)的具有频率200的行2012和关于标签 treatment的具有频率50的行2014出现。200加上50的总和等于250。250除以315等 于· 79。类别“government/agencies”在具有频率20的标签government的行2018出现。 20除以315等于.06。Comedy在行2016的标签comedy处以频率45出现。45除以315等 于· 14。一旦计算每一个类别的分值,可以将每一个类别和对应的分值封装入标签直方图 分类中。所有的标签直方图分类共同形成标签直方图分类集合。可以将标签直方图分类集 合与用来生成分类集合的结果的数量封装在一起形成直方图分类响应。确定待显示的示例页面元素图21图示了基于分类器权重来确定结果分类分值的示例。图21示出了用来确定 结果分类分值的步骤1104。表2002示出了来自分类步骤中的每一个的类别和分值。步骤 1508基于来自分类器中的每一个的分类的分值确定结果分值。在所示出的示例中,加权平 均值被用来确定结果分值。加权平均值使用如在2016示出的权重。可以使用对各种分类 器的使用进行优化的自适应最优化算法来调整权重。作为一个示例,还可以使用在每一个 分类响应中的结果的数量来确定权重。表2014示出了类别中的每一个的加权平均值计算。该计算的结果为结果分值。类 别和结果分值的组合为结果分类。所有的结果分类共同形成结果分类集合。在可选的步骤(未示出)中,可以基于子类别对结果分值进行合计。例如,类别 “health/health-conditions” 的结果分值为类别 “health/health-conditions” 和子类别 “health/health-conditions/burns”的分值的合计。进一步,类别“health”的结果分值为 类别“health” 和子类别“health/health-conditions” 和“health/health-treatment” 的 分值的合计。结果分类集合可以由页面元素触发管理器165使用来确定页面310。页面元素触 发管理器1605可以如前所述使用负信号或正信号。在图12A中的步骤1106A示出了负信 号。在图12B的方法1106B示出了正信号。通过使用搜索结果来确定显示哪些页面元素,该示例生成与搜索结果内的对用户 的查询的主导解释相对应的页面。结果,在大部分情况下,页面元素可以准确反映用户的意 图。结论将理解的是,意在将具体实施方式
部分而非发明内容和摘要部分用来解释权利要 求。发明内容和摘要部分可以阐述如发明者预期的本发明的一个或多个而非所有示例实施 例,因此,其并不意在以任何方式限制本发明和所附权利要求。在上面借助于图示指定功能的实施方式和其关系的功能构件块来描述了本发明。 为描述简便起见,在此任意定义了这些功能构件块的界线。可以定义替选的界线,只要由此 恰当执行指定的功能和其关系。特定实施例的前述描述将如此全面地揭示本发明的一般本质,使得其他人能够通
16过应用本领域内的知识,在不必过度实验的情况下,在不背离本发明的一般概念的情况下, 来将这样的特定实施例容易地修改和/或更改为用于各种应用。因此,基于在此所呈现的 教导和指导,这样的更改和修改旨在所公开的实施例的等价物的含义和范围内。将理解的 是,在此的措词或用语是为了描述而非限制的目的,普通技术人员应根据教导和指导解释 本说明书的用语或措词。 本发明的宽度和范围不应当由任何上述示例实施例限制,而应当仅根据所附权利 要求和其等价物定义。
权利要求
一种用于基于搜索结果的集合确定页面元素的方法,包括(a)基于所述搜索结果的集合来确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;以及(b)基于所述结果分类的集合来确定所述页面元素。
2.如权利要求1所述的方法,其中步骤(a)的确定所述结果分类的集合包括(i)基于来自所述搜索结果的集合的URL确定URL分类的集合;以及( )基于所述URL分类的集合确定所述结果分类的集合。
3.如权利要求2所述的方法,其中步骤(i)的确定所述URL分类的集合包括(1)基于来自所述搜索结果的集合的所述URL来确定完整URL类别和对应的完整URL 权重的集合;(2)基于来自所述搜索结果的所述URL的主机名来确定主机名类别和对应的主机名权 重的集合;(3)基于所述完整URL类别和对应的完整URL权重的集合和所述主机名类别和对应的 主机名权重的集合来确定URL类别和对应的URL权重的集合;以及(4)基于所述URL类别和对应的URL权重的集合来确定所述URL分类的集合。
4.如权利要求3所述的方法,其中步骤(4)的确定所述URL分类的集合包括(A)根据在所述搜索结果中的所述URL的位置调整所述URL类别和对应的URL权重的 集合中的所述URL权重;以及(B)基于所述调整后的URL类别和对应的URL权重的集合来确定所述URL分类的集合。
5.如权利要求1所述的方法,进一步包括(c)基于查询确定查询分类,所述查询被用于生成所述搜索结果,其中所述查询分类包 括查询类别。
6.如权利要求5所述的方法,其中步骤(b)的确定所述页面元素包括(i)在所述查询类别在所述结果分类的集合中的所述结果类别之中时,选择与所述查 询类别相对应的所述页面元素。
7.如权利要求1所述的方法,其中步骤(b)的确定所述页面元素包括(i)选择与具有最高结果分值的结果类别相对应的所述页面元素,其中具有所述最高 分值的所述结果类别是为包含所有所述结果分类的所有所述分值的最高分值的所述结果 分类的部分的结果类别。
8.如权利要求1所述的方法,其中步骤(a)的确定所述结果分类的集合包括(i)基于来自所述搜索结果的标题确定标题分类的集合;以及( )基于所述标题分类的集合确定所述结果分类的集合。
9.如权利要求8所述的方法,其中步骤(a)的确定所述标题分类的集合包括(a)确定标题类别的集合,每一个类别对应于在所述搜索结果的集合中的标题中的单 词的序列;(b)确定与所述类别的集合中的每一个标题类别相对应的标题权重,其中每一个标题 权重对应于用来确定所述标题类别的所述单词的序列的长度;(c)根据所述搜索结果中的所述标题的位置调整所述标题类别和对应的标题权重的集 合中的所述标题权重;以及(d)基于所述调整后的标题类别和对应的标题权重的集合确定所述标题分类的集合。
10.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括 (i)基于来自所述搜索结果的集合的摘录确定摘录分类的集合;以及 ( )基于所述摘录分类的集合确定所述结果分类的集合。
11.如权利要求10所述的方法,其中步骤(a)的确定所述摘录分类的集合包括(1)确定摘录类别的集合,每一个类别对应于来自所述搜索结果的集合的摘录中的单 词的序列;(2)确定与所述类别的集合中的每一个摘录类别相对应的摘录权重,其中每一个摘录 权重对应于用来确定所述摘录类别的所述单词的序列的长度;(3)根据所述搜索结果中的所述摘录的位置调整所述摘录类别和对应的摘录权重的集 合中的所述摘录权重;以及(4)基于所述调整后的摘录类别和对应的摘录权重的集合确定所述摘录分类的集合。
12.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括 (i)确定来自所述搜索结果的集合的标签的集合;( )基于所述标签的集合确定类别的集合;(iii)为所述类别的集合中的每一个类别确定分值;以及(iv)基于所述类别的集合和每一个类别的所述分值确定所述结果分类的集合。
13.如权利要求12所述的方法,其中步骤(iii)的确定所述标签分值进一步包括 (1)采用与特定分类相关联的标签与所述标签的集合中的标签的数量的比率。
14.如权利要求1所述的方法,其中步骤(a)的确定所述分类包括(i)确定来自所述搜索结果的集合中的标签直方图的标签和对应的频率的集合; ( )基于所述标签的集合确定标签直方图类别的集合;(iii)为所述标签直方图类别的集合中的每一个类别确定标签直方图分值,其中所述 标签直方图类别和所述标签直方图分值的组合形成标签分类,其中所有的所述组合形成标 签分类的集合;以及(iv)基于所述标签分类的集合确定所述结果分类的集合。
15.如权利要求14所述的方法,其中步骤(iii)的确定所述标签直方图分值进一步包括(1)基于与每一个类别相对应的所述标签的所述频率,为所述标签直方图类别的集合 中的每一个类别确定所述标签直方图分值。
16.一种用于基于搜索结果生成页面的系统,包括至少一个分类器,所述至少一个分类器基于所述搜索结果的集合确定结果分类的集 合,其中每一个结果分类包括结果类别和结果分值;以及页面元素触发管理器,所述页面元素触发管理器基于所述结果分类的集合确定页面元ο
17.如权利要求16所述的系统,其中所述至少一个分类器包括URL分类器,所述URL分类器基于所述搜索结果的集合的URL确定URL分类的集合并且 基于所述URL分类的集合确定结果分类的集合。
18.如权利要求17所述的系统,其中所述URL分类器基于来自所述搜索结果的集合的所述URL确定完整URL类别和对应的完整URL权重,基于来自所述搜索结果的所述URL的 主机名来确定主机名类别和对应的主机名权重,以及基于所述完整URL类别和对应的完整 URL权重的集合和所述主机名类别和对应的主机名权重的集合来确定URL类别和对应的 URL权重的集合,以及基于所述URL类别和对应的URL权重的集合来确定所述URL分类的集合 O
19.如权利要求18所述的系统,其中所述URL分类器根据在所述搜索结果的集合中的 所述URL的位置调整所述URL类别和对应的URL权重的集合中的所述URL权重,并且基于 所述调整后的URL类别和对应的URL权重的集合来确定所述URL分类的集合。
20.如权利要求19所述的系统,进一步包括查询分类器,所述查询分类器基于查询确 定查询分类,所述查询被用于生成所述搜索结果的集合,其中所述查询分类包括查询类别。
21.如权利要求20所述的系统,其中当所述查询类别在所述结果分类的集合中的所述 结果类别之中时,所述页面元素触发管理器选择与所述查询类别相对应的页面元素。
22.如权利要求16所述的系统,其中所述页面元素触发管理器选择与具有最高结果分 值的结果类别相对应的页面元素,其中具有所述最高分值的所述结果类别是为包含所述结 果分类的集合中的所有所述结果分类的所有所述分值的最高分值的所述结果分类的部分 的结果类别。
23.如权利要求16所述的系统,其中所述至少一个分类器包括标题分类器,所述标题分类器基于来自所述搜索结果的集合的标题确定标题分类的集 合,并且基于所述标题分类的集合确定所述结果分类的集合。
24.如权利要求23所述的系统,其中所述标题分类器确定标题类别,所述标题类别对 应于所述标题中的单词的序列,确定与所述标题类别相对应的标题权重,其中每一个标题 权重对应于用来确定所述标题类别的所述单词的序列的长度,根据所述搜索结果的集合中 的所述标题的位置调整所述标题类别和对应的标题权重中的所述标题权重,以及基于所述 调整后的标题类别和对应的标题权重确定所述标题分类的集合。
25.如权利要求16所述的系统,其中所述至少一个分类器包括摘录分类器,所述摘录分类器基于来自所述搜索结果的集合的摘录确定摘录分类,并 且基于所述摘录分类的集合确定所述结果分类的集合。
26.如权利要求25所述的系统,其中所述摘录确定摘录类别,所述摘录类别对应于所 述摘录中的单词的序列,确定与所述摘录类别相对应的摘录权重,其中所述摘录权重对应 于用来确定所述摘录类别的所述单词的序列的长度,根据所述搜索结果的集合中的所述摘 录的位置调整所述摘录权重,以及基于所述调整后的摘录类别和对应的摘录权重的集合确 定所述摘录分类的集合。
27.如权利要求16所述的系统,其中所述至少一个分类器包括标签分类器,所述标签分类器确定来自所述搜索结果的集合的标签的集合,基于所述 标签的集合确定类别的集合,为所述类别的集合中的每一个类别确定分值以形成标签分类 的集合,以及基于所述标签分类的集合确定所述结果分类的集合。
28.如权利要求27所述的系统,其中所述标签分类器采用与特定分类相关联的标签与 所述标签的集合中的标签的数量的比率。
29.如权利要求16所述的系统,所述至少一个分类器包括标签直方图分类器,所述标签直方图分类器确定来自所述搜索结果的集合中的标签直 方图的标签和对应的频率的集合,基于所述标签的集合确定标签直方图类别的集合,为所 述标签直方图类别的集合中的每一个类别确定标签直方图分值,其中所述标签直方图类别 和所述标签直方图分值的组合形成标签直方图分类的集合,以及基于所述标签直方图分类 的集合确定所述结果分类的集合。
30.如权利要求29所述的系统,其中所述标签直方图分类器基于与每一个类别相对应 的所述标签的所述频率为所述标签直方图类别的集合中的每一个类别确定所述标签直方 图分值。
31.一种用于基于搜索结果生成页面的系统,包括URL分类器,所述URL分类器基于所述搜索结果的URL确定URL分类;标题分类器,所述标题分类器基于来自所述搜索结果的标题确定标题分类;摘录分类器,所述摘录分类器基于来自所述搜索结果的摘录确定摘录分类;标签分类器,所述标签分类器基于来自所述搜索结果的标签确定标签分类;标签直方图分类器,所述标签直方图分类器基于来自所述搜索结果的标签直方图确定 标签直方图分类;以及页面元素触发管理器,所述页面元素触发管理器基于所述URL分类、所述标题分类、所 述摘录分类、所述标签分类以及所述标签直方图分类来生成页面。
32.一种用于基于搜索结果的集合输出页面的方法,包括(a)基于所述搜索结果的集合确定结果分类的集合,其中每一个结果分类包括结果类 别和结果分值;(b)基于所述结果分类的集合确定页面元素;(c)基于所述页面元素生成页面;以及(d)输出所述页面。
全文摘要
本发明涉及响应于搜索确定待显示的页面元素。本发明的一个方法实施例基于搜索结果确定页面元素。该方法包括(1)基于搜索结果来确定结果分类的集合,其中每一个结果分类包括结果类别和结果分值;以及(2)基于结果分类的集合来确定页面元素。以这种方式,基于搜索结果确定分类并且基于分类生成页面元素。通过使用搜索结果与仅仅使用查询相对,生成与搜索结果内的对用户的查询的主导解释相对应的页面元素。结果,在大部分情况下,页面元素可以准确反映用户的意图。
文档编号G06F17/30GK101903878SQ200880119874
公开日2010年12月1日 申请日期2008年10月3日 优先权日2007年10月11日
发明者塔尼亚·贝得莱克斯-韦斯, 帕特里克·F·莱利, 拉马纳坦·V·古哈, 科琳·安德森 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1