基于监视用户行为生成网站简档的方法

文档序号:6454976阅读:160来源:国知局
专利名称:基于监视用户行为生成网站简档的方法
技术领域
本发明总体上涉及在计算机网络系统中的搜索引擎的领域,特别 涉及为网站生成简档并且响应于从网站提交的搜索查询使用该简档来 定制搜索结果的排名的系统和方法。
背景技术
搜索引擎是从因特网(或内联网)定位和检索文档的强大工具。 许多网站在其网页上包括至少一个搜索框。在特定网页上的搜索框典 型地使用户能够提交搜索查询以在与该网页相关联的网站上搜索文 档、或在因特网上搜索文档。然而,大部分网站不具有用于处理这些 搜索查询的专属、专用的搜索引擎系统。如果搜索框使得能够对整个 因特网搜索相关文档,则尤为如此。相反地,搜索查询被重定向到第 三方搜索引擎(例如,www.google.com)并且由其处理。第三方搜索 引擎响应于搜索査询(例如,通过搜索文档的数据库)生成搜索结果, 并且向请求用户返回搜索结果。
惯例地,第三方搜索引擎产生的搜索结果独立于提交搜索查询的 网站。例如,无论搜索査询是来自苹果计算机用户常访问的在线零售 电子商店的网站还是来自杂货店托管的在线购物网站,搜索引擎对于 搜索查询"苹果"都生成相同的搜索结果。明显地,到这两个网站的 访问者具有不同的兴趣并且应当接收不同的搜索结果。结果,对于搜
索查询"苹果"返回的搜索结果可能包括对到这些各个网站的访问者 来说没有多大兴趣的结果。
对于包括与不同的网页相关联的多个搜索框的网站,可能出现类 似的问题。例如,体育新闻网站可以具有涵盖国内新闻的一个网页以
8及专用于国际新闻的另一个网页。在国内新闻网页上的搜索框内输入 词语"足球"的用户可能对与美式足球相关的新闻感兴趣,而在国际 新闻网页上的搜索框内输入同一词语"足球"的用户可能对关于英式 足球(在美国以外其被认为是"足球")的新闻更感兴趣。如果体育 新闻网站具有涵盖不同运动的新闻的不同网页,并且在这些页面的每 一个中具有搜索框,则可能出现类似的问题。因此,当搜索引擎忽略 提交搜索查询的网页时,用户不能接收到最适合其独特兴趣的搜索结 果。
鉴于前述,所希望的是具有下述搜索引擎可以根据提交相对应 的搜索查询的网站(或网页)来定制其搜索结果,以使在对提交搜索 査询的用户来说最可能感兴趣的搜索结果中突出信息项。此外,所希 望的是这样的系统无需来自用户的关于用户的个人偏好和兴趣的明 确输入进行操作,因此使用户不用担心暴露私人信息。

发明内容
在对网站建档的方法中,信息服务器从网站接收不同用户提交的 多个搜索查询。响应于搜索查询向请求用户提供不同的搜索结果。信 息服务器监视在搜索结果上的用户行为,并且使用搜索查询和用户行 为为网站生成简档。
在提供依赖于网站的搜索结果的方法中,信息服务器从两个网站 接收相同的查询并且识别与搜索查询相关联的多个信息项。信息服务 器使用两个网站的简档来将信息项定制为两种不同的次序并且以该两 种不同的次序将信息项派发到两个网站。两个网站简档与两个网站的 搜索历史相关。
包括网站简档创建以及搜索结果重新排序和/或评分的本发明可 以在客户端-服务器网络环境的客户端侧或服务器端侧上实现。


当结合附图考虑时,作为本发明的优选实施例的详细描述的结果, 将在下文中更清楚地理解本发明的前述特征和优势以及本发明的附加 特征和优势。
图1是根据本发明的一些实施例的包括从信息服务器请求信息的 多个网站和客户端的示例分布式系统的框图。
图2是根据本发明的一些实施例的用于使用与网站(或网页)相 关联的搜索査询、搜索结果和用户行为生成网站(或网页)简档的过 程的流程图。
图3是根据本发明的一些实施例的用于通过将增加的网站(或网 页)简档合并入网站(或网页)简档来更新网站(或网页)简档的过 程的框图。
图4是表征从网站(或网页)提交的搜索查询的流行性分布的曲 线的预言性示例。
图5是示出了根据本发明的一些实施例的如何将创建网站简档的
过程分成多个子过程的框图。
图6A是根据本发明的一些实施例的可以被用于生成基于类别的 网站简档的示例类别图的框图。
图6B是根据本发明的一些实施例的可以被用于存储基于类别的 网站简档的示例数据结构的框图。
图7是根据本发明的一些实施例的可以被用于存储基于词语的网 站简档的示例数据结构的框图。
图8是根据本发明的一些实施例的可以被用于存储基于链接的网 站简档的示例数据结构的框图。
图9是根据本发明的一些实施例的用于使用网站简档来生成依赖 于网站的搜索结果的过程的流程图。
图IO是根据本发明的一些实施例的示例数据结构的框图,所述示 例数据结构可以被用于存储用于搜索结果中的文档的基于类别、基于 词语以及基于链接的提升因素。图11是根据本发明的一些实施例的用于使用网站简档来生成依 赖于网站的搜索结果的另一个过程的流程图。
图12是根据本发明的一些实施例的示例信息服务器的框图。
在附图的全部多个视图中,相同的参考标记是指相对应的部分。
具体实施例方式
为了说明性的目的,在下面论述的实施例仅包括基于与网站相关 联的搜索历史来生成网站简档,并且然后响应于从该网站提交的搜索 查询使用该网站简档来对搜索结果进行排名的系统和方法。然而,对 本领域的技术人员显而易见的是,在下面论述的基本原理可以被容易 地扩展来创建网页简档并且使用该网页简档来生成依赖于网页的搜索 结果。
图1是用于实现本发明的一些实施例的示例环境100的框图。一 个或多个网站102和客户端103可以被连接到通信网络104。通信网络 104可以被连接到信息服务器106。信息服务器106可以包括前端服务 器120、搜索引擎122、文档建档器125、网站建档器129、搜索结果 排名器126、文档简档数据库123、内容数据库124、搜索历史数据库 127以及网站简档数据库12S。
在一些实施例中,信息服务器106包含图1中所示的元件的子集 或超集。尽管图1将信息服务器106示出为多个离散项,但是该图更 意在作为可以在信息服务器106中展现的各种特征的功能性描述而非 各种实施例的结构性示意图。实际上,如在设计这样的系统的领域中 的普通技术人员将认识到的那样,分离示出的项可以被组合并且某些 项可以被进一步分离。例如,在图中分离示出的四个不同的数据库123、 124、 127和128可以由单个数据库服务器来实现。构成信息服务器106 的计算机的实际数量以及在计算机中的特征的分配将根据实施方式而 有所不同,并且可以部分根据信息服务器106在高峰使用期间以及在平均使用期间必须处理的流量。
网站102典型地是与因特网上的域名相关联的网页的集合。每一 个网站(或网页)具有在因特网上唯一识别该网站(或网页)的位置 的统一资源定位符(URL)。任何访问者可以通过在浏览器窗口中输
入网站的URL来访问该网站。网站可以由域名的所有者专有的web服 务器或其中其web服务器管理与不同域名相关联的多个网站的因特网
服务提供商托管。为了说明性的目的,网站102包括两个网页114和 116,每一个分别具有相关联的搜索框115和117。通过搜索框115 (或 117),到网页114 (或116)的访问者可以通过将搜索查询输入到搜 索框中来对网站102或整个因特网搜索相关信息。根据上下文,如在 该文档中所使用的术语"网站"是指由URL识别的逻辑位置(例如, 因特网或内联网位置)、或其是指托管由URL表示的网站的web服务 器、或指这两者。
客户端103可以是多个装置中的任何装置(例如,计算机、因特 网信息站、个人数字助理、蜂窝电话、游戏装置、台式计算机或膝上 型计算机),并且可以包括客户端应用132、客户端助理134和/或客 户端存储器136。客户端应用132可以是允许用户与客户端103禾口/或 网络资源相交互以执行一个或多个任务的软件应用。例如,客户端应 用132可以是允许用户从客户端103搜索、浏览和/或使用和/或经由通 信网络104可以访问在网站102的资源(例如,网页和web服务)的 浏览器(例如,Firefox)或其它类型的应用。客户端助理134可以是 执行与监视或辅助关于客户端应用132和/或其它应用的用户行为相关 的一个或多个任务的软件应用。例如,客户端助理134辅助在客户端 103的用户浏览由网站102托管的资源(例如,文件);处理从信息服 务器106接收的信息(例如,搜索结果);以及监视在搜索结果上的 用户行为。在一些实施例中,客户端助理134是客户端应用132的一 部分,其可作为客户端应用132的插件或扩展获得(例如,从各种在 线源提供),而在其它的实施例中,客户端应用是与客户端应用132分离的单机程序。在一些实施例中,客户端助理134被嵌入在从诸如 信息服务器106的一个或多个服务器下载的一个或多个网页或其它文
档中。客户端存储器136可以存储诸如从信息服务器106接收的网页、
文档的信息、系统信息和/或关于用户的信息等。
通信网络104可以是任何有线或无线的局域网(LAN)和/或广域 网(WAN),诸如内联网、外联网或因特网。通信网络104在网站102、 客户端103和信息服务器106之间提供通信能力即可。在一些实施例 中,通信网络104使用超文本传输协议(HTTP)以使用传输控制协议 /网际协议(TCP/IP)来传输信息。HTTP允许客户端计算机访问经由 通信网络104可访问的各种资源。然而,本发明的各种实施例不限于 使用任何特定的协议。如该整个说明书所使用的术语"资源"是指经 由URL可访问的任何信息片段或服务,并且可以是例如网页、文档、 数据库、图像、计算对象、搜索引擎或其它在线信息服务。
为了接收依赖于网站的搜索结果,来自客户端103的用户首先向 网站102发送对网页的请求。网站通过识别所请求的网页作出响应, 并且将所识别的网页返回到请求客户端103。网页可以包括用户感兴趣 的文档(例如,报纸文章)。网页也可以包括搜索框(例如,在或靠 近网页的顶部)。当浏览网页的内容时或在浏览网页的内容后,用户 可能对获得更多的信息感兴趣。为了这样做,用户可以将搜索查询输 入到搜索框中,并且将搜索查询提交到网站102。搜索查询可以包括一 个或多个查询词语。
如上所述,许多网站没有专用的搜索引擎。其搜索请求实际上由 第三方搜索引擎处理。在一些实施例中,在接收搜索查询后,网站102 生成搜索请求并且将其发送到信息服务器106。在一些其它的实施例 中,客户端103生成搜索请求并且将其直接发送到信息服务器106而 不用通过网站102路由请求。在任一种情况中,搜索请求包括搜索査 询以及请求网站102和请求客户端103的唯一标识符。在信息服务器106内,前端服务器120被配置来处理经由网站102 和客户端103与通信网络104的各自的连接而来自网站102和客户端 103的各种请求。如图1中所示,分别地,前端服务器120被连接到搜 索引擎122并且搜索引擎122被连接到内容数据库124。内容数据库 124存储从不同网站检索的大量索引文档。替选地,或另外地,内容数 据库124存储在各种网站上存储的文档的索引。在一个实施例中,根 据文档的链接结构向每一个索引文档分配一页面排名。页面排名用作 文档的重要性的不依赖査询的测量。
前端服务器120将搜索请求传递到搜索引擎122上。搜索引擎122 然后响应于搜索请求与内容数据库124相通信来选择多个文档。搜索 引擎122基于文档的页面排名、与文档相关联的文本以及搜索查询向 每一个文档分配普通排名分值。
搜索引擎122还被连接到文档简档数据库123。文档简档数据库 123存储用于内容数据库124中的每一个索引文档的文档简档。文档简 档数据库123和内容数据库124都连接到文档建档器125。对于内容数 据库124中的每一个文档,文档建档器通过分析文档的内容和其链接 结构来生成文档简档。文档简档的生成独立于搜索引擎122的操作。 在一个实施例中,每当信息服务器106识别了因特网上的新文档或现 有文档的新版本,文档建档器125便被调用来生成文档简档。在另一 个实施例中,文档建档器125被周期性地调用来为在预定时间段内识 别的所有新文件生成文档简档。在一些实施例中,替代文档简档数据 库123和内容数据库124为两个单独的实体,文档简档数据库123和 内容数据库124被合并在一起,使得文档和其相关联的简档可以由单 个数据库査询来定位。
存在从搜索引擎122到搜索结果排名器126的连接。通过该连接, 搜索引擎122将所识别的文档和其相关联的文档简档发送到搜索结果
14排名器126。搜索结果排名器126具有到网站简档数据库128的连接。 如同文档简档数据库123,网站简档数据库128存储包括请求网站102 的简档的大量网站简档。使用请求网站102的简档,搜索结果排名器 126将每一个所识别的文档的普通排名分值转换为依赖于网站的排名 分值。然后根据文档各自的依赖于网站的排名分值对文档重新排序。 接着,搜索结果排名器126根据文档的更新次序创建搜索结果,搜索 结果包括多个文档链接,每一个文档一个链接。搜索结果或搜索结果 的一部分(例如,识别前10、 15或20个结果的信息)被返回到请求 客户端103并且通过客户端应用132向用户显示。在浏览了搜索结果 后,用户可以点击搜索结果中的一个或多个文档链接来下载并査看由 搜索结果识别的一个或多个文档。
虽然上面的描述以特定的方式将任务划分在搜索引擎122、搜索 结果排名器126和前端服务器120中,但是任务的这种特定划分是示 例性的,并且在本发明的其它实施例中可以使用其它的划分。例如, 可以将(接收搜索查询的网站的)网站简档与搜索查询一起传送到搜 索引擎122,并且搜索引擎122可以使用该信息来计算网站特定文档分 值,用于对搜索结果排名。实际上,这会将搜索结果排名器126合并 入搜索引擎122中。在还一些其它实施例中,可以使用任务的其它划 分。
派发依赖于网站的搜索结果的过程的重要方面是存储在网站简档 数据库128中的网站简档的生成和维护。网站简档应当反映相关联的 网站的用户的兴趣,并且在许多实施例中,网站简档对其相关联的网 站将是唯一的。例如,消费类电子网站应当具有提升与电子产品相关 的网页的网站简档,而在线杂货店网站应当具有提级与农产品相关的 网页的网站简档。
在大部分实施例中,网站简档不是静态的,因为静态网站简档不 太可能致使信息服务器106将最相关的搜索结果派发给相关联的网站的用户。替代地,时常更新网站简档(例如周期性地),以使用网站 的用户的当前兴趣来重新排列网站简档。虽然某些网站简档可以在很 长一段时间基本上保持静态(例如,为少许、静态用户群服务的网站, 所述用户从在之上只有很窄范围的主题的所述网站提交搜索),但是 许多网站简档将随时间推移随着网站的用户改变而变化,并且随着网 站的用户的兴趣随时间推移变化而变化。
在网站简档和用户简档之间存在相似性。两种简档都可以被用来 细微调整搜索引擎生成的搜索结果。两者都需要与至少一个用户的搜 索历史有关的信息,以便捕捉用户的动态搜索兴趣。但是在两种类型 的简档之间也存在显著差别。典型的用户简档是通过分析个人用户的 搜索历史来生成的。该用户简档仅被用来响应于同一用户提交的搜索 查询而调节搜索结果。对于相同的搜索查询,如果两个不同的用户具 有不同的用户简档,则其可以从同一搜索引擎接收不同的搜索结果。 相比之下,网站简档是通过分析多个用户在访问该网站时的搜索历史 来生成的,以表征多个用户的兴趣。该网站简档可以被用来响应于任 何用户从同一网站提交的搜索查询而调节搜索结果,所述用户包括其 先前对网站简档未作出"贡献"的网站的新用户。因此,如果两个网 站具有不同的网站简档,则从所述两个不同的网站提交相同的搜索查
询的同一用户可以接收不同的搜索结果。
在保护用户的隐私方面,网站简档相对于用户简档也具有重要优 势。用户简档与个人用户相关联。为了创建用户简档,个人用户明确 地或暗含地(例如,通过监视或记录搜索査询以及用户的其它在线行 为)需要完成其个人偏好的调査。该调查指示用户可能对哪些信息项 感兴趣。此外,用户必须在网站或搜索引擎系统具有账户,并且用户 必须登录入其账户以调用用户简档来使搜索结果个性化。相比之下, 网站简档的创建和使用不需要来自任何用户的任何个人信息。网站简 档与网站而不是个人用户相关联。在网站上的任何个人用户的行为被 归因于网站的所有用户。用户不需要为了使用网站简档而登录入其在网站的账户。只要从网站提交了搜索查询,信息服务器就自动根据网 站简档使相对应的搜索结果"个性化"。
如图1所示,网站建档器129负责生成和更新网站简档。为了捕 捉与特定网站相关联的当前用户兴趣,网站建档器129需要具有对在 网站处的用户搜索历史的访问权。用户搜索历史包括用户在访问网站 时提交的搜索査询、响应于搜索査询的搜索结果、以及在搜索结果上 的用户行为(例如,对文档链接的选择,有时称为对搜索结果的"点 击"、或在文档链接上的鼠标悬停时间)。
例如,当前端服务器120从网站接收搜索查询时,其向搜索引擎 122提交搜索查询的副本以要求搜索结果。另外,前端服务器120将搜 索査询的另一个副本发送到搜索历史数据库127。搜索历史数据库127 然后生成记录,该记录至少包括搜索査询和接收搜索查询的网站的标 识符。
响应于搜索查询,搜索结果排名器126准备搜索结果。搜索结果 (即,表示搜索结果的至少一部分的信息)通过前端服务器120被发 送回请求客户端。搜索结果或搜索结果的一部分的副本也与搜索查询 记录一起被存储在搜索历史数据库127中。在请求客户端的客户端助 理134监视在搜索结果上的请求用户的行为,例如,记录对搜索结果 中的文档链接的用户选择和/或在不同文档链接上的鼠标悬停时间。在 一些实施例中,客户端助理134或网站建档器129通过确定在用户选 择相对应的文档链接和用户从该文档退出之间的时间量来为用户选择 的文档确定文档"驻留时间"。在一些实施例中,客户端助理134包 括存储在包含搜索结果的网页中的可执行指令,所述指令监视关于搜 索结果的用户行动并且将与所监视的用户行动有关的信息传送回信息 服务器106。信息服务器106进而存储被转送回信息服务器106并且存 储在搜索历史数据库127中用于以后使用的与这些用户行为有关的信 息。
17例如,网站建档器129记录用户提交搜索查询的时刻(t0)、用 户点击在相对应的搜索结果中的第一文档链接的时刻(tl)以及用户点
击在搜索结果中的第二文档链接的时刻(t2)等等。两个连续时刻之间 的差(例如,tl-t0或t2-tl)是花费来査看用户选择了其链接的搜索结 果或文档的时间量的合理近似值。在一些实施例中,网站建档器129 没有与用户选择来查看的搜索结果中的最后文档的用户驻留时间有关 的信息。在一些其它的实施例中(例如,其中至少一些用户"选择加 入"收集与用户的在线行为有关的附加信息的客户端助理的版本), 网站建档器129在用户完成查看来自搜索结果的文档后还接收用户行 动的点击和时间戳信息。继续上面的示例,网站建档器129进一步记 录用户提交第二査询的时刻(t3)、用户从第二搜索结果选择文档的时 刻(t4)等等。此外,网站建档器129可以记录用户何时关闭被用来査 看搜索结果和在搜索结果中列出的文档的浏览器窗口或导航远离接收 查询的网站的时刻(t5)。该附加信息使网站建档器129能够为用户查 看的所有搜索结果文档(即,在搜索结果中列出的文档)确定用户驻 留时间,其进而使网站建档器129能够为网站生成更精确的网站简档。
基于网站的搜索历史信息,网站建档器129生成网站简档。图2 是根据本发明的一些实施例的用于使用网站的搜索历史来生成网站简 档的过程的流程图。初始,网站建档器129识别从网站提交的搜索査 询(210)。虽然在大部分情况下,这将包括从网站提交的所有搜索查 询,但是在非常流行或繁忙的网站的情况下,所识别的搜索查询可以 包括所提交的搜索査询的子集或取样。在预定时间内从网站提交的搜 索查询大概地代表使用该网站的用户的普遍兴趣。搜索查询与捕捉随 时间变化的动态用户兴趣尤其相关。与搜索查询结合,网站建档器129 识别相对应的搜索结果(215)。在一些实施例中,搜索结果与所嵌入 的客户端助理134 —起被派发到请求用户,该客户端助理134将与搜 索结果上的用户行为有关的信息发送到网站建档器127。网站建档器使 用客户端助理发送的信息来识别在搜索结果上的用户行为(230)。所识别的用户行为可以包括在搜索结果中的文档链接上的用户点击。在 另一个示例中,所识别的用户行为可以包括在文档链接上的鼠标悬停 时间。 一般而言,如果用户对文档的内容感兴趣,该用户才点击文档 链接。类似地,鼠标移动到特定文档链接上并且在那里停留大量时间 的事实指示该文档与用户的兴趣相关。在一些实施例中,可能无法使 用关于鼠标悬停时间的信息。
网站建档器129可以根据在不同搜索结果上的用户行为来识别网 站用户所选择的文档。在一些实施例中,网站建档器129访问内容数
据库124以检索相对应的文档的简档(235)。如上所述,每一个所识 别的文档可以具有先前生成的简档(例如,类别简档)。如果任何所 识别的文档还没有简档,则可以忽略那些文档、或网站建档器可以调 用文档建档器125来为那些文档产生文档简档。然后从所检索的文档 简档生成网站简档(240)。网站简档可以包括下列的一个或多个类 别的加权列表或向量(有时称为类别简档)、来自搜索查询和/或用户 所访问的文档的关键词(有时称为词语简档)、以及与指向用户所访 问的文档的链接有关的信息(有时称为链接简档)。该网站简档被存 储在网站简档数据库128中。搜索结果排名器126可以检索网站简档 以对搜索结果内的文档的排名重新排序。
在一些其它的实施例中,用聚类操作替代操作235和240,在所 述聚类操作中完全基于同一用户点击文档的相关联的链接的事实来聚 类用户所选择的文档。替选地,网站建档器对照与特定类别相关联的 一组已知URL来直接匹配文档的URL。在任一种情况下,网站建档器 129不需要为了生成网站简档而访问文档的内容。
在还一些其它实施例中,用将从网站提交的查询映射到一组类别 的过程来替代操作230至240。可以基于查询自身中的词语,或通过访 问前N个搜索结果(例如,前5、 10、 15或20个搜索结果)的简档、 将那些文档简档合并来为每一个查询产生査询简档并且合并查询简
19档,来根据网站的搜索框的用户提交的查询的频率对查询的归类进行 加权以生成网站简档。如在下面参考图4所论述的,该过程可以排除 被认为不可能与网站的用户的主要兴趣相关的査询。
如上所述,时常更新网站简档以便跟踪访问网站的用户的当前兴 趣(245)。在一些实施例中,在预定的时间间隔(例如,每周或每天) 更新网站简档。在一些其它的实施例中,每当自最后(即,最近)更 新后在网站处的新的搜索査询的数量达到阈值,便更新网站简档。每
当到更新网站简档的时候,网站建档器129重复前述过程来更新网站简档。
在一些实施例中,不同的网站吸引很大不同量值的流量,并且因 此在简档更新方面应当不同对待。例如,流行的网站每天可以接收好 几万点击,而不那么流行的网站可以具有低许多的点击率。搜索历史
数据库126可以为不同的网站分配存储空间量。结果,在网站的下一
排定的简档更新之前,与流行的网站相关联的搜索历史的量不会用尽 其指派的空间并且不那么流行的网站没有浪费太多空间。
某些网站太流行以致为了简档更新的目的将所有搜索历史存储在
搜索历史数据库127中是不切实际的。例如,在线书店在发布新的畅 销书时可以具有显著大量的访问者。在短时间段内具有显著流量的网 站存在两个问题。第一,该流量高峰可以使网站的简档有偏差。可能 需要特定的照顾来确保网站简档在网站用户的短期和长期兴趣之间具 有恰当的平衡。第二,搜索历史数据库127可能没有空间来存储所有 的搜索历史。解决该问题的一个方法是有意地忽略搜索查询、搜索结 果以及用户行为中的一些。这可以通过对搜索查询、搜索结果和/或用 户行为取样来完成,以便产生搜索历史的没有偏差的样本。虽然取样 的广度可以根据实施例而有所不同,但是试验表明包含几个月的用户 行为的搜索历史将具有足够的数据来生成可靠的网站简档,对于大部 分网站,只要(A)以避免显著偏差的方式完成取样,以及(B)其包括与几个星期有代表性的搜索历史相对应的用户行为数据。
替选地,空间不足问题可以通过为搜索历史的不同部分生成一系
列增加的(incremental)网站简档并且将增加的网站简档合并入网站简 档来解决。如图3所示,网站建档器129首先为搜索历史部分301生 成增加的简档311。每一个搜索历史部分301、 303、 305可以包括预定 义量的搜索历史信息,或其可以包括预定义时长(例如,小时)的搜 索历史信息,或其可以包括根据预定义的选择标准选择的搜索历史的 一部分。生成增加的网站简档的过程类似于在上面与图2结合论述的 过程。在表征网站用户的兴趣方面,增加的简档311等同于搜索历史 部分301。 一旦创建了增加的简档311,数据库中相对应的搜索历史部 分301可以被进入数据库的新条目覆盖(overwrite)。类似地,搜索严 史部分303可以在生成增加的简档313后被覆盖。在创建增加的简档 315后,网站建档器129可以通过将增加的简档311、 313和315合并 入老的网站简档331来创建新的网站简档337。简言之,通过为搜索历 史部分301、 303和305创建增加的网站简档并且通过将现有的网站简 档与增加的简档311、 313和315合并,网站建档器129能够考虑全部 搜索历史。
网站简档被用来响应于从特定网站提交的搜索查询而使搜索结果 "个性化"或"风味化(flavoring)"。在本说明书中的基本假设是这 些搜索查询与网站涵盖的主题或多或少相关。例如,对于高尔夫网站, 搜索査询"Tiger Woods (泰格'伍兹)"合理相关,而搜索査询"Britney Spears (布兰妮v斯皮尔斯)"可能毫不相关。但是用户将如"Britney Spears"的非常流行的词语输入到高尔夫网站上的搜索框中是非常可能 的。如果搜索框可以被用来搜索整个因特网这尤其可能。如果不仔细 过滤掉,则与这些流行但不相关的词语相关联的搜索历史可以严重"污 染"网站简档并且将搜索结果歪曲到意想不到的方向。网站简档的污 染的另一个源是尽管相关、但是具有非常低的流行性的查询词语。特 殊对待可能是必要的,以确保关于非常低的流行性查询词语的用户行为不会显著地使搜索结果有偏差。
图4是表征从网站提交的搜索查询的流行性分布的示例曲线400。
通过两个阈值415和425将所有的搜索查询分成三个类别。最左边的 类别410包括"异常"流行、但与网站较少相关的那些搜索査询。通 过高尔夫网站的搜索窗口提交的搜索査询"Britney Spears"是该类别 中的搜索查询的示例。网站建档器129应当通过给予它们相对低的权 重来消除或至少减少与这些査询相关联的搜索历史对网站简档的影 响。中间类别420包括合理流行并且与网站相关的那些搜索査询。对 应于这些搜索查询的搜索历史应当被授予更高的权重以对网站简档作 出主要贡献。最后,最右边的类别430包括在网站的搜索框中仅偶尔 出现的那些査询。应当以类似于最左边类别410中的查询的方式对待 这些查询。
存在确定中间类别420中的搜索查询(或相对应的搜索结果)对 网站简档的贡献的多种因素。例如,搜索查询的流行性和在搜索结果 上的用户行为的数量影响搜索査询和搜索结果对网站简档的贡献。时 间是另一个重要因素。在一些实施例中,在网站简档的形成中,新近 的搜索历史比不那么新近的搜索历史发挥更显著的作用。本领域的技 术人员可以容易地将类似原理应用于与网站相关联的搜索历史的其它 方面。
图5是示出了根据本发明的一些实施例的如何将创建网站简档的 过程分成多个子过程的框图。如上所述,使用网站的搜索历史来为该 网站创建简档530是非平凡(non-trivial)的过程。搜索历史包括来自 不同源的不同类型的信息,诸如用户从网站提交的搜索查询501、搜索 引擎响应于搜索查询生成的搜索结果503以及在搜索结果上的用户行 为505。在一些实施例中,该过程被进一步分成多个子过程。每一个子 过程产生从特定视角表征网站用户的兴趣的特定类型的网站简档。它 们是
22,基于类别的简档531 —该简档使搜索历史与一组预定义的类别相 互关联,其可以以层级的方式来组织,且每一个类别被给予指示类别 与网站用户的兴趣的相关性的权重;
基于词语的简档533—该简档用多个词语来概括搜索历史,其中 每一个词语被给予指示词语与网站用户的兴趣的相关性的权重;以及
,基于链接的简档535—该简档识别与搜索历史直接或间接相关的 多个链接,且每一个链接被给予指示链接与网站用户的兴趣的相关性 的权重。
在一些实施例中,网站简档530仅包括简档531、 533、 535的子 集。例如,网站简档530可以包括基于词语的简档533和基于类别的 简档531,但不包括基于链接的简档535。在一些实施例中,网站简档 530包括多个简档,所述多个简档中的至少一个是前述简档531、 533、 535的两个或多个的组合。在一些其它的实施例中,进一步处理基于类 别、基于词语和/或基于链接的简档来生成精化的基于类别的(或基于 聚类的)简档。在又一些其它的实施例中,该精化的基于类别的(或 基于聚类的)简档以多个基于类别的(或基于聚类的)子简档的形式 出现以表征网站的不同方面。
例如,通过将搜索历史项(例如,搜索查询、内容项和/或用户所 选择的文档)映射到类别,然后聚集由此产生的类别组并且对类别加 权,可以构建基于类别的简档531。可以基于其在搜索历史项中出现的 频率来对类别加权。另外,可以基于搜索历史项与类别的相关性来对 类别加权。在一段时间内累积的搜索历史项可以被视为用于映射到加 权类别的组。也可以使用将搜索历史映射到加权类别的其它适当方式。
图6A示出了按照Open Directory Project (开放式目录项目) (http:〃dmoz.org/)的层级类别图600。从图600的根级别开始,根据 诸如"艺术"、"新闻"、"体育"等等的几个主要的主题来组织文 档。这些主要的主题通常太宽泛以致不能描述网站用户的特定兴趣。它们被进一步分成多个更具体的子主题。例如,主题"艺术"可以包 括如"电影"、"音乐"和"文学"的子主题,并且子主题"音乐" 可以进一步包括如"歌词"、"新闻"和"评论"的子子主题。注意, 每一个主题(或子主题)与唯一类别标识符相关联,所述标识符如用 于"艺术"的1.1、用于"脱口秀"的1.4.2.3以及用于"篮球"的1.6.1。
在图6A中示出的类别仅用于说明性的目的。本领域的技术人员将
理解,存在对文档归类的许多其它方式。例如,可以从文档的内容提 取不同的概念并且根据这些概念来将相关信息的不同类别分组。特定 网站的用户的兴趣可以与在不同级别的多个类别相关联,每一个具有 指示类别与用户的兴趣的相关性的权重。可以通过分析与网站相关联 的搜索历史来确定类别和其相关联的权重。
图6B是根据本发明的一些实施例的可以被用于存储基于类别的 网站简档的示例数据结构(基于类别的网站简档表650)的框图。基于 类别的简档表650包括具有多个记录642的表640,每一个记录包括 WEBSITE—ID、 FLAVOR—ID和指向诸如表660-1的另一个数据结构的 指针。网站可以具有一个或多个风味以更好地服务不同的用户组。例 如,网站"WEBSITE—1"具有至少两个不同的风味"FLAVORJ"和 "FLAVOR_2"。这两个不同的"风味"可以与不同网页上的不同搜索 框相对应。换言之,网站的不同风味的引入精化了网站用户的兴趣。 这对于服务宽泛范围的客户的流行网站尤其有用。表660-1包括两列 CATEGORY—ID和WEIGHT。 CATEGORY_ID列包含如图6A中所示的 类别的标识符,以及在WEIGHT列中的值指示类别与网站用户的兴趣 的相关性。
在一些实施例中,自动将搜索历史项分类为不同的聚类。聚类通 常比类别更动态。如上所述,类别典型地被预先生成。对照相同的类 别组来分类与不同网站相关联的搜索历史项。相比之下,可以不存在 用于特定网站的预定义的聚类组。与网站相关联的搜索历史项落入自动生成的聚类组。因此,聚类可以更适合表征网站的用户的兴趣和偏 好。为了便利,本发明的许多论述将类别用作为示例。但是对本领域 的技术人员而言清楚的是,基本算法也可以不经调整或经少许调整应 用于聚类。
基于类别图600的网站简档是面向主题的实施方式。在基于类别 的简档中的项也可以以其他的方式来组织。在一个实施例中,网站用 户的兴趣可以基于网站用户所识别的文档的格式来归类,所述格式诸
如HTML、纯文本、PDF、 Microsoft Word等等。不同的格式可以具有 不同的权重。在另一个实施例中,网站用户的兴趣可以根据所识别的 文档的类型来归类,所述类型例如组织的主页、个人的主页、研究论 文或新闻组帖子,每一种类型具有相关联的权重。文档也可以按文档 来源来归类,例如与每一个文档的主机相关联的国家。在又一个实施 例中,在上面所识别的基于类别的简档中的两个或多个可以共存,且 每一个反映网站用户的兴趣的各自方面。
图7是根据本发明的一些实施例的可以被用于存储基于词语的网 站简档的示例数据结构(基于词语的简档表700)的框图。表700包括 多个记录710,每一个记录与网站的基于词语的简档相对应。基于词语 的简档记录710包括多列,所述列包括WEBSITE—ID列720和多列 (TERM, WEIGHT)对740。 WEBSITE—ID列存储网站标识符。每一个 (TERM, WEIGHT)对740包括被认为与网站用户的兴趣相关的典型 地为一至三个单词的词语以及指示词语的相关性的与词语相关联的权 重。词语的权重不一定是正值。负权重暗示网站用户不喜欢在搜索结 果中的包括该词语的文档。
除基于词语和基于类别的简档外,另一种类型的网站简档被称为 基于链接的简档。如上所述,文档的页面排名基于将该文档连接到因 特网上的其它文档的链接结构。具有更多指向其的链接的文档通常被 赋予更高的页面排名并且因此搜索引擎认为其更流行。网站的用户所选择的文档的链接信息可以被用来推断网站的用户的兴趣。在一个实
施例中,通过分析这些URL的点击率来为网站用户识别优选的URL 的列表。可以根据网站用户在URL处的鼠标悬停时间来对每一个优选 的URL进一步加权。在另一个实施例中,通过分析在不同web主机处 的用户的访问率来为网站用户识别优选的web主机的列表。当两个或 多个优选URL与同一 web主机相关时,该两个或多个URL的权重可 以被组合为该web主机的权重。
图8是根据本发明的一些实施例的可以被用于存储基于链接的网 站简档的示例数据结构的框图。基于链接的简档表800包括表810,表 810包括多个记录820,每一个记录包括WEBSITE—ID和指向诸如表 810-1的另一个数据结构的指针。表810-1可以包括两列LINK—ID 830 和WEIGHT 840。 LINK—ID 830可以与优选的URL或主机相关联。实 际的URL/主机可以被存储在表而不是LINKJD中,然而优选地,存储 LINK_ID以节省存储空间。
优选的URL和/或主机的列表包括网站用户已直接识别的URL和/ 或主机。优选的URL和/或主机的列表可以进一步扩展到使用诸如为本 领域的普通技术人员所知的协作过滤或文献计量(bibliometric)分析的 方法来间接识别的URL和/或主机。在一个实施例中,间接识别的URL 和/或主机包括具有到/自直接识别的URL和/或主机的链接的URL或主 机。通过在间接识别的URL和/或主机与直接识别的URL或主机之间 的距离来对这些间接识别的URL和/或主机加权。例如,当直接识别的 URL或主机具有权重1时,相差一个链接的URL或主机可以具有权重 0.5、相差两个链接的URL或主机可以具有权重0.25等等。通过减少 与原始URL或主机的主题不相关的链接的权重可以进一步精化该过 程,所述链接例如指向版权页或可以被用来查看与用户所选择的URL 或主机相关联的文档的web浏览器软件的链接。不相关的链接可以被 基于其上下文或其分布来识别。例如,版权链接通常使用特定词语(例
如,"版权"和"保留所有版权"是版权链接的锚点文本中常使用的词语);以及从许多不相关的网站指向网站的链接可以暗示该网站不
是主题相关的(例如,指向Internet Explorer网站的链接通常被包括在 不相关的网站中)。也可以根据一组主题来对间接链接分类,并且可 以排除具有非常不同的主题的链接或对其赋予低权重。
在上面论述的三种类型的网站简档总体上相互补充,因为不同的 简档从不同的有利点来表征网站用户的兴趣。然而,这并不意味一种 类型的网站简档,例如基于类别的简档,不能发挥典型地由另一种类 型的网站简档发挥的作用。以示例的方式,基于链接的简档中的优选 URL或主机常常与特定主题相关联,例如,fmance.yahoo.com是聚焦 财经新闻的URL。因此,由包括优选的URL或主机列表的基于链接的 简档所实现的作用至少部分也可以由具有涵盖优选URL或主机涵盖的 相同主题的一组类别的基于类别的简档来实现。
图9是根据本发明的一些实施例的用于使用各种类型的网站简档 来生成依赖于网站的搜索结果的过程的流程图。初始,搜索引擎122 从网站102接收用户通过客户端103提交的搜索査询(910)。作为响 应,搜索引擎122可以可选地生成查询策略(915)。例如,使搜索查 询标准化以使处于适当的形式用于进一步处理,和/或可以根据预定义 的标准修改搜索査询以使得自动扩大或縮小搜索查询的范围。接着, 搜索引擎122将搜索查询(或査询策略,如果生成了査询策略)提交 到内容数据库124。内容数据库124识别匹配搜索查询的一组文档 (920),每一个文档具有取决于文档的页面排名和搜索查询的普通排 名分值。所有三个操作(910、 915和920)典型地由搜索引擎122来 处理。
在一些实施例中,在搜索査询中嵌入请求网站的标识符。基于网 站标识符,搜索结果排名器126在网站简档数据库128中识别网站的 简档(925)。接着,搜索结果排名器126分析每一个所识别的文档以 使用网站简档来确定一个或多个提升因素(935)并且然后使用文档的
27普通排名分值和提升因素来向文档分配依赖于网站的排名分值(940)。
搜索结果排名器126对于每个所识别的文档重复该过程(942)。最后, 搜索结果排名器126根据文档列表的依赖于网站的排名分值对该文档 列表重新排序(945)并且将包括指向该文档列表的链接的搜索结果发 送给请求客户端103。
在一些实施例中,在935处对所识别的文档的分析包括确定在文 档的内容和网站的简档之间的相互关系。此外,在一些实施例中,该 操作包括访问用于文档的先前计算的文档简档并且然后确定在文档简 档和网站的简档之间的相互关系。在一些实施例中,确定相互关系包 括为"点积"计算的一个或多个操作,如果存在重叠,其确定在文档 简档和网站的简档之间的重叠程度。
图IO是根据本发明的一些实施例的示例数据结构的框图,所述示 例数据结构可以被用于存储用于搜索结果中的文档的基于类别、基于 词语以及基于链接的提升因素。对于每一个候选文档,每一个由各自 的DOQJD识别,基于类别的文档信息表1010包括多个所识别的类别 和相关联的权重,基于词语的文档信息表1030包括多对相关词语和相 关联的权重,以及基于链接的文档信息表1050包括一组链接和相对应 的权重。
当使用一种特定类型的网站简档来评价文档时,该三个表(1010、 1030和1050)的每一个的最右边列存储该文档的提升因素(即,所计 算的分值)。文档的提升因素可以通过组合与文档相关联的项的权重 来确定。例如,基于类别或基于词语的提升因素可以如下来计算。网 站的用户可能喜欢与具有0.6的权重的科学相关的文档,并且不喜欢与 具有-0.2的权重的商业相关的文档。因此,当科学文档匹配搜索查询时, 它将被提升到商业文档之上。通常,文档主题分类可以不是唯一的。 候选文档可以被分类为具有0.8的概率的科学文档以及具有0.4的概率 的商业文档。基于链接的提升因素可以基于分配给在基于链接的简档
28中的优选URL或主机的相关权重来计算。在一个实施例中,基于词语
的简档排名可以使用诸如词频-逆向文档频率(TF-IDF)的已知技术来 确定。词语的词频是词语在文档中出现的次数的函数。逆向文档频率 是在文档的集合中词语在其中出现的文档的数量的反函数。例如,如
"word (单词)"的非常常见的词语在许多文档中出现并且因此被赋 予相对较低的逆向文档频率,而如"photograph (照片)"和
"microprocessor (微处理器)"的不那么常见的词语被赋予相对较高 的逆向文档频率。
在一些实施例中,当搜索引擎响应于搜索查询生成搜索结果时, 根据搜索査询向满足搜索查询的候选文档D分配査询分值QueryScore。 然后通过文档D的页面排名PageRank来调整该査询分值以生成普通排 名分值GenericScore,其被表示为
GenericScore = QueryScore*PageRank。
如果用户的兴趣与搜索引擎的随机用户的兴趣显著不同,则该普 通排名分值不能适当反映文档D的与特定网站的用户的相关性。基于 在文档D的内容和网站的基于词语的简档之间的相互关系(此处称为 TermBoostFactor),在与文档D相关联的一个或多个类别和网站的基 于类别的简档之间的相互关系(此处称为CategoryBoostFactor),以及 在文档D的URL和/或主机和网站的基于链接的简档之间的相互关系 (此处称为LinkBoostFactor),文档D与网站用户的相关性可以由一 组提升因素精确表征。因此,文档D可以被分配依赖于网站的排名分 值,其是文档的普通排名分值和各种基于网站简档的提升因素的函数。 在 一 个实施例中,该依赖于网站的排名分值可以被表示为 WebsiteScore=GenericScore*(TermBoostFactor+CategoryBoostFactor+Li nkBoostF actor)。
在另一个实施例中,其中网站简档是单个简档,依赖于网站的排 名分值可以被表示为WebsiteScore = GenericScore*BoostFactor
其中"BoostFactor"基于在文档D的内容和网站的简档之间的相 互关系。
图11是根据本发明的一些实施例的用于使用网站简档来生成依 赖于网站的搜索结果的另一个过程的流程图。与在上面结合图9论述 的实施例不同,通过网站的简档来调整普通査询策略以创建依赖于网 站的查询策略(1125, 1165)。例如,来自网站简档的相关词语可以 与相关联的权重一起被添加到搜索查询。在各种实施例中,分别由搜 索引擎122、前端服务器120或搜索结果排名器126来创建依赖于网站 的查询策略。在一些其它的实施例中,请求网站102具有网站建档器 129生成的其简档的副本并且依赖于网站的查询策略由请求网站102创 建。接着,搜索引擎122使用依赖于网站的查询策略搜索内容数据库 124 (1170)。结果,通过内容数据库124识别的文档的相关联的依赖 于网站的排名分值来对该内容数据库124识别的文档隐式排序(1175)。
参考图12,示例信息服务器1200典型地包括一个或多个处理单 元(CPU) 1202、 一个或多个网络或其它通信接口 1210、存储器1212 以及用于使这些组件互连的一个或多个通信总线1014。通信总线1014 可以包括互连并控制系统组件间的通信的电路(有时称为芯片集)。 系统1200可以可选地包括用户接口,例如显示器和键盘。存储器1212 可以包括高速随机存取存储器并且也可以包括非易失性存储器,诸如 一个或多个磁盘存储装置。存储器1212可以包括位于远离CPU 1202 的位置的海量存储器。在一些实施例中,存储器1212存储下列程序、 模块和数据结构,或其子集或超集
*操作系统1216,其包括用于处理各种基本系统服务和用于执行依 赖于硬件的任务的程序;
*网络通信模块1218,其被用来经由诸如因特网、其它广域网、局 域网、城域网等等的一个或多个通信网络(有线的或无线的)将信息服务器1200连接到其它服务器或计算机;
,系统初始化模块1220,其初始化对信息服务器1200的适当操作 所需要的存储在存储器1212中的其它模块和数据结构;
,搜索引擎122,用于处理搜索查询、根据搜索査询识别搜索结果 并对搜索结果排序;
,内容数据库124,用于存储从因特网检索的多个索引文档;
*网站建档器129,用于处理与网站相关联的搜索历史以及创建并 更新表征网站用户的兴趣的一个或多个简档;
*搜索历史数据库127,用于存储与不同网站相关联的搜索历史, 包括搜索査询、搜索结果和用户行为;
,网站简档数据库123,用于存储与因特网上的不同网站相关联的 网站简档;
*文档建档器125,用于分析文档的内容和上下文并且为文档创建
简档;
,文档简档数据库123,用于存储与存储在内容数据库124中的不 同文档相关联的文档简档;以及
,搜索结果排名器126,用于使用网站简档为搜索引擎122识别的 每一个文档生成依赖于网站的排名分值,并且根据搜索结果中的文档 的依赖于网站的排名分值对搜索结果中的文档重新排序。
在一些实施例中,信息服务器106可以不必访问与网站相关联的 所有搜索历史。例如,关于从网站102提交的搜索查询在网站102和 信息服务器106之间可以存在协议。根据该协议,当访问网站1027的 用户向信息服务器106提交搜索査询时,信息服务器106被要求向网 站102而不是在客户端103的请求用户发送相对应的搜索结果。网站 102可以修改搜索结果,例如将广告或其它信息附在搜索结果中,然后 将已修改的搜索结果派发给在客户端103的请求用户。
在这种情况下,信息服务器106可能没有识别请求用户和客户端 103的信息,并且也可能不能监视在搜索结果上的用户行为。例如,信息服务器106不可以接收识别用户已点击的搜索结果中的文档链接的 任何信息。类似地,信息服务器106不可以接收识别用户在之上移动 其鼠标链接的文档链接和相对应的鼠标悬停时间的任何信息。换言之,
信息服务器106对在搜索结果上的网站用户的行为知之甚少或完全不 知。因此,信息服务器106不得不依靠来自其它地点的搜索结果上的 用户行为来生成网站简档。
在一些实施例中,通过检查从不同网站提交的搜索查询,信息服 务器106可以识别类似于正讨论的网站的另一个网站。如果从两个网 站提交的搜索查询的预定义量或百分率相同,则认为两个网站类似。 作如下推断也是合理的两个类似网站的用户可以具有类似的兴趣并
且因此与一个网站相关联的用户行为是与另一个网站相关联的用户行
为的合理代理。如果信息服务器106可以访问与该两个网站中的一个 相关联的用户行为(例如,不存在向网站递送搜索结果的协议),则 信息服务器106可以使用相同的用户行为来为另一个网站创建简档。
当不存在与正讨论的网站类似的其它网站时,信息服务器106可 以利用与直接提交到搜索引擎的搜索査询(例如,使用与信息服务器 106相关联的工具栏搜索框或网页提交的搜索查询)相关联的已监视的 用户行为作为特定网站的代理。然而,只有这样的"普通用户群"信 息将被用于的搜索查询才是从正讨论的网站提交的查询。例如,搜索 査询"在山景城的高尔夫球场"既可以被提交到聚焦高尔夫的网站, 又可以被提交到普通用途的搜索引擎。从在该搜索查询的搜索结果上 的普通用户群点击(以及从正讨论的网站和从搜索引擎的其他用户提 交的其它搜索查询的搜索结果上的普通使用群点击)发展的简档信息 被用来通过为从各个网站接收的查询组合或聚集普通用户统计信息而 为各个网站生成简档。以这种方式获取的网站简档将典型地与搜索引 擎的整个用户群落的一组简档显著不同,并且因此以这种方式生成的 网站简档将是下述网站简档的合理近似如果对搜索引擎响应于从网 站提交的搜索査询而返回的搜索结果而言用户行为信息可用,则将生成该网站简档。
在一些实施例中,网站简档也可以被用来为从不同网站提交的搜 索査询选择广告。以类似于处理不同文档的方式来处理不同的广告。 例如,广告可以具有一组关键词。这组关键词和与网站相关联的基于 词语的简档(或基于类别的简档、或两者)之间的相互关系产生用于 广告的提升因素。响应于从网站提交的搜索查询,该提升因素可以被 用来使特定广告提级或降级。例如,当信息服务器106从专用于英式 足球新闻的网站或网页接收了搜索査询"世界杯2006"时,其可以使
涵盖英式足球装备、2006FIFA德国世界杯的门票出售以及在举办英式 足球比赛的德国城市的酒店预订等等的那些广告提级。
为了解释的目的,已参考特定的实施例来描述了前面的描述。然 而,上面的说明性论述并不意在穷举或将本发明限制在公开的精确形 式。鉴于上述教导可以进行许多修改和变更。选择并描述实施例以便 最好地解释本发明的原理和其实际应用,从而使本领域的技术人员能 够最好地使用本发明和带有适合预期的特定用途的各种修改的各种实 施例。
权利要求
1. 一种对网站建档的计算机实现的方法,包括从网站接收用户提交的多个搜索查询;响应于所述搜索查询向所述请求用户提供搜索结果;监视在所述搜索结果上的所述用户的行为;以及使用所述搜索查询和所述用户行为为所述网站生成简档。
2. 如权利要求l所述的方法,其中所述用户行为包括对所述搜索 结果的用户选择和在所述搜索结果上的鼠标悬停时间。
3. 如权利要求l所述的方法,其中通过对在预定义时间段内的所 述搜索査询子取样,使用所述搜索査询的子集来生成所述网站简档。
4. 如权利要求l所述的方法,其中通过选择具有预定义范围的发 生频率的搜索查询,使用所述搜索查询的子集来生成所述网站简档。
5.如权利要求l所述的方法,其中在所述网站简档的所述生成期 间,时间上新近的搜索查询和其相关联的用户行为被给予比时间上遥 远的搜索査询和其相关联的用户行为更大的权重。
6. 如权利要求l所述的方法,进一步包括-从所述网站接收用户提交的新的搜索査询; 识别与所述新的搜索查询相关联的多个信息项; 根据所述网站简档对所述信息项排名;以及 将已排名的信息项提供给所述请求用户。
7. 如权利要求6所述的方法,其中对信息项的所述排名进一步包括向所述信息项分配普通排名分值;通过将所述普通排名分值与至少部分通过所述网站简档确定的权 重因素相乘来生成依赖于网站的排名分值;以及根据所述依赖于网站的排名分值对所述信息项重新排名。
8.如权利要求6所述的方法,进一步包括 监视在所述已排名的信息项上的所述用户的行为;以及 使用所述用户的行为和所述新的搜索査询来更新所述网站简档。
9.如权利要求8所述的方法,其中使用在预定义时间段内累积的 新的搜索查询和新的用户行为来生成增加的网站简档,并且将所述增 加的网站简档合并入所述网站简档来生成新的网站简档。
10.如权利要求l所述的方法,进一步包括将所述搜索查询分成多个组,每一个组与所述网站的至少一个网 页相关联并且具有相关联的用户组;将响应于所述搜索査询组中的一个组的搜索结果提供给其相关联的用户组;监视在所述搜索结果上的所述相关联的用户组的行为;以及 使用所述搜索查询组和所述相关联的用户行为来生成网页简档。
11.如权利要求IO所述的方法,其中所述网站简档包括多个网页 简档,每一个网页简档与在所述网站的至少一个网页上的搜索框相关联。
12.如权利要求IO所述的方法,进一步包括从所述网站接收用户提交的新的搜索查询; 识别与所述新的搜索查询相关联的多个信息项; 根据所述网页简档对所述信息项排名;以及 将已排名的信息项提供给所述请求用户。
13. 如权利要求12所述的方法,其中对信息项的所述排名进一步包括向所述信息项分配普通排名分值;通过将所述普通排名分值与至少部分通过所述网页简档确定的权重因素相乘来生成依赖于网页的排名分值;以及根据所述依赖于网页的排名分值对所述信息项重新排名。
14. 如权利要求12所述的方法,进一步包括 监视在所述已排名的信息项上的所述用户的行为;以及使用所述用户的行为和所述新的搜索查询来更新所述网页简档。
15. 如权利要求14所述的方法,其中使用在预定义时间段内累积的新的搜索查询和新的用户行为来生成增加的网页简档,并且将所述 增加的网页简档合并入所述网页简档来生成新的网页简档。
16. —种提供搜索结果的计算机实现的方法,包括从第一和第二网站接收相同的搜索查询; 识别与所述搜索査询相关联的多个信息项;以及 以第一次序将所述信息项的第一子集提供给所述第一网站并且以不同于所述第一次序的第二次序将所述信息项的第二子集提供给所述第二网站,其中,至少部分通过与所述第一网站相关联的第一简档来确定所 述第一次序,并且至少部分通过与所述第二网站相关联的第二简档来 确定所述第二次序,其中,所述第一简档与所述第一网站的搜索历史相关,并且所述 第二简档与所述第二网站的搜索历史相关。
17. 如权利要求16所述的方法,包括根据所述第一和第二网站各 自的搜索历史为所述第一和第二网站生成所述第一和第二简档。
18. 如权利要求16所述的方法,其中所述第一网站的所述搜索历史包括多个用户在所述第一网站提交的搜索查询、响应于所述搜索査 询的搜索结果以及在所述搜索结果上的用户行为。
19. 如权利要求16所述的方法,其中所述信息项包括至少一个广告
20. —种提供搜索结果的计算机实现的方法,包括 从网站的第一和第二网页接收多个相同的搜索查询; 识别与所述搜索查询相关联的多个信息项;以及 以第一次序将所述信息项的第一子集提供给所述第一网页并且以不同于所述第一次序的第二次序将所述信息项的第二子集提供给所述 第二网页;其中,至少部分通过与所述第一网页相关联的第一简档来确定所 述第一次序,并且至少部分通过与所述第二网页相关联的第二简档来 确定所述第二次序;其中,所述第一简档与所述第一网页的搜索历史相关,并且所述 第二简档与所述第二网页的搜索历史相关。
21. 如权利要求20所述的方法,包括根据所述第一和第二网页各 自的搜索历史为所述第一和第二网页生成所述第一和第二简档。
22. 如权利要求20所述的方法,其中所述第一网页的所述搜索历 史包括多个用户在所述第一网页提交的搜索査询、响应于所述搜索查 询的搜索结果以及在所述搜索结果上的用户行为。
23. 如权利要求20所述的方法,其中所述信息项包括至少一个广
24. —种对网站建档的计算机实现的方法,包括:从网站接收所述网站的用户提交的多个搜索查询; 响应于所述搜索査询识别搜索结果;识别与在所述搜索结果上的与所述网站不同的地点的用户的行为 有关的统计信息;以及使用所述搜索查询和所述统计信息为所述网站生成简档。
25.如权利要求24所述的方法,进一步包括 根据所述网站简档对所述搜索结果排名; 将已排名的搜索结果提供给所述网站的所述用户;以及 监视在所述已排名的搜索结果上的所述网站的所述用户的行为。
26.如权利要求25所述的方法,其中所述统计信息包括在所述已 排名的搜索结果上的所述网站的所述用户的所述行为。
27. —种计算机系统,包括主存储器;处理器;以及存储在所述主存储器中并且由所述处理器执行的至少一个程序, 所述至少一个程序进一步包括用于从网站接收用户提交的多个搜索查询的指令; 用于响应于所述搜索查询向所述请求用户提供搜索结果的指令;用于监视在所述搜索结果上的所述用户的行为的指令;以及 用于使用所述搜索查询和所述用户行为为所述网站生成简档的指
28. —种用于与计算机系统结合使用的计算机程序产品,所述计 算机程序产品包括计算机可读存储介质和嵌入其中的计算机程序机 制,所述计算机程序机制包括-用于从网站接收用户提交的多个搜索查询的指令; 用于响应于所述搜索査询向所述请求用户提供搜索结果的指令;用于监视在所述搜索结果上的所述用户的行为的指令;以及 用于使用所述搜索查询和所述用户行为为所述网站生成简档的指令。
29. —种用于对网站建档的计算机系统,包括用于从网站接收用户提交的多个搜索査询的装置; 用于响应于所述搜索査询向所述请求用户提供搜索结果的装置;用于监视在所述搜索结果上的所述用户的行为的装置;以及 用于使用所述搜索査询和所述用户行为为所述网站生成简档的装
全文摘要
在对网站建档的方法中,信息服务器从网站接收不同用户提交的多个搜索查询。响应于搜索查询向请求用户提供不同的搜索结果。信息服务器监视在搜索结果上的用户行为并且使用搜索查询和用户行为为网站生成简档。当信息服务器从两个不同的网站接收了相同的搜索查询时,其识别与搜索查询相关联的多个信息项。信息服务器使用两个网站的简档来将信息项定制为两种不同的次序并且以该两种不同的次序将信息项派发到两个网站。
文档编号G06F17/30GK101454780SQ200780019748
公开日2009年6月10日 申请日期2007年3月30日 优先权日2006年3月30日
发明者亚当·J·克莱因, 塔赫·H·哈夫利瓦拉, 塞潘达·D·卡姆瓦尔, 格伦·耶赫, 比尔盖汗·乌伊加尔·厄兹泰金 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1