使用文档使用统计量的排位函数的制作方法

文档序号:6568988阅读:165来源:国知局
专利名称:使用文档使用统计量的排位函数的制作方法
使用文档使用统计量的排位函数背景技术按照文档与给定搜索査询的相关性排列文档的排位函数是已知的。在本领域中仍在努力开发针对给定搜索査询提供优于由使用已知排位函数的 搜索引擎产生的搜索结果的搜索结果的排位函数。发明内容在此主要描述用于在网络上确定给定文档的文档相关性分数的各种技 术。文档相关性分数是通过排位函数产生的,该排位函数包括一或多个査询无关分量,其中至少一个査询无关分量包括使用参数,该参数考虑在web 服务器上维护与存储的、用于网络上一或多个文档的实际文档使用数据。 排位函数可由搜索引擎使用,以基于多个文档的文档相关性分数按序(通 常按降序)排列多个文档。提供本发明内容,它以简化的形式向读者一般地介绍在下面"具体实 施方式"中描述的一或多个选择的概念。本发明内容不是要标识要求保护 主题的关键和/或必要特征。


图1表示示出一方法的示例性步骤的示例性逻辑流程图,该方法响应 于用户输入的搜索查询产生经排列的搜索结果;图2是一些用于实现在此揭示的方法和过程的示例性操作环境的主要 组件的框图;图3表示示出一示例性方法的示例性步骤的逻辑流程图,该方法用于 确定网络上文档的文档相关性分数;以及图4表示示出一方法的示例性步骤的逻辑流程图,该方法使用包含文 档使用参数的排位函数排列生成的搜索结果。
具体实施方式
为加强对在此揭示的方法和过程的原理的理解,使用下面的特定实施 例的描述和特定语言来描述这些特定实施例。然而将会理解,使用特定语 言不是要限制所揭示方法和过程的范围。对所讨论的揭示方法和过程的原 理的改变、进一步修改以及这类进一步应用,对于被揭示方法和过程所属 领域的技术人员而言,都是在正常的预期范围内的。揭示了确定网络上文档的文档相关性分数的方法。每一文档相关性分 数是使用排位函数计算的,希望该排位函数包含一或多个査询无关分量(例 如,不依赖于给定搜索查询或搜索査询项的函数分量), 一或多个査询相 关分量(例如,依赖于给定搜索查询或搜索查询项的细节的函数分量), 或者两者的组合。由排位函数确定的文档相关性分数可用于按照每一文档 相关性分数排列网络空间(例如公司内联网空间)内的文档。可使用揭示 方法的示例性搜索过程示出作为在图1中的示例性过程10。图1描绘示例性搜索过程10,它从过程步骤80开始,其中用户输入搜索查询。从步骤80,示例性搜索过程10进行至步骤200,其中搜索引擎 为一或多个搜索查询项搜索网络空间内的所有文档。从步骤200,示例性搜 索过程10进行至步骤300,其中搜索引擎的排位函数基于每一文档的相关 性分数排列网络空间内的文档,而文档相关性分数则基于一或多个査询无 关分量、 一或多个查询相关分量或两者的组合。从步骤300,示例性搜索过 程10进行至步骤400,其中向用户呈现经排列的搜索结果,这一呈现通常 按照降序以标识网络空间内与搜索査询最相关的文档。如下面更详细地讨论的,在确定文档相关性分数的一些示例性方法中, 用于确定文档相关性分数的排位函数的至少一个查询无关分量考虑与网络 空间内一或多个用户对一或多个文档实际使用相关的"文档使用数据"或 "文档使用统计量"。文档使用数据和/或统计量是由独立于给定搜索引擎 的web服务器上的应用程序代码生成和存储的。例如,文档使用数据可由 网站维护,使得每当用户请求URL时,服务器就更新使用计数。使用计数 器可以维护在给定时间间隔获得的文档相关数据,这一给定时间间隔诸如可以是上个星期内、上个月、去年一年内、或者给定文档或文档集合的生存期内。应用程序代码可用于通过(i)特殊的应用编程接口(API), (ii)web服 务请求,或者(iii)请求返回网站上每一 URL的使用数据的管理网页来从网 站获得使用数据。特定的网站可用于生成和维护网络空间内的使用数据,并且在本地或 远程存储系统中存储使用数据。用于生成、维护和存储网络空间内文档的 使用数据的合适网站包括但不限于WINDOWS SHAREPOINT Services(服务)站点。所揭示的用以确定文档相关性分数的方法还可使用包括一或多个附加 查询无关分量的排位函数。合适的附加查询无关分量包括但不限于在2004 年8月30日提交的题为"SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE(使用点击距离排位搜索结 果的系统和方法)"的美国专利申请序列号10/955,983中描述的、考虑网络 空间内每一文档的点击距离的査询无关分量,在2005年8月15日提交的 题为"RANKING FUNCTIONS USING A BIASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK(使用网络上文档的经偏移的点击距离的排 位函数)"的美国专利申请序列号11/206,286中描述的、考虑网络空间内每 一文档的经偏移的点击距离的查询无关分量,以及在2004年8月30日提 交的标题为"SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE(使用点击距离排位搜索结果的系统和方法)"的 美国专利申请序列号10/955,983中描述的、考虑网络空间内每一文档的 URL的査询无关分量。上述美国专利申请的每一主题都已转让给本发明专 利申请的受让人,通过引用将它们完整地包括于此。在又一示例性实施例中,所揭示的用以确定文档相关性分数的方法使 用包括至少一个査询无关分量的排位函数,该至少一个查询无关分量既包 括上述文档使用参数,也包括一或多个上述附加查询无关分量。文档相关性分数可用于排列网络空间内的文档。例如, 一种排列网络 上文档的方法包括以下步骤使用上述方法确定网络上每一文档的文档相 关性分数;以及基于每一文档的文档相关性分数按所需顺序(一般按降序)排列这些文档。文档相关性分数还可用于排列搜索查询的搜索结果。例如, 一种排列 搜索查询的搜索结果的方法可包括以下步骤使用上述方法确定搜索査询 的搜索结果中每一文档的文档相关性分数,以及基于每一文档的文档相关 性分数按所需顺序(一般按降序)排列这些文档。使用在此揭示方法的应用程序可在包括各种硬件组件的计算机系统上 加载并执行。下面描述用于实践在此揭示的方法的示例性计算机系统和示 例性操作环境。示例性操作环境图2示出了可在其上实现在此公开各方法的合适的计算系统环境100的示例。计算系统环境IOO仅为合适的计算环境的一个示例,并非对在此 公开各方法的使用范围或功能性提出任何局限。计算环境100也不应解释 成对于在示例性操作环境100中所示出的任一组件或其组合有任何依赖或 要求。在此公开的方法可运行于多种其它通用或专用计算系统环境或配置。 适合在此处公开的方法中使用的公知的计算系统、环境和/或配置的示例包 括,但不限于,个人计算机、服务器计算机、手持式或膝上型设备、多处 理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络 PC、小型机、大型机、包括上述系统或设备中的任一个的分布式计算机环 境等。在此公开的方法和过程可在诸如由计算机执行的程序模块等计算机可 执行指令的通用上下文中描述。 一般而言,程序模块包括例程、程序、对 象、组件、数据结构等,它们执行特定任务或实现特定抽象数据类型。在 此公开的方法和过程也可以在分布式计算环境中实现,其中任务由通过通 信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以 位于包括存储器存储设备在内的本地和远程计算机存储介质中。参考图2,用于实现在此公开的方法和过程的一个示例性系统包括计 算机110形式的通用计算设备。计算机110的组件可以包括但不限于,处 理单元120、系统存储器130和将包括系统存储器130在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干类型的总线 结构中的任一种,包括存储器总线或存储器控制器、外围总线和使用各种 总线体系结构中的任一种的局部总线。作为示例,而非限制,这样的体系 结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、 增强型ISA (EISA)总线、视频电子技术标准协会(VESA)局部总线和外 围部件互连(PCI)总线(也称为Mezzanine总线)。计算机110通常包括各种计算机可读介质。计算机可读介质可以是能 由计算机110访问的任何可用介质,而且包含易失性/非易失性介质以及 可移动/不可移动介质。作为示例,而非限制,计算机可读介质可以包括 计算机存储介质和通信介质。计算机存储介质包括易失性和非易失性、可 移动和不可移动介质,它们以用于存储诸如计算机可读指令、数据结构、 程序模块或其它数据这样的信息的任意方法或技术来实现。计算机存储介 质包括,但不限于,RAM、 ROM、 EEPROM、闪存或其它存储器技术、 CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘 存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机100访 问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已 调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且 包含任何信息传递介质。术语已调制数据信号摂指的其一个或多个特征以 在信号中编码信息的方式被设定或更改的信号。作为示例,而非限制,通 信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质,诸如 声学、RF、红外线和其它无线介质。上述中的任意组合也应包括在此处使 用的计算机可读介质的范围之内。系统存储器130包括计算机存储介质,其形式为易失性和/或非易失性 存储器,譬如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输 入/输出系统133 (BIOS)包含有助于诸如启动时在计算机110中元件之间 传递信息的基本例程,它通常存储在ROM 131中。RAM 132通常包含处理 单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例 而非局限,图2示出了操作系统134、应用程序135、其它程序模块136和 程序数据137。计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存 储介质。仅作为示例,图2示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器140,从可移动、非易失性磁盘152中读取或向其写 入的磁盘驱动器151,以及从诸如CDROM或其它光学介质等可移动、非 易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环 境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但 不限于,磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态 ROM等等。硬盘驱动器141通常由不可移动存储器接口,诸如接口 140连 接至系统总线121,磁盘驱动器151和光盘驱动器155通常由可移动存储器 接口,诸如接口 150连接至系统总线121。以上讨论并在图2中示出的驱动器及其相关联的计算机存储介质为计 算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存 储。例如,在图2中,硬盘驱动器141被示为存储操作系统144、应用程序 145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统 134、应用程序135、其它程序模块136和程序数据137相同或不同。操作 系统144、应用程序145、其它程序模块146和程序数据147在这里被标注 了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备如键盘162和定点设备161 (通常指鼠标、跟 踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出) 可以包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。这些和 其它输入设备通常由耦合至系统总线的用户输入接口 160连接至处理单元 120,但也可以由其它接口或总线结构,诸如并行端口、游戏端口或通用串 行总线(USB)连接。监示器191或其它类型的显示设备也经由接口如视 频接口 190连接到系统总线121。除监视器191以外,计算机110也可以包 括其它外围输出设备,诸如扬声器197和打印机196,它们可以通过输出外 围接口 195连接。计算机110可在使用至一个或多个远程计算机如远程计算机180的逻 辑连接的网络化环境下操作。远程计算机180可以是个人计算机、服务器、 路由器、网络PC、对等设备或其它常见网络节点,且通常包括上文相对于计算机110描述的许多或所有元件,尽管在图2中只示出存储器存储设备 181。图2中所示的逻辑连接包括局域网(LAN) 171和广域网(WAN) 173, 但也可以包括其它网络。这样的网络环境常见于办公室、企业范围计算机 网络、内联网和因特网。当在LAN网络环境中使用时,计算机110通过网络接口或适配器170 连接至局域网171。当在WAN网络环境中使用时,计算机110通常包括调 制解调器172,或用于通过WAN173,如因特网建立通信的其它装置。调 制解调器172可以是内置或外置的,它可以通过用户输入接口 160或其它 合适的机制连接至系统总线121。在网络化环境中,相对于计算机110所描 述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例而非 局限,图2示出远程应用程序185驻留在存储器设备181上。将会理解 所示的这些网络连接起示例性的作用,也可以使用在计算机之间建立通信 链路的其他手段。在此揭示的方法和过程可使用一或多个应用程序来实现,这包括但不 限于,服务器系统软件应用程序(例如,WINDOWS SERVER SYSTEM 软件应用程序),搜索排位应用程序,以及用于生成、维护和存储网络空 间内的文档的使用数据的应用程序(例如,WINDOWS SHAREPOINT Services应用程序),被指定为示例性系统100中的应用程序135、应用程 序145和远程应用程序185的众多应用程序之一的任一个应用程序。如上所述,本领域技术人员将了解,所揭示的为给定文档生成文档相 关性分数的方法可在其它计算机系统配置中实现,这包括手持设备、多处 理器系统、基于微处理器或可编程电子消费品、联网的个人计算机、小型 机、大型机等等。所揭示的为给定文档生成文档相关性分数的方法也可在 分布式计算环境中实践,其中任务由通过通信网络链接的远程处理设备来 完成。在分布式计算环境中,程序模块可位于本地和远程两者的存储器存 储设备中。示例性实施例的实现如上所述,提供确定网络上文档的文档相关性分数的方法。所揭示的 方法可使用考虑网络上每一文档的文档使用值的排位函数来排列网络上文档。所揭示的确定网络上文档的文档相关性分数的方法可包括多个步骤。 在一个示例性实施例中,确定网络上文档的文档相关性分数的方法包括以 下步骤向包括N个文档的网络上的一或多个文档指派实际使用值(仏), 其中该实际使用值(t/》基于在服务器上维护和存储的实际使用数据;如 果少于N个文档被指派了实际使用值(t/》,则向没有与其相关联的实际 使用数据的文档指派默认使用值(t/z));以及使用每一文档的使用值(即仏或f/c)来确定网络上给定文档的文档相关性分数。如在此使用的,术语"实际使用数据"表示与一或多个用户对文档的 "使用"相关联的一或多种类型的数据。给定文档或文档集合的实际使用 数据类型可包括但不限于,在给定时间段内所有用户的文档査看数量、在 给定时间段内每用户文档查看的平均数量、在给定时间段内在特定文档上 花费的总时间、在给定时间段内在特定文档上花费的平均时间等等。给定 时间段可以是例如上个星期内、上个月、去年一年内、文档的生存期或者 任何其它所需的时间段。生成、维护和存储网络空间内文档的文档使用数据或统计量的步骤可 由通常存在于计算系统上的应用程序代码来执行。文档使用数据是独立于 给定搜索查询或搜索引擎来生成、维护和存储的,并且通常由维护文档(或 页面)并使得文档(或页面)对用户可用的服务器上的应用程序代码来生 成、维护和存储的。用于生成、维护和存储文档使用数据或统计量的合适应用程序包括但不限于WINDOWS SHAREPOINT Services和其它类似的应用程序。在这些服务站点以及执行类似功能的其它网站上存储和维护的文档使 用数据,并如上所述可由应用程序代码来访问。例如,文档使用数据可通 过(i)特殊的应用编程接口 (API) , (ii)web服务请求,或(iii)请求返回网站 上每一 URL的使用数据的管理网页而从给定的网站(例如,WINDOWS SHAREPOINT Services站点)访问。所揭示的确定网络上文档的文档相关性分数的方法可包括多个附加步 骤,包括但不限于监控网络空间内一或多个文档的实际文档使用;在本地或远程数据存储文件中存储一或多个文档的实际文档使用数据;基于文 档或包含该文档的文件夹的实际使用数据,计算文档的实际使用值(t/》; 在本地或远程数据存储文件中存储实际使用值(");向本地或远程数据 存储文件请求存储的文档使用数据或实际使用值(")(例如,在用户的 特定搜索查询之后向搜索引擎请求这类数据);从本地或远程数据存储文 件检索一或多个文档的实际文档使用数据或实际使用值(");以及可选 地,将文档使用值(即,实际或默认的)与一或多个附加文档属性合并以 确定文档的文档相关性分数。图3表示示出示例性方法的示例性步骤的逻辑流程图,该方法提供网 络上文档的实际或默认使用值,之后跟随着由系统管理员进行的可任选降 低/提升过程。如图3所示,示例性方法401开始于框402并进行至步骤403。 在步骤403,爬行(crawl)网络上的第一文档以获得实际使用数据。爬行第一文档以获得实际使用数据的步骤(步骤403)可使用爬行应 用程序来执行,该应用程序能够确定第一文档是否具有与其相关联的任何 实际使用数据,并且如果第一文档具有与其相关联的实际使用数据,则检 索该实际使用数据。适于在所揭示的提供网络上文档的实际或默认使用值 的方法中使用的爬行应用程序包括但不限于在美国专利号6,463,455和 6,631,369中描述的爬行应用程序,通过引用将这两个主题整体包括在此。如上所述,实际使用数据可从存储网络上一或多个文档的实际使用数 据的一或多个文件获得。实际使用数据可作为文档分量与文档存储在一起, 或者可与实际文档分开地存储在数据存储文件中。合适的远程存储系统包 括但不限于,可从微软公司(华盛顿,雷德蒙德)购得的WINDOWS SHAREPOINT Services(WSS)产品,以及任何其它类似的远程存储系统。 例如,WSS远程存储系统记录包括例如所有用户对给定网络上每一文档的 请求数量的实际使用数据,并且生成上个星期内、上个月、去年一年内、 或文档的整个生存期或者任何其它时间段内每文档的点击数量统计。而且,如上所述,应当理解,在此揭示的方法不限于wss远程存储系统,而可在 所揭示方法中使用wss远程存储系统或任何其它类似的文档数据系统。 一旦爬行了文档,示例性方法401进行到判定框404。在判定框404,应用程序代码作出文档是否具有与其相关联的实际使用数据的判定。如果 作出文档具有与其相关联的实际使用数据的判定,则示例性方法401进行到步骤405,其中将基于实际使用的使用值(C/》指派给文档。实际使用值(f/》可使用关联于文档的实际使用数据的一或多个分量来确定。例如 在一些实施例中,指派给文档的实际使用值(")可仅与查看文档的用户 数量相关。在其它实施例中,指派给文档的实际使用值(t/》可与以下各项相关在给定时间段内所有用户的文档查看数量、在给定时间段内每用 户的文档查看平均数量、在给定时间段内在特定文档上花费的总时间,在 给定时间段内在特定文档上花费的平均时间、或者任何上述标准的组合, 其中给定时间段包括上个星期内、上个月、去年一年内、文档的生存期或 者任何其它所需的时间段。在某些情况下,关联于给定文档的实际使用数据表示在给定时间段内 未使用或未査看的文档。在这一情况下,文档可被指派使用值(V》等于 零以表示在该时间段内没有使用;然而,通常是为基于实际使用或者未实 际使用的使用值(")指派一个非零的数。而且,在某些情况下,实际使用数据可与文档集合而非单个文档相关 联。例如,文件夹可包含文档集合,并且相关联的服务器可仅跟踪与访问 (即,使用)该文件夹相关的使用数据,而不跟踪该文件夹内的单个文档。 在此实施例中,如果存在关联于文件夹的实际使用数据,则可基于文件夹 的实际使用数据为文件夹内的每一文档提供使用值(t/》。通常,每一使 用值(U》对于文件夹内的每一文档是相同的;然而若有需要,则可向文 件夹内不同文档指派不同的使用值(t/》。从步骤405,示例性方法401进行至下述判定框406。现在返回到判定框404,如果作出文档不具有与其相关联的实际使用 数据的判定,则示例性方法401进行至步骤407,其中将默认使用值(t/z)) 指派给文档。例如,可将默认使用值(f/fl)指派给作为不维护文档使用数 据的网站一部分的文档。指派给文档的默认使用值(t/fl)可用于提供文档 相对于具有实际使用数据的文档的初始重要性。例如,如果给定文档的较 髙使用值指示网络内文档的相对重要性,那么向文档指派较低默认使用值(t/z))就会使文档的重要性相对于网络上其它文档而有所降低。在一个其中给定文档的较高使用值指示网络内文档的相对重要性的示例性实施例中,指派给文档的默认使用值([/z))可与指派给网络上其它文 档的实际使用数据(t/》相关。例如,为了降低文档的相对重要性,可向 文档指派默认使用值(t/"),其中该默认使用值(f/D)小于如上所述指派 给网络上其它文档的任何实际使用值。如果需要增加文档的相对重 要性,可向文档指派一个默认使用值(Uz)),其中该默认使用值(f/D)大 于指派给网络上其它文档的任何实际使用值(")或者大于指派给网络上 部分其它文档的部分实际使用值(")。在其它实施例中,可向没有实际使用数据的文档指派默认使用值 (/D),使得向该文档给出与具有已指派的实际使用值(^)的文档相比 为平均的相对重要性。例如,在此实施例中,没有实际使用数据的文档的 默认使用值(t/0)范围可从最小己指派实际使用值(t/^,J至最大已指派 实际使用值(^则J ,或者在最小已指派实际使用值("她)与最大已指 派实际使用值(t/ha》之间的特定范围内。在此实施例中,为没有实际使 用数据的文档提供平均的相对重要性,表示与具有与其相关联的实际使用 数据的文档相比为中度的使用。从步骤407,示例性方法401进行至判定框406。在判定框406,应用 程序代码作出网络上的所有文档是否具有实际(")或默认(f/D)使用值 的判定。如果作出网络上的所有文档不具有实际(t/》或默认([/d)使用 值的判断,则示例性方法401进行至步骤408,其中爬行下一文档以获得实 际使用数据。从步骤408,示例性方法401返回至判定框404并且如上所述 地进行。返回至判定框406,如果应用程序代码作出网络上的所有文档具有实 际(Ua)或默认(Ud)使用值的判定,则示例性方法401进行至判定框409。 在判定框409,系统管理员作出是否要降低任何实际(f/》或默认(/D) 使用值以便更确切地表示网络空间内给定文档的重要性的判定。如果作出 降低一或多个实际(t/》或默认([/Z))使用值以便更确切地表示网络空间 内一或多个文档的重要性的判定,则示例性方法401进行至步骤410,其中或负或正地调整一或多个文档(或URL)的实际(")或默认([/D)使用值。从步骤410,示例性方法401进行至下述步骤411。返回至判定框409,如果作出了不降低(或不提升)一或多个实际(仏) 或默认(t/D)使用值的判定,则示例性方法401直接进行至步骤411。在 步骤411,在排位函数中使用实际(")和默认([/0)使用值来确定网络 空间内每一文档的总文档相关性分数。从步骤411,示例性方法401进行至 结束框412。一旦所有实际(")和默认(t/fl)使用值已经确定并且可任选地被降 低(或可选地被提升),则若有需要,就可使用每一文档的实际(")或 默认([/d)使用值作为排位函数中的参数以提供每一文档的文档相关性分 数。这一文档相关性分数可用于排列搜索査询的搜索结果。使用包含默认 使用值参数的排位函数排列生成的搜索结果的示例性方法在图4中示出。图4提供示出示例性方法20的示例性步骤的逻辑流程图,其中示例性 方法20包括使用包含使用值参数的排位函数排列生成的搜索结果的方法。 如图4所示,示例性方法20开始于框201并且进行至步骤202。在步骤202, 用户通过输入搜索查询来请求搜索。在步骤202之前,网络上每一文档的 实际或默认使用值已经在先前计算过。从步骤202,示例性方法20进行至 步骤203。在步骤203,将网络上每一文档的实际或默认使用值与存储在索引中 的每一文档的任何其它文档统计量(例如,其它查询无关统计量)合并。 将实际或默认使用值与其它文档统计量合并,这允许较快的查询响应时间, 因为与排位相关的所有信息被群集在一起。因此,在索引内列出的每一文 档在合并之后具有相关联的实际或默认使用值。 一旦合并完成,示例性方 法20就进行至步骤204。在步骤204,为给定文档提供包括使用参数的查询无关文档统计量作 为排位函数的一分量。也为给定文档提供査询相关数据, 一般作为排位函 数的独立分量。排位函数的査询相关数据或者内容相关部分依赖于实际的 搜索项和给定文档的内容。在一个实施例中,排位函数包括至少一个查询无关(QID)分量,该分量包括使用参数。在一个实施例,该查询无关(QID)分量可由下式表示<formula>formula see original document page 19</formula>其中C/表示表示实际使用值或默认使用值;以及w"和^表示使用值的调整参数。在另一实施例中,查询无关(QID)分量可由下式表示<formula>formula see original document page 19</formula>其中f/表示实际使用值或默认使用值;以及h^和^表示使用值的调整参数。在又一实施例中,査询无关(QID)分量可由下式表示<formula>formula see original document page 19</formula>其中 7表示实际使用值或默认使用值;以及 MV &、 S和C表示使用值的调整参数(即,比例常数)。 在另一实施例中,排位函数包括上述查询无关(QID)分量与至少一 个查询相关(QD)分量之和,诸如QD分量可以是任何文档记分函数。在一个实施例中,QD分量对应于在2004 年3月18日提交的题为"FIELD WEIGHTING IN TEXT DOCUMENT SEARCHING(在文本文档搜索中的域加权)"的美国专利申请序列号 10/804,326中描述的域加权记分函数,其主题通过引用整体包含在此。如在 美国专利申请序列号10/824,326中提供的,可用作域加权记分函数的表示 的一个公式如下<formula>formula see original document page 19</formula>W^表示加权的项频率或者在搜索查询中的给定项乘以在所有域(例 如,文档的标题、主体等)上的权重的项频率之和,并且按照每一域的长 度和相应的平均长度来归一化,N表示网络上文档的数量,"表示包含查询项的文档数量,以及A是可调的常数。上述各项和公式在美国专利申请序列号10/804,326中进一步详细地描 述,其主题通过引用整体包含于此。在一些实施例中,排位函数还可包括一QID分量,该QID分量考虑(i) 由在2004年8月30日提交的标题为"SYSTEM AND METHOD FOR RANKING SEARCH RESULTS USING CLICK DISTANCE"的美国专利申 请序列号10/955,983中揭示的方法确定的点击距离值,(ii)由在2005年8 月15日提交的标题为"RANKING FUNCTIONS USING A BIASED CLICK DISTANCE OF A DOCUMENT ON A NETWORK"的美国专利申请序列号 11/206,286所揭示的方法确定的经偏移的点击距离值(上述两者的主题通过 引用整体包括于此),(iii)文档的URL深度,或者(iv)上述(i)或(ii)和(iii)的 组合。例如,这一可任选的附加QID分量可包括如下的函数 c)= -^-g巾表示查询无关分量诸如包含点击距离或经偏移的点击距离参数的 分量的权重,6^表示点击距离或经偏移的点击距离相对于URL深度的权重, 6^表示URL深度的权重,CD表示文档的经计算或指派的点击距离或经偏移的点击距离, ^W表示通过优化排位函数的精度确定的调整常数,它与其它调整参数相类似(即,A^可在所有边界具有相同的边界加权值时表示边界加权值, 或者/t,可在边界加权值互相不同时表示平均或中间边界值),t/D表示URL深度,以及^^是点击距离饱和常数。经加权的项(WW, 6w和协助定义其相关各项中每一项(即,分 别为包含点击距离或经偏移的点击距离参数的分量、给定文档的点击距离或经偏移的点击距离值、以及给定文档的URL深度)的重要性以及记分函数的最后结果。URL深度(UD)可任选地附加到以上引用的查询无关分量,以平滑 点击距离或经偏移的点击距离值在记分函数上具有的影响。例如,在某些 情况下,不是很重要的文档(即,具有较大URL深度)可能具有短点击距 离或经偏移的点击距离值。URL深度由文档的URL中斜杠的数量来表示。 例如,www.example.com\dl\d2\d3\d4.htm包括四个斜杠,因此具有为4的 URL深度。然而,该文档可具有从主页www.example.com的直接链接,这 给它相对较短的点击距离或经偏移的点击距离。在上述引用的函数中包括 URL深度项并且针对点击距离或经偏移的点击距离值加权URL深度项,这 补偿了相对较长的点击距离或经偏移的点击距离以更准确地反映文档在网 络中的重要性。依赖于网络,URL深度为3或更大被视为深链接。在一个实施例中,用于确定给定文档的文档相关性分数的排位函数包 括如下的函数<formula>formula see original document page 21</formula>其中各项如上所述。在其它实施例中,URL深度可从排位函数中移除或者可添加其它分量 到排位函数以提高查询相关分量、査询无关分量或两者的精度。而且,上 述包含使用参数的查询无关分量可结合到其它排位函数(未示出)以改善对搜索结果的排位。一旦在步骤204将给定文档的文档统计量提供给排位函数,示例性方法20就进行至步骤205。在步骤205,针对给定文档确定文档相关性分数, 将其存储在存储器中,并且与给定文档相关联。从步骤205,示例性方法 20进行至判定框206。在判定框206,应用程序代码作出是否己经为网络内每一文档计算了 文档相关性分数的判定。如果作出尚未为网络内每一文档计算文档相关性 分数的判定,则示例性方法20返回至步骤204并且如上所述地继续。如果 作出已经为网络内每一文档计算了文档相关性分数的判定,则示例性方法 20进行至步骤207。在步骤207,査询的搜索结果包括按照众多文档的文档相关性分数排 列这些文档。所得的文档相关性分数考虑网络内每一文档的实际或默认使 用值。 一旦排列了搜索结果,示例性方法20就进行至步骤208,其中向用 户显示经排列的结果。从步骤208,示例性方法20进行至步骤209,其中 由用户选择和查看具有最高的排位结果。从步骤209,示例性方法20进行 至步骤210并在此示例性方法20结束。除了生成网络内文档的文档相关性分数并且使用文档相关性分数来排 列搜索查询的搜索结果的上述方法之外,在此还揭示了具有存储在其上的 用于执行上述方法的计算机可执行指令的计算机可读介质。在此还揭示了计算系统。示例性计算系统包含至少一个能在计算系统 上使用的应用程序模块,其中该至少一个应用程序模块包括在该计算系统 上加载的应用程序代码,其中该应用程序代码执行生成网络内文档的文档 相关性分数的方法。应用程序代码可使用任何上述计算机可读介质来加载 到计算系统上,其中存储在计算系统上的上述计算机可读介质具有用于如 上所述地生成网络内文档的文档相关性分数并且使用文档相关性分数来排 列搜索查询的搜索结果的计算机可执行指令。尽管已经详细地参考本说明书的特定实施例描述了本说明书,但是应 该认识到,本领域的技术人员在理解了上述内容之后,可以容易地想到这 些实施例的改变、变体或等价方案。因此,所揭示方法、计算机可读介质以及计算系统的范围应当由所附权利要求书及其任何等价方案来确定。
权利要求
1.一种具有计算机可执行指令存储在其上用以排列网络上文档的计算机可读介质,所述计算机可执行指令使用包括一或多个查询无关分量的排位函数,其中至少一个查询无关分量包括考虑到网络上一或多个文档的、服务器生成的、服务器存储的使用数据。
2. 如权利要求1所述的计算机可读介质,其特征在于,所述使用值包 括(i)基于服务器维护的实际使用数据的实际使用值或者(ii)不是基于实际使 用数据的默认使用值。
3. 如权利要求2所述的计算机可读介质,其特征在于,所述实际使用 值依赖于文档或包含文档集合的文件夹的一或多个使用相关性质,所述一 或多个使用相关性质包括在给定时间段内用户的文档或文件夹查看总数、 在给定时间段内每用户的文档或文件夹查看平均数、在给定时间段内在特 定文档或文件夹上花费的总时间、在给定时间段内在特定文档或文件夹上 花费的平均时间,其中所述给定时间段包括上个星期内、上个月、去年一 年内、所述文档或文件夹的生存期内或者任何其它时间段。
4. 如权利要求1所述的计算机可读介质,其特征在于,所述至少一个 查询无关分量由下列公式表示其中t/表示实际使用值或默认使用值;以及 W"和^表示所述使用值的调整参数。
5. 如权利要求1所述的计算机可读介质,其特征在于,所述至少一个 查询无关分量包括以下两者(i)所述使用参数以及(ii)点击距离或者经偏移的点击距离参数。
6. 如权利要求l所述的计算机可读介质,其特征在于,所述至少一个 查询无关分量包括所述使用参数和URL深度参数两者。
7. 如权利要求l所述的计算机可读介质,其特征在于,还包括用于将 由所述排位函数生成的分数指派给所述网络上的每一文档的计算机可执行 指令,所述分数用于按顺序排列文档。
8. 如权利要求7所述的计算机可读介质,其特征在于,所述每一文档的分数是使用以下公式生成的<formula>formula see original document page 3</formula>w(T表示加权的项频率,iV表示所述网络上文档的数量,w表示包含査询项的文档数量,vtW表示查询无关分量的权重,6^表示点击距离的权重,6^表示URL深度的权重,CD表示文档的计算出的点击距离或者被指派的经偏移的点击距离,^^表示与边界权重相关的调整常数,C/D表示URL深度,t/表示实际使用值或默认使用值,^和&表示所述使用值的调整常数,以及^/禾B ^是常数。
9. 如权利要求l所述的计算机可读介质,其特征在于,还包括计算机 可执行指令,所述计算机可执行指令用于接受用户输入的搜索询问、进行 对所述网络上的文档的搜索以生成包括多个文档的搜索结果、使用所述排 位函数排列所述搜索结果以生成经排列的搜索结果以及向所述用户显示所 述经排列的搜索结果。
10. 如权利要求l所述的计算机可读介质,其特征在于,还包括用于使管理员能够手动调整由所述排位函数生成的排位结果的计算机可执行指令。
11. 一种计算系统,包含能在所述计算系统上使用的至少一个应用程 序模块,其中所述至少一个应用模块包括从如权利要求1所述的计算机可 读介质加载的应用程序代码。
12. —种确定网络上文档的文档相关性分数的方法,所述方法包括下 列步骤将实际使用值(")指派给包括N个文档的网络上的一或多个文档, 其中所述实际使用值(仏)基于在服务器上维护和存储的实际使用数据;如果少于N个文档被指派实际使用值("),则向没有与其相关联的 实际使用数据的文档指派默认使用值(f/z));以及使用所述每一文档的使用值来确定所述网络上给定文档的文档相关性 分数。
13. 如权利要求12所述的方法,其特征在于,还包括以下步骤从所述服务器上的数据存储文件检索实际使用数据或实际使用值 ("》。
14. 如权利要求12所述的方法,其特征在于,还包括以下步骤 在数据存储文件中存储文档的实际使用数据或实际使用值(/7"。
15. 如权利要求12所述的方法,其特征在于,所述网络上每一文档的文档相关性分数是使用以下公式生成的<formula>formula see original document page 4</formula>其中wr/表示加权的项频率,w表示所述网络上文档的数量, M表示包含查询项的文档数量,W^表示查询无关分量的权重, Z^表示点击距离的权重,Z^表示URL深度的权重,CD表示文档的计算出的点击距离或者被指派的经偏移的点击距离,/t^表示与边界权重相关的调整常数,W)表示URL深度,C/表示实际使用值或默认使用值,w"和&表示所述使用值的调整参数,以及U和&是常数。
16. —种排列网络上文档的方法,所述方法包括下列步骤使用如权利要求12所述的方法确定所述网络上每一文档的文档相关 性分数;以及基于所述每一文档的文档相关性分数按降序排列所述文档。
17. —种排列搜索査询的搜索结果的方法,所述方法包括下列步骤 使用如权利要求12所述的方法确定搜索查询的搜索结果中每一文档的文档相关性分数;以及基于每一文档的所述文档相关性分数按降序排列所述文档。
18. —种其上具有计算机可执行指令用以执行如权利要求12所述的方 法的计算机可读介质。
19. 一种计算系统,包含能在所述计算系统上使用的至少一个应用程序模块,其中所述至少一个应用程序模块包括用于执行确定网络上文档的文档相关性分数的方法的应用程序代码,所述方法包括下列步骤将实际使用值(t/》指派给包括N个文档的网络上的一或多个文档,其中所述实际使用值(C/》基于在服务器上维护和存储的实际使用数据; 如果少于N个文档被指派实际使用值(t/》,则将默认使用值(f/D)指派给没有与其相关联的实际使用数据的文档;以及使用所述每一文档的使用值来确定所述网络上给定文档的文档相关性 分数。
20. 如权利要求19所述的计算系统,其特征在于,所述实际使用值依赖于文档或包含文档集合的文件夹的一或多个使用相关的性质,所述一或 多个使用相关的性质包括在给定时间段内用户的文档或文件夹查看总数、 在给定时间段内每用户的文档或文件夹查看平均数、在给定时间段内在特 定文档或文件夹上花费的总时间、在给定时间段内在特定文档或文件夹上 花费的平均时间,其中所述给定时间段包括上个星期内、上个月、去年一 年内、所述文档或文件夹的生存期内或者任何其它时间段。
全文摘要
揭示了向网络上文档提供文档相关性分数的方法。还揭示了具有计算机可执行指令存储在其上以执行向网络上文档提供文档相关性分数的方法的计算机可读介质。此外还揭示了包含至少一个应用程序模块的计算系统,其中该至少一个应用程序模块包括用于执行向网络上文档提供文档相关性分数的方法的应用程序代码。
文档编号G06F17/30GK101268464SQ200680034531
公开日2008年9月17日 申请日期2006年9月20日 优先权日2005年9月21日
发明者A·德伯鲁纳, D·梅耶泽, H·扎拉格扎, K·佩顿纳 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1