基于一系列文档图对文档进行排名的制作方法

文档序号:6477576阅读:292来源:国知局
专利名称:基于一系列文档图对文档进行排名的制作方法
基于一系列文档图对文档进行排名 背景 如Google(谷歌)和Yahoo (雅虎)等许多搜索引擎服务能够搜索能经由因特网 访问的信息。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面,如网页。在用 户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务标识可能与这些搜索项相关 的网页。为快速标识相关的网页,搜索引擎服务可维护关键词到网页的映射。该映射可以 通过"爬寻(crawl) " web (即,万维网)来标识每一网页的关键词来生成。为爬寻web,搜 索引擎服务可使用根网页列表来标识能通过这些根网页访问的所有网页。任何特定网页的 关键词可使用各种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提 供的文字、突出显示的文字等等。搜索引擎服务基于网页的关键词与查询的文字匹配得如 何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的网页的链接以基于 排名的顺序显示给用户,该排名可以按照所标识的网页与查询的相关度、流行度、重要性和 /或某一其它度量来确定。 用于页面排名的一种公知技术是PageRank,其基于网页将具有到重要网页的链接 (即,"引出链接")的原理。网页重要性基于链接到该网页的其它网页(即,"引入链接") 的数量与重要性。PageRank基于访问web图(顶点表示网页而链接表示超链接)的网页的 随机冲浪(surfer)模型,且将网页的重要性表示为访问此网页的固定概率。在随机冲浪模 型中,访问当前页面的冲浪者将通过随机选择当前网页的链接或通过随机跳转到任何网页 来访问下一页面。如果当前网页具有三个到目标网页的引出链接,则使用当前网页的链接 来从当前网页访问每一目标网页的转移概率是1/3。跳转到任何网页的概率通常被设置为 与跳转到任何其它网页的概率相等。所以,如果存在n个网页,则对每一网页的跳转概率被 设置为1/n,这被称为跳转向量。PageRank因此基于仅依赖于当前网页的信息(例如,超链 接)和跳转概率的马尔可夫随机游动。 web图可被表示为<formula>formula see original document page 4</formula>其中V = {1, 2, , n}是顶点集合而E = {〈i, j>|i,j G V}是边集合。可以通过邻接矩阵A表示网页之间的链接,其中当存在从源网页i 到目标网页j的引出链接时将A".设为一。网页j的重要性分数Wj可以如以下表示
<formula>formula see original document page 4</formula>
该等式可以通过基于下式的迭代计算来求解
<formula>formula see original document page 4</formula>
其中w是网页的重要性分数的向量,并且是A1的主特征向量。 如上所述,页面排名算法还可以将冲浪者可以随机选择要接下来访问的未由当前 网页链接到的网页计算在内。因此,冲浪者可以以a的概率接下来访问当前网页的目标网 页,而以l-a的概率接下来访问随机所选的网页。为了将网页的这种随机选择计算在内, 页面排名算法通过使用它的元素的总和来归一化邻接矩阵的每一非零行来生成初始转移 概率矩阵P。页面排名算法随后将矩阵P中的零行的每一元素设为1/n以生成转移概率矩 阵己表示对目标网页的链接的随机选择和对网页的随机选择的模型可如下表示
<formula>formula see original document page 4</formula>
其中^是组合转移概率矩阵,而U是其中每一元素被设置为l/n的均匀概率分布矩 阵。均匀概率分布矩阵U可通过如下表示地将跳转向量乘以单位向量来生成
戶=0:尸+ (1 —a:)e'v 其中e表示单位向量而v表示跳转向量。页面排名算法考虑转移概率矩阵;的固 定概率分布n = (^, n2,…,nn)T以表示每一网页的重要性。页面排名算法可以通过 如下表示的迭代过程来计算固定分布 其中Ji (0) = (1, 1, . . . , l)nT, t表示迭代计数,且迭代过程继续直到Ji收敛于一 解。固定概率分布由主特征向量所表示,该主特征向量可使用标准幂0迭代技术来计算。
尽管页面排名技术可以是非常有用的,但部分地由于它是独立于查询的重要性度 量,因此它尤其易受"链接垃圾信息"的欺诈。"垃圾信息"一般指的是被采取来不公正地增 加网页或网站的排名、相关性、流行度、重要性等的故意的动作。在链接垃圾信息的情况下, 垃圾信息发送者可操纵链接来不公正地增加网页的重要性。例如,垃圾信息发送者可以向 具有有用信息的网页提供到垃圾网页的隐藏链接。在许多网页指向该有用信息时,该垃圾 网页的重要性被间接地增加了。作为另一示例,诸如博客站点和恥b目录等许多网站允许 访问者张贴链接。垃圾信息发送者可以张贴到其垃圾网页的链接以直接或间接地增加这些 垃圾网页的重要性。作为另一示例,一组垃圾信息发送者可以建立其中他们的网站指向彼 此的链接交换机制以增加垃圾信息发送者的网站的网页的重要性。 web垃圾信息给依赖于web数据的各种技术带来了问题。例如,部分基于网页的相 关性、流行度、或重要性来对搜索结果定序的搜索引擎服务可能由于垃圾信息而使垃圾网 页排得不公正的高。此类搜索引擎服务的用户在垃圾页面被排得不公正的高时可能失望且 可能停止使用此搜索引擎服务。作为另一示例,web爬寻器可能花费宝贵时间来爬寻垃圾 网站的链接,这增加了 web爬寻的总体成本并可能减少其有效性。
概述 提供基于随着时间收集的一系列文档图的文档排名。排名系统通过包括基于之前 文档图的文档的排名来基于文档图对文档进行排名。排名系统可提供多个指示在文档的集 合内使用文档的链接从一个文档转移到另一文档的概率的转移概率分布。每一转移概率分 布表示基于可在集合中的不同文档和这些文档之间的不同链接的概率。排名系统为第一转 移概率分布确定初始固定概率分布以表示文档的排名。排名系统随后基于下一转移概率分 布和初始固定概率分布来确定下一固定概率分布。排名系统可随后至少部分地基于下一固 定概率分布对文档进行排名。可随后在对搜索结果的文档进行排名时或在其中需要文档的 排名(重要性)的任何其它应用中使用文档的排名。 提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概 念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定 所要求保护的主题的范围。
附图简述

图1是示出某些实施例中由排名系统随时间进行的对网页重要性的计算的框图。
图2是示出某些实施例中的排名系统的组件的框图。
5
图3是例示某些实施例中用于生成文档的排名的组件的处理的流程图。
图4是例示某些实施例中排名系统中生成页面排名组件的处理的流程图。
图5是例示某些实施例中排名系统中计算页面排名组件的处理的流程图。
详细描述 提供基于随时间作为不同的快照被收集的一系列文档图的文档排名。排名系统通 过包括从之前的文档图导出的文档的排名来基于文档图对文档进行排名。在某些实施例 中,排名系统提供多个指示在文档的集合内使用文档的链接从一个文档转移到另一文档的 概率的转移概率分布。每一转移概率分布表示基于可在集合中的不同文档和这些文档之间 的不同链接的概率。例如,在文档是网页时,排名系统从各时刻收集的web图导出转移概 率分布。排名系统为第一转移概率分布确定初始固定概率分布以表示文档的排名。例如, 排名系统可使用标准幂0迭代技术来标识第一转移概率分布的主特征向量以表示文档的 排名。排名系统随后基于下一转移概率分布和初始固定概率分布来确定下一固定概率分 布。例如,为确定下一固定概率分布,排名系统可将初始固定概率分布用作用于确定下一固 定概率分布的跳转向量。排名系统可随后至少部分地基于下一固定概率分布对文档进行排 名。因为下一固定概率分布的确定是基于初始固定概率分布的,所以排名系统将文档的初 始排名包括在文档的下一排名内。因此,被初始固定概率分布排得高的文档将具有被下一 固定概率分布排得较高的趋势。类似地,被初始固定概率分布排得不高的文档将具有被下 一固定概率分布排得较低的趋势。在文档是网页时,在初始恥b图与下一web图的web的 爬寻之间新引入的链接垃圾信息的效果可在某种程度上衰弱,因为被初始固定概率分布排 得高的网页往往将继续被排得高。 图1是示出某些实施例中由排名系统随时间计算网页重要性的框图。排名系统以 初始跳转向量v。 100和作为web的初始快照的初始web图G。 101开始。排名系统随后确定 网页的初始排名n。 102。排名系统随后可以修改103(如下所述)排名Ji。以给出跳转向 量^ 104。排名系统使用该跳转向量^和作为web的第二快照的第二web图^ 105来确 定网页的第二排名^ 106。排名系统随后可以修改107排名^以给出跳转向量^ 108。 排名系统对所有web图重复此过程。对最终web图Gn 112,排名系统修改110排名Ji n—工109
以给出跳转向量Vn 111。排名系统使用跳转向量Vn和最终恥b图Gn来确定网页的最终排
名、113。 排名系统可以修改跳转向量以便为用户个性化它们、以考虑垃圾网页、以考虑web 图中的改变等。排名系统可为每一用户个性化初始跳转向量v。。例如,排名系统可分析用 户的历史以标识用户访问网页的频率。初始跳转向量可基于此历史(例如,点进数据)以 便不使用链接访问网页的概率可基于用户访问网页的频率,而不是使用相等概率。由于排 名系统使用不同web图对网页重新进行排名,初始的个性化将影响之后的排名。排名系统 还可个性化除初始跳转向量之外的跳转向量。排名系统可修改之前的恥b图的排名以包括 个性化。只要排名系统个性化或以其它方式修改跳转向量,它就可能需要归一化该跳转向 量以确保其表示概率分布。 排名系统还可设置包括已知垃圾网页的初始跳转向量v。。例如,排名系统可将不 使用链接而访问垃圾网页的概率设置为零以使访问垃圾网页的固定概率将较低,且因此垃 圾网页的排名也将较低。 一般而言,排名系统可基于排名系统所具有的网页实际是垃圾信息的置信度来降低被怀疑的垃圾网页的概率。例如,排名系统可仅稍微降低被标识为仅具 有10%的置信度是垃圾网页的网页的概率且可以显著降低被标识为具有90%的置信度是 垃圾网页的网页的概率。排名系统可调整任何之后的跳转向量以包括额外的垃圾信息。此 外,排名系统可使用即为用户个性化又包括已知垃圾网页的跳转向量。 排名系统可调整跳转向量以包括新的和被移除的网页。每次爬寻web时,可能遇 到新的网页(例如,网站增加了新的网页)且之前遇到过的网页可能不会再次遇到(例如, 网站移除了网页)。为考虑新的和被移除的网页,排名系统可向跳转向量添加元素和从中移 除元素,并设置其初始概率。排名系统随后归一化跳转向量以使其表示概率分布。
图2是示出某些实施例中的排名系统的组件的框图。排名系统210可经由通信链 接260连接到搜索引擎服务器230、网页服务器240、以及最终用户计算设备250。搜索引擎 服务器可提供被修改来基于由排名系统所提供的网页的排名来对搜索结果进行排名的常 规搜索引擎服务。排名系统可向搜索引擎服务器提供网页的排名以用于搜索结果的排名。 排名系统还可从网页服务器或搜索引擎服务器输入用户的点进数据,该点进数据用于个性 化跳转向量。排名系统还可从垃圾检测系统输入网页被疑为垃圾网页的指示(未示出)。
排名体统可包括爬寻web组件211和web图存储212。爬寻web组件可周期性地 爬寻web并生成由存储在web图存储中的邻接矩阵所表示的web图。例如,爬寻web组件 可在每周或每月的基础上爬寻恥b。排名系统可归一化每一web图的邻接矩阵以为每一web 图生成一转移概率分布矩阵。web图可仅表示web中与特定主题相关的部分。例如,爬寻 web组件可聚焦于以某种方式相关于历史主题的网页以支持聚焦于历史主题的搜索引擎服 务。 排名系统还包括排名子系统220,该排名子系统220包括生成页面排名组件221、 初始化跳转向量组件222、计算页面排名组件223、以及页面排名存储224。生成页面排名组 件调用初始化跳转向量组件来生成初始跳转向量。生成页面排名组件随后以初始web图开 始选择每一 web图,并调用计算页面排名组件以将所选web图的转移概率分布和从之前所 选web图生成的固定概率分布作为跳转向量传递。计算出的页面排名随后被存储在页面排 名存储中以供在为下一恥b图计算页面排名时使用。 在其上实现排名系统的计算设备可包括中央处理单元、存储器、输入设备(例如, 键盘和定点设备)、输出设备(例如显示设备)和存储设备(例如,盘驱动器)。存储器和 存储设备是可以用实现该排名系统的计算机可执行指令来编码的计算机可读介质,这意味 着包含该指令的计算机可读介质。此外,指令、数据结构和消息结构可被存储或经由诸如通 信链路上的信号之类的数据传送介质发送。可以使用各种通信链路,诸如因特网、局域网、 广域网、点对点拨号连接、蜂窝电话网络等。 该系统的实施例可以在各种操作环境中实现并由其使用,这些操作环境包括个人 计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、可编程 消费电子产品、数码相机、网络PC、小型计算机、大型计算机、包括任何上述系统或设备中任 一种的计算环境等。 该排名系统可以在由一个或多个计算机或其他设备执行的诸如程序模块等计算 机可执行指令的通用上下文中描述。 一般而言,程序模块包括执行特定任务或实现特定抽 象数据类型的例程、程序、对象、组件、数据结构等等。通常,程序模块的功能可以在各个实施例中按需进行组合或分布。例如,与实现排名系统的计算系统分开的计算系统可以爬寻 web并为web图生成邻接矩阵和转移概率分布矩阵。作为另一示例,排名系统可被主存在与 搜索引擎服务或链接垃圾检测系统相同的计算系统上。同样,搜索引擎可被主存在单独的 计算系统上。 图3是例示某些实施例中用于生成文档的排名的组件的处理的流程图。在框301, 组件提供第一和第二文档图(例如,表示web的不同快照的web图)。在框302,组件使用 第一文档图来确定文档的第一排名。第一排名的确定可包括文档的初始排名(例如,跳转 向量)。在框303,组件使用第二文档图和在框302中生成的文档的第一排名来确定文档的 第二排名。组件随后以表示文档的重要性或静态排名的第二排名来完成。
图4是例示某些实施例中排名系统中生成页面排名组件的处理的流程图。该组件 循环选择每一web图并使用web图的转移概率分布和从之前web图的固定概率分布导出的 跳转向量来确定其固定概率分布。在框401,该组件初始化初始跳转向量。在框402,组件 选择下一web图。在判定框403,如果所有web图都已被选择,则该组件完成,否则该组件在 框404处继续。在框404,组件调用计算页面排名组件来使用从之前的web图的页面排名导 出的跳转向量以便为所选恥b图计算页面排名或固定概率分布。在框405,组件基于当前页 面排名为下一恥b图设置跳转向量。组件随后循环至框402以选择下一web图。组件可在 框405中设置跳转向量以包括用户的浏览历史、被怀疑的垃圾网页、新的和移除的网页等。
图5是例示某些实施例中排名系统中计算页面排名组件的处理的流程图。本领域 的技术人员可以理解,因为固定概率分布可由主特征向量表示,所以可使用用于标识主特 征向量的各种公知技术中的任何一种。在此实施例中,该组件使用标准幂0迭代技术来计 算固定概率分布。在框501,该组件在每一迭代处初始化索引固定概率分布的变量并初始化 初始固定概率分布。在框502,该组件递增到下一迭代。在框503,组件将web图的概率分 布矩阵(即,包括转移概率分布和从跳转向量导出的概率分布)乘以在上一迭代期间计算 出的固定概率分布。在判定框504,如果满足终止条件,则组件将固定概率分布作为网页的 排名返回,否则组件循环至框502以开始下一迭代。终止条件可基于特定的迭代次数、固定 概率分布收敛于一解(例如,两个连续迭代的固定概率分布之间的差小于收敛阈值)等。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附 权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作 为实现权利要求的示例形式公开的。本领域的技术人员可以理解,文档可以包括任何包含 链接或以其它方式标识其它内容的信息内容。例如,文档可以是具有到其它网页的链接的 网页、具有对其它学术文章的引用的学术文章、具有对其它司法意见的引用的司法意见、具 有对其它专利的引用的专利等等。文档的排名可在许多应用中使用,如基于网页的重要性 来指示web爬寻、基于网页的排名来对网站进行排名、推荐网页和网站等。因此,本发明只 由所附权利要求来限制。
权利要求
一种计算设备中的用于对具有文档之间的链接的文档进行排名的方法,所述方法包括提供(301)第一文档图和第二文档图;基于所述第一文档图确定(302)所述文档的第一排名;以及基于所述第二文档图和基于所述第一文档图的所述文档的第一排名来确定(303)所述文档的第二排名。
2. 如权利要求1所述的方法,其特征在于提供包括提供指示使用链接从一个文档转移到另一文档的概率的第一和第二转移概率分布;所述第一排名的确定包括基于指示转移到每一文档的固定概率的第一转移概率分布 来确定第一固定概率分布;以及所述第二排名的确定包括基于所述第二转移概率分布和所述第一固定概率分布来确 定第二固定概率分布,其中所述第二固定概率分布表示所述文档的排名。
3. 如权利要求2所述的方法,其特征在于,所述第二固定概率分布的确定将所述第一 固定概率分布用作转移到每一文档而不使用链接的概率的指示。
4. 如权利要求2所述的方法,其特征在于,所述第一固定概率分布的确定还基于转移 到每一文档而不使用链接的初始概率分布。
5. 如权利要求4所述的方法,其特征在于,所述初始概率分布至少部分地基于用户访 问文档的历史。
6. 如权利要求4所述的方法,其特征在于,所述初始概率分布至少部分地基于文档被 认作垃圾信息。
7. 如权利要求2所述的方法,其特征在于,所述文档是网页且所述转移概率分布基于 所述网页之间的链接而被生成。
8. —种包含用于控制计算设备通过一方法对网页进行排名的指令的计算机可读介质, 所述方法包括提供(212)在不同时间收集的web图,web图表示网页和网页之间的链接;以及 对按时间次序的恥b图,基于转移到每一网页的概率生成(221)所述网页的排名,所述 转移到每一网页的概率基于使用如所述web图所示的链接从每一网页转移到每一其它网 页的概率和下次访问每一网页而不使用链接的概率,其中下次访问的概率基于以较早时间 的web图为基础的网页的排名。
9. 如权利要求8所述的计算机可读介质,其特征在于,web图的网页的排名的生成使用 其中转移的概率从自所述web图导出的邻接矩阵中导出且下次访问每一网页而不使用链 接的概率是跳转向量的页面排名算法。
10. 如权利要求9所述的计算机可读介质,其特征在于,所述跳转向量从基于较早时间 的web图的网页的排名中导出。
11. 如权利要求io所述的计算机可读介质,其特征在于,至少部分地基于用户访问文档的历史来修改所述跳转向量。
12. 如权利要求IO所述的计算机可读介质,其特征在于,至少部分地基于网页被认作 垃圾信息来修改所述跳转向量。
13. 如权利要求8所述的计算机可读介质,其特征在于,所述网页的排名基于从所述转 移的概率和所述下次访问的概率中导出的固定概率分布。
14. 如权利要求8所述的计算机可读介质,其特征在于,包括接收搜索请求的搜索结 果,所述搜索结果标识相关于所述搜索请求的网页,且至少部分地基于所生成的网页的排 名对所述搜索结果的网页进行排名。
15. 如权利要求14所述的计算机可读介质,其特征在于,所述搜索结果的网页的排名 使用所生成的从最新近的web图导出的网页的排名。
16. —种用于对具有网页之间的链接的网页进行排名的计算设备,包括 具有指示使用当前被访问的网页的链接来从一个网页转移到另一网页的概率的第一和第二转移概率分布的转移概率分布存储(212);指示下次访问每一网页而不使用当前被访问的网页的链接的概率的初始跳转向量; 用于基于所述第一转移概率分布和所述初始跳转向量来确定第一固定概率分布并基于所述第二转移概率分布和从所述第一固定概率分布导出的跳转向量来确定第二固定概率分布的组件(220);以及至少部分地基于确定所述第二固定概率分布来对搜索结果的网页进行排名的组件(230)。
17. 如权利要求16所述的计算设备,其特征在于,所述跳转向量至少部分地基于用户 访问文档的历史。
18. 如权利要求16所述的计算设备,其特征在于,所述跳转向量至少部分地基于网页 被认作垃圾信息。
19. 如权利要求16所述的计算设备,其特征在于,包括以基于所述搜索结果的网页的 排名的次序来显示所述搜索结果的网页的指示的组件。
20. 如权利要求16所述的计算设备,其特征在于,所述第一和第二转移概率分布从在 不同时间收集的web图生成。
全文摘要
提供基于随着时间收集的一系列web图的文档排名。排名系统提供表示不同快照或时间的多个转移概率分布。每一转移概率分布表示在文档的集合内使用文档的链接从一个文档转移到另一文档的概率。排名系统基于快照的转移概率分布和之前的快照的固定概率分布来为每一快照确定固定概率分布。固定概率分布表示随着时间的文档的排名。
文档编号G06F17/30GK101711389SQ200880020987
公开日2010年5月19日 申请日期2008年6月18日 优先权日2007年6月18日
发明者B·高, H·李, L·杨, L·齐, T·刘 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1