前瞻文档排名系统的制作方法

文档序号:6476790阅读:211来源:国知局
专利名称:前瞻文档排名系统的制作方法
前瞻文档排名系统
背景
如Google(谷歌)和Yahoo (雅虎)等许多搜索引擎服务能够搜索能经由因特 网访问的信息。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示页面, 如网页。在用户提交包含搜索项的搜索请求(即,查询)之后,搜索引擎服务 标识可能与这些搜索项相关的网页。为快速标识相关的网页,搜索引擎服务可 维护关键词到网页的映射。该映射可以通过"爬寻(crawl) "web (即,万维网) 来标识每一网页的关键词来生成。为爬寻web,搜索引擎服务可使用根网页列 表来标识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各 种公知信息检索技术来标识,如标识标题行的文字、在网页的元数据中提供的 文字、突出显示的文字等等。搜索引擎服务基于网页的关键词与查询的文字匹 配得如何来标识可能与搜索请求相关的网页。搜索引擎服务随后将到所标识的 网页的链接以基于排名的顺序显示给用户,该排名可以按照其与查询的相关 度、流行度、重要性和/或某一其它度量来确定。
用于页面排名的一种公知技术是PageRank,其基于网页将具有到重要网 页的链接(即,"引出链接")的原理。网页重要性基于链接到该网页(即, "引入链接")的其它网页的数量与重要性。PageRank基于访问web图(顶 点表示网页而链接表示超链接)的网页的随机网虫(surfer)模型,且将网页 的重要性表示为访问此网页的固定概率。在随机网虫模型中,访问当前页面的 网虫将通过随机选择当前网页的链接来访问下一页面。如果当前网页具有三个 到目标网页的引出链接,则从当前网页访问每一目标网页的概率是1/3。 PageRank因此基于仅依赖于当前网页的信息(例如,超链接)的马尔可夫随 机游动。
web图可被表示为G=<r,£> ,其中「=卩,2,...,"}是顶点集合而 £ = {</,_/〉|/,./£^是边集合。网页之间的链接可以由邻接矩阵^来表示,其中
在存在从源网页虔j目标网页j'的引出链接时将4设为1。网页y的重要性分数w,可以如下表示
<formula>formula see original document page 6</formula>(1)
该等式可以通过基于下式的迭代计算来求解
<formula>formula see original document page 6</formula>(2)
其中w是网页的重要性分数的向量,并且是,的主本征向量。 PageRank还可以将网虫可以随机选择接下来访问未由当前网页链接到的 网页计算在内。因此,网虫可以有"的概率接下来访问当前网页的目标网页, 而有l-a的概率接下来访问随机所选的网页。为了将对网页的这种随机选 择计算在内,PageRank通过使用其元素之和来归一化邻接矩阵的每一非零行 来生成初始转移矩阵尸。PageRank随后将矩阵尸中的零行的每一元素设置为 1//7来生成转移概率矩阵7。表示对目标网页的链接的随机选择和对网页的随
机选择^模型可表示如下
<formula>formula see original document page 6</formula>(3)
其中^是组合转移概率矩阵,而U是其中每--元素被设置为1/w的统一概 率分布矩阵。PageRank认为转移概率矩阵?的固定分布;r = ;r2,…,;rj7表示
每一网页的重要性。PageRank可以通过如下表示的迭代过程来计算固定分布
<formula>formula see original document page 6</formula> (4)
其中;r(0)—U,...,1)/, ?表示迭代计数,且迭代过程继续直到;r收敛于一解。
PageRank的基础假设是用户随机地选择当前网页的任何超链接。然而, 在用户具有帮助决定选择哪个超链接的附加信息可用时,此假设是不正确的。
用户可能想要最大化他们的信息收获,并且因此具有这种附加信息的用户将可 能选择将导致最大信息收获的超链接。
概述
提供了用于基于从源文档到目标文档的转移概率来计算文档的重要性的 方法和系统,其中转移概率基于对源文档的目标文档的信息内容的前瞻。该前 瞻重要性系统基于对到源文档的目标文档的链接的分析来生成在任一对源文 档和目标文档之间转移的转移概率。该前瞻重要性系统可以基于特定前瞻距离远的文档的内容来计算从源文档到直接目标文档的转移概率。该前瞻重要性系 统可以基于相距一前瞻距离的文档上的链接的数量来计算转移概率。在该前瞻 重要性系统从这些转移概率中生成转移概率矩阵之后,它求出访问每一文档的 固定概率。文档的固定概率表示文档的重要性。
提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的 一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不 旨在用于帮助确定所要求保护的主题的范围。
附图简述


图1是示出一个实施例中的前瞻重要性系统的组件的框图。 图2是示出一个实施例中的前瞻重要性系统的计算前瞻重要性组件的处 理的流程图。
图3是示出一实施例中的前瞻重要性系统的生成初始转移矩阵组件的处 理的流程图。
图4是示出一实施例中的前瞻重要性系统的计算每页面链接组件的处理
的流程图。
图5是示出一实施例中的前瞻重要性系统的计算固定概率组件的处理的 流程图。
详细描述
提供了用于基于从源文档到目标文档的转移概率来计算文档的重要性的 方法和系统,其中转移概率基于对源文档的目标文档的信息内容的前瞻。在一 个实施例中, 一种前瞻重要性系统基于对到源文档的目标文档的链接的分析来 生成在任一对源文档和目标文档之间转移的转移概率。通过源文档的链接直接 或间接可访问的文档是源文档的目标文档。例如,文档a可以包含到文档b、 c、 和d的链接,且文档b可以包含到文档b'和b"的链接。文档a是直接目标文档 b、 c和d的源文档,且是间接目标文档b'和b"的源文档。文档b是直接目标文 档b'和b"的源文档。文档b、 c和d与源文档a相隔前瞻距离一,而文档b'和 b"与源文档a相隔前瞻距离二。该前瞻重要性系统可以基于特定前瞻距离远的
7文档的内容来计算从源文档到直接目标文档的转移概率。例如,如果目标文档
b、 c和d各自分别包含2、 3、和4个链接,则基于前瞻距离一的从源文档a 转移到目标文档b、 c和d的转移概率可以分别是2/9、 3/9、和4/9。因为文档 b、 c和d包含总共9个链接,所以任何目标文档的转移概率是它所包含的链接 总数的分数。因此,该前瞻重要性系统基于相距一前瞻距离的文档上的链接的 数量来计算转移概率。在该前瞻重要性系统从这些转移概率中生成转移概率矩 阵之后,它求出访问每一文档的固定概率。文档的固定概率表示文档的重要性。 以这种方式,该前瞻重要性系统在将可通过源文档的不同链接获得的相对信息 量计算在内的情况下确定文档的重要性。
用户可以基于通过选择一个链接而不选另一个链接所感知到的信息收获 来选择链接,而不是随机选择当前网页的链接。帮助用户作出信息收获的判定 所需的附加信息可以用各种方式来提供。例如,可以扩充网页来为每一链接显 示可通过此链接访问的相距一前瞻距离的链接的百分比。在用户将指针悬停在 一链接上时,该百分比可以显示在该链接旁边。继续具有到文档b、 c和d的 链接的文档a的示例,在指针悬停于到文档b的链接上时,随后可以在该链接 旁边显示22%。作为另一个示例,在显示网页时,可以显示web图(例如,顶 点和边)中与当前网页相距一前瞻距离的一部分的图形。用户可以评估web图 的所显示的部分来评估通过各种链接可获得的信息。
本领域的技术人员可以理解,可以使用许多不同的技术来基于前瞻生成转 移概率。以上描述的技术将从源网页到直接目标网页的转移概率设置为通过在 特定前瞻距离处的目标网页可访问的链接的分数。继续具有到文档b、 c和d 的链接的文档a与具有到文档b'和b"的链接的文档b的示例,如果前瞻距离是 二且文档b'和b"分别包含2个与5个链接,且c的直接目标文档上的链接总数 是14,而d的直接目标文档上的链接总数是21 ,则文档b的转移概率将是7/42, 文档c的转移概率将是14/42,以及文档d的转移概率将是21/42。替换技术可 以将转移概率设置为无前瞻的转移概率和前瞻的转移概率的组合、或前瞻不同 的前瞻距离的转移概率的组合。继续此示例,在不前瞻的情况下,对文档b、 c 和d来说转移概率将是1/3,而在前瞻距离为一的情况下,转移概率将是2/9、 3/9、和4/9。进行前瞻和不进行前瞻的转移概率的线性组合可以是2.5/9 3/9、禾口 3.5/9。
在一个实施例中,前瞻重要性系统可以将网页之间的转移概率表示如下
(")"(G)
其中/表示源网页,y'表示直接目标网页,TV-l表示前瞻距离,以及^w一0
表示通过在前瞻距离W-1处的目标网页/的网页上的链接的数量。继续上述 示例,目标文档b、 c和d与源文档a相距前瞻距离一。因此,《(')是3,《2)是 2,《(2>是3,""是4,以及c^)是2,且等式5的分母是这些值的总和。该前
瞻重要性系统可以根据下式来生成初始转移矩阵
(6)
其中尸W表示基于前瞻距离iV-l的初始转移矩阵,X表示指示文档之间 的链接的邻接矩阵,以及DW表示其对角元素被设置为"^的对角矩阵,其 中"(^根据下式来计算 ,)=" (7)
其中= (1,1,..., 1):'。矩阵(Dw)—'是在,)中的相应元素为零的任何元
素都为零值的扩展逆矩阵。矢量"(w)包含用于每一网页的元素,且包含与该 网页相距前瞻距离W-l的网页上的链接总数。
该前瞻重要性系统随后将尸W中的零行的每一元素设置为1—,从而给
出转移概率矩阵7("。该前瞻重要性系统如下表示经由链接对直接目标网页的 随机选择,以及在不选择链接的情况下对网页的随机选择 、,)+(l一丰(8)
其中 'V)是组合转移概率矩阵,而f/是其中每一元素被设置为1/"的统一
概率分布矩阵。该前瞻重要性系统如下表示固定概率
=(w)、".

,)(9)
其中7r^表示前瞻距离iV-l情况下的固定概率。该前瞻重要性系统可以 使用迭代过程来计算固定概率。
图1是示出一个实施例中的前瞻重要性系统的组件的框图。前瞻重要性系 统IIO可以经由通信链路130来连接到网站120。该前瞻重要性系统可以包括
9爬寻网站的网页来生成邻接矩阵112的爬寻器组件111。可作为稀疏矩阵来存
储的该邻接矩阵指示网页之间的链接并表示web图。该前瞻重要性系统还可以
包括搜索引擎组件113,该搜索引擎组件接收搜索请求、标识匹配搜索请求的
网页、并至少部分基于前瞻重要性系统生成的重要性分数来对匹配网页进行排 名。该前瞻重要性系统包括计算前瞻重要性组件115、生成初始转移矩阵(尸)
组件116、计算固定概率(;r)组件117、以及计算每页面链接(^组件118。计算
前瞻重要性组件调用生成初始转移矩阵组件来计算初始转移矩阵并随后生成 转移概率矩阵。生成初始转移矩阵组件调用计算每页面链接组件来为每一源网
页生成相距一前瞻距离的网页上的链接总数。计算前瞻重要性组件调用计算固 定概率组件来计算固定概率并将该固定概率作为重要性分数存储在重要性存
储119中。
在其上实现该前瞻重要性系统的计算设备可包括中央处理单元、存储器、 输入设备(例如,键盘和定点设备)、输出设备(例如,显示设备)和存储设 备(例如,盘驱动器)。存储器和存储设备是可以用实现该前瞻重要性系统的 计算机可执行指令来编码的计算机可读介质,这意味着包含该指令的计算机可 读介质。此外,指令、数据结构和消息结构可被存储或经由诸如通信链路上的 信号之类的数据传送介质发送。可以使用各种通信链路,诸如因特网、局域网、 广域网、点对点拨号连接、蜂窝电话网络等。
该系统的实施例可以在各种操作环境中实现,这些操作环境包括个人计算 机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系 统、可编程消费电子产品、数码相机、网络PC、小型计算机、大型计算机、 包括任何上述系统或设备中任一种的计算环境等。
该前瞻重要性系统可以在诸如程序模块等由一个或多个计算机或其他设 备执行的计算机可执行指令的通用上下文中描述。 一般而言,程序模块包括执 行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等 等。通常,程序模块的功能可以在各个实施例中按需进行组合或分布。例如, 单独的计算系统可以爬寻web并生成邻接矩阵。同样,搜索引擎可被主存在单 独的计算系统上。
图2是示出一个实施例中的前瞻重要性系统的计算前瞻重要性组件的处
10理的流程图。向该组件传递邻接矩阵的指示和前瞻距离的指示。该组件基于所 传递的前瞻距离来生成转移概率矩阵,并将此转移概率矩阵的固定概率作为网 页的重要性来存储。在框201,该组件调用生成初始转移矩阵组件来生成初始
转移矩阵。在框202,该组件归一化行中的值并将具有全零元素的任何行的元 素设为具有相等概率来生成转移概率矩阵。在框203,该组件生成中间矩阵来 将使用因子h"加权的、通过不选择当前网页的链接来接着访问网页的概率计 算在内。在框204,该组件生成使用因子"对转移概率矩阵加权的中间矩阵。 在框205,该组件组合中间矩阵来生成前瞻距离为^-l情况下的组合转移概率 矩阵。在框206,该组件调用计算固定概率组件来计算转移概率矩阵的固定概 率。在框207,该组件将固定概率作为每一网页的重要性存储在重要性存储中 并随后完成。
图3是示出一实施例中的前瞻重要性系统的生成初始转移矩阵组件的处 理的流程图。向该组件传递前瞻距离的指示且该组件生成初始转移矩阵。在框 301,该组件调用计算每页面链接组件来生成矢量^^和^w一)。在框302, 该组件将矩阵D('v-')生成为具有对角元素爿^的对角矩阵。在框303,该组 件将矩阵D(w)生成为具有对角元素J(W的对角矩阵。在框304,该组件通过 将邻接矩阵^乘以矩阵^w-')来生成中间矩阵r。在框305,该组件通过将D^ 的逆矩阵乘以中间矩阵r来生成初始转移矩阵。该组件随后返回该初始转移矩 阵。
图4是示出一实施例中的前瞻重要性系统的计算每页面链接组件的处理 的流程图。向该组件传递前瞻距离的指示并且该组件计算与源网页相距该前瞻 距离的目标网页上的链接的计数。在框401,该组件初始化矢量t/(0)。在框 402-404,该组件循环计算每一网页的计数。在框402,该组件递增索引。在判 定框403,如果该索引大于该前瞻距离加一,则该组件返回最近两个计算出的 矢量,否则该组件在框404继续。在框404,该组件将邻接矩阵乘以最近计算 出的矢量来给出下一计算出的矢量并循环到框401来递增该索引。
图5是示出一实施例中的前瞻重要性系统的计算固定概率组件的处理的 流程图。向该组件传递概率转移矩阵并且该组件为每一网页计算相应的固定概 率。在框501,该组件初始化迭代变量/。在框502,该组件初始化固定概率。在框503-505,该组件循环计算新的固定概率直到满足了终止条件。在框503, 该组件递增到下一迭代。在框504,该组件通过将转移概率矩阵的变换乘以上 一次迭代的固定概率来为当前迭代计算固定概率。在判定框505,如果满足终 止条件,例如固定概率已经收敛于一个解或已经执行了特定次数的迭代,则组 件返回该固定概率,否则该组件循环至框503来递增到下一迭代。
尽管用对结构特征和/或方法动作专用的语言描述了本主题,但可以理解, 所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体 特征和动作是作为实现权利要求的示例形式公开的。本领域的技术人员可以理 解,文档可以包括任何包含链接或以其它方式标识其它内容的信息内容。例如, 文档可以是具有到其它网页的链接的网页、具有对其它学术文章的引用的学术 文章、具有对其它司法意见的引用的司法意见、具有对其它专利的引用的专利 等等。因此,本发明只由所附权利要求来限制。
1权利要求
1.一种计算设备中的用于确定具有文档之间的链接的文档的重要性的方法,所述方法包括通过对源文档的每一目标文档的信息内容进行前瞻,基于对通过该目标文档可用的信息的判定,来生成(116)在各对源文档与目标文档之间转移的转移概率;基于所生成的转移概率的固定概率来计算(117)文档的重要性;以及存储(115)计算出的文档的重要性。
2. 如权利要求1所述的方法,其特征在于,所述转移概率的生成包括将 在不选择源文档的链接的情况下从源文档到另一文档的转移计算在内。
3. 如权利要求1所述的方法,其特征在于,所述转移概率的生成包括生 成转移概率矩阵。
4. 如权利要求1所述的方法,其特征在于,根据下式来计算初始转移矩阵其中P^表示基于前瞻距离A^-1的初始转移矩阵,^表示指示文档之间 的链接的邻接矩阵,以及D^表示具有设置为"(^的对角元素的对角矩阵, 其中"(")根据下式来计算 = ')其中z)"u,...,i);;。
5. 如权利要求4所述的方法,其特征在于,包括通过使用每一行的元素 的总和归一化该行的元素来将所述初始转移矩阵转化为转移概率矩阵。
6. 如权利要求1所述的方法,其特征在于,所述转移概率是根据下式来 计算的.-y 一 s:("(,剩G)其中/f)表示基于前瞻距离7V-l从文档/转移到文档/的转移概率,而4")表示来自与文档,'相距前瞻距离1的文档j'的链接的计数。
7. 如权利要求1所述的方法,其特征在于,迭代地执行所述重要性的计 算,直到所述文档的固定概率收敛于一解。
8. 如权利要求1所述的方法,其特征在于,所述转移概率被表示为转移 概率矩阵,且所述重要性的计算是通过标识转移概率矩阵的主本征向量来执行 的。
9. 如权利要求1所述的方法,其特征在于,包括基于所述计算出的重要 性对文档进行排名。
10. 如权利要求1所述的方法,其特征在于,所述文档是针对搜索请求的搜索结果的网页,且所述网页基于与搜索结果的相关性和计算出的重要性来排 名。
11. 如权利要求l所述的方法,其特征在于,在源文档和目标文档之间转 移的转移概率是基于与所述源文档相距一前瞻距离的文档上的链接的数量的。
12. —种用指令编码的计算机可读介质,所述指令用于控制计算设备通过一种方法来对具有到其它网页的超链接的网页进行排名,所述方法包括通过对源网页的每一目标网页的信息内容进行前瞻,基于通过该目标网页可用的信息,来生成(116)在各对源网页与直接目标网页之间转移的转移概率;基于所生成的转移概率的固定概率来计算(117)网页的重要性; 搜索(113)要包括在针对搜索请求的搜索结果中的网页;以及 基于计算出的重要性来对搜索结果的网页进行排名(113)。
13. 如权利要求12所述的计算机可读介质,其特征在于,所述转移概率的生成包括将在不选择超链接的情况下从一网页到另一网页的转移计算在内。
14. 如权利要求12所述的计算机可读介质,其特征在于,所述转移概率 的生成包括生成转移概率矩阵。
15. 如权利要求12所述的计算机可读介质,其特征在于,迭代地执行所 述重要性的计算,直到所述网页的固定概率收敛于一解。
16. 如权利要求12所述的计算机可读介质,其特征在于,所述转移概率 被表示为转移概率矩阵,且所述重要性的计算通过标识转移概率矩阵的主本征 向量来执行。
17. 如权利要求12所述的计算机可读介质,其特征在于,所述网页基于 与搜索结果的相关性来排名。
18. —种用于计算具有到其它网页的超链接的网页的重要性的计算设备, 所述计算设备包括通过对目标网页的信息内容进行前瞻来生成在各对网页之间转移的转移 概率的组件(116);基于所述转移概率的固定概率来计算网页的重要性的组件(117); 基于计算出的重要性对网页进行排名的组件(113)。
19. 如权利要求18所述的计算设备,其特征在于,所述生成转移概率的组件将在不选择超链接的情况下从一网页到另一网页的转移计算在内。
20. 如权利要求18所述的计算设备,其特征在于,从源网页转移到直接 目标网页的转移概率通过对源网页的每一直接目标网页的信息内容进行前瞻 而基于通过该目标网页可用的信息。
全文摘要
提供了用于基于从源文档到目标文档的转移概率来计算文档的重要性的方法和系统,其中转移概率基于对源文档的目标文档的信息内容进行前瞻。前瞻重要性系统基于对到源文档的目标文档的链接的分析来生成在任一对源文档和目标文档之间转移的转移概率。该系统可以基于相隔一前瞻距离的文档上的链接的数量来计算转移概率。该系统随后求出转移概率的固定概率。该固定概率表示文档的重要性。
文档编号G06F17/21GK101652773SQ200880010756
公开日2010年2月17日 申请日期2008年3月29日 优先权日2007年3月30日
发明者T-Y·刘 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1