基于层次的文档贡献的传播的制作方法

文档序号:6569606阅读:145来源:国知局
专利名称:基于层次的文档贡献的传播的制作方法
基于层次的文档贡献的传播
背景技术
许多搜索引擎服务如Google(谷歌)和Overture(建议),提供对能经由因特 网访问的信息的搜索。这些搜索引擎服务允许用户搜索用户可能感兴趣的显示 页面如网页。在用户提交包含搜索项的搜索请求(即,査询)之后,搜索引擎 服务标识可能与这些搜索项有关的网页。为快速标识相关的网页,搜索引擎服 务可维护关键词与网页的映射。该映射可以通过"爬行"web (即,万维网) 来标识每一网页的关键词。为爬行web,搜索引擎服务可使用根网页列表来标 识能通过这些根网页访问的所有网页。任何特定网页的关键词可使用各种周知 信息检索技术来标识,诸如标识标题行的词语、在网页的元数据中提供的词语、 突出显示的词语等等。基于各种度量如词频与逆文档频度(term frequency and inverse document frequency)或即("tPidf'),搜索引擎服务可产生相关性分 数来表示网页的信息与搜索请求的相关程度。搜索引擎服务也可产生一个重要 性分数来表示网页的重要性,这是以各种度量如Google的页等级(PageRank) 度量为基础的。搜索引擎服务随后向用户显示与这些网页的链接,其次序基于 按其确定的相关性和重要性排列。
用于确定网页重要性的两个周知技术是页等级和HITS ("超链接引导的 主题搜索(Hyperlink-InducedTopic Search))"。页等级基于网页将具有与重要 网页的链接(即"引出链接")的原理。因而,网页重要性基于链接到该网页 (即"引入链接")的其它网页的数量与重要性。用简单形式,网页之间的链 接可以由矩阵j表示,其中4表示从网页z'到网页/的引出链接的数量。网页7 的重要性分数可以由下面的公式表示<formula>formula see original document page 5</formula>
该公式可以通过基于下面的公式的迭代计算来求解
<formula>formula see original document page 5</formula>
其中W是网页的重要性分数的向量,而是Z的主特征向量。HITS技术另外基于具有与其它重要网页的许多链接的网页本身可以是重 要的原理。因而,HITS将网页的"重要性"分成两个相关属性"中心(hub)" 和"权威(authority)"。"中心"是由网页所链接到的网页的"权威"分数来测 量的,而"权威"是由链接到该网页的网页的"中心"分数测量的。与独立于 查询来计算网页重要性的页等级相比,HITS基于结果的网页和通过跟随引入 和引出的链接而与结果的网页相关的网页来计算重要性。HITS向搜索引擎服 务提交查询并且使用结果的网页作为网页的初始集合。HITS向该集合添加作 为引入链接的目的地的那些网页和作为结果的网页的引出链接的源的那些网 页。HITS随后使用迭代算法计算每张网页的权威和中心分数。权威和中心分 数可以由下面的公式来表示<formula>formula see original document page 6</formula>其中"(P)表示网页P的权威分数而^O0表示网页P的中心分数。HITS使用邻 接矩阵^来表示这些链接。邻接矩阵由下面的公式表示
<formula>formula see original document page 6</formula>向量"和/z分别对应于集合中所有网页的权威和中心分数,并且可以用下面的 公式来表示<formula>formula see original document page 6</formula>
因而,"和/j是矩阵^^和^^的特征向量。HITS还可修改成将按访问数 量测量的网页的流行度计算在内。基于对点进数据的分析,每当用户从网页!'移 动至网页/'时就增加邻接矩阵的~ 。
对用于得到网页的重要性并且随后将该重要性计算在内以对网页进行排 列的超链接的使用,仅显示出有限的成功。而且,已经发现相关性分数与重要 性分数的组合不能显著地提高査询结果的准确性。

发明内容
提供基于子代文档的贡献确定在文档层次内文档贡献的方法和系统。贡 献系统提供文档的层次,它指定文档之间的父/子关系。父/子关系也称为祖代/ 子代关系。对于层次的每一文档,贡献系统确定将子代文档的贡献计算在内的每一文档的贡献。贡献系统可将文档的贡献传播至其祖代的每一文档或者仅传 播至某一数量的最近祖代文档(例如,仅传播至其父文档)。贡献可以是文档 与主题的相关性、文档的特征等等。
提供本发明内容以简化形式介绍在下面的具体实施方式
中进一步描述的 一些概念。本发明内容不是要标识要求保护主题的关键特征或本质特征,也不 是要用于帮助确定要求保护主题的范围。


图1是例示一示例网站网页的分层关系的图示。 图2是例示一个实施例中贡献系统的组件的框图。
图3是流程图,例示一个实施例中贡献系统的产生贡献组件的处理。 图4是流程图,例示一个实施例中贡献系统的计算相关性组件的处理。 图5是流程图,例示一个实施例中贡献系统的产生特征组件的处理。
具体实施例方式
提供基于子代文档的贡献确定文档层次内文档贡献的方法和系统。在一 个实施例中,贡献系统提供文档的层次,它指定文档之间的父/子关系。父/子 关系也称为祖代/子代关系。文档层次的示例是网站网页(即,文档)的层次。 层次可由网页的统一资源定位符("URL")定义。例如,具有URL"www.va.gov"
的网页可以是网站所有网页的共同祖代网页,它也可称为网站的根网页。根网 页的子网页可包括"www.va.gov/disclaim.htm"禾口 "www.va.gov/resdev"。对于层次
的每一文档,贡献系统确定将子代文档的贡献计算在内的每一文档的贡献。例 如,贡献可以是网页与主题的相关性或者可以是网页的特征如词频。贡献系统 有效地将子代文档的贡献传播至祖代文档,因此文档的贡献可以更准确地表示 由文档及其子代文档所表示的贡献。贡献系统可将文档的贡献传播至其每一个 祖代文档或者仅传播至某一数量的最近的祖代文档(例如,仅传播至其父文 档)。如此,贡献系统可以通过将子代文档的贡献计算在内来产生文档贡献的 更准确评估。
在一个实施例中,贡献系统计算网站网页与主题的相关性。主题可以从各种源获得,包括用于分类网页的类别列表、用户提交的査询等。贡献系统使 用网站网页的层次将网页与主题的相关性从子代网页传播至祖代网页。贡献系 统可使用常规的度量诸如词频和逆文档频度来确定网页与主题的相关性。例 如,主题可以是"退伍军人医疗津贴",而网页的相关性可以基于网页内项"退 伍军人"的出现数量以及网站内包含项"退伍军人"的网页数量。贡献系统最 先计算没有子代网页的网页(即,叶网页)与主题的相关性。贡献系统可确定 将网页的内容、网页的元数据、网页的标题、网页的关键字等等计算在内的相 关性。贡献系统随后将这些网页的相关性传播至其祖代网页。贡献系统可计算 每一祖代网页本身的相关性并且随后将其子代网页的相关性计算在内以提供 祖代网页的总相关性。贡献系统可按下面的公式计算相关性
<formula>formula see original document page 8</formula>(1)
其中/(S(户),C/n'W(p》表示网页P的相关性,S(/p)表示网页p本身的相关性,
CWW(p)表示p的子网页,O表示空集,虹/C7n'W(p)表示与主题相关的P的子
网页,I l表示集合中网页的数量,以及"表示网页本身的相关性与子网页的相
关性之间的权重。按照这个公式,网页的相关性部分地基于每一子代网页的相 关性。可替换地,项/(S(《),C/n'W(^可由项S(《)代替,因此网页的相关性将
仅基于其子网页的相关性而非更远的子代网页。而且,按照这个公式,网页的 相关性仅基于与主题有关的子代网页的相关性。可替换地,相关性可基于所有 子代网页,其中与主题无关的网页具有非常低的相关性。因子(l+")增加了一 网页即使在其没有与主题有关的子网页的情况下的相关性,这是因为有效地增 加了具有子网页的网页的相关性。
在一个实施例中,贡献系统计算网站网页的特征。贡献系统使用网站网页的层次将网页的特征从子代网页传播至祖代网页。贡献系统可使用常规的度 量来产生网页的特征。网页的特征可包括词频、关键字频率、标题、图象尺寸 等等。更一般地,特征可表示描述网页各种特性的特征向量。贡献系统可最先 产生没有子代网页的网页的特征。贡献系统随后将这些网页的特征传播至它们 的父网页并沿着网页的层次一直向上传播至父网页的父网页。贡献系统可从网 页本身产生每一祖代网页的特征并且随后将其子代网页的特征计算在内以提 供袓代网页的总特征。贡献系统可按照下面的公式产生网页的特征
g(F(p),CMc/(会
!i e/C認(p)1
(1 + ")尸(P)
(2)
其中g(F(p),On'W(p))表示网页p的所述特征,F(p)表示用于产生网页p的所 述特征的函数,CWW(p)表示p的子网页,O表示空集,J e/CWW(p)表示与所 述特征相关的"的子网页,I l表示集合中网页的数量,以及"表示从网页本身 得到的所述特征与子代网页的所述特征之间的权重。如上对于公式l所述,公 式2可被限制为仅将特征传播至某一数量的最近祖代网页。
在一个实施例中,贡献系统将文档长度特征作为一种特殊的情形处理, 因为文档的长度对于许多不同相关性度量是重要的。贡献系统可按照下面的公 式产生表示网页长度的特征-
(3)
其中Z'(p)表示代表网页P的长度的特征,丄(P)表示网页P的长度,C/h'W(^)表
示^的子网页,O表示空集,以及"表示用于增加网页P长度特征的因子。每 当网页具有至少一个子网页时,贡献系统就增加表示网页长度的特征。可替换地,贡献系统可将子代网页的实际长度计算在长度特征内。
图1是例示出示例网站网页的分层关系的图示。该网站具有标识为
URL"www.va.gov"的根网页101。网页101具有子网页111-115,其URL为 "www.va.gov/disclaim.htm" , "www.va.gov/resdev" , "www,va.gov/dva.htm", "www.va.gov/vetdata"和"www.va.gov/spec_prog.htm"。在此例中,URL的深度 指示网页的分层关系。例如,网页120是网页112的子网页并且具有 URL"www.va.gov/resdev/ps"。网页120具有子网页131禾tl 132,其URL为 "www.va.gov/resdev/ps/psmr"禾口"www.va.gov/resdev/ps/pshrd"。 网页131具有子 网页141禾卩142, 其URL为"www.va.gov/resdev/ps/psmr/mrs^rograms.htm"禾口 "www.va.gov/resdev/ps/psmr/default.htm"。 在此例中,网页101是所有其它网 页共同的祖代网页,而网页141是网页131、 120、 112和101的子代网页。本 领域的技术人员将意识到,各种技术可用于标识文档且特别是网站的分层关系 或结构。例如,网站的分层结构可从作为网站网页被包括的站点地图得到或者 可从网页之间的站内链接得到。
图2是例示一个实施例中贡献系统的组件的框图。贡献系统210可通过 通信链路220连接至各种网站230。贡献系统可包括产生贡献组件211,计算 相关性组件212和产生特征组件213。贡献系统还可包括爬行器214,主题存 储215,站点地图存储216,主题/页面相关性存储217和页面特征存储218。 爬行器爬行各种网站以用每一网站的网页层次填充站点地图存储。主题存储包 含要用于确定网站网页相关性的主题列表。主题/页面相关性存储包含每一主题 的条目,并且在每一条目内包含每一网页的子条目,它指示该网页与主题的相 关性。页面特征存储包含每一特征的条目,并且在每一条目内包含每一网页的 子条目,它指示该网页的相应特征。产生贡献组件调用计算相关性组件和产生 特征组件来计算相关性以及产生网页的特征,并且将结果存储在主题/页面相关 性存储和页面特征存储中。
在其上实现贡献系统的计算设备可包括中央处理单元,存储器,输入设 备(例如,键盘和定点设备),输出设备(例如显示设备)和存储设备(例如, 盘驱动器)。存储器和存储设备是可包含实现贡献系统的指令的计算机可读介 质。另外,数据结构和消息结构可通过数据传输介质存储或传输,诸如在通信链接上的信号。可使用各种通信链接,诸如因特网,局域网,广域网或者点对 点拨号连接。
贡献系统可在各种操作环境中实现,这些操作环境包括个人计算机,服 务器计算机,多处理器系统,基于微处理器的系统,可编程消费电子产品,网 络PC、小型机、大型机,包括任何上述系统或设备的分布式计算环境,等等。
贡献系统可在由一或多个计算机或其它设备执行的计算机可执行指令诸 如程序模块的一般上下文中描述。通常,程序模块包括例程、程序、对象、组 件、数据结构等,它们执行特定的任务或实现特定的抽象数据类型。 一般地, 程序模块的功能性可在各种实施例中按需组合或分布。
图3是流程图,例示一个实施例中贡献系统的产生贡献组件的处理。贡
献系统确定站点地图存储的各种网站的相关性和特征的贡献。在框301,组件 选择下一个网站。在判断框302,如果已经选择了所有网站,则组件完成,否 则组件继续至框303。在框303-305,组件循环选择主题存储的主题并计算所 选网站网页与所选主题的相关性。在框303,组件选择主题存储的下一个主题。 在判定框304,如果已经选择了主题存储的所有主题,则组件继续至框306, 否则组件继续至框305。在框305,组件通过调用计算相关性组件来计算所选 网站网页与所选主题的相关性,随后循环至框303以选择下一个主题。计算相 关性组件将每一网页的相关性存储在主题/页面相关性存储中。在框306-308, 组件循环产生所选网站网页的特征。在框306,组件选择存储在特征存储中的 下一个特征。在判定框307,如果已经选择了所有特征,则组件循环至框301 以选择下一个网站,否则组件继续至框308。在框308,组件通过调用产生特 征组件来产生所选网站每一页面的所选特征,且随后循环至框306以选择下一 个特征。产生特征组件将每一网页的特征存储在页面特征存储中。
图4是流程图,例示一个实施例中贡献系统的计算相关性组件的处理。 一个主题和一个网页被传递给组件,组件计算被传递网页及其子代网页与该主 题的相关性。组件被描述为递归组件,它通过对网站层次进行深度优先遍历将 相关性从叶网页传播至被传递网页来计算相关性。在判定框401,如果被传递 网页具有子代网页,则组件继续至框402,否则组件继续至框412。在框402, 组件基于被传递网页本身的内容计算该网页的相关性分数。由于被传递网页具有子代网页,因此组件将相关性增加a。在框403,组件初始化相关性标志来 指示被传递网页是否与主题相关。在框404-410,组件循环计算被传递网页的 每一子网页的相关性。在框404,组件选择被传递网页的下一个子网页。在判 定框405,如果已经选择了所有子网页,则组件继续至框411,否则组件继续 至框406。在框406,组件递归地调用计算相关性组件来传递所选子网页以计 算其相关性。在判定框407,如果所选子网页与主题相关,如由返回的相关性 标志所示,则组件继续至框408,否则组件循环至框404以选择下一个子网页。 在框408,组件增加与主题相关的被传递网页的子网页数量。在框409,组件 累加与主题相关的子网页的相关性分数。在框410,组件设置被传递网页的相 关性标志以指示它是相关的。如果被传递网页与主题相关或其任何子网页与主 题相关,则将被传递网页视为与主题相关。组件随后循环至框404以选择下一 个子网页。在框411,组件将被传递网页的相关性分数设置为被传递网页本身 的相关性分数加上从相关子网页得到的相关性分数。组件随后返回相关性分数 和相关性标志。在框412,组件计算没有子网页的被传递网页的相关性分数。 在框413,组件初始化相关性标志,以指示被传递网页是否与主题相关。组件 随后返回相关性分数和相关性标志。
图5是流程图,例示一个实施例中贡献系统的产生特征组件的处理。将 一个特征的指示和网页传递给组件,组件计算被传递网页及其子代网页的特 征。组件被描述为递归组件,它通过深度优先遍历将特征从叶网页传播至被传 递网页来产生被传递网页及其祖代网页的特征。在判定框501,如果被传递网 页具有子网页,则组件继续至框502,否则组件继续至框513。在框502,组件 基于被传递网页本身计算该网页的特征。由于被传递网页具有子代网页,因此 组件将特征增加a。在框503,组件初始化特征标志,以指示被传递网页是否 与特征相关。在框504,组件设置被传递网页的长度。由于被传递网页具有子 代网页,因此组件将长度增加(x。可替换地,贡献系统可具有独立的组件来产 生网页的长度。在框505-511,组件循环产生被传递网页的每一子网页的特征。 在框505,组件选择被传递网页的下一个子网页。在判定框506,如果已经选 择了所有子网页,则组件继续至框512,否则组件继续至框507。在框507,组 件递归地调用产生特征组件传递所选子网页以产生其特征。在判定框508,如果所选子网页与特征相关,如由返回的特征标志指示的,则组件继续至框509, 否则组件循环至框505以选择下一个子网页。在框509,组件增加与特征相关 的被传递网页的子网页数量。在框510,组件累加与特征相关的子网页的特征。 在框511,组件设置被传递网页的特征标志以指示它是相关的。如果被传递网 页本身或其任何子网页与特征相关,则它被视为与特征相关。组件随后循环至 框505以选择下一个子网页。在框512,组件将被传递网页的特征设置为基于 被传递网页本身计算出的特征加上从与特征相关的子网页得到的特征。组件随 后返回特征、长度和特征标志。在框513,组件计算没有子网页的被传递网页 的特征。在框514,组件初始化特征标志以指示被传递网页是否与特征相关。 在框515,组件计算被传递网页的长度。组件随后返回特征、长度和特征标志。 尽管已经以专用于结构特征和/或方法学步骤的语言描述了主题,但要理 解,所附权利要求书中定义的主题不必受限于上述这些特定特征或步骤。因此, 本发明仅受所附权利要求书的限制。
权利要求
1. 一种在计算机系统中用于确定网站网页与主题的相关性的方法,所述方法包括提供(214)所述网站网页的层次,所述层次指定所述网站的子代网页;以及对于所述网站的每一网页,计算(212)所述网页与所述主题的相关性,其中将子代网页与所述主题的相关性计算在内。
2. 如权利要求l所述的方法,其特征在于,所述计算网页的相关性将与 所述主题相关的子网页的相关性计算在内。
3. 如权利要求l所述的方法,其特征在于,所述网页与所述主题的相关 性基于所述网页本身与所述主题的相关性和子网页与所述主题的相关性。
4. 如权利要求l所述的方法,其特征在于,所述计算网页的相关性基于 以下公式<formula>formula see original document page 2</formula>其中/(S(p),CMd(p))表示网页P的相关性,S(p)表示网页P本身的相关性, CWW(p)表示p的子网页,①表示空集,及e/CWW(p)表示与所述主题相关的p 的子网页,I l表示集合中网页的数量,以及"表示所述网页本身的相关性与所 述子网页的相关性之间的权重。
5. 如权利要求l所述的方法,其特征在于,所述提供层次包括从所述网 页的标识符得到所述层次。
6,如权利要求5所述的方法,其特征在于,所述网页的所述标识符是统 一资源定位符。
7. —种在计算机系统中用于标识网站网页的特征的方法,所述方法包括 提供(214)所述网站网页的层次,所述层次指定所述网站的子代网页;以及对于所述网站的每一网页,标识(213)将子代网页的特征计算在内的所 述网页的特征。
8. 如权利要求7所述的方法,其特征在于,所述特征是所述网页的长度。
9. 如权利要求8所述的方法,其特征在于,所述网页的长度由以下公式表示其中Z'(p)表示网页P的经调整长度,丄(P)表示网页P的长度,CWW(p)表示P的子网页,o表示空集,以及"表示用于增加网页p长度的因子。
10. 如权利要求7所述的方法,其特征在于,所述网页的被标识特征基 于所述网页本身的特征和子代网页的特征。
11. 如权利要求7所述的方法,其特征在于,所述标识网页的特征基于 以下公式g(F(P),CM4"))=Z g(,),CM,) (""),)+ "—;『d——,緒麵(—(1 + ")尸(P)其中g(,(P),CWW(p》表示网页P的所述特征,F(p)表示用于产生网页p的所 述特征的函数,C/n'W(p)表示P的子网页,①表示空集,i e/CMc/(p)表示与所 述特征相关的P的子网页,I l表示集合中网页的数量,以及"表示从所述网页 本身得到的特征与所述子代网页的特征之间的权重。
12. 如权利要求7所述的方法,其特征在于,所述提供层次包括从所述 网页的标识符得到所述层次。
13. 如权利要求12所述的方法,其特征在于,所述网页的所述标识符是统一资源定位符。
14. 一种包含用于按照一方法控制计算机系统以确定文档层次内文档贡 献的指令的计算机可读介质,所述方法包括提供(214)所述文档的层次,所述层次指定所述文档的子代文档;以及 对于每一文档,确定(211)将子代文档的贡献计算在内的所述文档的贡献。
15. 如权利要求14所述的计算机可读介质,其特征在于,所述文档是网 站的网页。
16. 如权利要求14所述的计算机可读介质,其特征在于, 档与主题的相关性。
17. 如权利要求14所述的计算机可读介质,其特征在于, 档的特征。
18. 如权利要求14所述的计算机可读介质,其特征在于, 的贡献将与所述主题相关的子文档的相关性计算在内。
19. 如权利要求14所述的计算机可读介质,其特征在于, 的贡献基于以下公式-所述贡献是文 所述贡献是文 所述确定文档 所述确定文档<formula>formula see original document page 4</formula>其中/(s(p),cww(p))表示网页p的相关性,s(p)表示网页P本身的相关性,C/n'W(p)表示P的子网页,O)表示空集,及e/CWW(;7)表示与所述主题相关的P 的子网页,I l表示集合中网页的数量,以及"表示所述网页本身的相关性与所 述子网页的相关性之间的权重。
20.如权利要求14所述的计算机可读介质,其特征在于,所述提供层次 包括从所述文档的标识符得到所述层次。
全文摘要
提供基于子代文档的贡献确定文档层次内文档贡献的方法和系统。贡献系统提供指定文档之间祖代/子代关系的文档层次。对于层次的每一文档,贡献系统确定将子代文档的贡献计算在内的每一文档的贡献。贡献可以是文档与主题的相关性、文档的特征等等。
文档编号G06F17/30GK101305369SQ200680042107
公开日2008年11月12日 申请日期2006年11月14日 优先权日2005年11月14日
发明者T·刘, W-Y·马 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1