使用点击距离对搜索结果分级的系统和方法

文档序号:6633896阅读:112来源:国知局
专利名称:使用点击距离对搜索结果分级的系统和方法
相关申请的参照本发明涉及具有序列号_____、题为“System and Method for IncorporatingAnchor Text into Ranking Search Results”(将锚文本并入搜索结果分级中的系统和方法)、与本申请同时提交的专利申请。本发明还涉及具有序列号10/804,326、题为“Field Weighting in Text Document Searching”(文本文档搜索中的字段加权)、于2004年3月18日提交的专利申请。这些相关申请被转让给本专利申请的受让人,并通过引用包含在此。
背景技术
在文本文档的搜索中,用户通常将查询输入到搜索引擎中。搜索引擎对照编入索引的文档的数据库来评估该查询,并返回最满足该查询的文档的已分级列表。表示文档如何满足查询的度量的得分由搜索引擎算法化地生成。常用评分算法依靠将查询分割为搜索词,并使用关于各个词在要搜索的文本文档正文中的出现的统计信息。各文档根据其对应的分数,按照等级顺序列出,从而用户能够在搜索结果列表的顶部看到最匹配的搜索结果。
某些搜索引擎可用于改进结果质量的另一种评估是用选定的分级函数来修改结果的等级。一种示例性现有技术分级函数确定当一个页面链接到另一页面时,它有效地为该另一页面投了一票。为某页面所投的票越多,该页面就越重要。该分级函数还可考虑是谁投了票。页面越重要,它们的投票就越重要。这些投票被累积起来,并用作将网络上页面分级的组件。
分级函数用于改善分级的质量。然而,分级函数的有效性可能受网络的拓扑结构影响。例如,使用上述投票的分级函数在内联网设置中可能不太有效。内联网是使用某些和因特网一样的协议,但仅可由诸如公司的雇员等用户子集访问的网络。内联网的页面并非完全和因特网一样地构建或连接,因此和因特网设置相比,分级函数所产生的结果的相关性可能未被减少。

发明内容
本发明的各个实施例涉及用于根据一种称作点击距离(click distance)的新函数来对搜索结果进行分级的系统和方法。该点击距离函数利用了内联网的分层结构。内联网通常遵循具有一个根节点、并且后续分支从该根节点延伸到其它节点的树形结构。内联网的根节点常被称为它的主页。内联网外部的其它站点也可以基于分层结构,这些站点的点击距离也非常适用于该站点的页面的分级。
点击距离是测算到达站点的给定页面所需的“点击”次数的查询不相关的相关性度量。在树形结构中,点击次数由从根节点出发在路径上所遍历的分支的数量表示。一旦为一页面确定了点击距离,则该点击距离被并入该页面的得分中。并入了点击距离的页面得分确定该页面在搜索结果内其它页面之间的等级。
在本发明的一个方面,首先“爬行(crawl)”网络以生成与该网络的链接和页面相关联的属性的表格。“爬行”指自动将若干文档(或者任何模拟离散信息单元)收集到称作索引的数据库中。通过跟随某些文档内部的文档引用链接,并然后在找到时处理每个文档,爬行遍历网络上的多个文档。通过标识文档中的关键词或通用文本来创建索引,这些文档得到了处理。
示例性索引可以是具有一单词列和一指示可以在哪些文档中找到那些单词的列的倒排列表。当用户输入一个或多个搜索词,即获得结果,并且本发明应用一种包括点击距离函数的分级算法。点击距离函数正面或负面地影响某些页面的得分,从而细化了返回给用户的结果。
在本发明的另一个方面,URL(统一资源定位器)深度属性被添加到分级算法中,以进一步细化结果。URL深度属性测算URL中的层数,以提供对照点击距离函数的校验,并相应地调整该页面的得分。


图1示出了可以在本发明的一个示例性实施例中使用的示例性计算设备。
图2根据本发明示出了一种用于根据点击距离对搜索结果分级的系统。
图3根据本发明示出了示例性网络图。
图4根据本发明示出了示例性分层网络图。
图5根据本发明示出了用于计算点击距离的示例性过程的逻辑流程图。
图6根据本发明示出了在对搜索结果分级时使用点击距离的示例性过程的逻辑流程图。
具体实施例方式
在下文将参考附图对本发明进行更详细的描述,各附图构成了本发明的一部分,并作为示例示出了用于实施本发明的特定示例性实施例。但是,此发明可以用许多不同的形式来实施,并且不应被解释为限于本文中所阐述的实施例;相反,提供这些实施例是为使所揭示的内容彻底和完整,并使其向本领域的技术人员充分传达本发明的范畴。本发明可被实施为方法或者设备等等。因此,本发明可采用全硬件实施例、全软件实施例或者组合了软件和硬件方面的实施例的形式。因此,不应以限制的意义看待以下详细描述。
示例性操作环境参考图1,用于实现本发明的一个示例性系统包括诸如计算设备100等计算设备。计算设备100可被配置成客户机、服务器、移动设备、或者任何其它计算设备。在最基本的配置中,计算设备100通常包括至少一个处理单元102和系统存储器104。取决于计算设备的确切配置和类型,系统存储器104可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等等)或两者的某种组合。系统存储器104通常包括操作系统105、一个或多个应用程序106,并可包括程序数据107。在一个实施例中,应用程序106包括用于实现本发明的功能的搜索分级应用程序120。此基本配置在图1中由虚线108内的那些组件示出。
计算设备100可具有额外的特征或功能。例如,计算设备100还可包括诸如磁盘、光盘或磁带等额外的数据存储设备(可移动或不可移动)。此类额外存储在图1中由可移动存储109和不可移动存储110示出。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器104、可移动存储109和不可移动存储110都是计算机存储介质的示例。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储,磁带盒、磁带、磁盘存储或其它磁存储设备、或可用于存储期望信息、并可由计算设备100访问的任何其它介质。任何此类计算机存储介质可以是设备100的一部分。计算设备100还可具有诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等输入设备112。还可包括诸如显示器、扬声器、打印机等输出设备114。
计算设备100还包含允许该设备诸如通过网络与其它计算设备118通信的通信连接116。通信连接116是通信介质的一个例子。通信介质通常可具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传送介质。术语“已调制数据信号”意指以在信号中将信息编码的方式设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括诸如有线网络或直线连接等有线介质,以及诸如声学、RF、红外和其它无线介质等无线介质。如本文中所使用的术语计算机可读介质既包括存储介质也包括通信介质。
按点击距离对搜索进行分级的说明件实施例本发明的各个实施例涉及用于搜索引擎的分级函数。搜索引擎的质量通常由由根据分级函数所分配的等级的文档相关性确定。分级函数可以基于多个特征。这些特征中的某些可取决于查询,而其它被认为是查询不相关的。本发明利用称作点击距离的查询不相关的相关性度量。点击距离是用户从内联网的主页(该内联网上最权威的URL,或者最权威的URL之一)到给定页面所必须进行的“点击”次数。在web图上,点击距离可被表示为主页和给定页面间的最短路径。在一个实施例中,一种算法执行广度优先遍历,并计算一给定节点到该图中所有其它节点间的距离。该遍历可以采用N次迭代才能完成,来为该内联网计算点击距离,其中N为该图的直径(最大最短距离)。此情形中的变量N远小于该图上的节点总数。例如,取决于网络,本发明的N可能在5和60之间。其它分级函数可能需要40-50次迭代来覆盖全图(例如,页面等级),致使其它分级函数比使用点击距离慢数倍。
图2根据本发明示出了用于对搜索结果进行分级的系统。搜索引擎200接收包含多个查询词的查询。诸如当查询词是短语时(例如,短语“document managementsystem”可被视为单个查询词),每个查询词可包括多个成分词。此外,查询可包括通常由各种已知搜索引擎支持的一个或多个运算符,诸如布尔运算符、约束等等。
由文档210、212、214和216表示的分布式网络上的多个文档可用于搜索。实际上,搜索引擎可搜索任意数量的文档,并通常搜索包含大量(例如,数以百万计)文档的集合。从因特网设置到内联网设置,文档的量可能减少了,但是减少通常是从十亿量级到百万量级,因此相对文档数量仍然相当巨大。索引模块(未示出)为每个文档生成单个文档统计量(例如218、220、222和224)。文档统计量存储在索引226中。
搜索引擎200查阅索引226,以基于查询和对应的文档统计量为每个文档确定搜索得分228。在本发明中,所包括的文档统计量之一是文档的点击距离。在另一个实施例中,所包括的另一种文档统计量是与文档相关联的URL深度。点击距离和URL深度随即与查询相关的统计量组合,以形成文档的最终得分。通常,然后按降序将文档得分228分级,以向用户给予搜索算法认为与该查询最相关的文档的列表。
在所示的系统中,搜索引擎200表示一点击距离分级搜索引擎,它在确定文档的搜索得分时考虑文档的点击距离。文档的点击距离分级充分利用了分层结构化站点中(见图3)文档的存在,测算了从站点的主页到文档的距离。在一个例子中,从主页出发的点击距离是页面重要性的度量,其中在层次中离主页较近的页面被视为比在层次中较低的页面更重要。然而,可能存在反之为真的其它情形,其中在层次中较低的文档比在层次中较高的那些页面更受重视。因此,点击距离被视为查询不相关的相关性度量,因为它全面地评估文档的重要性,而不是根据查询来评估(例如,查询相关分级函数可能会对一搜索词在文档中出现的次数进行计数)。
图3根据本发明示出了示例性网络图。该网络图由节点(例如310)和边或链接(例如320)组成。节点(例如310)表示网络上可作为结果返回给搜索查询的页面和其它资源。链接(例如320)通过使用页面上列出的导航链接将这些页面的每一个连接在一起。可以为每个页面搜集可用于为特定页计算点击距离的一组链接信息。
在一个实施例中,对于一组文档,节点330表示该网络上最高权威页面或根节点。网络中其余页面的点击距离可从节点330计算。例如,节点340具有从节点330出发的2次“点击”的点击距离。如上所述,“点击”指在从最高权威节点出发的最短路径上所遍历的分支数。可以选择从节点330出发的其它路径到达节点340,但是点击距离与最短路径有关。
网络图300被示为具有不遵循特定次序的节点,在该方面可能类似于因特网。当缺乏次序时,可能难以将点击距离对于页面分级的适用性概念化。然而,页面和资源的网络常常的确遵循如以下图4中所示的适用次序。
图4根据本发明示出了示例性分层网络图。分层网络图400类似于图3中所示的网络图300,因为它也包括节点(例如410)和链接(例如420)。但是,分层网络图400是基于结构化站点或内联网的固有层次。因此,分层网络图400可以被概念化为具有从根节点延伸的分支的树形结构。
对于分层网络图400,较易辨识点击距离的适用性及其计算。例如,节点330对应于树的最高权威节点或根节点。因此节点340具有相关联的点击距离3,为从根节点出发有3次点击或用户导航。换言之,由于要求用户遍历树的3个分支以从节点330导航至节点340,点击距离也是3。
图3和4中表示的网络图是在为计算点击距离而索引文档期间,在存储器中构造的图的示例。在索引期间构造图允许将点击距离包括在存储在索引中的文档统计量中,并用于对各页面分级。以下相对于图5和6描述用于生成点击距离属性并在文档分级中使用点击距离属性的示例过程。
图5根据本发明示出了用于计算点击距离(CD)的示例性过程的逻辑流程图。过程500在框502开始,其中已索引了分布式网络上的文档并生成了网络图。在一个实施例中,从由搜集链接和锚文本信息并将其归到锚的特定目标文档的过程搜集的数据生成网络图。此过程和锚文本的概念在具有序列号____、题为“Systemand Method for Incorporating Anchor Text into Ranking Search Results”(将锚文本并入搜索结果分级中的系统和方法)、与本申请同时提交并通过引用包含在此的专利申请中有更详细的描述。处理在框504继续。
在框504,网络图被加载到存储器中。此网络图是从网络搜集的文档身份(例如,文档ID)和链接信息的结构化表示。网络图的示例在图3和4中示出。网络图表示一站点或内联网的节点或页面。每个节点都有具有值或权重的相关联的点击距离属性。在一个实施例中,此点击距离属性被串接到文档ID的尾部。处理在框506继续。
在框506,各节点的点击距离(CD)值被初始化。最高权威节点被称作已赋值节点。这些节点被赋予点击距离值0(零)。可以为单个网络图指定一个以上高权威节点。例如,管理员可以手动对一组100个节点分级,并将它们全部指定为高权威节点。此外,高权威节点不必具有点击距离0(零),管理员可以赋予任何数字。改变高权威节点的点击距离不会改变余下的算法,只是仅仅提供了一种手动指定节点重要性的方法。例如,管理员能够提高某些节点的点击距离得分。在其它情形中,管理员能够(通过强制点击距离高于默认由算法计算所得)减少点击距离得分。每个未赋值节点的点击距离被初始化为最大值。在一个实施例中,最大值本质上将点击距离值设置为无穷大。将无穷大的值赋给节点使其较易被识别为未计算其点击距离的节点。在完成了点击距离值的初始化后,处理移至框508。
在框508,具有与最大值不同的相关联点击距离的节点被插入到队列中。在一个示例中,此步骤仅在第一次迭代中发生。插入到队列中的节点对应于最高权威节点,因为其点击距离值被设为与最大值不同的0(零)值。一旦具有与最大值不同的点击距离值的节点被添加到队列中,处理在判定框510继续。
在判定框510,判定队列是否为空。空队列意味着不再有节点需要计算其目标节点的点击距离。如果队列为空,处理移至框512,过程500结束。但是,如果队列非空,处理在框514继续。
在框514,从队列移除一个节点。从队列移除节点启动了对与该文档相关联的目标节点的点击距离的计算。目标节点对应于具有从始发文档到其的链接的文档。在此情形中,始发文档是对应于从队列中移除的节点的文档。一旦此节点被移除,处理移至框516。
在框516,取出下一个目标节点。下一个目标节点指由始发文档链接的文档中的下一个文档。一旦取出了下一个目标节点,处理继续至判定框518。
在判定框518,判定与目标节点相关联的点击距离是否大于当前页的点击距离加1(CD+1)。在一个实施例中,满足框518中的条件的唯一方法是当目标节点具有无穷大的点击距离时(假设高权威节点被设为0,并且管理员未手动设置点击距离)。例如,如果当前点击距离为1,那么CD+1=2。点击距离2小于无穷大,且满足该条件。判定目标点击距离是否大于点击距离加1防止具有较小点击距离的目标文档被改变。使用前例,如果目标节点的点击距离为1,当前点击距离也是1,那么目标点击距离不大于CD+1=2。在此例中,到目标节点的较短路径已被记录,因而无需被更新。因此,当目标点击距离不大于当前点击距离加1时,处理前进至判定框522。然而,如果目标点击距离大于当前点击距离加1,处理移至框520。
在框520,更新目标节点的点击距离值,并将目标节点作为需要对其目标进行点击距离计算的节点添加到队列中。用新的点击距离值更新目标节点,以移除无穷大值并将节点设置为计算所得的点击距离值。在一个实施例中,节点的点击距离值被设为当前点击距离值加1(CD+1)。处理在判定框522继续。
在判定框522,判断是否已为从队列中移除的当前节点取出了所有目标节点。如果还剩下要为当前节点取出的目标节点,处理返回框516,其中取出下一个目标节点。但是,如果已经取出对应于当前节点的所有目标节点,则处理返回到判定框510,以复查队列此时是否为空。再一次,一旦队列为空,处理移至框512,过程500结束。
网络中并非所有节点都连接到初始高权威节点是可能的。因此,在本发明的另一个实施例中,假定未连接到高权威节点的节点具有低重要性,并对其赋与小于该网络图平均值的点击距离。
图6根据本发明示出了在搜索结果分级时使用点击距离的示例性过程的逻辑流程图。过程600在框602开始,其中已请求查询,并且已为网络上的每个文档计算了点击距离。处理在框604继续。
在框604,将每个文档的点击距离值与索引中的其它文档统计量(见图2)合并。将点击距离值与其它文档统计量合并允许更快的查询响应时间,因为所有涉及分级的信息被聚集到一起。因此,在合并之后,在索引中列出的每个文档都具有相关联的点击距离值。一旦合并完成,处理移至框606。
在框606,用包括点击距离的文档统计量的组来填充得分函数,以为特定文档计算得分。点击距离为评分函数提供了查询不相关的因子。评分函数的其它部分对应于评分函数的查询相关或内容相关的部分。在一个实施例中,评分函数是查询相关(QD)和查询不相关(QID)评分函数的和Score=QD(doc,query)+QID(doc)(1)QD函数可以是任何文档评分函数。在一个实施例中,QD评分函数对应于序列号10/804,326、题为“Field Weighting in Text Document Searching”(文本文档搜索中的字段加权)、于2004年3月18日提交并通过引用包含于此的专利申请中所描述的字段加权评分函数。如专利申请10/804,326所提供的,以下是字段加权评分函数的表示QD(doc,query)=Σwtf(k1+1)k1((1-b)+bwdlavwdl)+wtf×log(Nn)---(2)]]>其中如下定义各项wtf是所有属性上的给定词的加权词频率或词频率之和乘以权重;wdl是加权文档长度;avwdl是平均加权文档长度;N是网络上的文档数量(即,被爬行的文档数量);n是包含给定查询词的文档的数量;k1和b是常数。这些项和公式在第10/804,326号专利申请中详细描述。
QID函数可以是点击距离和其它文档统计量(诸如URL深度)的任何变换。在一个实施例中,此函数如下QID(doc)=Σwcdkcdkcd+bcdCD+budUDbcd+bud---(3)]]>其中如下定义函数各项wcd是查询不相关分量的权重;bcd是点击距离的权重;bud是URL深度的权重;CD是点击距离;UD是URL深度;kcd是点击距离饱和常数。加权项(wcd、bcd和bud)帮助定义其相关项中每一个的重要性,并最终定义评分函数的形状。URL深度(UD)是查询不相关分量的附加项,用于平滑评分函数上的点击距离的效果。在某些情形中,不是非常重要的文档(即,具有较大的URL深度)可能具有较短的点击距离。URL深度对文档的URL中的斜杠数量进行计数。例如,www.example.com\d1\d2\d3\d4.htm包括4个斜杠,因此将具有URL深度4。但是此文档具有直接来自主页www.example.com的链接,而赋予其点击距离1。在函数(3)中包括URL深度并对照点击距离对其加权,补偿了高点击距离得分,以更准确地反映层次内页面的等级。取决于网络,大于或等于3的URL深度可视为深链接。对于此实施例,本发明将(2)和(3)的两个函数相加,以获得评分函数(Score),从而新的得分函数变为Score=Σwtf(k1+1)k1((1-b)+bwdlavwdl)+wtf×log(Nn)+wcdkcdkcd+bcdCD+budUDbcd+bud---(4)]]>在其它实施例中,可以从评分函数中移除URL深度,或者可将其它因子添加到评分函数,以提高查询相关或查询不相关分量的准确性。此外,可将查询不相关分量并入未示出的其它分级函数中,以改进分级结果,而不会偏离本发明的精神或范畴。一旦为特定文档用文档统计量填充了评分函数(4),处理前进至框608。
在框608,执行该评分函数并为文档计算相关性得分。一旦计算了相关性得分,即将该得分存储在存储器中,并与该特定文档相关联。处理随即移至判定框610。
在判定框610,判定是否已根据评分函数(4)为所有文档计算了相关性得分。可以如所示地串行地计算得分,或者亦可并行计算。如果还未计算所有得分,处理返回框606,其中用下一组文档统计量来填充评分函数。但是,如果已经计算了所有得分,处理继续至框612。
在框612,根据其相关联的得分对查询的搜索结果分级。该得分如今考虑了每个文档的点击距离和URL深度。因此,对文档的分级被细化,使得在所有其它因素相同时,内联网或站点的层次中较高的文档被分级为高于其它文档。一旦对搜索结果分级,处理前进至框614,过程600结束。
过程600完成之后,可通过与搜索引擎结果的发送和显示相关联的各种操作,将已分级文档返回给用户。随后可按用户的判断,选择并查看对应于较高精确度结果的文档。
以上的说明书、示例和数据提供了对本发明的组成部分的制造和使用的完整描述。因为可以作出本发明的许多实施例而不会偏离本发明的精神和范畴,本发明驻留在所附的权利要求书中。
权利要求
1.一种用于对搜索结果分级的计算机实现的方法,其特征在于,包括为网络上的文档存储文档和链接信息;从所记录的文档和链接信息生成所述网络的表示,其中,所述网络的表示包括代表所述文档的节点;为所述网络表示中的每个节点计算点击距离,其中,所述点击距离是从被指定为最高权威节点的第一节点到与所计算的点击距离相关联的第二节点测算的;以及在对文档分级时,使用所计算的与每个文档相关联的点击距离,作为查询不相关的相关性度量,以产生已分级的搜索结果。
2.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成网络图并将所述网络图存储到存储器中。
3.如权利要求1所述的计算机实现的方法,其特征在于,计算所述点击距离还包括将与除了对应于岁数最高权威节点的文档之外的每个文档相关联的点击距离初始化到最大值。
4.如权利要求1所述的计算机实现的方法,其特征在于,还包括将所述网络表示的当前节点存储到一节点队列中,直至计算了与所述当前节点相关联的各目标节点的点击距离。
5.如权利要求4所述的计算机实现的方法,其特征在于,当所述各目标节点之一的点击距离大于当前节点的点击距离加一变量时,所述各目标节点之一的点击距离被设置为当前节点的点击距离加所述变量。
6.如权利要求1所述的计算机实现的方法,其特征在于,所计算的与每个文档相关联的点击距离被合并到包括对应于每个文档的其它统计量的索引中。
7.如权利要求6所述的计算机实现的方法,其特征在于,用所计算的点击距离和所述其它统计量填充所述评分函数,以产生用于对文档分级的得分。
8.如权利要求1所述的计算机实现的方法,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在评分函数中使用对应于所述点击距离的分量,来为每个所述文档确定相关性得分。
9.如权利要求8所述的计算机实现的方法,其特征在于,所述相关性得分是用平滑所述点击距离在所述相关性得分上的效果的统一资源定位器深度属性来补偿的。
10.如权利要求1所述的计算机实现的方法,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上的节点被指定为高权威节点的网络表示。
11.如权利要求1所述的计算机实现的方法,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
12.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、以及点击距离饱和常数(kcd)。
13.如权利要求1所述的计算机实现的方法,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、加权词频率(wtf)、加权文档长度(wdl)、平均加权文档长度(avwdl)、网络上的文档数量(N)、包含查询词的文档的数量(n)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、点击距离饱和常数(kcd)、和其它常数(k1、b)。
14.如权利要求13所述的计算机实现的方法,其特征在于,所述评分函数(score)由下式给出score=Σwtf(k1+1)k1((1-b)+bwdlavwdl)+wtf×log(Nn)+wcdkcdkcd+bcdCD+budUDbcd+bud]]>
15.一种用于对搜索结果分级的系统,包括包括在计算设备上的搜索引擎,所述搜索引擎被配置成执行计算机可执行指令,所述计算机可执行指令包括发现网络上的文档;为网络上的每个文档存储文档和链接信息;从所记录的文档和链接信息生成所述网络的表示,其中所述网络的表示包括代表所述文档的节点;计算从最高权威节点到所述网络表示中的每个节点的点击距离;将所计算的到每个节点的点击距离与对应于该节点的文档相关联;以及在对文档分级时使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量,以产生已分级的搜索结果。
16.如权利要求15所述的系统,其特征在于,生成所述网络的表示还包括生成网络图并将所述网络图存储到存储器中。
17.如权利要求15所述的系统,其特征在于,将所计的到每个节点的点击距离与对应于该节点的文档相关联还包括将所计算的与每个文档相关联的点击距离合并到包括对应于每个文档的其它分级值的索引中。
18.如权利要求17所述的系统,其特征在于,用所计算的点击距离和所述其它分级值填充一评分函数,以产生用于对文档分级的得分。
19.如权利要求15所述的系统,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在一评分函数中使用对应于所述点击距离的分量,来为每个文档确定相关性得分。
20.如权利要求19所述的系统,其特征在于,当一节点的点击距离与该节点在所述网络表示中的深度不成比例时,所述相关性得分是由平滑所述点击距离在所述相关性得分上的效果的统一资源定位器深度属性来补偿的。
21.如权利要求15所述的系统,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、以及点击距离饱和常数(kcd)。
22.如权利要求15所述的系统,其特征在于,还包括根据一评分函数(score)对文档分级,所述评分函数至少根据以下各项来确定所计算的点击距离(CD)、加权词频率(wtf)、加权文档长度(wdl)、平均加权文档长度(avwdl)、网络上的文档数量(N)、包含一查询词的文档的数量(n)、查询不相关分量的权重(wcd)、点击距离的权重(bcd)、URL深度的权重(bud)、URL深度(UD)、点击距离饱和常数(kcd)、以及其它常数(k1、b)。
23.如权利要求22所述的系统,其特征在于,所述评分函数(score)由下式给出score=Σwtf(k1+1)k1((1-b)+bwdlavwdl)+wtf×log(Nn)+wcdkcdkcd+bcdCD+budUDbcd+bud]]>
24.如权利要求15所述的系统,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上节点被指定为高权威节点的网络表示。
25.如权利要求15所述的系统,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
26.一种包括用于对搜索结果分级的计算机可执行指令的计算机可读介质,所述指令包括为网络上的文档存储文档和链接信息,从而在存储器中生成表示所述网络的网络图;当所述网络中表示的每一文档具有与第一点击距离值不同的点击距离值时,将所述文档存储到队列中;当所述队列非空时从所述队列中移除一个文档,为与被移除的文档相关联的每一目标文档计算点击距离,其中,当每个目标文档的点击距离大于与被移除的文档相关联的点击距离加一变量时,用与所述第一点击距离值不同的新点击距离值来更新每个目标文档,以及将每个被更新的目标文档添加到所述队列中;以及在对文档分级时,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量,以产生已分级的搜索结果。
27.如权利要求26所述的计算机可读介质,其特征在于,使用所计算的与每个文档相关联的点击距离作为查询不相关的相关性度量还包括在一评分函数中使用对应于所述点击距离的分量,来为每个文档确定相关性得分。
28.如权利要求26所述的计算机可读介质,其特征在于,生成所述网络的表示还包括生成其中所述网络表示内的一个以上节点被指定为高权威节点的网络表示。
29.如权利要求26所述的计算机可读介质,其特征在于,还包括允许在计算了所述点击距离之后手动改变所述点击距离。
全文摘要
根据与网络上每个文档相关联的附加的点击距离属性,对网络上的搜索查询的搜索结果分级。该点击距离是从网络上被指定为最高权威或根页面的一个或多个网络上的页面出发的点击或用户导航的次数的度量。当搜索查询发生的站点或内联网是分层结构时,通过添加点击距离项,提高了结果的精确度。
文档编号G06F17/30GK1755682SQ20051008852
公开日2006年4月5日 申请日期2005年7月29日 优先权日2004年9月30日
发明者D·梅耶宗, H·扎拉古扎 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1