一种评估网页权威性的方法及装置制造方法

文档序号:6488477阅读:220来源:国知局
一种评估网页权威性的方法及装置制造方法
【专利摘要】本发明提供了一种评估网页权威性的方法及装置,其中评估网页权威性的方法包括:获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合;确定所述第一网页集合中各网页的外部权威性;将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页,以得到所述非交叉网页的外部权威性。通过上述方式,本发明可以大大提高对网页进行权威性评估时的准确性。
【专利说明】一种评估网页权威性的方法及装置
【【技术领域】】
[0001]本发明涉及超链分析技术,特别涉及一种评估网页权威性的方法及装置。
【【背景技术】】
[0002]搜索引擎在向用户返回结果时,会根据各网页的权威性来决定返回结果中网页的排列顺序,网页的权威性表明了网页的重要程度。
[0003]网页根据链接传递的方向,可分为出链网页和入链网页,现有技术中,是通过出链网页的权威性来确定入链网页的权威性的。请参考图1,图1为网页链接关系的示意图。如图1所示,现有技术中,入链网页C的权威性依赖于出链网页A和B的权威性,入链网页E的权威性依赖出链网页C、D和F的权威性。可以看出,这种确定网页权威性的方法中,计算各个网页的权威性时,不考虑网页来源,即对一个网站内的某个入链网页而言,指向该入链网页的出链网页无论是其他网站的网页,还是同一个网站的网页,对这个入链网页权威性的影响都是相同的。显然,对一个入链网页而言,同一个网站内指向该入链网页的出链网页数量可以人为地自由设置,因此,采用现有技术的这种方法评估网页的权威性时,存在准确性低的问题。

【发明内容】

[0004]本发明所要解决的技术问题是提供一种评估网页权威性的方法及装置,以解决现有技术中对网页进行权威性评估时存在的准确性低的技术问题。
[0005]本发明为解决 技术问题而采用的技术方案是提供一种评估网页权威性的方法,包括:获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合;确定所述第一网页集合中各网页的外部权威性;将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页,以得到所述非交叉网页的外部权威性。
[0006]根据本发明之一优选实施例,所述方法进一步包括:利用各网页的外部权威性对搜索引擎的搜索结果进行排序。
[0007]根据本发明之一优选实施例,确定所述第一网页集合中各网页的外部权威性的步骤包括:迭代计算所述第一网页集合中各网页的外部权威性,其中入链网页的外部权威性由指向该入链网页的各出链网页的外部权威性及各出链网页对应的权重确定。
[0008]根据本发明之一优选实施例,各出链网页对应的权重至少由以下一个因素确定:该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
[0009]根据本发明之一优选实施例,将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页的步骤包括:计算所述第二网页集合中各网页的内部权威性;根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例,并将所述交叉网页的外部权威性以所述分配比例分配给所述非交叉网页。[0010]根据本发明之一优选实施例,确定所述第二网页集合中各网页的内部权威性的步骤包括:迭代计算所述第二网页集合中各网页的内部权威性,其中入链网页的内部权威性由指向该入链网页的各出链网页的内部权威性及各出链网页对应的权重确定。
[0011]根据本发明之一优选实施例,各出链网页对应的权重至少由以下一个因素确定:该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
[0012]根据本发明之一优选实施例,根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例的步骤包括:将所述非交叉网页的内部权威性与所述交叉网页的内部权威性之间的比值作为所述分配比例。
[0013]本发明还提供了一种评估网页权威性的装置,包括:获取单元,用于获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合;第一计算单元,用于确定所述第一网页集合中各网页的外部权威性;确定单元,用于将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页,以得到所述非交叉网页的外部权威性。
[0014]根据本发明之一优选实施例,所述装置进一步包括:排序单元,用于利用各网页的外部权威性对搜索引擎的搜索结果进行排序。
[0015]根据本发明之一优选实施例,所述第一计算单元确定所述第一网页集合中各网页的外部权威性的方式包括:迭代计算所述第一网页集合中各网页的外部权威性,其中入链网页的外部权威性由指向该入链网页的各出链网页的外部权威性及各出链网页对应的权
重确定。
[0016]根据本发明之一优选实施例,各出链网页对应的权重至少由以下一个因素确定:该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
[0017]根据本发明之一优选实施例,所述确定单元包括:第二计算单元,用于确定所述第二网页集合中各网页的内部权威性;分配单元,用于根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例,并将所述交叉网页的外部权威性以所述分配比例分配给所述非交叉网页。
[0018]根据本发明之一优选实施例,所述第二计算单元确定所述第二网页集合中各网页的内部权威性的方式包括:迭代计算所述第二网页集合中各网页的内部权威性,其中入链网页的内部权威性由指向该入链网页的各出链网页的内部权威性及各出链网页对应的权
重确定。
[0019]根据本发明之一优选实施例,各出链网页对应的权重至少由以下一个因素确定:该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
[0020]根据本发明之一优选实施例,所述分配单元根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例的方式包括:将所述非交叉网页的内部权威性与所述交叉网页的内部权威性之间的比值作为所述分配比例。
[0021]由以上技术方案可以看出,本发明将网页划分为第一网页集合和第二网页集合,能够有效地对第一网页集合中的各个网页的权威性进行评估,并且,将两个集合的交叉网页的权威性传递至第二网页集合中的非交叉网页,就能得到网站内部网页权威性的可靠评估。因此,通过本发明,能够大大提高对网页进行权威性评估时的准确性。【【专利附图】

【附图说明】】
[0022]图1为网页链接关系的示意图;
[0023]图2为本发明中评估网页权威性的方法的流程示意图;
[0024]图3为本发明中评估网页权威性的装置的实施例一的结构示意框图;
[0025]图4为本发明中确定单元的实施例的结构示意框图;
[0026]图5为本发明中评估网页权威性的装置的实施例二的结构示意框图。
【【具体实施方式】】
[0027]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0028]请参考图2,图2为本发明中评估网页权威性的方法的流程示意图。如图2所示,该方法包括:
[0029]步骤SlOl:获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合。
[0030]步骤S102:确定第一网页集合中各网页的外部权威性。
[0031]步骤S103:将第一网页集合与第二网页集合中的交叉网页所具有的外部权威性传递至第二网页集合中的非交叉网页,以得到非交叉网页的外部权威性。
`[0032]下面对上述方法进行具体说明。
[0033]互联网上的网页可按照网站来源进行划分,网页的地址中主域名相同的网页属于同一网站内的网页。例如地址“mp3, baidu.com”对应的网页与地址“zhida0.baidu.com”对应的网页,主域名均是“baidu”,因此属于同一网站内的网页。
[0034]以图1为例,由于网页A和B属于网站I,网页C和D属于网站2,而网页A、B与网页C存在链接关系,网页B与网页C、D存在链接关系,因此步骤SlOl中会获取网页A、B、C、D作为第一网页集合。而网页C、D、E、F都属于网站2,并且这几个网页之间存在链接关系,因此步骤SlOl中会获取网页C、D、E、F作为第二网页集合。值得注意的是,第二网页集合是由一个网站内具有链接关系的网页构成的集合,而不是由多个网站各自形成的网页簇构成的集合。
[0035]在本发明步骤S102中提到的外部权威性以及后续将提到的内部权威性,均指的是网页的权威性,但是由于参与这两者计算的网页范围不同,为了理解时不至于混淆,在本发明中用了外部权威性和内部权威性的描述方式以作区分。
[0036]步骤S102中确定第一网页集合中的各网页的外部权威性,可以根据下列公式(I)进行迭代计算:
[0037]PRolll (P) = (l~d) + d^ w, * PRolll (J1)(I)



I=I
[0038]其中,PRwt(P)表示入链网页p的外部权威性,RPout (t,)表示指向入链网页p的第i个出链网页h的外部权威性,Wi表示出链网页h对应的权重,n表示指向入链网页p的出链网页的总数,d为(0,I)区间的阻尼系数。
[0039]从上述公式可以看出,一个入链网页的外部权威性由指向该入链网页的各出链网页的外部权威性及各出链网页对应的权重确定。利用上述公式,只需要给各个网页的外部权威性设置一个初始值,通过多次迭代计算,最终各个网页的外部权威性的值将趋于收敛。可以以两次迭代得到的外部权威性的取值之差作为迭代的结束条件,即当两次迭代得到的外部权威性取值之差小于一个限定值时,则结束迭代过程,这时最后一次迭代得到的值即是各网页的外部权威性。作为优选的,在迭代前,可以为各个网页的外部权威性设置一个相同的初始值。
[0040]除此之外,步骤S102中确定第一网页集合中的各网页的外部权威性,还可以根据下列公式(2)进行:
【权利要求】
1.一种评估网页权威性的方法,包括: 获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合; 确定所述第一网页集合中各网页的外部权威性; 将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页,以得到所述非交叉网页的外部权威性。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括: 利用各网页的外部权威性对搜索引擎的搜索结果进行排序。
3.根据权利要求1所述的方法,其特征在于,确定所述第一网页集合中各网页的外部权威性的步骤包括: 迭代计算所述第一网页集合中各网页的外部权威性,其中入链网页的外部权威性由指向该入链网页的各出链网页的外部权威性及各出链网页对应的权重确定。
4.根据权利要求3所述的方法,其特征在于,各出链网页对应的权重至少由以下一个因素确定: 该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
5.根据权利要求1所述的方法,其特征在于,将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页的步骤包括: 确定所述第二网页集合中各网页的内部权威性; 根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例,并将所述交叉网页的外部权威性以所述分配比例分配给所述非交叉网页。
6.根据权利要求5所述的方法,其特征在于,确定所述第二网页集合中各网页的内部权威性的步骤包括: 迭代计算所述第二网页集合中各网页的内部权威性,其中入链网页的内部权威性由指向该入链网页的各出链网页的内部权威性及各出链网页对应的权重确定。
7.根据权利要求6所述的方法,其特征在于,各出链网页对应的权重至少由以下一个因素确定: 该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
8.根据权利要求5所述的方法,其特征在于,根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例的步骤包括: 将所述非交叉网页的内部权威性与所述交叉网页的内部权威性之间的比值作为所述分配比例。
9.一种评估网页权威性的装置,包括: 获取单元,用于获取网站间存在链接关系的网页作为第一网页集合,以及,获取网站内存在链接关系的网页作为第二网页集合; 第一计算单元,用于确定所述第一网页集合中各网页的外部权威性; 确定单元,用于将所述第一网页集合与所述第二网页集合中的交叉网页所具有的外部权威性传递至所述第二网页集合中的非交叉网页,以得到所述非交叉网页的外部权威性。
10.根据权利要求9所述的装置,其特征在于,所述装置进一步包括:排序单元,用于利用各网页的外部权威性对搜索引擎的搜索结果进行排序。
11.根据权利要求9所述的装置,其特征在于,所述第一计算单元确定所述第一网页集合中各网页的外部权威性的方式包括: 迭代计算所述第一网页集合中各网页的外部权威性,其中入链网页的外部权威性由指向该入链网页的各出链网页的外部权威性及各出链网页对应的权重确定。
12.根据权利要求11所述的装置,其特征在于,各出链网页对应的权重至少由以下一个因素确定: 该出链网页指向的入链 网页的数目;或者,该出链网页被点击的可能性。
13.根据权利要求9所述的装置,其特征在于,所述确定单元包括: 第二计算单元,用于确定所述第二网页集合中各网页的内部权威性; 分配单元,用于根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例,并将所述交叉网页的外部权威性以所述分配比例分配给所述非交叉网页。
14.根据权利要求13所述的装置,其特征在于,所述第二计算单元确定所述第二网页集合中各网页的内部权威性的方式包括: 迭代计算所述第二网页集合中各网页的内部权威性,其中入链网页的内部权威性由指向该入链网页的各出链网页的内部权威性及各出链网页对应的权重确定。
15.根据权利要求14所述的装置,其特征在于,各出链网页对应的权重至少由以下一个因素确定: 该出链网页指向的入链网页的数目;或者,该出链网页被点击的可能性。
16.根据权利要求14所述的装置,其特征在于,所述分配单元根据所述非交叉网页的内部权威性及所述交叉网页的内部权威性确定分配比例的方式包括: 将所述非交叉网页的内部权威性与所述交叉网页的内部权威性之间的比值作为所述分配比例。
【文档编号】G06F17/30GK103678313SQ201210320005
【公开日】2014年3月26日 申请日期:2012年8月31日 优先权日:2012年8月31日
【发明者】张冲 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1