一种评价网络资源价值的方法及其在搜索引擎领域的应用

文档序号:8412543阅读:291来源:国知局
一种评价网络资源价值的方法及其在搜索引擎领域的应用
【技术领域】
[0001] 本发明涉及信息检索技术,特别是涉及一种利用相关目标的一种特定指标一一人 气指标(PeopleRank)进行检索、归纳的方法及其在搜索引擎领域的应用。
【背景技术】
[0002] 目前搜索引擎一般都是通过用户输入一个或一组关键词或文字片段,经过检索处 理后,向用户回馈相当数量的包含该关键词或文字片段或者与其密切相关的网页,以供用 户浏览、查检所需的资讯。
[0003] 然而,互联网上网页数量极其巨大,而且仍然在以空前的速度高速增长,如果仍然 按照传统的搜索处理模式,即搜索引擎运营商将其搜集到的数量惊人的网页资源经以简单 地分析处理,进行归类备用,那么按照用户的输入源经搜索所得的相关网页数量通常都是 极其巨大,但是其中大部分为低价值甚至无价值的网页资源,这些无价值的或近似于无价 值的网页大大增加了处理的难度,并将严重干扰处理的结果,从而有可能使得呈现给用户 的往往是价值甚微的资源,这将严重浪费用户的时间和精力,间接的也将造成网络资源的 浪费。
[0004] 怎样才能将那些真正的满足客户需要的网页筛选出来优先提供给客户,即在提供 给客户的反馈内容中能够真实反映客户需求的内容优先排列,是完全符合用户的利益的。 因此如何判断用户的兴趣所在就成了搜索引擎运营商必须解决的问题。
[0005] 对检索所得的网页进行相关性评价,就成了搜索领域技术中的关键。目前,关于网 页的相关性的评价方法很多,其大都注重某一方面能反映客户需求或意图的因素,如检索 词或句子的匹配程度、网页链接关系等,但是,仅仅利用这样的检索处理方法所得到的网页 往往包含了诸多的复杂因素,很难准确地提供与客户实际需要紧密相连的搜索资源。因此, 目前还没有一种较为完备的、成熟的可以较全面反映网页价值的评价方法。
[0006] 经过长期实践,发现现有的大多数网页中均包含有各类的与人相关的因素,而这 些人的因素对于网页的质量评价至关重要,能最大限度的反映该网页对于用户兴趣、意图 所蕴含的价值,也就是利用这些人的因素可使网页的质量评价更加贴近用户的真实需求, 从而使得所作出的评价更加准确,本发明正是根据这些人的因素为任一网络资源确定一权 值,该权值称为PeapleRank值(简称为PR值)。

【发明内容】

[0007] 针对现有搜索技术中存在的缺陷和不足,本发明的一个目的在于提供一种网络资 源的价值评价方法,利用该方法可以有效评价网页资源对搜索用户的价值衡量,从而可以 将高质量的、真正符合用户搜索意图的网页资源优先提供给用户,以减少用户浏览、查检网 页的时间,提高用户的搜索效能。
[0008] 本发明的另一个目的在于提供一种将该网络资源价值评估方法应用于网络搜索 引擎的方法,利用本发明的网络资源评价方法,可以使得网络搜索时,给予搜索到的网络资 源更为准确的权值,利用该权值,一方面可以剔出那些无价值或价值甚微的网络资源,另一 方面可以将与用户真实意图更为贴切的资源优先排列呈给用户。
[0009] 本发明的技术方案如下:
[0010] 一种评价网络资源价值的方法,其特征在于:
[0011] 包括以下步骤:
[0012] 1)提取数据,提取网络资源上所包含的特定的与人相关的基本因素;
[0013] 2)处理数据,结合采样时间计算该基本因素的变化率;
[0014] 3)确定权值,根据该基本因素及其变化率计算并赋予该网络资源一确定的代表其 质量价值的权值。
[0015] 所述提取数据步骤中的基本因素包括:发生时间因素;用户阅读数量因素,如该 网络资源的点击数或浏览数;相似内容数量因素;关联及推荐关系因素;作者价值因素;网 站价值因素。
[0016] 其中,除了发生时间因素;用户阅读数量因素,如该网络资源的点击数或浏览数可 以直接获得外,网络资源的相似内容数量因素、关联及推荐关系因素、作者价值因素、网站 价值因素等都需要进一步加工才能转换为可计算的基本因素。最后将各个基本因素按照设 定的函数关系变换为网络资源的PeopleRank权值。
[0017] 所述需要进一步加工的基本因素的处理方法包括:
[0018] 1)根据网络资源内容,计算出其被转发及与其相似的网络资源的数量数据,并依 据该数据计算该网络资源的相似内容数量权值。
[0019] 2)根据网络资源之间的推荐或关联关系,并基于以下特性计算该网络资源的关联 及推荐关系因素:(1) 一个网络资源被他人引用的越多,则越有价值;(2)被价值高的网络 资源所引用的资源,其价值也高。关联及推荐关系因素通常以某种迭代计算算法实现。
[0020] 3)根据该网络资源作者的相关网络资源经迭代计算,确定作者价值,并依据该作 者价值确定该网络资源的权值,所述迭代计算通常为正反馈式系统。
[0021] 4)根据该网络资源所在网站经迭代计算,确定该网站价值,并依据该网站价值确 定该网络资源的权值,所述迭代计算通常为正反馈式系统。
[0022] 所述各基本因素按照多点采样时间计算其变化率。
[0023] 所述的评价网络资源价值方法在搜索引擎领域的一种应用方法,其特征在于:按 照如上所述的价值评价方法,根据热点网络资源在一定时期内变化率高的特性,结合网络 资源的类别信息,可以按照权值高低排序输出各类别的热点网络资源。
[0024] 所述的评价网络资源价值方法在搜索引擎领域的一种应用方法,其特征在于:按 照如上所述的价值评价方法,赋予搜索到的各网络资源权值,并筛选剔除权值较低的网络 资源。
[0025] 所述的评价网络资源相关性价值方法在搜索引擎领域的一种应用方法,其特征在 于:按照如上所述的价值评价方法,赋予搜索到的各网络资源权值,利用该权值参与引擎查 询结果的排序,使高质量的网页优先提供。
[0026] 本发明的技术效果:
[0027] 本发明的评价网络资源价值的方法,通过提取网络资源上所包含的特定的与人相 关的基本因素,并结合采样时间计算该基本因素的变化率,从而根据该基本因素及变化率 赋予该网络资源一确定的能代表其相关性价值的权值,即PeopleRank值(简称PR值)。
[0028] 由于该PR值不但与网络资源中抽取的特定的与人相关的因素相关,而且与所提 取因素的时间因素也相关,因此采用这种方法确定的PR值不但可以反映其可能符合用户 需要的程度,而且还可以有效反应该网络资源是否仍然在人们的关注期内,即可以反映出 那些曾经引人关注而目前已无人问津的网络资源。
[0029] 正是这种自网络资源提取的相关因素及与该因素的采样时间之间的相互作用,反 映出了该网络资源的受人关注的变化状态,这种时间因素的作用,对于那些时效性较强的 新闻类网络资源尤其重要。
[0030] People Rank就是将上述各种与人相关的因素通过一定的数学模型,合成为综合 的价值权重。
[0031] 不同网页(即网络资源,以下皆简称网页)拥有不同的人为因素,因此针对不同类 别的网页,People Rank包含的因素也不同。
[0032] 对于不同的网络资源而言,其包含有不同侧重的人为因素,基本归纳起来,包括六 种基本因素:
[0033] 发生时间因素;
[0034] 用户阅读数量因素,如该网络资源的点击数或浏览数;
[0035] 相似内容数量因素;
[0036] 关联及推荐关系因素;
[0037] 作者价值因素;
[0038] 网站价值因素等。
[0039] 其中发生时间、网络资源点击数或浏览数提取后即可按照一定的系数比例参与PR 值的计算,其他因素都需要故进一步分析转换,即按照某种设定的函数关系才能变换为可 计算的基本因素。
[0040] 其中,对于相似内容数量而言,其被转发的数量以及网络中存在的相似网页的数 量反映了其受人关注的程度,因此通过计算其被转发的数量以及存在的与其相似的网页的 数量数据,并依据该数据结合采样时间因素即
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1