确定网站内链接等级的方法及装置的制造方法

文档序号:9235453阅读:163来源:国知局
确定网站内链接等级的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及一种计算机信息处理技术,特别是涉及一种确定网站内链接等级的方 法及装置。
【背景技术】
[0002] 网络爬虫(又称为网页蜘蛛)是一种按照一定的规则,自动获取万维网信息的程序 或者脚本。搜索引擎即通过网络爬虫从互联网数W亿计的站点下载全部的网页,W供分析 网页数据和建立索引。互联网总是不停的在产生新网页和更新旧网页,因此网络爬虫也需 要不停的工作W保证搜索引擎能拥有最新的互联网网页镜像。出于搜索效果的考虑,爬虫 总是希望能更快地将网页收录。但是,爬虫对网页的抓取会占用网站的服务器资源。如果 抓取频率超过了网站的承受范围,就会影响到网站用户的正常访问,严重的会导致网站服 务器的痛疾。因此,搜索引擎对网站的抓取量必须在站点可接受的范围内,搜索引擎会采用 一定的方法估算抓取量的数值。
[0003] 搜索引擎主要基于链接模式(chain pattern)来判断是否是不同链接。也就是 说,一个统一资源定位符(化iformAJniversal Resource Locator,简称U化,也可称为网页 地址)与另一个U化相比,其中只要有一个字符不相同或多一个字符或少一个字符,该两个 U化就是不同的U化。自动建站、动态网页等工具和技术的广泛应用,使得新U化的产生变 得非常容易,也导致链接泛滥成为互联网的普遍现象。
[0004] U化泛滥的表现主要有W下几个方面:
[0005] 第一个方面,U化所指向的内容并不能提供对用户有用的信息,可能是一些空内 容,甚至作弊或者有害的内容。
[0006] 第二个方面,U化所指向的内容与其他形式的U化所指向的内容完全重复。
[0007] 第H个方面,随着时间的推移,U化会失效变成死链,无法正常访问。
[0008] 该些垃圾、重复、无效的链接与有效链接混合在一起,如果搜索引擎不加区分的将 它们收录,一方面,原本紧张的站点抓取配额将被大量占用,另一方面从用户的角度来看, 搜索引擎抓取到的网页大多都不具有参考价值。
[0009] 由此可知,如何区分网站内有价值的链接,W便于将有限的抓取配额分配给高质 量的链接是本发明所要解决的问题。

【发明内容】

[0010] 鉴于上述问题,提出了本发明W便提供一种克服上述问题或者至少部分地解决上 述问题的确定网站内链接等级的方法及装置,W准确识别出网站内有价值的链接。
[0011] 依据本发明一个方面,提供了一种确定网站内链接等级的方法,包括:
[0012] 根据网站内链接的链接地址,确定所述链接所属的类;
[0013] 获取所述链接所属类对应的类质量等级;
[0014] 提取所述链接的链接价值;
[0015] 根据所述类质量等级及所述链接的链接价值,确定所述链接的等级。
[0016] 可选的,前述的确定网站内链接等级的方法,其中,所述根据网站内链接的链接地 址,确定所述链接所属的类,包括:
[0017] 根据预设的特征提取规则,从所述网站内链接的链接地址中提取所述链接的特征 信息;
[0018] 根据预设的特征信息及类的对应关系,获取所述链接的特征信息对应的类,所述 类即为所述链接所属的类。
[0019] 可选的,前述的确定网站内链接等级的方法,其中,所述获取所述链接所属类对应 的类质量等级之前,还包括:
[0020] 获取所述网站内与属于所述类的所有链接相关的第一统计信息;
[0021] 获取与所述网站相关的第二统计信息;
[0022] 根据所述第一统计信息和第二统计信息,计算所述类质量等级。
[0023] 可选的,前述的确定网站内链接等级的方法,其中,所述根据所述第一统计信息和 第二统计信息,计算所述类质量等级之后,还包括:
[0024] 提取所述网站内所有链接的链接价值;
[0025] 获取属于所述类的所有链接占所述网站内的所有链接的比例;
[0026] 根据所述网站内所有链接的链接价值及所述比例,对所述类质量等级进行修正。
[0027] 可选的,前述的确定网站内链接等级的方法,其中,所述第一统计信息包括;第一 索引量、第一展现量、第一点击量及第一收录量中的一种或任意多个的组合,其中,
[0028] 所述第一索引量为所述网站内属于所述类的所有链接被建入索引的数量,所述第 一展现量为所述网站内属于所述类的所有链接在预设的第一时间段内出现在搜索结果中 的数量;所述第一点击量为所述网站内属于所述类的所有链接在预设的第二时间段内出现 在搜索结果中且被用户点击的次数,所述第一收录量为被搜索引擎收录到索引中的属于所 述类的所述网站内的所有链接对应网页的数量;
[0029] 所述第二统计信息包括;第二索引量、第二展现量、第二点击量及第二收录量中的 一种或任意多个的组合,其中,
[0030] 所述第二索引量为所述网站内被建入索引的所有链接的数量,所述第二展现量为 所述网站内所有被建入索引的所有链接在预设的第一时间段内出现在索引结果中的数量; 所述第二点击量为所述网站内所有被建入索引的所有链接在预设的第二时间段内出现的 搜索结果中且被用户点击的次数,所述第二收录量为被搜索引擎收录到索引中的属于所述 网站的所有链接对应的网页数量。
[0031] 可选的,前述的确定网站内链接等级的方法,其中,所述根据所述第一统计信息和 第二统计信息,计算所述类质量等级,具体为:
[0032] 根据所述第一统计信息和第二统计信息,采用如下第一计算公式计算所述类质量 等级:
[0033]
[0034] 其中,V为所述类质量等级,i为所述第一索引量,e为所述第一展现量,C为所述 第一点击量,1为所述第一收录量,I为所述第二索引量,E为所述第二展现量,C为所述第 二点击量,L为所述第二收录量,a为预设第一系数,目为预设第二系数;y为预设第H系 数。
[0035] 可选的,前述的确定网站内链接等级的方法,其中,所述根据所述网站内所有链接 的链接价值及所述比例,对所述类质量等级进行修正,具体为:
[0036] 根据所述网站内所有链接的链接价值及所述比例,采用如下第二计算公式对所述 类质量等级进行修正:
[0037]
[0038] 其中,V为修正后的所述类质量等级,V为修正前的所述类质量等级,u/U为所述比 例,S>,为所述网站内属于所述类的所有链接的链接价值之化玄>,为所述网站内的所 有链接的链接价值之和,为预设第一修正系数,£2为预设第二修正系数,E3为预设第H修正系数。
[0039] 可选的,前述的确定网站内链接等级的方法,其中,所述提取所述链接的链接价值 之前,还包括:
[0040] 获取与所述链接有关的评测参数,所述评测参数包括:所述链接的重要程度指标 Pagerank、所述链接在所在网站的站内深度、所述链接的点击量及所述链接对应的网页内 容的内容价值中的一个或任意多个的组合;
[0041] 根据所述评测参数,计算所述链接的链接价值;
[0042] 存储所述链接的链接价值。
[0043] 可选的,前述的确定网站内链接等级的方法,其中,所述根据所述类质量等级及所 述链接的链接价值,确定所述链接的等级,具体为:
[0044] 根据所述类质量等级及所述链接的链接价值,采用如下第H计算公式确定所述链 接的等级:
[004引 Viink = S 1 ? V+ 6 2 ?屯扯
[0046] 其中,为所述链接的等级,V为所述类质量等级,qihk为所述链接的链接价值, Si为预设第四系数,S2为预设第五系数。
[0047] 根据本发明的另一个方面,提供了一种确定网站内链接等级的装置,所述确定网 站内链接等级的装置设置在服务器侧,所述确定网站内链接等级的装置,包括:
[0048] 第一确定模块,用于根据网站内链接的链接地址,确定所述链接所属的类;
[0049] 第一获取模块,用于获取所述链接所属类对应的类质量等级;
[0050] 提取模块,用于提取所述链接的链接价值;
[0051] 第二确定模块,用于根据所述类质量等级及所述链接的链接价值,确定所述链接 的等级。
[0052] 可选的,前述的确定网站内链接等级的装置,其中,所述第一确定模块,包括:
[0053] 提取单元,用于根据预设的特征提取规则,从所述网站内链接的链
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1