确定网页质量的装置及方法

文档序号:9375772阅读:257来源:国知局
确定网页质量的装置及方法
【技术领域】
[0001] 本发明涉及网络数据通信技术领域,具体涉及确定网页质量的装置及方法。
【背景技术】
[0002] 搜索引擎的蜘蛛程序每天能够发现大量的互联网中新产生的URL。因为搜索引擎 每天能够实际抓取的URL数量有限,所以蜘蛛程序在进行抓取之前,需要对发现的URL进行 选择,从中选择高质量的URL进行抓取。在现有技术中,对URL进行质量确定的方法包括如 下两种。一种是根据网页内容确定URL对应的网页的质量。另一种是和该网页内容类似的 网页的抓取量来确定URL对应的网页的质量。例如,如果和该网页内容类似的网页的抓取 量较大时,降低URL对应的网页的抓取概率。
[0003] 但是,通过网页内容或相关网页的抓取量来确定网页质量,需要获得较多的信息, 并且对信息的处理复杂,导致确定网页质量的操作的效率较低。

【发明内容】

[0004] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的确定网页质量的装置及方法。
[0005] 依据本发明的一个方面,提供了一种确定网页质量的装置,该装置包括:
[0006] 获取模块,适于获取待确定网页URL和URL对应的锚文字;
[0007] 分类模块,适于根据所述URL所属的网址模式,将所述URL划分为各个类别;
[0008] 查找模块,适于在各个类别中,根据URL对应的锚文件查找出具有相似内容的多 个 URL ;
[0009] 确定模块,适于对于具有相似内容的多个URL,根据URL的预设特征确定URL对应 的网页的质量。
[0010] 可选地,所述查找模块,进一步包括:
[0011] 计算子模块,适于根据URL对应的锚文字计算类别中各个URL间的相似度;
[0012] 查找子模块,适于根据URL间相似度查找出类别中具有相似内容的多个URL。
[0013] 可选地,所述确定模块,进一步适于根据URL的关注度从所述具有相似内容的多 个URL中选择URL,对选择的URL进行网页抓取。
[0014] 可选地,所述分类模块,进一步适于将属于同一网站的具有同一网址模式的URL 划分到同一类别。
[0015] 可选地,所述确定模块,进一步适于按URL的关注度对所述具有相似内容的多个 URL进行排序;选择排序中的前N个URL进行网页抓取,其中,N为预设正整数。
[0016] 可选地,所述计算子模块,进一步适于将同一类别中URL对应的锚文字分别进行 分词,从分词所得词条中确定关键词;根据锚文字中关键词计算URL间相似度。
[0017] 可选地,所述查找模块还包括:
[0018] 去除子模块,适于在将同一类别中URL对应的锚文字分别进行分词之后,利用预 设词表从对锚文字分词所得词条中,去除掉与锚文字的特征无关词条。
[0019] 可选地,所述计算子模块,进一步适于根据词条所对应的频率,从分词所得词条中 确定关键词。
[0020] 根据本发明的另一方面,提供了一种确定网页质量的方法,该方法包括:
[0021] 获取待确定网页URL和URL对应的锚文字;
[0022] 根据所述URL所属的网址模式,将所述URL划分为各个类别;
[0023] 在各个类别中,根据URL对应的锚文件查找出具有相似内容的多个URL ;
[0024] 对于具有相似内容的多个URL,根据URL的预设特征确定URL对应的网页的质量。
[0025] 可选地,所述根据URL对应的锚文件查找出具有相似内容的多个URL,进一步包 括:
[0026] 根据URL对应的锚文字计算类别中各个URL间的相似度;
[0027] 根据URL间相似度查找出类别中具有相似内容的多个URL。
[0028] 可选地,所述根据URL的预设特征确定URL对应的网页的质量,进一步包括:
[0029] 根据URL的关注度从所述具有相似内容的多个URL中选择URL,对选择的URL进行 网页抓取。
[0030] 可选地,所述根据所述URL所属的网址模式,将所述URL划分为各个类别,进一步 包括:
[0031] 将属于同一网站的具有同一网址模式的URL划分到同一类别。
[0032] 可选地,所述根据URL的关注度从所述具有相似内容的多个URL中选择URL,对选 择的URL进行网页抓取进一步包括:
[0033] 按URL的关注度对所述具有相似内容的多个URL进行排序;
[0034] 选择排序中的前N个URL进行网页抓取,其中,N为预设正整数。
[0035] 可选地,所述根据URL对应的锚文字计算类别中各个URL间的相似度,进一步包 括:
[0036] 将同一类别中URL对应的锚文字分别进行分词,从分词所得词条中确定关键词;
[0037] 根据锚文字中关键词计算URL间相似度。
[0038] 可选地,所述方法还包括:
[0039] 在将同一类别中URL对应的锚文字分别进行分词之后,利用预设词表从对锚文字 分词所得词条中,去除掉与锚文字的特征无关词条。
[0040] 可选地,所述从分词所得词条中确定关键词,进一步包括:
[0041] 根据词条所对应的频率,从分词所得词条中确定关键词。
[0042] 根据本发明的技术方案可以获取待确定网页URL和URL对应的锚文字;根据URL 所属的网址模式,将URL划分为各个类别;在各个类别中,根据URL对应的锚文件查找出具 有相似内容的多个URL ;对于具有相似内容的多个URL,根据URL的预设特征确定URL对应 的网页的质量。由此解决了通过网页内容或相关网页的抓取量来确定网页质量,需要获得 较多的信息,并且对信息的处理复杂,导致确定网页质量的操作的效率较低的问题,取得了 提高确定网页质量操作的效率的有益效果,并且之后可以根据网页质量进行抓取,进而能 够节省抓取的流量,提升搜索引擎收录的覆盖率和时效性。
[0043] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0044] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0045] 图1示出了根据本发明一个实施例的确定网页质量的方法的流程图;
[0046] 图2示出了根据本发明一个实施例的查找具有相似内容的URL的操作的流程图;
[0047] 图3示出了根据本发明一个实施例的选择URL进行抓取的操作的流程图;
[0048] 图4示出了根据本发明一个实施例的确定网页质量的方法的流程图;
[0049] 图5示出了根据本发明一个实施例的确定网页质量的装置的结构图;以及
[0050] 图6示出了根据本发明一个实施例的确定网页质量的装置的结构图。
【具体实施方式】
[0051] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0052] 图1示出了根据本发明一个实施例的确定网页质量的方法的流程图。该方法适于 各种与搜索引擎相关的服务器,如图1所示,该方法包括如下步骤。
[0053] 在步
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1