对网址进行查重的方法及装置的制造方法

文档序号:9708381阅读:234来源:国知局
对网址进行查重的方法及装置的制造方法
【技术领域】
[0001]本公开涉及网络技术领域,特别涉及一种对网址进行查重的方法及装置。
【背景技术】
[0002]网络爬虫是一种自动爬取互联网上的信息的程序或者脚本。网络爬虫始于一张被称作种子的URL(Uniform Resource Locator,统一资源定位符)列表。当网络爬虫访问这些URL时,会甄别出页面上所有的超链接(网址),并将这些网址写入一张“待访列表”,之后对该“待访列表”中的各个网址进行循环访问,以爬取这些网址对应的页面内容。
[0003]由于互联网的拓扑结构,“待访列表”中有很多重复网址,因此,在爬取页面内容之前,需要对“待访列表”中的网址进行查重,根据查重结果去掉重复的网址。比如,对“待访列表”中的网址进行查重时,可以对“待访列表”中的各个网址进行哈希变换,用变换后的哈希值进行查重处理,将哈希值相同的网址确定为重复的网址。
[0004]在实际应用中,有很多不同的网址会指向相同的网页,比如,在一个电商网站中,同一个商品页面可能对应有多个不同的网址,仅仅通过比对网址的哈希值进行查重的方式并不能保证查重的准确率,另外,对整个网址进行哈希变换也需要消耗大量的时间,影响查重效率。

【发明内容】

[0005]本公开实施例提供了一种对网址进行查重的方法及装置,所述技术方案如下:
[0006]根据本公开实施例的第一方面,提供了一种对网址进行查重的方法,该方法包括:
[0007]获取训练样本,所述训练样本中包含有若干个训练组,每个训练组中包含至少一个网址,对于所述若干个训练组中的任意一个训练组,当所述训练组中包含两个或者两个以上网址时,所述两个或者两个以上网址指向同一网页;
[0008]根据所述训练样本确定提取规则,所述提取规则用于指示在一个网址中提取对应网页的标识;
[0009]根据所述提取规则提取目标网址集合中的各个网址对应网页的标识;
[0010]将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。
[0011 ]可选的,所述根据所述训练样本确定提取规则,包括:
[0012]通过预设的训练模型对所述若干个训练组进行机器训练,根据训练结果确定所述提取规则,所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系Ο
[0013]可选的,所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站;或者,所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站,所述网页的标识为商品标识。
[0014]可选的,所述获取训练样本,包括:
[0015]获取样本网址集合,所述样本网址集合中包含所述若干个训练组中的各个网址;
[0016]对所述样本网址集合中的各个网址逐一进行网页内容爬取,获得所述样本网址集合中的各个网址各自对应的网页内容;
[0017]根据所述样本网址集合中的各个网址各自对应的网页内容进行查重;
[0018]根据查重结果,将所述样本网址集合中的各个网址中,对应相同网页内容的网址添加入同一训练组。
[0019]可选的,所述将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址,包括:
[0020]将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址;
[0021]或者,
[0022]对提取到的网页的标识进行哈希变换,获得所述各个网址对应的哈希值,将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。
[0023]根据本公开实施例的第二方面,提供了一种对网址进行查重的装置,所述装置包括:
[0024]样本获取模块,用于获取训练样本,所述训练样本中包含有若干个训练组,每个训练组中包含至少一个网址,对于所述若干个训练组中的任意一个训练组,当所述训练组中包含两个或者两个以上网址时,所述两个或者两个以上网址指向同一网页;
[0025]规则确定模块,用于根据所述训练样本确定提取规则,所述提取规则用于指示在一个网址中提取对应网页的标识;
[0026]标识提取模块,用于根据所述提取规则提取目标网址集合中的各个网址对应网页的标识;
[0027]网址确定模块,用于将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址。
[0028]可选的,所述规则确定模块,用于通过预设的训练模型对所述若干个训练组进行机器训练,根据训练结果确定所述提取规则,所述提取规则中包含特征字段以及所述特征字段与网页的标识之间的格式关系。
[0029]可选的,所述若干个训练组中包含的网址与所述目标网址集合中的各个网址属于同一电商网站;或者,所述若干个训练组中包含的网址与所述目标网址集合中的各个网址分别属于不同的电商网站;所述网页的标识为商品标识。
[0030]可选的,所述样本获取模块,包括:
[0031 ]集合获取单元,用于获取样本网址集合,所述样本网址集合中包含所述若干个训练组中的各个网址;
[0032]内容爬取单元,用于对所述样本网址集合中的各个网址逐一进行网页内容爬取,获得所述样本网址集合中的各个网址各自对应的网页内容;
[0033]查重单元,用于根据所述样本网址集合中的各个网址各自对应的网页内容进行查重;
[0034]添加单元,用于根据查重结果,将所述样本网址集合中的各个网址中,对应相同网页内容的网址添加入同一训练组。
[0035]可选的,所述网址确定模块,包括:
[0036]第一确定单元,用于将提取到的网页的标识相同的至少两个网址确定为页面内容相同的网址;
[0037]第二确定单元,用于对提取到的网页的标识进行哈希变换,获得所述各个网址对应的哈希值,将对应的哈希值相同的至少两个网址确定为页面内容相同的网址。
[0038]本公开实施例提供的技术方案可以包括以下有益效果:
[0039]通过根据预先设置的训练样本确定从网址中提取网页的标识的提取规则,根据提取规则提取目标网址集合中的各个网址对应的网页的标识,将提取到的网页的标识相匹配的至少两个网址确定为页面内容相同的网址,只需要从待查重的网址中提取出网页的标识,根据网页的标识进行查重,能够有效的查找出对应内容相同的网址,提高查重的准确性,同时,只根据网页的标识进行查重,能够减少计算量,提高查重效率。
[0040]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
【附图说明】
[0041]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0042]图1是根据一示例性实施例示出的对网址进行查重的方法的流程图;
[0043]图2A是根据另一示例性实施例示出的对网址进行查重的方法的流程图;
[0044]图2B是根据图2A所示实施例示出的获取训练样本的方法的流程图;
[0045]图3是根据一示例性实施例示出的对网址进行查重的装置的框图;
[0046]图4是根据另一示例性实施例示出的对网址进行查重的装置的框图;
[0047]图5是根据一示
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1