网页url过滤方法、装置及系统的制作方法_3

文档序号:8319152阅读:来源:国知局
2以及分析判断单元2023,其中:
[0087]分隔符获取单元2021,用于对所述URL数据集中的每一 URL,获取其中的分隔符;
[0088]拆分单元2022,用于通过所述分隔符对每一 URL进行字段拆分,得到每一 URL中的所有字段;
[0089]分析判断单元2023,用于分析每一 URL中的每一字段,当所述字段在所述URL数据集中的每一URL中都出现,则判定其为必备字段;当所述字段在所述URL数据集中至少一个URL中没有出现,则判定其为无关字段。
[0090]如图6所示,本发明第二实施例提出一种过滤网页URL的装置,在上述第一实施例的基础上,还包括:
[0091]校验模块203,用于对生成的所述网页的唯一 URL进行校验;
[0092]具体地,如图7所示,所述校验模块203具体可以包括:网页内容获取单元2031、计算单元2032以及比较判断单元2033,其中:
[0093]网页内容获取单元2031,用于跳转所述唯一 URL,获取返回的网页内容;
[0094]计算单元2032,用于根据所述网页内容并基于哈希算法,计算获取所述网页内容对应的网页文档编号;
[0095]比较判断单元2033,用于将获取的所述网页内容对应的网页文档编号与所述唯一URL的原始网页文档编号进行对比;若两者相同,则判定所述唯一 URL有效,否则判定所述唯一 URL无效。
[0096]本实施例与上述第一实施例的区别在于,本实施例还包括对生成的网页的唯一URL的有效性进行校验的方案,以避免URL字段过滤出错,提高网页数据统计的准确性。
[0097]具体地,本实施例对生成的同一网页的唯一 URL进行校验具体采用以下方法:
[0098]在浏览器中打开该唯一 URL对应的网页,获取返回的网页内容,然后将此网页内容作为字符串,带入预设的哈希算法,计算获取所述网页内容对应的网页文档编号(docid)。其中,预设的哈希算法可以采用MD5算法或者其他类似的算法等。
[0099]之后,将获取的所述网页内容对应的网页文档编号与所述唯一 URL的原始网页文档编号进行对比;若两者相同,则表示之前的字段过滤正确,生成的唯一 URL有效,仍然能够访问原始页面,否则表示字段过滤出错,判定之前生成的唯一 URL无效。
[0100]由此,通过上述方案,对生成的网页的唯一 URL的有效性进行校验,排除URL字段过滤出错的情形,从而提高了网页数据统计的准确性。
[0101]如图8所示,本发明第三实施例提出一种过滤网页URL的装置,在上述第二实施例的基础上,还包括:
[0102]上报模块204,用于当所述校验模块判定所述唯一 URL无效时,向数据监控平台上报字段过滤出错信息。
[0103]本实施例与上述第二实施例的区别在于,本实施例还包括对校验判定唯一 URL无效后的处理方案。
[0104]具体地,当经过校验判定之前生成的唯一 URL无效时,向数据监控平台上报字段过滤出错信息,以便采用相应的措施,比如,重新对URL进行字段拆分和分析,或者,对浏览器后台提供的URL数据进行检查。
[0105]由此,通过上述方案,当经过校验判定之前生成的唯一 URL无效时,向数据监控平台上报字段过滤出错信息,进一步提高了网页数据统计的准确性。
[0106]如图9所示,本发明较佳实施例提出一种过滤网页URL的系统,包括浏览器301和与所述浏览器301通信连接的数据监控平台302,其中:
[0107]所述浏览器301可以包括上述实施例中所述的装置;
[0108]所述数据监控平台302,用于当所述浏览器301判定生成的唯一URL无效时上报的字段过滤出错信息。
[0109]具体地,本实施例可以自动化实现识别并过滤网页URL多余参数,将同一网页对应的各种URL简化至其最原始的方式,以提高网页访问量的统计准确度,并减少网页数据的存储量。
[0110]首先浏览器301获取预先收集的同一网页的URL数据集,作为一种实施方式,可以基于网页文档编号(docid)从浏览器301后台获取该浏览器301后台收集的同一网页的URL数据,该URL数据可以表示为:〈doCid,url>,其中,docid为网页的文档编号,其包括64位字符串,一个docid唯一标识一个网页。
[0111]由此,通过同一网页的docid可以从浏览器301后台获取到该同一网页的各URL。同时,该同一网页的docid也将作为该网页的原始docid保存,可以作为后续校验之用。
[0112]如前所述,同一网页的URL可能具有多个,当从浏览器301后台获取的同一网页的URL数据集中包含多个URL时,则需要对该同一网页的URL进行过滤,以去除其中的无关字段。
[0113]在对网页的URL进行过滤处理时,首先对同一网页的每一 URL进行字段拆分及分析,识别出同一 docid下各个URL中的无关字段。
[0114]作为一种实施方式,对同一网页的每一 URL进行字段拆分及分析的处理过程如下:
[0115]首先对URL数据集中的每一 URL,获取其中的分隔符,通过分隔符对每一 URL进行字段拆分,得到每一 URL中的所有字段。
[0116]通常URL字段主要用”&”、”?”等符号进行分隔,因此可以利用这些分隔符将每个URL进行拆分以得到其中的每个字段。
[0117]比如:http://tech.3g.cn/ipnewscontent.php?nid=2149583&sid=008A263A71D拆分后得到的字段是” nid=2149583” 和” sid=008A263A71D”。
[0118]经过字段拆分后,接着识别无关字段,具体采用的方法为:
[0119]分析每一 URL中的每一字段,如果某一个字段在每个URL里都出现,则认为其为必备字段,否则若某个字段在至少一个URL里没有出现,则认为其为无关字段,删除它后对访问原网页不会带来任何影响。下面以一个例子来说明,假定某个网页存在3个URL:
[0120]http://www.a.com/b?cid=l ;
[0121]http://www.a.com/b?cid=l&sid=2 ;
[0122]http://www.a.com/b?cid=l&sid=2&from=systemmail ;
[0123]经过字段拆分及分析,“cid=l”字段在每个URL均出现,则判定其是必备字段;而“sid=2”及“fr0m=SyStemmail”均在至少I个URL里未出现,因此判定其是无关字段。
[0124]最后,将字段拆分及分析后得到的各URL中的无关字段删除,生成同一网页的唯一 URL。
[0125]以上述例子来说,上述例子经过无关字段删除后,生成的唯一 URL即为http://www.a.com/b ? cid=l,由此可以得到〈docid, uniq_url> 数据。
[0126]本实施例通过上述方案,通过识别同一网页的各种不同URL格式,自动过滤URL中与网页内容无关的字段,将同一网页的各种URL转换为唯一 URL,且能够在较短时间内自动分析后上线生效,有效减少网页数据的存储量,并提高了网页访问量的统计准确度,其相比传统方案,不需要人工干预,且覆盖网站广泛,计算结果准确。
[0127]进一步地,浏览器301还可以对生成的所述网页的唯一 URL进行校验。具体可以采用以下方法:
[0128]在浏览器301中打开该唯一 URL对应的网页,
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1