网页url过滤方法、装置及系统的制作方法_3

文档序号：8319152阅读：来源：国知局

2以及分析判断单元2023，其中:
[0087]分隔符获取单元2021，用于对所述URL数据集中的每一 URL，获取其中的分隔符；
[0088]拆分单元2022，用于通过所述分隔符对每一 URL进行字段拆分，得到每一 URL中的所有字段；
[0089]分析判断单元2023，用于分析每一 URL中的每一字段，当所述字段在所述URL数据集中的每一URL中都出现，则判定其为必备字段；当所述字段在所述URL数据集中至少一个URL中没有出现，则判定其为无关字段。
[0090]如图6所示，本发明第二实施例提出一种过滤网页URL的装置，在上述第一实施例的基础上，还包括:
[0091]校验模块203，用于对生成的所述网页的唯一 URL进行校验；
[0092]具体地,如图7所示,所述校验模块203具体可以包括:网页内容获取单元2031、计算单元2032以及比较判断单元2033，其中:
[0093]网页内容获取单元2031，用于跳转所述唯一 URL，获取返回的网页内容；
[0094]计算单元2032，用于根据所述网页内容并基于哈希算法，计算获取所述网页内容对应的网页文档编号；
[0095]比较判断单元2033，用于将获取的所述网页内容对应的网页文档编号与所述唯一URL的原始网页文档编号进行对比；若两者相同，则判定所述唯一 URL有效，否则判定所述唯一 URL无效。
[0096]本实施例与上述第一实施例的区别在于，本实施例还包括对生成的网页的唯一URL的有效性进行校验的方案，以避免URL字段过滤出错，提高网页数据统计的准确性。
[0097]具体地，本实施例对生成的同一网页的唯一 URL进行校验具体采用以下方法:
[0098]在浏览器中打开该唯一 URL对应的网页，获取返回的网页内容，然后将此网页内容作为字符串，带入预设的哈希算法，计算获取所述网页内容对应的网页文档编号(docid)。其中，预设的哈希算法可以采用MD5算法或者其他类似的算法等。
[0099]之后，将获取的所述网页内容对应的网页文档编号与所述唯一 URL的原始网页文档编号进行对比；若两者相同，则表示之前的字段过滤正确，生成的唯一 URL有效，仍然能够访问原始页面，否则表示字段过滤出错，判定之前生成的唯一 URL无效。
[0100]由此，通过上述方案，对生成的网页的唯一 URL的有效性进行校验，排除URL字段过滤出错的情形，从而提高了网页数据统计的准确性。
[0101]如图8所示，本发明第三实施例提出一种过滤网页URL的装置，在上述第二实施例的基础上，还包括:
[0102]上报模块204，用于当所述校验模块判定所述唯一 URL无效时，向数据监控平台上报字段过滤出错信息。
[0103]本实施例与上述第二实施例的区别在于，本实施例还包括对校验判定唯一 URL无效后的处理方案。
[0104]具体地，当经过校验判定之前生成的唯一 URL无效时，向数据监控平台上报字段过滤出错信息，以便采用相应的措施，比如，重新对URL进行字段拆分和分析，或者，对浏览器后台提供的URL数据进行检查。
[0105]由此，通过上述方案，当经过校验判定之前生成的唯一 URL无效时，向数据监控平台上报字段过滤出错信息，进一步提高了网页数据统计的准确性。
[0106]如图9所示，本发明较佳实施例提出一种过滤网页URL的系统，包括浏览器301和与所述浏览器301通信连接的数据监控平台302，其中:
[0107]所述浏览器301可以包括上述实施例中所述的装置；
[0108]所述数据监控平台302，用于当所述浏览器301判定生成的唯一URL无效时上报的字段过滤出错信息。
[0109]具体地，本实施例可以自动化实现识别并过滤网页URL多余参数，将同一网页对应的各种URL简化至其最原始的方式，以提高网页访问量的统计准确度，并减少网页数据的存储量。
[0110]首先浏览器301获取预先收集的同一网页的URL数据集，作为一种实施方式，可以基于网页文档编号(docid)从浏览器301后台获取该浏览器301后台收集的同一网页的URL数据，该URL数据可以表示为:〈doCid，url>，其中，docid为网页的文档编号，其包括64位字符串，一个docid唯一标识一个网页。
[0111]由此，通过同一网页的docid可以从浏览器301后台获取到该同一网页的各URL。同时，该同一网页的docid也将作为该网页的原始docid保存，可以作为后续校验之用。
[0112]如前所述，同一网页的URL可能具有多个，当从浏览器301后台获取的同一网页的URL数据集中包含多个URL时，则需要对该同一网页的URL进行过滤，以去除其中的无关字段。
[0113]在对网页的URL进行过滤处理时，首先对同一网页的每一 URL进行字段拆分及分析，识别出同一 docid下各个URL中的无关字段。
[0114]作为一种实施方式，对同一网页的每一 URL进行字段拆分及分析的处理过程如下:
[0115]首先对URL数据集中的每一 URL，获取其中的分隔符，通过分隔符对每一 URL进行字段拆分，得到每一 URL中的所有字段。
[0116]通常URL字段主要用”&”、”？”等符号进行分隔，因此可以利用这些分隔符将每个URL进行拆分以得到其中的每个字段。
[0117]比如:http://tech.3g.cn/ipnewscontent.php?nid=2149583&sid=008A263A71D拆分后得到的字段是” nid=2149583” 和” sid=008A263A71D”。
[0118]经过字段拆分后，接着识别无关字段，具体采用的方法为:
[0119]分析每一 URL中的每一字段，如果某一个字段在每个URL里都出现，则认为其为必备字段，否则若某个字段在至少一个URL里没有出现，则认为其为无关字段，删除它后对访问原网页不会带来任何影响。下面以一个例子来说明，假定某个网页存在3个URL:
[0120]http://www.a.com/b?cid=l ；
[0121]http://www.a.com/b?cid=l&sid=2 ；
[0122]http://www.a.com/b?cid=l&sid=2&from=systemmail ；
[0123]经过字段拆分及分析，“cid=l”字段在每个URL均出现，则判定其是必备字段；而“sid=2”及“fr0m=SyStemmail”均在至少I个URL里未出现，因此判定其是无关字段。
[0124]最后，将字段拆分及分析后得到的各URL中的无关字段删除，生成同一网页的唯一 URL。
[0125]以上述例子来说，上述例子经过无关字段删除后，生成的唯一 URL即为http://www.a.com/b ? cid=l,由此可以得到〈docid, uniq_url> 数据。
[0126]本实施例通过上述方案，通过识别同一网页的各种不同URL格式，自动过滤URL中与网页内容无关的字段，将同一网页的各种URL转换为唯一 URL，且能够在较短时间内自动分析后上线生效，有效减少网页数据的存储量，并提高了网页访问量的统计准确度，其相比传统方案，不需要人工干预，且覆盖网站广泛，计算结果准确。
[0127]进一步地，浏览器301还可以对生成的所述网页的唯一 URL进行校验。具体可以采用以下方法:
[0128]在浏览器301中打开该唯一 URL对应的网页，

完整全部详细技术资料下载

当前第3页1 2 3 4