网页url过滤方法、装置及系统的制作方法

文档序号：8319152阅读：364来源：国知局

网页url过滤方法、装置及系统的制作方法
【技术领域】
[0001]本发明涉及互联网技术领域，尤其涉及一种网页URL过滤方法、装置及系统。
【背景技术】
[0002]目前，互联网的网页数量呈爆炸式增长，有些网站管理员为了便于统计网页的来源和渠道，通常会在网页的原始URL的基础上增加一些扩展字段，比如“http://blog.sina.com.cn/s/blog_4ac981db0102flta.html?tj=l” 里的”？tj=l” 是网站管理员定义的一种网页跳转来源，又比如“http://km.0a.com/group/469/surveys/show/5772?jumpfrom=systemmail ” 里的” ？jumpfrom=systemmail ” 表不此网页是用户从某系统邮件里点击后跳转而来。
[0003]在上述两个例子中，网页URL末尾片断删除后，原网页内容不会有任何变化。而目前各种URL夹带特定目的参数的现象越来越多，导致同一网页具有多个URL，这样对于识别同一网页、统计同一网页的访问数量、存储网页内容均带来不便。因此通过识别并过滤网页URL多余参数，将同一网页对应的各种URL简化至其最原始的方式很有必要。
[0004]目前，主要是通过人工处理的方式来识别并筛选同一网页对应的各种URL。对于上面两个例子，经过人工判断出末尾的无效字段后，可以通过编写转换规则，将各种带多余参数的URL转换为其原始URL。
[0005]现有的这种人工处理方式虽然灵活快捷，但是，由于不同网站的参数格式可能完全不同，而且可能会经常扩展新的参数格式，因此人工维护代价过高，且能覆盖的网站数量相对较小。

【发明内容】

[0006]本发明实施例提供一种网页URL过滤方法、装置及系统，旨在提高网页数据统计的效率，方便资源存储。
[0007]本发明实施例提出一种网页URL过滤方法，包括:
[0008]获取预先收集的同一网页的URL数据集；
[0009]当所述URL数据集中包含多个URL时，对所述URL数据集中的每一 URL进行字段拆分及分析；
[0010]根据字段拆分及分析结果，去掉其中的无关字段，生成所述网页的唯一 URL。
[0011]本发明实施例还提出一种过滤网页URL的装置，包括:
[0012]URL数据获取模块，用于获取预先收集的同一网页的URL数据集；
[0013]字段拆分及分析模块，用于当所述URL数据集中包含多个URL时，对所述URL数据集中的每一 URL进行字段拆分及分析；
[0014]生成模块，用于根据字段拆分及分析结果，去掉其中的无关字段，生成所述网页的唯一 URL。
[0015]本发明实施例还提出一种过滤网页URL的系统，包括浏览器和与所述浏览器通信连接的数据监控平台，其中:
[0016]所述浏览器包括如上所述的装置；
[0017]所述数据监控平台，用于当所述浏览器判定生成的唯一 URL无效时上报的字段过滤出错信息。
[0018]本发明实施例提出的一种网页URL过滤方法、装置及系统，通过识别同一网页的各种不同URL格式，过滤URL中与网页内容无关的字段，将同一网页的各种URL转换为唯一URL，能够有效减少网页数据的存储量，提高网页访问量的统计效率和准确度，其相比传统方案，不需要人工干预，且覆盖网站广泛，计算结果准确。
【附图说明】
[0019]图1是本发明网页URL过滤方法第一实施例的流程示意图；
[0020]图2是本发明网页URL过滤方法第二实施例的流程示意图；
[0021]图3是本发明网页URL过滤方法第三实施例的流程示意图；
[0022]图4是本发明过滤网页URL的装置第一实施例的功能模块示意图；
[0023]图5是本发明实施例中字段拆分及分析模块的结构示意图；
[0024]图6是本发明过滤网页URL的装置第二实施例的功能模块示意图；
[0025]图7是本发明实施例中校验模块的结构示意图；
[0026]图8是本发明过滤网页URL的装置第三实施例的功能模块示意图；
[0027]图9是本发明过滤网页URL的系统较佳实施例的结构示意图。
[0028]为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。
【具体实施方式】
[0029]应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0030]如图1所示，本发明第一实施例提出一种网页URL过滤方法，包括:
[0031]步骤S101，获取预先收集的同一网页的URL数据集；
[0032]本实施例可以自动化实现识别并过滤网页URL多余参数，将同一网页对应的各种URL简化至其最原始的方式，以提高网页访问量的统计效率和准确度，并减少网页数据的存储量。
[0033]具体地，首先获取预先收集的同一网页的URL数据集，作为一种实施方式，可以基于网页文档编号(docid)从浏览器后台获取该浏览器后台收集的同一网页的URL数据，该URL数据可以表示为:〈doCid，url>，其中，docid为网页的文档编号，其包括64位字符串，一个docid唯一标识一个网页。
[0034]由此，通过同一网页的docid可以从浏览器后台获取到该同一网页的各URL。同时，该同一网页的docid也将作为该网页的原始docid保存，可以作为后续校验之用。
[0035]步骤S102，当所述URL数据集中包含多个URL时，对所述URL数据集中的每一 URL进行字段拆分及分析；
[0036]如前所述，同一网页的URL可能具有多个，当从浏览器后台获取的同一网页的URL数据集中包含多个URL时，则需要对该同一网页的URL进行过滤，以去除其中的无关字段。
[0037]在对网页的URL进行过滤处理时，首先对同一网页的每一 URL进行字段拆分及分析，识别出同一 docid下各个URL中的无关字段。
[0038]作为一种实施方式，对同一网页的每一 URL进行字段拆分及分析的处理过程如下:
[0039]首先对URL数据集中的每一 URL，获取其中的分隔符，通过分隔符对每一 URL进行字段拆分，得到每一 URL中的所有字段。
[0040]通常URL字段主要用” &，，、” ？”等符号进行分隔，因此可以利用这些分隔符将每个URL进行拆分以得到其中的每个字段。
[0041]比如:http://tech.3g.cn/ipnewscontent.php?nid=2149583&sid=008A263A71D拆分后得到的字段是” nid=2149583” 和” sid=008A263A71D”。
[0042]经过字段拆分后，接着识别无关字段，具体采用的方法为:
[0043]分析每一 URL中的每一字段，如果某一个字段在每个URL里都出现，则认为其为必备字段，否则若某个字段在至少一个URL里没有出现，则认为其为无关字段，删除它后对访问原网页不会带来任何影响。下面以一个例子来说明，假定某个网页存在3个URL:
[0044]http://www.a.com/b?cid=l ；
[0045]http://www.a.com/b?cid=l&sid=2 ；
[0046]http://www.a.com/b?cid=l&sid=2&from=systemmail ；
[0047]经过字段拆分及分析，“cid=l”字段在每

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡兵;
技术所有人：腾讯科技(深圳)有限公司;
我是此专利的发明人

上一篇：一种用于增值税一号多名监控的数据清洗存储方法
上一篇：一种会议室预定的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。