网页url过滤方法、装置及系统的制作方法

文档序号:8319152阅读:364来源:国知局
网页url过滤方法、装置及系统的制作方法
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种网页URL过滤方法、装置及系统。
【背景技术】
[0002]目前,互联网的网页数量呈爆炸式增长,有些网站管理员为了便于统计网页的来源和渠道,通常会在网页的原始URL的基础上增加一些扩展字段,比如“http://blog.sina.com.cn/s/blog_4ac981db0102flta.html?tj=l” 里的”?tj=l” 是网站管理员定义的一种网页跳转来源,又比如“http://km.0a.com/group/469/surveys/show/5772?jumpfrom=systemmail ” 里的” ?jumpfrom=systemmail ” 表不此网页是用户从某系统邮件里点击后跳转而来。
[0003]在上述两个例子中,网页URL末尾片断删除后,原网页内容不会有任何变化。而目前各种URL夹带特定目的参数的现象越来越多,导致同一网页具有多个URL,这样对于识别同一网页、统计同一网页的访问数量、存储网页内容均带来不便。因此通过识别并过滤网页URL多余参数,将同一网页对应的各种URL简化至其最原始的方式很有必要。
[0004]目前,主要是通过人工处理的方式来识别并筛选同一网页对应的各种URL。对于上面两个例子,经过人工判断出末尾的无效字段后,可以通过编写转换规则,将各种带多余参数的URL转换为其原始URL。
[0005]现有的这种人工处理方式虽然灵活快捷,但是,由于不同网站的参数格式可能完全不同,而且可能会经常扩展新的参数格式,因此人工维护代价过高,且能覆盖的网站数量相对较小。

【发明内容】

[0006]本发明实施例提供一种网页URL过滤方法、装置及系统,旨在提高网页数据统计的效率,方便资源存储。
[0007]本发明实施例提出一种网页URL过滤方法,包括:
[0008]获取预先收集的同一网页的URL数据集;
[0009]当所述URL数据集中包含多个URL时,对所述URL数据集中的每一 URL进行字段拆分及分析;
[0010]根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一 URL。
[0011]本发明实施例还提出一种过滤网页URL的装置,包括:
[0012]URL数据获取模块,用于获取预先收集的同一网页的URL数据集;
[0013]字段拆分及分析模块,用于当所述URL数据集中包含多个URL时,对所述URL数据集中的每一 URL进行字段拆分及分析;
[0014]生成模块,用于根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一 URL。
[0015]本发明实施例还提出一种过滤网页URL的系统,包括浏览器和与所述浏览器通信连接的数据监控平台,其中:
[0016]所述浏览器包括如上所述的装置;
[0017]所述数据监控平台,用于当所述浏览器判定生成的唯一 URL无效时上报的字段过滤出错信息。
[0018]本发明实施例提出的一种网页URL过滤方法、装置及系统,通过识别同一网页的各种不同URL格式,过滤URL中与网页内容无关的字段,将同一网页的各种URL转换为唯一URL,能够有效减少网页数据的存储量,提高网页访问量的统计效率和准确度,其相比传统方案,不需要人工干预,且覆盖网站广泛,计算结果准确。
【附图说明】
[0019]图1是本发明网页URL过滤方法第一实施例的流程示意图;
[0020]图2是本发明网页URL过滤方法第二实施例的流程示意图;
[0021]图3是本发明网页URL过滤方法第三实施例的流程示意图;
[0022]图4是本发明过滤网页URL的装置第一实施例的功能模块示意图;
[0023]图5是本发明实施例中字段拆分及分析模块的结构示意图;
[0024]图6是本发明过滤网页URL的装置第二实施例的功能模块示意图;
[0025]图7是本发明实施例中校验模块的结构示意图;
[0026]图8是本发明过滤网页URL的装置第三实施例的功能模块示意图;
[0027]图9是本发明过滤网页URL的系统较佳实施例的结构示意图。
[0028]为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
【具体实施方式】
[0029]应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0030]如图1所示,本发明第一实施例提出一种网页URL过滤方法,包括:
[0031]步骤S101,获取预先收集的同一网页的URL数据集;
[0032]本实施例可以自动化实现识别并过滤网页URL多余参数,将同一网页对应的各种URL简化至其最原始的方式,以提高网页访问量的统计效率和准确度,并减少网页数据的存储量。
[0033]具体地,首先获取预先收集的同一网页的URL数据集,作为一种实施方式,可以基于网页文档编号(docid)从浏览器后台获取该浏览器后台收集的同一网页的URL数据,该URL数据可以表示为:〈doCid,url>,其中,docid为网页的文档编号,其包括64位字符串,一个docid唯一标识一个网页。
[0034]由此,通过同一网页的docid可以从浏览器后台获取到该同一网页的各URL。同时,该同一网页的docid也将作为该网页的原始docid保存,可以作为后续校验之用。
[0035]步骤S102,当所述URL数据集中包含多个URL时,对所述URL数据集中的每一 URL进行字段拆分及分析;
[0036]如前所述,同一网页的URL可能具有多个,当从浏览器后台获取的同一网页的URL数据集中包含多个URL时,则需要对该同一网页的URL进行过滤,以去除其中的无关字段。
[0037]在对网页的URL进行过滤处理时,首先对同一网页的每一 URL进行字段拆分及分析,识别出同一 docid下各个URL中的无关字段。
[0038]作为一种实施方式,对同一网页的每一 URL进行字段拆分及分析的处理过程如下:
[0039]首先对URL数据集中的每一 URL,获取其中的分隔符,通过分隔符对每一 URL进行字段拆分,得到每一 URL中的所有字段。
[0040]通常URL字段主要用” &,,、” ?”等符号进行分隔,因此可以利用这些分隔符将每个URL进行拆分以得到其中的每个字段。
[0041]比如:http://tech.3g.cn/ipnewscontent.php?nid=2149583&sid=008A263A71D拆分后得到的字段是” nid=2149583” 和” sid=008A263A71D”。
[0042]经过字段拆分后,接着识别无关字段,具体采用的方法为:
[0043]分析每一 URL中的每一字段,如果某一个字段在每个URL里都出现,则认为其为必备字段,否则若某个字段在至少一个URL里没有出现,则认为其为无关字段,删除它后对访问原网页不会带来任何影响。下面以一个例子来说明,假定某个网页存在3个URL:
[0044]http://www.a.com/b?cid=l ;
[0045]http://www.a.com/b?cid=l&sid=2 ;
[0046]http://www.a.com/b?cid=l&sid=2&from=systemmail ;
[0047]经过字段拆分及分析,“cid=l”字段在每
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1