网页url过滤方法、装置及系统的制作方法_4

文档序号:8319152阅读:来源:国知局
获取返回的网页内容,然后将此网页内容作为字符串,带入预设的哈希算法,计算获取所述网页内容对应的网页文档编号(docid)。其中,预设的哈希算法可以采用MD5算法或者其他类似的算法等。
[0129]之后,将获取的所述网页内容对应的网页文档编号与所述唯一 URL的原始网页文档编号进行对比;若两者相同,则表示之前的字段过滤正确,生成的唯一 URL有效,仍然能够访问原始页面,否则表示字段过滤出错,判定之前生成的唯一 URL无效。
[0130]由此,通过上述方案,对生成的网页的唯一 URL的有效性进行校验,排除URL字段过滤出错的情形,从而提高了网页数据统计的准确性。
[0131]更进一步地,当经过校验判定之前生成的唯一 URL无效时,浏览器301向数据监控平台302上报字段过滤出错信息,以便采用相应的措施,比如,重新对URL进行字段拆分和分析,或者,对浏览器301后台提供的URL数据进行检查。
[0132]由此,通过上述方案,当经过校验判定之前生成的唯一 URL无效时,向数据监控平台302上报字段过滤出错信息,进一步提高了网页数据统计的准确性。
[0133]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0134]上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0135]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如R0M/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,月艮务器,或者网络设备等)执行本发明各个实施例所述的方法。具体地,图4-图8所述的过滤网页URL的装置以及图9所述的过滤网页URL的系统所对应的程序指令可以存储在计算机、服务器及其他终端的可读存储介质中,并被其中的至少一个处理器执行,以实现图1至图3所述的网页URL过滤方法。
[0136]以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1.一种网页URL过滤方法,其特征在于,包括: 获取预先收集的同一网页的URL数据集; 当所述URL数据集中包含多个URL时,对所述URL数据集中的每一 URL进行字段拆分及分析; 根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一 URL。
2.根据权利要求1所述的方法,其特征在于,所述获取预先收集的同一网页的URL数据集的步骤包括: 基于网页文档编号从浏览器后台获取所述浏览器后台收集的同一网页的URL数据。
3.根据权利要求1所述的方法,其特征在于,所述对URL数据集中的每一URL进行字段拆分及分析的步骤包括: 对所述URL数据集中的每一 URL,获取其中的分隔符; 通过所述分隔符对每一 URL进行字段拆分,得到每一 URL中的所有字段; 分析每一 URL中的每一字段,当所述字段在所述URL数据集中的每一 URL中都出现,则判定其为必备字段;当所述字段在所述URL数据集中至少一个URL中没有出现,则判定其为无关字段。
4.根据权利要求2或3所述的方法,其特征在于,还包括: 对生成的所述网页的唯一 URL进行校验。
5.根据权利要求4所述的方法,其特征在于,所述对生成的所述网页的唯一URL进行校验的步骤包括: 跳转所述唯一 URL,获取返回的网页内容; 根据所述网页内容并基于哈希算法,计算获取所述网页内容对应的网页文档编号;将获取的所述网页内容对应的网页文档编号与所述唯一 URL的原始网页文档编号进行对比;若两者相同,则判定所述唯一 URL有效,否则判定所述唯一 URL无效。
6.根据权利要求5所述的方法,其特征在于,还包括: 当判定所述唯一 URL无效时,向数据监控平台上报字段过滤出错信息。
7.一种过滤网页URL的装置,其特征在于,包括: URL数据获取模块,用于获取预先收集的同一网页的URL数据集; 字段拆分及分析模块,用于当所述URL数据集中包含多个URL时,对所述URL数据集中的每一 URL进行字段拆分及分析; 生成模块,用于根据字段拆分及分析结果,去掉其中的无关字段,生成所述网页的唯一URL。
8.根据权利要求7所述的装置,其特征在于, 所述URL数据获取模块,还用于基于网页文档编号从浏览器后台获取所述浏览器后台收集的同一网页的URL数据。
9.根据权利要求8所述的装置,其特征在于,所述字段拆分及分析模块包括: 分隔符获取单元,用于对所述URL数据集中的每一 URL,获取其中的分隔符; 拆分单元,用于通过所述分隔符对每一 URL进行字段拆分,得到每一 URL中的所有字段; 分析判断单元,用于分析每一 URL中的每一字段,当所述字段在所述URL数据集中的每一 URL中都出现,则判定其为必备字段;当所述字段在所述URL数据集中至少一个URL中没有出现,则判定其为无关字段。
10.根据权利要求8或9所述的装置,其特征在于,还包括: 校验模块,用于对生成的所述网页的唯一 URL进行校验;所述校验模块具体包括: 网页内容获取单元,用于跳转所述唯一 URL,获取返回的网页内容; 计算单元,用于根据所述网页内容并基于哈希算法,计算获取所述网页内容对应的网页文档编号; 比较判断单元,用于将获取的所述网页内容对应的网页文档编号与所述唯一 URL的原始网页文档编号进行对比;若两者相同,则判定所述唯一 URL有效,否则判定所述唯一 URL无效。
11.根据权利要求10所述的装置,其特征在于,还包括: 上报模块,用于当所述校验模块判定所述唯一 URL无效时,向数据监控平台上报字段过滤出错信息。
12.一种过滤网页URL的系统,其特征在于,包括浏览器和与所述浏览器通信连接的数据监控平台,其中: 所述浏览器包括权利要求7-11中任一项所述的装置; 所述数据监控平台,用于当所述浏览器判定生成的唯一 URL无效时上报的字段过滤出错信息。
【专利摘要】本发明涉及一种网页URL过滤方法、装置及系统,其方法包括:获取预先收集的同一网页的URL数据集;当URL数据集中包含多个URL时,对URL数据集中的每一URL进行字段拆分及分析;根据字段拆分及分析结果,去掉其中的无关字段,生成网页的唯一URL。本发明通过识别同一网页的各种不同URL格式,过滤URL中与网页内容无关的字段,将同一网页的各种URL转换为唯一URL,能够有效减少网页数据的存储量,提高网页访问量的统计效率和准确度,其相比传统方案,不需要人工干预,且覆盖网站广泛,计算结果准确。
【IPC分类】G06F17-30, H04L29-06
【公开号】CN104636340
【申请号】CN201310547585
【发明人】蔡兵
【申请人】腾讯科技(深圳)有限公司
【公开日】2015年5月20日
【申请日】2013年11月6日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1