深度包检测装置、网页数据处理方法、采集方法及系统的制作方法

文档序号:7764240阅读:249来源:国知局
专利名称:深度包检测装置、网页数据处理方法、采集方法及系统的制作方法
技术领域
本发明涉及互联网技术领域,特别地,涉及一种深度包检测装置、网页数据处理方 法、网页数据采集方法及网页数据采集系统。
背景技术
随着WEB技术和TOB应用的快速发展,对各种TOB应用网站,特别是电子渠道、电 子商务等平台中的集中监控、用户数据采集和统计分析的应用也越来越广泛。但是,由于用 户量庞大的电子渠道和电子商务等平台的用户数据是海量的,因此,在实际工作中需要对 海量数据进行选择性地采集。然而,现有的网页在设计之初并没有考虑数据采集问题,而且现有的网页普遍存 在页面地址及采集数据杂乱、准确性不高等问题,因此,基于现有的网页难于进行高效和准 确地数据采集。

发明内容
本发明要解决的一个技术问题是提供一种深度包检测装置、网页数据处理方法、 网页数据采集方法及网页数据采集系统,能够高效且准确地对网页的数据进行采集。根据本发明的一方面,提出了一种网页数据处理方法,包括根据数据采集需求确 定每个网页的HTTP协议报文的数据采集范围;在每个网页的HTTP协议报文中加入标签字 段,标签字段的内容表示网页的HTTP协议报文的数据采集范围。根据本发明网页数据处理方法的一个实施例,标签字段设置在每个网页的HTTP 协议报文的头部字段中。根据本发明网页数据处理方法的另一实施例,网页的HTTP协议报文的数据采集 范围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取 HTTP协议报文中的任何数据。根据本发明的另一方面,还提出了一种网页数据采集方法,包括根据网页地址信 息库选择性地抓取流向网页服务器的HTTP协议报文;解析抓取到的HTTP协议报文的内容; 提取HTTP协议报文中的标签字段的内容;根据标签字段的内容对抓取到的HTTP协议报文 中的数据进行选择性采集。根据本发明网页数据采集方法的一个实施例,通过下述步骤形成流向网页服务器 的HTTP协议报文根据数据采集需求确定每个网页的HTTP协议报文的数据采集范围;在 每个网页的HTTP协议报文中加入标签字段,形成流向网页服务器的HTTP协议报文,其中, 标签字段的内容表示网页的HTTP协议报文的数据采集范围。根据本发明网页数据采集方法的另一实施例,标签字段设置在每个网页的HTTP 协议报文的头部字段中。根据本发明网页数据采集方法的又一实施例,网页的HTTP协议报文的数据采集 范围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取HTTP协议报文中的任何数据。根据本发明的又一方面,还提出了一种深度包检测装置,包括地址筛选模块,用于 根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议报文;报文解析模块,与地 址筛选模块相连,用于解析抓取到的HTTP协议报文的内容;标签内容提取模块,与报文解 析模块相连,用于提取HTTP协议报文中的标签字段的内容,其中,标签字段的内容表示网 页的HTTP协议报文的数据采集范围;数据采集模块,与标签内容提取模块相连,用于根据 标签字段的内容对抓取到的HTTP协议报文中的数据进行选择性采集。根据本发明深度包检测装置的一个实施例,标签字段设置在流向网页服务器的 HTTP协议报文的头部字段中。根据本发明深度包检测装置的另一实施例,网页的HTTP协议报文的数据采集范 围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取 HTTP协议报文中的任何数据。根据本发明的再一方面,还提出了一种网页数据采集系统,包括上述实施例中的 深度包检测装置以及网页数据处理装置,其中,网页数据处理装置包括采集范围确定模块, 用于根据数据采集需求确定每个网页的HTTP协议报文的数据采集范围;数据处理模块,与 采集范围确定模块相连,用于在每个网页的HTTP协议报文中加入标签字段,形成流向网页 服务器的HTTP协议报文,其中,标签字段的内容表示网页的HTTP协议报文的数据采集范 围。本发明提供的深度包检测装置、网页数据处理方法、网页数据采集方法及网页数 据采集系统,能够将深度包检测(De印Packet InspectiomDPI)技术与网页数据采集技术 相结合,提升了对网页数据的采集效率,减小了对海量数据进行采集和分析的成本。同时, 由于采用标签字段,所以能够更准确地确定网页的数据采集范围,从而提高了数据采集的 准确性。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分。在附 图中图1是本发明网页数据处理方法的一个实施例的流程示意图。图2是本发明网页数据采集方法的一个实施例的流程示意图。图3是本发明网页数据采集方法的又一实施例的流程示意图。图4是本发明深度包检测装置的一个实施例的结构示意图。图5是本发明网页数据采集系统的一个实施例的结构示意图。
具体实施例方式下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。本 发明的示例性实施例及其说明用于解释本发明,但并不构成对本发明的不当限定。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明 及其应用或使用的任何限制。本发明将DPI技术和TOB网页数据采集技术相结合,在分析了 DPI选择性数据采集原理的基础上,为了提升采集分析的效率,提出了便于DPI采集的网页数据处理方法、网 页数据采集方法、深度包检测装置以及网页数据采集系统。在进行DPI选择性采集时,首先需要建立一个库,存储待采集的页面地址,每个请 求到服务器后先根据这个库进行地址查询,如果网页的地址与库中的页面地址相匹配,则 提取页面的内容。图1是本发明网页数据处理方法的一个实施例的流程示意图。如图1所示,该实施例可以包括以下步骤S102,根据数据采集需求确定对每个网页的HTTP协议报文进行数据采集的范围;S104,在每个网页的HTTP协议报文中添加标签字段,该标签字段的内容表示对网 页的HTTP协议报文进行数据采集的范围,其中,该标签字段可以位于HTTP协议报文中的任 何位置,优选地,可以将标签字段设置在每个网页的HTTP协议报文的头部字段中。另外,对网页的HTTP协议报文进行数据采集的范围可以包括提取HTTP协议报文 中的全部数据(即,包括报文头至报文尾的所有数据)、提取HTTP协议报文中的部分数据 (例如,IP地址、用户名、页面地址、访问时间、登录类别以及页面参数等)、以及不提取HTTP 协议报文中的任何数据。该实施例在进行网页数据处理的同时考虑了 DPI技术,在分析了 DPI选择性数据 采集原理的基础上提出了便于DPI采集的网页数据处理方法,该实施例能够显著提升网页 数据的采集效率,并且提高数据采集的准确性。在本发明网页数据处理方法的另一实施例中,首先需要对页面地址进行规范(例 如,http://202. 23. 24. 153/news/sports,代表新闻中的体育内容),然后,将TOB网站网页 分为不同的层级,对应不同的数据采集范围,再在网页的HTTP协议报文中加入标签字段, 该标签字段的内容对应于不同的数据采集范围。根据RFC协议规范,HTTP协议报文的头部 字段可以根据具体应用需要嵌入自定义字段内容,因此,可以在电子渠道网页实现时嵌入 自定义的HTTP头部字段信息(即,标签字段),针对不同的数据采集需求,对网页嵌入不同 的自定义信息,从而实现对网页的层级分类,进一步地可以为数据采集作好准备。图2是本发明网页数据采集方法的一个实施例的流程示意图。如图2所示,该实施例可以包括以下步骤S202,根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议报文,其 中,该网页地址信息库中可以存储待抓取网页的页面地址,在流向网页服务器的页面的地 址满足网页地址信息库的要求(例如,该页面地址存储于网页地址信息库中)时,才被抓取 并进行后续的报文解析与数据提取;S204,解析抓取到的HTTP协议报文的内容;S206,提取HTTP协议报文中的标签字段的内容;S208,根据标签字段的内容对抓取到的HTTP协议报文中的数据进行选择性采集。其中,可以通过下述步骤形成流向网页服务器的HTTP协议报文根据数据采集需 求确定对每个网页的HTTP协议报文进行数据采集的范围;在每个网页的HTTP协议报文中 加入标签字段,形成流向网页服务器的HTTP协议报文,其中,标签字段的内容表示对网页 的HTTP协议报文进行数据采集的范围。在一个实例中,对网页的HTTP协议报文进行数据采集的范围可以包括提取HTTP协议报文中的全部数据(即,包括报文头至报文尾的所有数据)、提取HTTP协议报文中的部 分数据(例如,IP地址、用户名、页面地址、访问时间、登录类别以及页面参数等)、以及不提 取HTTP协议报文中的任何数据。可选地,标签字段可以位于每个网页的HTTP协议报文中的任何位置,优选地,可 以将标签字段设置在每个网页的HTTP协议报文的头部字段中。该实施例在进行数据采集时,首先根据网页地址信息库筛选待采集的网页,在很 大程度上减少了海量数据的干扰。进一步地,该实施例还解析所抓取网页的HTTP头部字段 内容,提取自定义的头部字段标签内容,按照标签的内容采取不同的数据采集提取流程,例 如,可以提取HTTP协议报文的全部内容、提取HTTP协议报文的部分内容或者不提取任何内 容,从而实现带选择性的数据采集,减小海量数据对于技术及成本的压力,同时提高了数据 采集的效率和准确性。在本发明网页数据采集方法的另一实施例中,根据RFC协议规范解析流向TOB网 站服务器的HTTP协议报文,根据解析出的标签字段的内容在待采集数据内容的相应位置 提取具体信息。具体地,DPI装置在处理HTTP协议时,解析相应的自定义头部字段内容(即, 标签字段的内容),根据自定义头部字段内容的定义调用不同的数据采集流程,以实现网页 数据的提取。HTTP协议头部字段嵌入的自定义内容可以分为标签和内容两个部分,自定义 的头部字段可以约定以“X-”开头,例如,"X-type :0”可以表示提取HTTP协议报文的所有 内容,“X-type :1”可以表示只提取URL地址。根据数据采集内容的层级需要,可以定义一 个或者多个自定义头部标签,分别赋予不同的内容,代表提取不同的数据。图3是本发明网页数据采集方法的又一实施例的流程示意图。如图3所示,该实施例可以包括以下步骤S302,搭建DPI采集系统,与目标采集网站进行数据镜像;S304,建立网页地址信息库,其中存储了待抓取网页的地址;S306,建立选择性解析内容深度信息库,其中存储了不同自定义标签对应的数据 采集解析子程序,例如,提取HTTP协议报文的全部内容所使用的全部数据采集解析子程 序、提取HTTP协议报文的部分内容所使用的部分数据采集解析子程序等;S308,根据网页地址信息库对流向网页服务器的页面进行选择性抓取;S310,存储所抓取的数据;S312,解析抓取到的页面的HTTP协议报文的内容,根据HTTP协议报文中的标签字 段的内容对抓取到的HTTP协议报文中的数据进行选择性采集;S314,分类存储解析后的数据。图4是本发明深度包检测装置的一个实施例的结构示意图。如图4所示,该实施例的深度包检测装置10可以包括地址筛选模块11,用于根据网页地址信息库选择性地抓取流向网页服务器的 HTTP协议报文;报文解析模块12,与地址筛选模块相连,用于解析抓取到的HTTP协议报文的内 容;标签内容提取模块13,与报文解析模块相连,用于提取HTTP协议报文中的标签字 段的内容,其中,标签字段的内容表示网页的HTTP协议报文的数据采集范围,可选地,网页的HTTP协议报文的数据采集范围可以包括提取HTTP协议报文中的全部数据、提取HTTP协 议报文中的部分数据、以及不提取HTTP协议报文中的任何数据;数据采集模块14,与标签内容提取模块相连,用于根据标签字段的内容对抓取到 的HTTP协议报文中的数据进行选择性采集。可选地,可以将标签字段设置在流向网页服务器的HTTP协议报文的头部字段中。该实施例在进行数据采集时,首先根据网页地址筛选待采集的网页,在很大程度 上减少了对海量的处理。另外,该实施例还解析所抓取网页的HTTP头部字段内容,提取自 定义的头部字段标签内容,按照标签的内容采取不同的数据采集提取流程,可以提取HTTP 协议报文的全部内容、提取HTTP协议报文的部分内容或者不提取任何内容等,从而实现带 选择性的数据采集,减小海量数据对于技术及成本的压力,同时提高了数据采集的效率和 准确性。图5是本发明网页数据采集系统的一个实施例的结构示意图。如图5所示,该实施例的网页数据采集系统可以包括前述实施例中的深度包检测 装置10以及网页数据处理装置21,其中,网页数据处理装置21包括采集范围确定模块211,用于根据数据采集需求确定每个网页的HTTP协议报文的 数据采集范围;数据处理模块212,与采集范围确定模块相连,用于在每个网页的HTTP协议报文 中加入标签字段,形成流向网页服务器的HTTP协议报文,其中,标签字段的内容表示网页 的HTTP协议报文的数据采集范围。虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技 术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技 术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发 明的范围由所附权利要求来限定。
权利要求
一种网页数据处理方法,其特征在于,包括根据数据采集需求确定每个网页的HTTP协议报文的数据采集范围;在每个网页的HTTP协议报文中加入标签字段,所述标签字段的内容表示网页的HTTP协议报文的数据采集范围。
2.根据权利要求1所述的方法,其特征在于,所述标签字段设置在所述每个网页的 HTTP协议报文的头部字段中。
3.根据权利要求1所述的方法,其特征在于,所述网页的HTTP协议报文的数据采集范 围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取 HTTP协议报文中的任何数据。
4.一种网页数据采集方法,其特征在于,包括根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议报文;解析抓取到的HTTP协议报文的内容;提取所述HTTP协议报文中的标签字段的内容;根据所述标签字段的内容对所述抓取到的HTTP协议报文中的数据进行选择性采集。
5.根据权利要求4所述的方法,其特征在于,通过下述步骤形成所述流向网页服务器 的HTTP协议报文根据数据采集需求确定每个网页的HTTP协议报文的数据采集范围;在每个网页的HTTP协议报文中加入所述标签字段,形成所述流向网页服务器的HTTP 协议报文,其中,所述标签字段的内容表示网页的HTTP协议报文的数据采集范围。
6.根据权利要求4或5所述的方法,其特征在于,所述标签字段设置在所述每个网页的 HTTP协议报文的头部字段中。
7.根据权利要求5所述的方法,其特征在于,所述网页的HTTP协议报文的数据采集范 围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取 HTTP协议报文中的任何数据。
8.一种深度包检测装置,其特征在于,包括地址筛选模块,用于根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议 报文;报文解析模块,与所述地址筛选模块相连,用于解析抓取到的HTTP协议报文的内容;标签内容提取模块,与所述报文解析模块相连,用于提取所述HTTP协议报文中的标签 字段的内容,其中,所述标签字段的内容表示网页的HTTP协议报文的数据采集范围;数据采集模块,与所述标签内容提取模块相连,用于根据所述标签字段的内容对所述 抓取到的HTTP协议报文中的数据进行选择性采集。
9.根据权利要求8所述的装置,其特征在于,所述标签字段设置在所述流向网页服务 器的HTTP协议报文的头部字段中。
10.根据权利要求8所述的装置,其特征在于,所述网页的HTTP协议报文的数据采集 范围包括提取HTTP协议报文中的全部数据、提取HTTP协议报文中的部分数据、以及不提取 HTTP协议报文中的任何数据。
11.一种网页数据采集系统,其特征在于,包括权利要求8-10中任一项所述的深度包 检测装置以及网页数据处理装置,其中,所述网页数据处理装置包括采集范围确定模块,用于根据数据采集需求确定每个网页的HTTP协议报文的数据采 集范围;数据处理模块,与所述采集范围确定模块相连,用于在每个网页的HTTP协议报文中加 入所述标签字段,形成所述流向网页服务器的HTTP协议报文,其中,所述标签字段的内容 表示网页的HTTP协议报文的数据采集范围。
全文摘要
本发明公开了一种网页数据处理方法、网页数据采集方法、深度包检测装置以及网页数据采集系统。其中,网页数据采集方法包括根据网页地址信息库选择性地抓取流向网页服务器的HTTP协议报文;解析抓取到的HTTP协议报文的内容;提取HTTP协议报文中的标签字段的内容;根据标签字段的内容对抓取到的HTTP协议报文中的数据进行选择性采集。本发明能够将深度包检测技术与网页数据采集技术相结合,提升了对网页数据的采集分析效率,减小了对海量数据进行采集和分析的成本。同时,由于采用标签字段,所以能够更准确地对网页的数据进行采集。
文档编号H04L29/08GK101997915SQ20101053208
公开日2011年3月30日 申请日期2010年10月29日 优先权日2010年10月29日
发明者杨俊 , 蒋丹舟, 蔡逆水, 陈强 申请人:中国电信股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1