网络数据采集系统及方法

文档序号:9815043阅读:946来源:国知局
网络数据采集系统及方法
【技术领域】
[0001] 本发明涉及移动通讯领域,特别是涉及一种网络数据采集系统及方法。
【背景技术】
[0002] 当前,随着移动第H代灯he化(1 Generation,简称为3G)和第四代灯he4rd Generation,简称为4G)技术的投入使用,移动宽带网络正W前所未有的速度在快速发展, 各种基于移动宽带的应用层出不穷,移动宽带网络数据流量呈爆炸式增长。
[0003] 电信运营商为了摆脱沦为简单的数据管道提供商的角色,希望通过对网络中的各 种流量数据进行汇总、归类和特征分析,实现对网络运行的全方位监控,并进一步发掘出网 络数据中潜在的价值点,为网络的运营和维护提供有价值的参考数据。
[0004] 图1是现有技术中通信网络基本数据采集和分析系统的示意图,图2是现有技术 中数据采集系统的示意图,如图1和图2所示,通信网络中的数据采集和分析系统一般主要 分为3个组成部分:
[0005] 1、网络报文采集及信息元数据生成系统;主要功能有,网络接口适配,原始采集数 据流量分栋及负载均衡分发,协议数据报文解码及协议事务消息合成,多接口事务数据关 联合成,最后生成采集信息元数据供上层应用系统分析。
[0006] 2、数据存储及分析系统;主要功能有,对采集系统提供的信息元数据进行预处理 并存储,根据业务要求,对存储的数据进行挖掘分析,生成各类业务信息数据。
[0007] 3、数据分析结果应用及呈现系统;将挖掘出的有价值的信息数据呈现给用户或提 供给其它应用系统。
[0008] 在数据采集和分析系统的3个组成部分中,网络报文采集及信息元数据生成系统 (即数据采集系统)的功能相当重要,采集系统生成的信息元数据是上层应用分析系统的 数据分析来源,信息元数据的灵活性、完整性和准确性决定了上层数据分析系统的业务分 析范围和结果的正确性,并最终影响采集分析系统的整体效用。
[0009] 目前,在移动通信网络中已有部分数据采集和分析系统,其中的数据采集部分,在 采集什么样的网络、采集哪些接口,W及采集哪些协议的哪些业务流程中的哪些数据上,整 体上来说是W硬编码的方式来实现的,一个采集系统只能对外提供某几种固定内容格式的 采集信息元数据,然而上层数据分析系统的数据分析需求是灵活多变的,对应的要求数据 采集系统能够提供可定制化的信息元数据,当前的数据采集系统无法满足该要求。

【发明内容】

[0010] 鉴于现有技术中数据采集系统的数据采集方法僵化和不灵活问题,提出了本发明 W便提供一种网络数据采集系统及方法。
[0011] 本发明提供一种网络数据采集系统,包括:
[0012] 接口适配模块,用于适配接入各种不同制式的数据通信网络,并接收网络数据;
[0013] 控制器模块,用于定义网络数据识别规则、解码规则、采集事件合成规则、W及多 接口采集事件数据关联规则,并下发给相应的模块;
[0014] 流量分栋和负载均衡模块,用于接收来自控制器模块下发的网络数据识别规则, 根据网络数据识别规则对接口适配模块采集到的网络数据进行规则匹配,获取符合网络数 据识别规则的网路数据,并识别网络数据的类型,根据识别出的网络数据的类型,将网路数 据负载均衡分发到相应的下一跳模块进行处理;
[0015] 协议解码和事件消息合成模块,接收来自控制器模块下发的协议解码和事件合成 规则,根据解码规则对来自流量分栋和负载均衡模块的网络数据进行协议解码,根据采集 事件合成规则创建事件合成状态机,对解码后的多条协议消息进行消息合成,生成协议事 件数据;
[0016] 多接口事件数据关联模块,接收来自控制器模块下发的多接口采集事件数据关联 规则,根据多接口采集事件数据关联规则创建多接口采集事件消息合成状态机,接收来自 协议解码和事件消息合成模块的协议事件数据,将协议事件数据合成采集信息元数据,并 发送到上层应用分析系统。
[0017] 优选地,控制器模块进一步用于;监控网络数据采集系统中各个处理模块的负载 状况,根据负载状况对网络数据采集系统的整体负荷进行均衡调整。
[0018] 优选地,协议解码和事件消息合成模块设置于一个或多个服务器上;
[0019] 协议解码和事件消息合成模块具体包括:
[0020] 协议解码子模块,针对控制面协议的网络数据,根据控制器模块下发的解码规则 进行解码;针对用户面的网络数据,先由DPI深度报文识别系统识别出应用层协议类型,再 依据解码规则进行相关字段信息的解码;
[0021] 协议事件合成子模块,用于接收来自控制器模块下发的采集事件合成规则,根据 采集事件合成规则创建事件合成状态机,并设置状态数据触发机制,生产协议采集事件数 据。
[0022] 优选地,网络数据识别规则具体包括:匹配条件、识别内容、处理动作、和下一跳模 块配置,其中,匹配条件包括;网络数据采集入口标识符、媒体访问控制MC层匹配地址、虚 拟局域网VLAN层匹配标识符、网络地址IP层匹配地址、W及应用层匹配端口号等;识别内 容包括:识别出的网络类型、识别出的逻辑接口类型、W及识别出的报文方向;处理动作包 括:根据识别结果对网络数据进行一系列的处理,如将报文转发到协议解码和事件消息合 成模块进行处理、转发给抓包服务器处理等,送些处理动作构成1条单向处理链表,其中, 在需要进行负载均衡分发时,负载均衡配置包括:负载均衡类型,如:轮询方式,加权优先 级,哈希取模等,分发关键字,如;源IP地址,源端口号等;下一跳模块配置包括;每个下1 跳处理服务器的索引号、流量分栋和负载均衡模块的出口索引号、下一跳处理服务器的地 址和端口、下一跳处理服务器上的业务处理模块的索引号、下一跳处理服务器上的业务处 理模块的负荷百分比、W及下一跳处理服务器上的业务处理模块的在线状态等;
[0023] 解码规则包括:网络类型、网络中的逻辑接口 W及该接口上的协议找协议、每层协 议的消息类型、消息中的字段、字段中的参数、W及指明该字段是否必须的标识,其中对网 络类型、逻辑接口、协议类型、消息类型、消息字段、字段中的参数赋予ID标记,确保每个解 码的字段参数有唯一的编码标识符标识,编码基本格式为;网络I化逻辑接口 I化上下行方 向1化协议类型1化消息类型1化消息字段1化参数ID;此外,解码规则中还包括解码后的 消息应该进入的事件合成状态机的标识符,W及消息中的字段和状态机关键字之间的一一 映射关系,W指明消息的下一步处理。
[0024] 采集事件合成规则包括:采集事件合成状态机的ID标识符、类型标识符、采集事 件合成状态机的关键字、采集事件合成状态机的输入消息编码(在解码规则中定义)、采集 事件合成状态机的中间数据生成规则、采集事件合成状态机的数据输出规则、W及采集事 件合成状态机输出数据的下一跳处理,其中,状态机的中间数据由输入消息的解码字段的 编码组合而成,若还存在需要进行复杂计算才能获得结果的字段,为该字段分配系统内唯 一标识符,在系统中W硬编码的方式实现;对状态机的中间数据的每个字段需要赋予ID标 识符进行标识,确保每个字段在本状态机内部有唯一的编码,编码格式;状态机ID.中间数 据ID.字段ID ;状态机的输出数据由中间数据字段编码组合而成,若还存在需要进行复杂 计算才能获得结果的字段,为该字段分配系统内唯一标识符,在系统中W硬编码的方式实 现,对状态机的输出数据的每个字段需要赋予ID标识符进行标识,确保每个字段有唯一的 编码,编码格式;状态机类型1化状态机标识1化输出数据1化字段ID,此外,规则中还包 括输出数据应该进入的多接口事件合成状态机的标识符,W及输出数据中的字段和多接口 事件合成状态机关键字之间的一一映射关系,W指明消息的下一步处理。
[0025] 多接口采集事件数据关联规则包括;多接口采集事件消息合成状态机的类型标 识、多接口采集事件消息合成状态机的关键字、多接口采集事件消息合成状态机的输入事 件消息编码(在协议事件合成规则中定义)、多接口采集事件消息合成状态机的数据生成 规则、多接口采集事件消息合成状态机的数据输出规则、W及多接口采集事件消息合成状 态机输出数据的下一跳处理,其中,状态机的中间数据由输入事件消息的字段编码组合而 成,若还存在需要进行复杂计算才能获得结果的字段,为该字段分配系统内唯一标识符, 在系统中W硬编码的方式实现;对状态机的中间数据的每个字段需要赋予ID标识符进行 标识,确保每个字段有唯一的编码,编码格式;状态机类型ID.状态机标识ID.输出数据 1化字段ID ;状态机的输出数据由中间数据字段编码组合而成,若还存在需要进行复杂计 算才能获得结果的字段,为该字段分配系统内唯一标识符,在系统中W硬编码的方式实现。
[0026] 优选地,网络数据采集系统中的各个模块根据被采集的网络数据的流量大小,合 一部署在一台硬件设备上、或者分离部署在多台硬件设备上,其中,在合一部署在一台硬件 设备上时,各个模块采用内部数据格式进行网络数据的封装传输;在分离部署在多台硬件 设备上时,各个模块采用传输控制协议TCP/用户数据包协议UDP通道进行网络数据的封装 传输。
[0027] 优选地,流量分栋和负载均衡模块具体用于;根据网络数据识别规则中的负载均 衡配置将网路数据负载均衡分发到相应的下一跳模块所在的一个或多个服务器上进行处 理。
[002引本发明还提供了一种网络数据采集方法,包括:
[0029] 接口适配模块适配接入各种不同制式的数据通信网络,并接收网络数据;
[0030] 控制器模块定义网络数据识别规则、解码规则、采集事件合成规则、W及多接口采 集事件数据关联规则,并下发给相应的模块;
[0031] 流量分栋和负载均衡模块接收来自控制器模块下发的网络数据识别规则,根据网 络数据识别规则对接口适配模块采集到的网络数据进行规则匹配,获取符合网络数据识别 规则的网路数据,并识别网络数据的类型,根据识别出的网络数据的类型,将网路数据负载 均衡分发到相应的下一跳模块进行处理;
[0032] 协议解码和事件消息合成模块接收来自控制器模块下发的协议解码和事件合成 规则,根据解码规则对来自流量分栋和负载均衡模块的网络数据进行协议解码,根据采集 事件合成规则创建事件合成状态机,对解码后的多条协议消息进行消息合成,生成协议事 件数据;
[0033] 多接口事件数据关联模块接收来自控制器模块的多接口采集事件数据关联规则, 根据多接口采集事件数据关联规则创建多接口采集事件消息合成状态机,并设置状态数据 触发机制,接收来自协议解码和事件消息合成模块的协议事件数据,将协议事件数据合成 采集信息元数据,并发送到上层应用分析系统。
[0034] 优选地,上述方法进一步包括:
[0035] 控制器模块监控网络数据采集系统中各个处理模块的负载状况,根据负载状况对 网络数据采集系统的整体负荷进行均衡调整。
[0036] 优选地,协议解码和事件消息合成模块设置于一个或多个服务器上;
[0037] 协议解码和事件消息合成模块接收来自流量分栋和负载均衡模块下发的网络数 据,根据解码规则对网络数据进行深度分析和解码,并根据控制器模块下发的采集事件合 成规则进行协议级别的事件流程消息的合成,生成协议事件数据具体包括:
[0038] 协议解码子模块针对控制面协议的网络数据,根据控制器模块下发的解码规则进 行解码;针对用户面的网络数据,由DPI深度报文识别系统识别出应用层协议类型,再依据 解码规则进行相关字段信息的解码;
[0039] 协议事件合成子模块接收来自控制器模块下发的采集事件合成规则,根据采集事 件合成规则创建采集事件合成状态机,并设置状态数据触发机制,生产协议采集事件数据。
[0040] 优选地,网络数据识别规则具体包括:匹配条件、识别内容、处理动作、和下一跳模 块配置,其中,匹配条件包括;网络数据采集入口标识符、媒体访问控制MC层匹配地址、虚 拟局域网VLAN层匹配标识符、网络地址IP层匹配地址、W及应用层匹配端口号等;识别内 容包括:识别出的网络类型、识别出的逻辑接口类型、W及识别出的报文方向;处理动作包 括:根据识别结果对网络数据进行一系列处理,如将报文转发到协议解码和事件消息合成 模块进行处理、转发给抓包服务器处理等,送些处理动作构成1条单向处理链表,其中,在 需要进行负载均衡分发时,负载均衡配置包括:负载均衡类型,如:轮询方式,加权优先级, 哈希取模等,分发关键字,如:源IP地址,源端口号等;下一跳模块配置包括:每个下1跳处 理服务器的索引号、流量分栋和负载均衡模块的出口索引号、下一跳处理服务器的地址和 端口、下一跳处理服务器上的业务处理模块的索引号、下一跳处理服务器上的业务处理模 块的负荷百分比、W及下一跳处理服务器上的业务处理模块的在线状态等;
[0041] 解码规则包括:网络类型、网络中的逻辑接口 W及该接口上的协议找协议、每层协 议的消息类型、消息中的字段、字段中的参数、W及指明该字段是否必须的标识,其中对网 络类型、逻辑接口、协议类型、消息类型、消息字段、字段中的参数赋予ID标记,确保每个解 码的字段参数有唯一的编码标识符标识,编码基本格式为;网络I化逻辑接口 I化上下行方 向1化协议类型1化消息类型1化消息字段1化参数ID;此外,解码规则中还包括解码后的 消息应该进入的事件合成状态机的标识符,W及消息中的字段和状态机关键字之间的一一 映射关系,W指明消息的下一步处理。
[0042] 采集事件合成规则包括:采集事件合成状态机的ID标识符、类型标识符、采集事 件合成状态机的关键字、采集事件合成状态机的输入消息编码(在解码规则中定义)、采集 事件合成状态机的中间数据生成规则、采集事件合成状态机的数据输出规则、W及采集事 件合成状态机输出数据的下一跳处理,其中,状态机的中间数据由输入消息的解码字段的 编码组合而成,若还存在需要进行复杂计算才能获得结果的字段,为该字段分配系统内唯 一标识符,在系统中W硬编码的方式实现;对状态机的中间数据的每个字段需要赋予ID标 识符进行标识,确保每个字段在本状态机内部有唯一的编码,编码格式;状态机ID.中间数 据ID.字段ID ;状态机的输出数据由中间数据字段编码组合而成,若还存在需要进行复杂 计算才能获得结果的字段,为该字段分配系统内唯一标识符,在系统中W硬编码的方式实 现,对状态机的输出数据的每个字段需要赋予ID标识符进行标识,确保每个字段有唯一的 编码,编码格式;状态机类型1化状态机标识1化输出数据1化字段ID,此外,规则中还包 括输出数据应该进入的多接口事件合成状态机的标识符,W及输出数据中的字段和多接口 事件合成状态机关键字之间的一一映射关系,W指明消息的下一步处理。
[0043] 多接口采集事件数据关联规则包括;多接口采集事件消息合成状态机的类型标 识、多接口采集事件消息合成状态机的关键字、多接口采集事件消息合成状态机的输入事 件消息编码(在协议事件合成规则中定义)、多接口采集事件消息合成状态机的数据生成 规则、多接口采集事件消息合成状态机的数据输出规则、W及多接口采集事件消息合成状 态机输出数据的下一跳处理,其中,状态机的中间数据由输入事件消息的字段编码组合而 成,若还存在需要进行复杂计算才能获得结果的字段,为该字段分配系统内唯一标识符, 在系统中W硬编码的方式实现;对状态机的中间数据的每个字段需要赋予ID标识符进行 标识,确保每个字段有唯一的编码,编码格式;状态机类型ID.状态机标识ID.输出数据 H).字段ID ;状态机的输出数据由中间数据字段编码组合而成,若还存在需要进行复杂计 算才能获得结果的字段,为该字段分配系统内唯一标识符,在系统中W硬编码的方式实现。
[0044] 优选地,上述方法进一步包括:
[0045] 根据被采集的网络数据的流量大小,将各个模块合一部署在一台硬件设备上、或 者分离部署在多台硬件设备上
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1