一种检测流量采集设备数据采集漏报的方法及装置与流程

文档序号:13427065阅读:626来源:国知局

本发明涉及信息技术领域的信息安全技术领域,尤其是互联网管控领域。



背景技术:

目前,各个省市的通信行业相关互联网管理部门及企业,通过在省市内的全部企业运营商处部署活跃流量采集设备,以获取网络流量数据,其中通过http/https请求访问流量数据为主,部分设备也包含,ftp、pop3、stmp等其他访问。相关互联网管理部门及企业通过采集设备获取并记录访问流量数据中的源ip、访问域名、访问域名的ip地址等信息,用作对于全省网络发展情况的分析的数据来源。一般,在企业运营商处部署的活跃流量数据采集设备为eu即executionunit执行单元,eu设备将采集通过运营商的全部http(get/post)或https(get/post)返回状态码为200的请求,并记录有效访问的流量数据以及流量数据属性。

idc/isp信息安全管理系统是idc/isp经营者建设的具有基础数据管理、访问日志管理、信息安全管理等功能的信息安全管理系统,以满足电信管理部门和idc/isp经营者的信息安全管理需要。idc/isp信息安全管理系统包括控制单元cu和执行单元eu两个部分。cu以省为单位集中部署,eu部署在各idc出口,并接收cu统一下发的指令。工信部统一要求所有idc和isp经营者必须安装信息安全管理系统,并与工信部做接口。

相关互联网管理部门及企业对于异常数据的严厉处置,导致eu设备从设计上采取了类似白名单方式的降噪手段,凡是没有被运营商记录为在机房内的ip全部进行剔除,eu设备对于采集到的流量数据使用了以上类白名单的粗暴降噪手段,导致上报给相关互联网管理部门及企业的流量数据存在大量的漏报情况。例如,一种eu设备通过分光镜像分流器的方式,镜像采集机房链路里面全部上下行活跃流量数据,将上行数据的目的ip与部署企业运营商提供的机房内ip段进行比较,不在已知ip段内的活跃数据直接剔除,这种方式能够有效的剔除机房外等噪音数据,但同时也会将企业运营商未记录的机房内数据剔除,导致漏报数据的产生。由于互联网技术的复杂多样和互联网数据的动态变化,运营商做不到实时掌控idc机房内的全部ip地址和网站状态,漏报在eu设备的现有降噪机制下成为普遍现象。同时也存在其他原因的漏报现象,在实际生产环境中,发现大量漏报情况。相关互联网管理部门也相对重视。由于漏报数据的存在,相关互联网管理部门及企业基于该活跃流量采集数据的分析结果会出现不准确不完善的情况。因此需要采用一种有效的检测出活跃流量采集设备漏报数据的检测方法。此外,其他使用类似流量采集设备获取相关域名ip等信息的方案同样也需要类似的漏报核验方法及设备,包括资源协作系统云机房、内容分发系统。

通过对现有技术的检索,并未发现针对eu设备漏报的解决方案,并没有相关的论文和专利申请,考虑到使用现有技术的组合解决该问题,涉及以下技术点:1、漏报数据的发现,2、所发现漏报数据的有效性检测。

现有技术中,漏报数据的发现涉及漏报数据的获取,由于工信部同意要求所有idc必须建立信息安全管理系统,所以所有idc都具备eu设备,可是从eu设备获取的数据本身已经是降噪后的数据不能够有效发现漏报的数据。现有技术中还存在idc建设资源管理系统的情况,资源管理系统可以获取并记录eu设备降噪前的数据,并以企业人工上报的方式由idc管理企业上报来取得相关数据。

现有技术中,漏报数据的有效性检测可以通过模拟请求的方式来确定,所发现的漏报数据是否有效。采用现有技术的组合完成检测流量采集设备数据采集漏报的方法具有以下难点:模拟请求的数据源的获取。如果不使用本发明的数据源获取,现在的数据源主要有企业人工上报或者信息安全管理系统上报的基础数据,使用全量数据进行模拟请求的话请求量过大,对于性能的要求比较大;而使用信息安全管理系统上报的基础数据进行模拟请求,则会导致模拟请求的数据不完整无法找出漏报的数据。

本发明提出了一种通过提取准确有效的数据源并合理的进行模拟请求来确定数据漏报情况的方法及装置。考虑到模拟请求对于模拟请求设备性能以及数据流量带宽都有着一定的要求,本发明在数据源获取,数据源数据优化,模拟请求步骤方面都有创造性优化。

本发明所述的模拟请求指的是使用域名或ip地址,模拟http访问,模拟https访问。

现有技术中有cn201510959078.0,一种netflow流量数据的采集方法和设备,本发明公开了一种netflow流量数据的采集方法和设备。所述方法包括设定接收外部网络设备发送的netflow流量数据包的端口,并实时监听该端口;在监听到netflow流量数据包时,按照netflow协议将接收到的netflow流量数据包解析为键值对结构,并将所述键值对结构与配置文件中配置的属性字段匹配,将匹配出的键值对数据封装为消息事件数据发送给传输通道进行缓存;从传输通道中获取所述消息事件数据,并将获取到的消息事件数据写入到配置文件指定目录下的文件中;将写有消息事件数据的文件下载导入到数据库中作为流量原始数据。本发明的技术方案采用流式处理实现netflow流量数据的接收、分析、传送和存储,相比于单一处理方式具有更高的效率。该专利与本发明属于同一个技术领域,但是应用不同,方法不同,目的不同,该专利说明了流量采集可以使用多种手段,而本发明流量采集只是数据来源的方式,本发明的数据来源也不使用netflow。

现有技术中有《基于snmp的网络流量数据采集研究与实现》第26卷第3期v_0i.26nd.3,长春师范学院(自然科学版)2007年6月。针对目前网络管理的数据流控制问题,提出一种利用snmp协议实现对路由器中数据流量采集的方法。通过管理工作站(snmpmanager)对代理(agent)中的变量访问,来提取路由器中的网络数据流量信息。该论文说明数据流浪采集的方式不是唯一的,通过snmp协议也可以做数据流量的采集,同样本发明在数据采集方面没有使用snmp协议。

本发明用到技术术语五元组,五元组是通信术语。通常是指源ip地址,源端口,目的ip地址,目的端口和传输层协议。



技术实现要素:

基于现有技术的不足本发明提供了一种检测流量采集设备数据采集漏报的方法及装置,包括两大步骤,步骤1是活跃ip数据漏报发现;步骤2是活跃域名数据漏报发现;

步骤1活跃ip数据漏报发现包括:

(1)ip基准表获取:

针对于活跃ip数据的漏报情况,需要获取省内全面的机房内ip数据,作为针对信息安全管理系统漏报的数据的核验基准;信息安全管理系统机房内ip基准表获取流程为:a)在企业人工上报以及企业idc基础上报的ip数据中,找出其中使用方式为非动态且有机房属性的ip数据;b)在企业人工上报以及企业信息安全管理系统基础上报的ip数据中,找出其中使用方式为静态的ip数据;c)获取一个月到三个月内的活跃累计ip数据,并剔除不合法ip,剔除内网ip,剔除广播ip,剔除重复;d)将通过前面步骤a)步骤b)步骤c)中获取的数据进行去重融合处理,得到融合结果数据;e)通过第三方离线数据以及第三方接口获得融合结果数据的地市属性,将非上报ip所处省市的ip数据进行剔除,最终获得全省市最全面的机房内ip数据作为ip基准表;其中非上报ip所处省市的ip数据指由行政命令或保密级别要求不允许上报的ip数据;

(2)对ip基准表内全部ip做模拟请求:

由于未上报的活跃ip数据有可能是当日无访问量的ip地址,为了验证其中存在部分未上报ip数据是当天存在访问但是未上报的漏报数据,于当日对全部机房内ip数据进行模拟请求:对于之前获得的全省市最全面的机房内ip数据进行模拟请求,模拟请求时需要使用socket或者curl请求针对ip地址加端口先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录返回码在合理范围内的ip,记录并建立模拟请求成功表;模拟请求的基本要求包括:1)提供常用端口号进行模拟请求;2)模拟请求时对模拟请求用的常用端口号在机房防火墙做白名单,防止信号被阻断3)模拟请求三次,降低访问请求失败率,保证大部分请求可达;

(3)补充模拟请求成功表数据:

在针对ip加端口号进行模拟请求时,由于ip的端口号不确定,并且机房内存在防火墙进行阻断,模拟请求的成功率很低;增加dns流量数据中解析出的域名和域名的解析ip数据,并同时经过合理模拟请求处理,可以作为活跃漏报检测的有效补充数据,记录模拟请求成功的dns流量数据中解析出的ip数据:a)由dns流量采集设备提供dns流量数据,进行降噪去重处理后,在五元组的数据中获得当日的有效域名以及域名的解析ip数据。b)根据域名和域名的解析ip数据先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录所有返回码在合理范围内的ip,并输入到模拟请求成功表;

(4)活跃流量数据与模拟请求成功表的比对计算找出信息安全管理系统漏报的ip数据:

当日模拟请求的数据将被信息安全管理系统的活跃流量采集设备进行采集,并于次日作为活跃流量数据进行上报,因此在次日进行前一日的活跃流量数据与模拟请求成功表的比对计算,找到模拟请求成功但未由信息安全管理系统的活跃流量采集设备上报的活跃ip数据,并研究活跃流量采集设备的漏报情况:a)将信息安全管理系统的活跃流量采集设备采集的活跃流量ip数据进行降噪处理,获得活跃ip表;b)使用同一日的模拟请求成功表与活跃ip表进行比对,找到当日活跃采集未采集到和次日未上报的ip数据,为信息安全管理系统漏报的ip数据。

步骤2活跃域名数据漏报发现包括:

(1)域名ip关系基准表获取:

针对于活跃域名数据的漏报情况,首先需要获取省内全面的机房内域名数据,作为针对信息安全管理系统漏报数据的核验基准;信息安全管理系统机房内域名基准表获取流程为:a)通过企业人工上报数据以及dns流量采集数据、爬虫采集域名能够获取省市内全量的域名数据,使用模拟请求手段获取准确且全面的域名ip关系数据;b)获取活跃流量采集设备上报的,一个月到三个月的活跃域名ip关系累计数据并删除重复记录;c)将模拟请求获得和活跃流量采集设备上报累计的活跃流量域名ip关系数据进行去重融合,获得域名ip关系全量表;d)将获得的域名ip关系全量表同活跃ip数据漏报方案中获得的剔除了省市外ip数据和专线ip数据的机房内ip数据进行关联,找到全省市内的机房内非专线ip的域名并记录域名ip关系基准表;

(2)对域名ip关系基准表内全部域名进行模拟请求,建立域名ip关系模拟请求成功表:

当日未上报的活跃域名ip关系数据有可能是昨日不活跃的域名ip关系,为保证当日采集的机房内活跃域名ip关系都活跃,需要将全量的域名ip关系进行模拟请求:使用socket或curl请求,针对获得的机房内域名ip关系全量表中的域名先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录返回码在合理范围内的对应域名ip关系作为域名ip关系模拟请求成功表;使用域名ip关系基准表中的域名进行模拟请求可以保证模拟请求的域名经过规定的机房,模拟请求时应当在机房防火墙设置白名单以保证请求可达,模拟请求的次数为三次以降低模拟请求失败率,保证大部分请求可达;

(3)补充域名ip关系模拟请求成功表数据:

经由拨测获取的“域名-解析目的ip”关系并不全面,因此使用当日的dns流量数据中的域名和解析ip作为域名ip关系补充数据,对于域名ip关系补充数据进行模拟请求:a)由dns流量采集设备提供dns流量数据,进行降噪去重处理后获得当日的活跃域名及域名解析ip数据;b)根据获取的域名和域名解析ip数据先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录所有返回码在合理范围内的ip,录入域名ip关系模拟请求成功表;

(4)活跃流量数据与域名ip关系模拟请求成功表的比对计算找出信息安全管理系统漏报的ip数据:

当日模拟请求的数据将被信息安全管理系统的活跃流量采集设备进行采集,并作为活跃流量数据于次日进行上报,因此在次日进行前一日的活跃流量数据与域名ip关系模拟请求成功表的比对计算,找到模拟请求成功但未由信息安全管理系统的活跃流量采集设备上报的活跃域名数据,并研究活跃流量采集设备的漏报情况:a)将当日采集、次日上报的活跃流量数据进行降噪处理,获得上报的域名ip关系数据表;b)将同一日的上报的域名ip关系数据表与同一日的域名ip关系模拟请求成功表进行比对,找出当日请求成功模拟请求成功,但并未在上报的域名ip关系数据表中出现的域名数据,作为信息安全管理系统活跃域名漏报数据。

有益效果

使用本发明可以有效提高互联网监管效果,增加了第三方接口可以方便的将漏报的ip数据和漏报的域名数据按照地域和机房显示在地图上,同时本发明在检测漏报的有效性上有以下三大特点:

1、模拟请求的数据源的获取。如果不使用本专利的数据源获取,现在的数据源主要有企业人工上报或者信安上报的基础数据,使用全量数据进行模拟请求的话请求量过大,对于性能的要求比较大;而使用信安上报的基础数据进行模拟请求,则会导致模拟请求的数据不完整无法找出漏报的数据。本专利对使用dns数据源,对原有的数据有所补充补充,提取其中的属性符合机房内的数据,,再进行模拟请求,既降低了模拟请求的性能需求,又提供了更加全面的模拟请求,使发现的漏报更加全面准确。

2、使用dns流量数据作为补充模拟请求输入。dns流量采集到的流量数据未经过严苛的降噪,其中能够提供部分活跃过滤掉的域名ip关系数据。然而dns活跃流量数据虽然在dns日志上被采集到,但这部分数据有可能是不存活数据即模拟请求返回值不在合理范围的数据,所以将dns流量采集到的域名ip同数据源采集到一起进行模拟请求,能够增加模拟请求数据源的全面性。特别的,在之前针对活跃ip数据进行模拟请求时使用的ip+常用端口号进行请求的即常用或全部端口号都要进行模拟请求,在增加dns域名ip关系数据后,相关的ip数据能够直接使用域名ip进行拨测,降低了模拟请求的性能需求。

3、在进行模拟请求时,本专利先进行http(get/post)请求,之后将模拟请求结果返回值不在合理范围内的数据再进行https(get/post)请求。这种方式相比于全部数据进行http&https模拟请求能够降低模拟请求的性能需求,相比于只做http模拟请求也能够增加模拟请求的全面性。

附图说明

图1是本发明的活跃ip数据漏报发现流程图;

图2是本发明的活跃域名数据漏报发现流程图。

具体实施方式

参考图1和图2实现本发明的一种检测流量采集设备数据采集漏报的方法及装置包括:第一步活跃ip数据漏报发现,第二步活跃域名数据漏报发现。

步骤1活跃ip数据漏报发现包括:

(1)针对于活跃ip数据的漏报情况,需要获取省内全面的机房内ip数据,作为针对信息安全管理系统漏报的数据的核验基准;信息安全管理系统机房内ip基准表获取流程为:a)在企业人工上报以及企业idc基础上报的ip数据中,找出其中使用方式为非动态且有机房属性的ip数据;b)在企业人工上报以及企业信息安全管理系统基础上报的ip数据中,找出其中使用方式为静态的ip数据;c)获取一个月到三个月内的活跃累计ip数据,并剔除不合法ip,剔除内网ip,剔除广播ip,剔除重复;d)将通过前面步骤a)步骤b)步骤c)中获取的数据进行去重融合处理,得到融合结果数据;e)通过第三方离线数据以及第三方接口获得融合结果数据的地市属性,将非上报ip所处省市的ip数据进行剔除,最终获得全省市最全面的机房内ip数据;其中非上报ip所处省市的ip数据指由行政命令或保密级别要求不允许上报的ip数据;

(2)由于未上报的活跃ip数据有可能是当日无访问量的ip地址,为了验证其中存在部分未上报ip数据是当天存在访问但是未上报的漏报数据,于当日对全部机房内ip数据进行模拟请求:对于之前获得的全省市最全面的机房内ip数据进行模拟请求,模拟请求时需要使用socket或者curl请求针对ip地址加端口先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录返回码在合理范围内的ip,记录并建立模拟请求成功表即拨测成功表a;模拟请求的基本要求包括:1)提供常用端口号进行模拟请求;2)模拟请求时对模拟请求用的常用端口号在机房防火墙做白名单,防止信号被阻断3)模拟请求三次,降低访问请求失败率,保证大部分请求可达;

(3)在针对ip加端口号进行模拟请求时,由于ip的端口号不确定,并且机房内存在防火墙进行阻断,模拟请求的成功率很低;增加dns流量数据中解析出的域名和域名的解析ip数据,并同时经过合理模拟请求处理,可以作为活跃漏报检测的有效补充数据,记录模拟请求成功的dns流量数据中解析出的ip数据:a)由dns流量采集设备提供dns流量数据,进行降噪去重处理后,在五元组的数据中获得当日的有效域名以及域名的解析ip数据。b)根据域名和域名的解析ip数据先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录所有返回码在合理范围内的ip,并输入到模拟请求成功表即拨测成功表a;

(4)当日模拟请求的数据将被信息安全管理系统的活跃流量采集设备进行采集,并于次日进行上报,因此在次日进行前一日的活跃流量数据与模拟请求结果数据的比对计算,找到模拟请求成功但未由信息安全管理系统的活跃流量采集设备上报的活跃ip数据,并研究活跃流量采集设备的漏报情况:a)将信息安全管理系统的活跃流量采集设备采集的活跃流量ip数据进行降噪处理,获得活跃ip表;b)使用同一日的模拟请求成功表与活跃ip表进行比对,找到当日活跃采集未采集到和次日未上报的ip数据,为信息安全管理系统漏报的ip数据。

步骤2活跃域名数据漏报发现包括:

(1)针对于活跃域名数据的漏报情况,首先需要获取省内全面的机房内域名数据,作为针对信息安全管理系统漏报数据的核验基准;信息安全管理系统机房内域名基准表获取流程为:a)通过企业人工上报数据以及dns流量采集数据、爬虫采集域名能够获取省市内全量的域名数据,使用模拟请求手段获取准确且全面的域名ip关系数据;b)获取活跃流量采集设备上报的,一个月到三个月的活跃域名ip关系累计数据并删除重复记录;c)将模拟请求获得和活跃流量采集设备上报累计的活跃流量域名ip关系数据进行去重融合,获得域名ip关系全量表;d)将获得的域名ip关系全量表同活跃ip数据漏报方案中获得的剔除了省市外ip数据和专线ip数据的机房内ip数据进行关联,找到全省市内的机房内非专线ip的域名并记录域名ip关系基准表;

(2)当日未上报的活跃域名ip关系数据有可能是昨日不活跃的域名ip关系,为保证当日采集的机房内活跃域名ip关系都活跃,需要将全量的域名ip关系进行模拟请求:使用socket或curl请求,针对获得的机房内域名ip关系全量表中的域名先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录返回码在合理范围内的对应域名ip关系作为域名ip关系模拟请求成功表即拨测成功表c;使用域名ip关系基准表中的域名进行模拟请求可以保证模拟请求的域名经过规定的机房,模拟请求时应当在机房防火墙设置白名单以保证请求可达,模拟请求的次数为三次以降低模拟请求失败率,保证大部分请求可达;

(3)经由拨测获取的“域名-解析目的ip”关系并不全面,因此使用当日的dns流量数据中的域名和解析ip作为域名ip关系补充数据,对于域名ip关系补充数据进行模拟请求:a)由dns流量采集设备提供dns流量数据,进行降噪去重处理后获得当日的活跃域名及域名解析ip数据;b)根据获取的域名和域名解析ip数据先进行http的get/post请求,若返回码不在合理范围,则再进行https的get/post请求;记录所有返回码在合理范围内的ip,录入域名ip关系模拟请求成功表即拨测成功表c;

(4)当日模拟请求的数据将被信息安全管理系统的活跃流量采集设备进行采集,并作为活跃流量数据于次日进行上报,因此在次日进行前一日的活跃流量数据与域名ip关系模拟请求成功表的比对计算,找到模拟请求成功但未由信息安全管理系统的活跃流量采集设备上报的活跃域名数据,并研究活跃流量采集设备的漏报情况:a)将当日采集、次日上报的活跃流量数据进行降噪处理,获得上报的域名ip关系数据表即次日活跃上报表d;b)将同一日的上报的域名ip关系数据表与同一日的域名ip关系模拟请求成功表进行比对,找出当日请求成功模拟请求成功,但并未在上报的域名ip关系数据表中出现的域名数据,作为信息安全管理系统活跃域名漏报数据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1