一种高效鲁棒的大数据安全聚合系统与方法

文档序号:10572529阅读:655来源:国知局
一种高效鲁棒的大数据安全聚合系统与方法
【专利摘要】本发明提供一种高效鲁棒的大数据安全聚合方法,该高效鲁棒的大数据安全聚合方法将移动设备日志数据通过接口发送至网日志收集服务器,每一个网日志收集服务器上设置一个Flume Agent进程;Flume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;数据进入中心服务器并写入磁盘,外网磁盘存储的日志数据通过GAP传至内网中。该方法借助开源软件Apache Flume收集海量的日志数据,采用Flume的Kafkachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memorychannel和filechannel具有明显的优势。海量日志数据落入磁盘后,通过自定义接口实现Hdfs录入,已经达到百兆每秒,逼近传统百兆带宽瓶颈接近磁盘转速。
【专利说明】
一种高效鲁棒的大数据安全聚合系统与方法
技术领域
[0001]本发明涉及大数据安全领域,尤其涉及一种基于Flume不同网域间海量日志数据传输的高效、稳定、可靠方法。
【背景技术】
[0002]随着网络信息发展,网络信息安全开始成为一些安全涉密部门越来越侧重的方面,尤其是政府、公安、银行等部门。因此,探索出一种隔离内外网络维护内网安全,又能保证高效、可靠、稳定的海量日志数据内外网传输收集,能够为金融、银行以及国家相关安全行业的高速发展带来有效保障。由GAP(安全隔离网闸)可以通过专用硬件在不同网域和逻辑间实现传输,能够在一定程度上增加内网数据通信交互的安全性,但是在应对海量数据传输吞吐时存在劣势。此外,海量数据在传输过程中完整性、重复性、时效性没有一个完善的策略,不能提供一个可靠、安全的维护方法。

【发明内容】

[0003]鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于以上问题,本专利提出一种基于Flume针对不同网域间海量日志数据传输的高效、稳定、可靠方法。Flume框架做为采集终端,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
[0004]为实现上述目的及其他相关目的,本发明提供一种高效鲁棒的大数据安全聚合方法,其包括如下步骤:
(1)外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;
(2)FlumeAgent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上;
(3)数据进入中心服务器再通过Flume消费至磁盘,将磁盘存储的日志数据通过GAP跨网域传输至内网中;
(4)内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;
(5)内网的日志数据汇聚以后,日志数据会分别经过Flume消费写入内网磁盘;
(6)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。
[0005]优选地,Flume Agent进程采用KafkachanneI方式进行数据汇聚采集。
[0006]优选地,步骤(5)中,内网中的日志数据会分别经过Flume消费写入内网磁盘后需进行storm实时分析。
[0007]本发明还公开了一种高效鲁棒的大数据安全聚合系统,其包括:外网移动设备日志数据采集单元,所述外网移动设备日志数据采集单元将外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集;外网数据写入单元,所述外网数据写入单元用于将FlumeAgent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上的数据写入外网磁盘;安全隔离网闸GAP,所述安全隔离网闸GAP用于将写入外网磁盘的日志数据传至内网中;内网移动设备日志数据采集单元,所述内网移动设备日志数据采集单元将内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集;内网数据写入单元,所述内网数据写入单元用于将内网的日志数据汇聚后,将日志数据会分别经过Flume消费写入内网磁盘;跨网域传输单元,所述跨网域传输单元用于将内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。
[0008]如上所述,本发明的高效鲁棒的大数据安全聚合系统与方法具有以下有益效果:本发明是面向大数据日志的一种高效可靠传输系统,借助开源软件Apache Flume收集海量的日志数据,采用Flume的Kafkachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memorychannel和f ilechannel具有明显的优势。GAP(安全隔离网闸)同样确保了外网日志数据单向跨域传输的安全性。海量日志数据落入磁盘后,通过自定义接口实现Hdfs录入,已经达到百兆每秒,逼近传统瓶颈接近磁盘转速。
【附图说明】
[0009]图1为本发明实施例的系统框图。
[0010]图2为本发明实施例的流程图。
[00??]图3为本发明实施例的Flume Kafkachannel收集方式的示意图。
【具体实施方式】
[0012]以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的【具体实施方式】加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
[0013]请参阅图1至图3。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0014]如图1所示,本发明提供一种依托于分布式采集Flume实现海量日志数据跨区域单项传输系统,该数据系统主要分为内外网数据采集以及一个数据落地磁盘模块,整个传输系统架构方案如图1所示。针对外网日志数据收集,海量终端日志数据经过Flume Agent分类收集数据至kaf kachannel中,能够避免memory channel故障致使数据丢失以及fiIechannel汇聚收集数据速率慢等;最后通过kafka统一录入磁盘中。内外网区别在于外网需要通过GAP(安全隔离网闸)跨网域单向传入内网磁盘系统,最后录入hadoop集群。本发明是面向海量日志数据的高效可靠传输系统,分内外数据收集和持久化至分布式文件系统Hdfs三个模块。
[0015]内外网日志数据收集采用现下流行的Apache开源的Flume,它是一个分布式海量日志传输聚合系统,具有可靠、高效等优势,同时在系统支持定制化各类的数据发送方。Flume在数据传输过程中存在一些策略,可靠性是当出现单点故障时,日志就会被传至其余节点上而不会丢失。Flume还提供了end-to_end、store on failure、Best effort三种级别的可靠保障:end-to-end模式会在接受到agent发送数据,会先将event写入磁盘,当数据传输成功后才会删除,若果失败就会重新传送;store on failure则在数据crash时写入本地等待恢复,然后再继续传输;最后Best effort数据传输不会通过校验。上述三种方式可靠性由强到弱,但是传输效率由弱到强。Flume的可扩展性,采用三层架构agent-col Iect-storage,这里传输系统只用前两层,它的扩展性是说明每一层水平可扩展。
[0016]传输系统在内外网日志收集时,首先需要在每台日志服务器上安装一个FlumeAgent,负责该台设备上日志数据的收集。内容的分类通过上传日志的文件名,这里不作区别对待。在汇聚过程中,采用的是Flume Kafkachannel进行收集的,如图3是Flume_agent传输数据至Flume_collect多台机器上。为了保证负载均衡采用LoadBalanece策略将Agent所有日志数据均衡发送至collect中心服务器上。Kafkachannel作为Flume收集方式之一,kafkachannel会将一部分数据持久化入磁盘,避免Memory channel会因故障丢失数据,也能在速度比Fi Iechannel快很多。数据汇聚至kaf kachannel中,需要进行跨网域传输,这里继续应用Flume自定义接口实现日志数据的消费传输落地至磁盘。然后应用GAP(安全隔离网闸)可以通过专用硬件在不同网域和逻辑间实现传输,能够在一定程度上增加内网数据通信交互的安全性,内网数据不需要经过网闸。
[0017]数据进入内网服务器磁盘还需要经过自定义Socket实现跨网传输至分析集群磁盘,外网数据进入内网和内网本身采集的数据落地到分析集群所在的磁盘,然后需要持久化入分布式文件系统Hdfs中,这一过程是自定义代码实现的,传输速率贴近磁盘和带宽上线百兆每秒,同时还加入了一些策略指标:数据传输的完整性、时效性以及容错性校验。
[0018]整个数据传输系统支持跨网域可靠传输,各模块中拥有告警和故障检测模块,当故障发生时,故障检测会自动生成故障日志,并通过告警模块自检故障原因、若能够解决生成相应问题方案自行解除故障,同时生成告警信息告知维护人员。数据从外网向内网单向传输时,借助该跨网域单向传输系统进行多路传输,系统会自行根据负载状况进行负载均衡。此外,当设备运行出现单点故障时,将传输数据自行切换至其他设备上,从而保证数据传输的时效性和稳定性。
[0019]如图2所示,整个发明的具体技术方案如下:
(1)外网移动设备日志数据通过接口发送至日志收集服务器;
(2)每一台日志服务器部署一个FlumeAgent进程,主要负责对日志文件数据的分类收集工作;为达到负载均衡,Flume会采用LoadBalanece策略将Agent所有日志数据均衡发送至collect中心服务器上,Flume Agent收集数据方案如图3所示;
(3)Kafkachannel作为Flume收集三种方式之一,kafkachannel会将一部分数据持久化入磁盘,避免memory channel会因故障丢失数据,也能在速度比f ilechannel快很多;
(4)数据落入中心服务器,在进内网前需要先落地至磁盘;Flume跨网读取kafkachannel中的数据落到磁盘;
(5)GAP(安全隔离网闸)会将外网磁盘日志数据安全校验后,传至内网中; (6)内网移动设备日志数据通过接口发送至日志收集服务器,再通过FlumeAgent收集内网日志;
(7)内网kafkachannel汇聚以后,日志数据会分别经过Flume消费落至磁盘,以及供storm实时分析;
(8)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。
[0020]本发明是面向大数据日志的一种高效可靠传输系统,借助开源软件ApacheFlume收集海量的日志数据,采用Flume的Kaf kachannel作为数据汇聚方式,既能够保证数据收集的高效性,同时保证数据不会应为单点故障而丢失,较Flume的memory channel和filechannel具有明显的优势。GAP(安全隔离网闸)同样确保了外网日志数据单向跨域传输的安全性。海量日志数据落入磁盘后,通过自定义接口实现Hdf s录入,已经达到百兆每秒,逼近传统瓶颈接近磁盘转速。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0021]上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
【主权项】
1.一种高效鲁棒的大数据安全聚合方法,其特征在于,其包括如下步骤: (1)外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集; (2)FlumeAgent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上; (3)数据进入中心服务器再通过Flume消费至磁盘,将磁盘存储的日志数据通过GAP跨网域传输至内网中; (4)内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集; (5)内网的日志数据汇聚以后,日志数据会分别经过Flume消费写入内网磁盘; (6)内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。2.根据权利要求1所述的高效鲁棒的大数据安全聚合方法,其特征在于:FlumeAgent进程采用Kafkachannel方式进行数据汇聚采集。3.根据权利要求1所述的高效鲁棒的大数据安全聚合方法,其特征在于:内网中的日志数据会分别经过Flume消费写入内网磁盘后需进行storm实时分析。4.一种高效鲁棒的大数据安全聚合系统,其特征在于,其包括: 外网移动设备日志数据采集单元,所述外网移动设备日志数据采集单元将外网移动设备日志数据通过接口发送至外网日志收集服务器,每一个外网日志收集服务器上设置一个Flume Agent进程,负责外网日志文件数据的分类收集; 外网数据写入单元,所述外网数据写入单元用于将F lume Agent进程采用LoadBalanece策略将Agent所有日志数据均衡发送至中心服务器上的数据写入外网磁盘; 安全隔离网闸GAP,所述安全隔离网闸GAP用于将写入外网磁盘的日志数据传至内网中; 内网移动设备日志数据采集单元,所述内网移动设备日志数据采集单元将内网移动设备日志数据通过接口发送至内网日志收集服务器,每一个内网日志收集服务器上设置一个Flume Agent进程,负责内网日志文件数据的分类收集; 内网数据写入单元,所述内网数据写入单元用于将内网的日志数据汇聚后,将日志数据会分别经过Flume消费写入磁盘; 跨网域传输单元,所述跨网域传输单元用于将内外网日志数据通过跨网域传输系统,最后落入hdfs分布式文件系统。
【文档编号】H04L29/08GK105933169SQ201610521774
【公开日】2016年9月7日
【申请日】2016年7月4日
【发明人】张宏斌, 朱斌, 邵官阁
【申请人】江苏飞搏软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1