一种大规模数据的处理方法和系统的制作方法

文档序号:7893373阅读:125来源:国知局
专利名称:一种大规模数据的处理方法和系统的制作方法
技术领域
本发明涉及计算机网络技木,特别涉及一种大规模数据的处理方法和系统。
背景技木随着网络用户的不断扩大,Internet上的数据量成爆炸性增长,人们对网络的传输速度、数据的安全及可靠性有了新的认识。用户的数据广泛地分布在很多地方,对用户来 说没有被完善管理的数据存储和备份使商务运作存在着隐含的危险,数据传输的速度和质量影响着用户体验,另外随着云服务的逐渐兴起和推广,大規模数据的存储、统计或分析等处理需求成为亟待解决的问题。然而,现有的数据处理系统和方法受限于性能的影响无法满足大規模数据的处理需求,例如现有数据处理系统和方法如果直接应用于大規模数据的存储,则会带来无法承受的数据读写压力。

发明内容本发明提供了一种大规模数据的处理方法和系统,以便满足大規模数据的处理需求。具体技术方案如下ー种大規模数据的处理系统,该系统包括流量采集子系统和流量处理子系统;所述流量采集子系统,用于采集数据流量,将采集到的数据流量进行镜像,并将得到的镜像流量分流为P路子流量发送至所述流量处理子系统中的流量存储集群,P为大于I的整数;所述流量存储集群由M台存储服务器组成,每台存储服务器下挂N个磁盘,所述M为正整数,N为大于I的整数,且MXN > P ;每台存储服务器接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘。根据本发明一优选实施例,所述流量采集子系统包括用于采集外网核心交換机出口的数据流量并对采集到的数据流量进行镜像的流量采集单元,以及用于采用负载均衡技术将镜像流量分流为各子流量的分流处理单元。根据本发明一优选实施例,所述流量采集单元由分光器和光放大器组成;所述分光器对外网核心交換机出口的数据流量进行分光处理,所述光放大器对分光处理后的数据流量进行光放大形成镜像流量。根据本发明一优选实施例,所述分流处理单元为分流交換机,采用trunk的方式将镜像流量采用负载均衡技术分流成P路子流量。根据本发明一优选实施例,每台存储服务器上运行多个进程,每个进程分别对应所述N个磁盘中的部分磁盘,每个进程分别负责接收一部分子流量以及将接收到的所述部分子流量按预设的时间长度为单位依次轮流写入对应磁盘。根据本发明一优选实施例,所述流量处理子系统还包括实时分析集群;
所述流量采集子系统将采集到的数据流量进行镜像得到两路镜像流量,其中一路镜像流量用于执行所述分流处理,另一路镜像流量被发送至所述实时分析集群;所述实时分析集群,用于对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件。根据本发明一优选实施例,所述实时分析集群包括由服务器集群组成的实时接收模块和汇总统计模块;所述实时接收模块中的若干个服务器接收所述镜像流量,将统计的流量信息写入日志文件;所述汇总统计模块将所述若干个服务器所生成的日志文件进行下载,汇总各日志文件中的流量信息得到并输出分析文件,其中所述下载的周期长度大于所述实时接收模块将统计的流量信息写入日志文件的周期长度。
根据本发明一优选实施例,所述流量处理子系统还包括非实时分析集群,用于汇总所述流量存储集群存储的子流量后进行分析,所述分析包括网络攻击行为的挖掘或者需求数据的抽取。一种大规模数据的处理方法,该方法应用于包括流量采集子系统和流量处理子系统的大規模数据处理系统,所述流量处理子系统中的流量存储集群由M台存储服务器组成,每台存储服务器下挂N个磁盘,所述方法包括所述流量采集子系统采集数据流量,将采集到的数据流量进行镜像,并将得到的镜像流量分流为P路子流量发送至所述流量存储集群,P为大于I的整数;每台存储服务器接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘;其中所述M为正整数,N为大于I的整数,且MXN ^ P0根据本发明一优选实施例,所述采集数据流量具体为采集外网核心交換机的数据流量。根据本发明一优选实施例,所述将采集到的数据流量进行镜像具体为采用分光器对采集的数据流量进行分光处理,采用光放大器对分光处理后的数据流量进行光放大形成镜像流量。根据本发明一优选实施例,所述将得到的镜像流量分流为P路子流量具体为采用分流交換机的trunk方式将镜像流量采用负载均衡技术分流成P路子流量。根据本发明一优选实施例,所述采用负载均衡技术将分流到的子流量写入下挂的N个磁盘具体为每台存储服务器上运行多个进程,每个进程分别对应所述N个磁盘中的部分磁盘,每个进程分别负责接收一部分子流量以及将接收到的所述部分子流量按预设的时间长度为单位依次轮流写入对应磁盘。根据本发明一优选实施例,所述流量采集子系统在将采集到的数据流量进行镜像吋,得到两路镜像流量,其中一路镜像流量用于执行所述分流处理,另一路镜像流量被发送至所述流量处理子系统的实时分析集群;所述实时分析集群对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件。根据本发明一优选实施例,所述对接收到的镜像流量进行流量信息的统计,井利用统计结果生成分析文件具体为
所述实时分析集群中的若干个服务器接收所述镜像流量,将统计的流量信息写入日志文件;所述实时分析集群中的汇总统计模块将所述若干个服务器所生成的日志文件进行下载,汇总各日志文件中的流量信息得到并输出分析文件,其中所述下载的周期长度大于所述将统计的流量信息写入日志文件的周期长度。根据本发明一优选实施例,该方法还包括非实时分析集群汇总所述流量存储集群存储的子流量后进行分析,所述分析包括网络攻击行为的挖掘或者需求数据的抽取。由以上技术方案可以看出,本发明提供的系统和方法中,流量采集子系统首先将采集到的数据流量进行镜像后,将得到的镜像流量分流为多路子流量发送至流量处理子系统的流量存储集群,流量存储集群由若干台存储服务器组成,每台存储服务器将接收到的分流量采用负载均衡技术将分流到的子流量写入下挂的多个磁盘,通过这种方式降低了磁 盘持续写的压力,较好地解决了大規模数据存储的问题,同时提高了磁盘利用率,有效节约了服务器成本。

图I为本发明实施例提供的大規模数据的处理系统示意图;图2为本发明实施例提供的一个系统实例图;图3为本发明实施例提供的大規模数据的处理方法流程图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。首先对本发明所提供的大規模数据的处理系统进行描述,如图I所示,该系统可以包括流量采集子系统100和流量处理子系统200。流量采集子系统100,用于采集数据流量,并将采集到的数据流量镜像到流量处理子系统200中的服务器集群。具体可以包括用于采集数据流量并对采集到的数据流量进行镜像的流量采集单元110,并进ー步可以包括用于采用负载均衡技术将镜像流量分流为各子流量的分流处理单元120。其中,流量采集单元110在采集数据流量时,可以布设采集点在外网核心交換机的出口,这样的布设方式一方面可以无损地采集全部的流量数据,另一方面以较少的采集点就可以完成预期目标,对于工程实施能够节约成本且降低工程难度。另外,流量采集单元110采集数据流量并进行镜像的方式可以包括以下两种其一、端ロ镜像方式通过将外网核心交換机一个端ロ或多个端ロ的数据镜像到另ー个或多个端ロ的方式,实现数据流量的采集,这种方式是现有技术,在此不再详述。其ニ、分光镜像方式首先通过分光器对外网核心交換机的出口数据进行分光处理,由于分光后信号強度会有衰减,因此可以进ー步对分光处理后的流量进行光放大,从而保证分光后的流量的信号強度充足,确保数据的完整和可靠。分光镜像方式相比较端ロ镜像方式的优点是稳定性和可靠性都较高,端ロ镜像方式会对核心交換机本身产生影响,对于线上服务来说,核心交換机的故障对服务的影响是致命的,因此,分光镜像方式作为ー种优选的数据流量采集方式。镜像后得到的一路流量可以发送给流量处理子系统200中的实时分析集群用于对流量进行实时分析,另一路流量可以发送至分流处理单元120进行进一歩处理。分流处理单元120可以采用分流交換机来实现。在分流时可以 采用trunk的方式,分流交換机将接收到的镜像流量采用负载均衡技术分流成多路子流量发送给流量处理子系统200中的服务器集群以对该多路子流量进行相同的处理,这里主要是对多路子流量分别进行存储处理。以处理IOG的数据流量为例,交換机的一个万兆端ロ作为入端ロ接入该IOG的数据流量,出端ロ同时存在8个千兆ロ作为ー个trunk,这样8个千兆ロ会以轮叫调度(round-robin)方式将入端ロ的流量均勻分布在8个千兆口上,实现对高速流量的第一次负载均衡。图2为流量采集子系统100的其中一个实施方式的示意图,即分光装置将外网核心交換机的出口流量进行分光处理,光放大器对分光处理后的流量进行光放大,再经由分流交換机实现流量的分流。分光后得到的一路流量可以发送给流量处理子系统200中的实时分析集群,分光后得到的另一路流量经分流交換机处理后得到的各路子流量可以发送给流量处理子系统200中的流量存储集群,用于后续的非实时分析。下面对流量处理子系统200中的实时分析集群210和流量存储集群220进行详细描述。实时分析集群210对接收到的流量进行流量信息的统计,并利用统计结果生成分析文件。具体地,该实时分析集群210可以具体包括实时接收模块和汇总统计模块(图I中并未示出)。其中实时接收模块可以由服务器集群构成,该服务器集群中的各服务器运行相同的包捕获和统计程序,将统计结果写入日志(log)文件。以万兆服务器为例,每台万兆服务器支持2个万兆网卡,能够同时处理20G的数据流量,包捕获程序能够完成从万兆网卡的高效收包,统计程序以目的ip为单位进行流量信息的分别统计,统计的内容可以包括但不限于tcp流量值、udp流量值、icmp流量值等,单位通常为bps ;tcp包速率、udp包速率、icmp包速率等,単位通常为pps ;非服务端ロ毎秒的访问次数;http毎秒的get请求数、get数据包的长度;http主要状态码每秒回应的数据包个数等信息。然后可以将统计结果以ニ进制格式写入log文件。汇总统计模块将实时接收模块的服务器集群生成的log文件进行下载,其中下载的周期长度通常大于实时接收模块将统计的流量信息写入log文件的周期长度。然后对各log文件中的流量信息进行汇总得到分析文件,输出该分析文件。例如,可以对各log文件中相同目的ip的流量信息进行汇总。流量存储集群220是由M台存储服务器组成的集群,M为正整数,完成的主要功能是将接收到的流量以高效可靠的方式写入磁盘进行保存。由于接收到海量的数据包,且实际线上应用处理的流量通常是几十甚至上百G/s的速率,需要将大規模的流量以较小的成本代价存储在慢速的磁盘。在本发明中每一台存储服务器下挂N个磁盘,N为大于I的正整数,且MXN ^ P,P为流量处理子系统200分流后得到的子流量数量。存储服务器接收分流到的流量,将接收到的流量采用负载均衡技术写入各磁盘,具体地,可以按预设的时间长度为单位依次轮流写入各磁盘。其中每一台存储服务器上可以运行多个进程,每个进程分别对应部分磁盘,每个进程分别负责其中一部子流量的接收以及将该部子流量按预设的时间长度为单位依次轮流写入对应磁盘。举ー个例子,假设流量存储子系统包括两台存储服务器,每台存储服务器携帯一张4 ロ千兆网卡,挂载8块磁盘,每块1T。分流处理单元120分流后得到8路子流量,每台存储服务器上同时运行4个独立进程,分别从4个千兆网卡接收流量,即负责接收其中4路子流量,每个进程对应2块磁盘。每个进程将流量往磁盘写的过程中再一次采用了负载均衡策略,即第二次负载均衡,可以以分钟为单位依次轮流写入2块磁盘,第一分钟的流量写入第一块磁盘,第二分钟的流量写入第ニ块磁盘,第三分钟的流量写入第ー块磁盘,第四分钟的流量写入第二块磁盘,以此类推。这种负载均衡策略充分利用了各个进程和磁盘的独立性,降低了磁盘持续写的压力,较好地解决了大規模数据存储的问题,同时提高了磁盘利用率,有效地节约了服务器成本。除此之外,流量处理子系统200还可以进ー步包括非实时分析集群230,用于对流量存储集群220存储的流量进行汇总后进行分析,包括但不限于网络攻击行为的挖掘或者需求数据的抽取等。在进行网络攻击行为的挖掘时,可以抽取攻击时段的流量,基于所抽取流量的特征进行攻击行为分析。例如,对于常见的网络攻击,主要包括网络层面带宽型攻击、tcp层的synflood和ack flood攻击、应用层的分布式请求攻击。各种网络攻击行为会对产品的稳定运行带来影响,我们能够基于以存储的历史数据即流量存储集群220存储的流量来深度解析攻击特征,为产品线的防御和攻击行为的取证提供服务。对于网络层面的带宽型攻击,常见的有udp flood和icmp flood,我们通过抽取攻击时段的流量,然后统计该时段各种类型的流量大小来判断攻击类型和攻击規模。对于tcp层协议栈资源耗尽型攻击,通过抽取攻击时段的流量,统计时段tcp标志位各种类型的包速率来判断攻击类型和攻击規模。对于应用层的分布式请求攻击,通过抽取攻击时段的数据包,统计该时段http请求头的各个字段,包括host、url、cookie、User-Agent或referer等字段,来判断攻击类型,并进一步判断被攻击的产品线及相关页面,同时归纳总结http头部的请求特征,为封禁策略提供识别标志。目前业务方面对过去访问记录的需求包括追踪问题和产品的线下测试,需求数据的抽取正是为了满足该需求。具体实现方法是基于流量存储集群220存储的流量,非实时分析集群230根据产品线的目的ip,从流量存储集群220存储的流量中抽取对应目的ip的 数据包并以诸如抓包(Pcap)文件格式存储下来,用于后续将该数据包提供给业务需求方。基于上述处理系统实现的大規模数据的处理方法可以如图3所示,主要包括以下步骤步骤301 :流量采集子系统采集数据流量,将采集到的数据流量进行镜像,将得到的其中一路镜像流量执行步骤302 ;将得到的另一路镜像流量发送至流量处理子系统中的实时分析集群,执行步骤305。在采集数据流量时,采集点可以布设在外网核心交換机的出口,即采集外网核心交换机的数据流量。
所述将采集到的数据流量进行镜像的方式可以具体包括以下两种其一、端ロ镜像方式通过将外网核心交換机一个端ロ或多个端ロ的数据镜像到另ー个或多个端ロ的方式,实现数据流量的采集,这种方式是现有技术,在此不再详述。其ニ、分光镜像方式首先通过分光器对外网核心交換机的出口数据进行分光处理,由于分光后信号強度会有衰减,因此可以进ー步对分光处理后的流量进行光放大,从而保证分光后的流量的信号強度充足,确保数据的完整和可靠。分光镜像方式相比较端ロ镜像方式的优点是稳定性和可靠性都较高,端ロ镜像方式会对核心交換机本身产生影响,对于线上服务来说,核心交換机的故障对服务的影响是致命的,因此,分光镜像方式作为ー种优选的数据流量采集方式。步骤302 :将镜像流量分流为P路子流量发送至流量处理子系统中的流量存储集群。P为大于I的整数。在本步骤中进行的分流处理可以由分流交換机实现,分流交换机采用trunk方式将镜像流量采用负载均衡技术分流成P路子流量。步骤303 :流量存储集群中的M台存储服务器分别接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘;其中所述M为正整数,N为大于I的整数,且MXN彡P。本步骤中采用的负载均衡方式可以按照预设的时间长度为单位依次轮流写入磁盘。其中每一台存储服务器上可以运行多个进程,每个进程分别对应部分磁盘,每个进程分别负责其中一部分子流量的接收以及将该部分流量按预设的时间长度为单位依次轮流写入对应磁盘。这种负载均衡策略充分利用了各个进程和磁盘的独立性,降低了磁盘持续写的压力,较好地解决了大規模数据存储的问题,同时提高了磁盘利用率,有效地节约了服务器成本。步骤304 :流量处理子系统中的非实时分析集群汇总流量存储集群存储的子流量后进行分析,执行的分析包括但不限干网络攻击行为的挖掘或者需求数据的抽取。在进行网络攻击行为的挖掘时,可以抽取攻击时段的流量,基于所抽取流量的特征进行攻击行为分析。例如,对于常见的网络攻击,主要包括网络层面带宽型攻击、tcp层的synflood和ack flood攻击、应用层的分布式请求攻击。各种网络攻击行为会对产品的稳定运行带来影响,我们能够基于以存储的历史数据即流量存储集群存储的流量来深度解析攻击特征,为产品线的防御和攻击行为的取证提供服务。对于网络层面的带宽型攻击,常见的有udpflood和icmp flood,我们通过抽取攻击时段的流量,然后统计该时段各种类型的流量大小来判断攻击类型和攻击規模。对于tcp层协议栈资源耗尽型攻击,通过抽取攻击时段的流量,统计时段tcp标志位各种类型的包速率来判断攻击类型和攻击規模。对于应用层的分布式请求攻击,通过抽取攻击时段的数据包,统计该时段http请求头的各个字 段,包括host、url、cookie、User-Agent或referer等字段,来判断攻击类型,并进一步判断被攻击的产品线及相关页面,同时归纳总结http头部的请求特征,为封禁策略提供识别
O目前业务方面对过去访问记录的需求包括追踪问题和产品的线下测试,需求数据的抽取正是为了满足该需求。具体实现方法是基于流量存储集群存储的流量,非实时分析集群根据产品线的目的ip,从流量存储集群存储的流量中抽取对应目的ip的数据包并以诸如pcap文件格式存储下来,用于后续将该数据包提供给业务需求方。步骤305 :实时分析集群对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件。在本步骤中,实时分析集群中的若干个服务器接收镜像流量,将统计的流量信息写入log文件。然后实时分析集群中的汇总统计模块将上述若干个服务器所生成的log文件进行下载,汇总各日志文件中的流量信息得到并输出分析文件,其中汇总统计模块下载log文件的周期长度大于上述若干个服务器将统计的流量信息写入日志文件的周期长度。 上述若干个服务器运行相同的包捕获和统计程序,包捕获程序能够完成从万兆网卡的高效收包,统计程序以目的ip为单位进行流量信息的分别统计,统计的内容可以包括但不限于tcp流量值、udp流量值、icmp流量值等,单位通常为bps ;tcp包速率、udp包速率、icmp包速率等,单位通常为pps ;非服务端ロ姆秒的访问次数;http姆秒的get请求数、get数据包的长度;http主要状态码每秒回应的数据包个数等信息。然后可以将统计结果以ニ进制格式写入log文件。本发明提供的上述系统和方法,通过流量镜像、存储服务器集群以及所下挂磁盘的流量存储负载均衡,实现了大規模数据的存储需求,进ー步通过实时分析集群对大規模的镜像流量实现实时分析需求,通过非实时分析集群对存储服务器集群存储的数据进行汇总分析实现对大規模数据的非实时分析需求。经验证,本发明能够很好的处理带宽超过100G的数据流,且数据具备完整性和稳定性,且网络设备成本方面的优势明显。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种大规模数据的处理系统,其特征在于,该系统包括流量采集子系统和流量处理子系统; 所述流量采集子系统,用于采集数据流量,将采集到的数据流量进行镜像,并将得到的镜像流量分流为P路子流量发送至所述流量处理子系统中的流量存储集群,P为大于I的整数; 所述流量存储集群由M台存储服务器组成,每台存储服务器下挂N个磁盘,所述M为正整数,N为大于I的整数,且MXN SP ;每台存储服务器接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘。
2.根据权利要求I所述的系统,其特征在于,所述流量采集子系统包括 用于采集外网核心交换机出口的数据流量并对采集到的数据流量进行镜像的流量采集单元,以及 用于采用负载均衡技术将镜像流量分流为各子流量的分流处理单元。
3.根据权利要求2所述的系统,其特征在于,所述流量采集单元由分光器和光放大器组成; 所述分光器对外网核心交换机出口的数据流量进行分光处理,所述光放大器对分光处理后的数据流量进行光放大形成镜像流量。
4.根据权利要求2所述的系统,其特征在于,所述分流处理单元为分流交换机,采用trunk的方式将镜像流量采用负载均衡技术分流成P路子流量。
5.根据权利要求I所述的系统,其特征在于,每台存储服务器上运行多个进程,每个进程分别对应所述N个磁盘中的部分磁盘,每个进程分别负责接收一部分子流量以及将接收到的所述部分子流量按预设的时间长度为单位依次轮流写入对应磁盘。
6.根据权利要求I所述的系统,其特征在于,所述流量处理子系统还包括实时分析集群; 所述流量采集子系统将采集到的数据流量进行镜像得到两路镜像流量,其中一路镜像流量用于执行所述分流处理,另一路镜像流量被发送至所述实时分析集群; 所述实时分析集群,用于对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件。
7.根据权利要求6所述的系统,其特征在于,所述实时分析集群包括由服务器集群组成的实时接收模块和汇总统计模块; 所述实时接收模块中的若干个服务器接收所述镜像流量,将统计的流量信息写入日志文件; 所述汇总统计模块将所述若干个服务器所生成的日志文件进行下载,汇总各日志文件中的流量信息得到并输出分析文件,其中所述下载的周期长度大于所述实时接收模块将统计的流量信息写入日志文件的周期长度。
8.根据权利要求I所述的系统,其特征在于,所述流量处理子系统还包括非实时分析集群,用于汇总所述流量存储集群存储的子流量后进行分析,所述分析包括网络攻击行为的挖掘或者需求数据的抽取。
9.一种大规模数据的处理方法,其特征在于,该方法应用于包括流量采集子系统和流量处理子系统的大规模数据处理系统,所述流量处理子系统中的流量存储集群由M台存储服务器组成,每台存储服务器下挂N个磁盘,所述方法包括 所述流量采集子系统采集数据流量,将采集到的数据流量进行镜像,并将得到的镜像流量分流为P路子流量发送至所述流量存储集群,P为大于I的整数; 每台存储服务器接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘;其中所述M为正整数,N为大于I的整数,且MXN彡P。
10.根据权利要求9所述的方法,其特征在于,所述采集数据流量具体为采集外网核心交换机的数据流量。
11.根据权利要求9所述的方法,其特征在于,所述将采集到的数据流量进行镜像具体 为 采用分光器对采集的数据流量进行分光处理,采用光放大器对分光处理后的数据流量进行光放大形成镜像流量。
12.根据权利要求9所述的方法,其特征在于,所述将得到的镜像流量分流为P路子流量具体为 采用分流交换机的trunk方式将镜像流量采用负载均衡技术分流成P路子流量。
13.根据权利要求9所述的方法,其特征在于,所述采用负载均衡技术将分流到的子流量写入下挂的N个磁盘具体为每台存储服务器上运行多个进程,每个进程分别对应所述N个磁盘中的部分磁盘,每个进程分别负责接收一部分子流量以及将接收到的所述部分子流量按预设的时间长度为单位依次轮流写入对应磁盘。
14.根据权利要求9所述的方法,其特征在于,所述流量采集子系统在将采集到的数据流量进行镜像时,得到两路镜像流量,其中一路镜像流量用于执行所述分流处理,另一路镜像流量被发送至所述流量处理子系统的实时分析集群; 所述实时分析集群对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件。
15.根据权利要求14所述的方法,其特征在于,所述对接收到的镜像流量进行流量信息的统计,并利用统计结果生成分析文件具体为 所述实时分析集群中的若干个服务器接收所述镜像流量,将统计的流量信息写入日志文件; 所述实时分析集群中的汇总统计模块将所述若干个服务器所生成的日志文件进行下载,汇总各日志文件中的流量信息得到并输出分析文件,其中所述下载的周期长度大于所述将统计的流量信息写入日志文件的周期长度。
16.根据权利要求9所述的方法,其特征在于,该方法还包括 非实时分析集群汇总所述流量存储集群存储的子流量后进行分析,所述分析包括网络攻击行为的挖掘或者需求数据的抽取。
全文摘要
本发明提供了一种大规模数据的处理系统和方法,其中系统包括流量采集子系统和流量处理子系统;所述流量采集子系统,用于采集数据流量,将采集到的数据流量进行镜像,并将得到的镜像流量分流为P路子流量发送至所述流量处理子系统中的流量存储集群,P为大于1的整数;所述流量存储集群由M台存储服务器组成,每台存储服务器下挂N个磁盘,所述M为正整数,N为大于1的整数,且M×N≥P;每台存储服务器接收分流到的子流量,并采用负载均衡技术将分流到的子流量写入下挂的N个磁盘。通过这种方式降低了磁盘持续写的压力,较好地解决了大规模数据存储的问题。
文档编号H04L29/08GK102664789SQ20121010241
公开日2012年9月12日 申请日期2012年4月9日 优先权日2012年4月9日
发明者周宇, 李婷婷, 石婧岚, 贺艳军 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1