一种数据的态势感知方法、系统及相关装置与流程

文档序号:14447465阅读:358来源:国知局
本申请涉及态势感知
技术领域
:,特别涉及一种数据的态势感知方法、系统、平台以及计算机可读存储介质。
背景技术
::“态势感知(situationawareness,sa)”一词早在上世纪80年代就由美国空军提出,覆盖感知(感觉)、理解和预测三个层次。随着网络的兴起而升级为“网络态势感知(cyberspacesituationawareness,csa)”,是指在大规模网络环境中对能够引起网络态势发生变化的安全要素进行获取、理解、显示以及最近发展趋势的顺延性预测,而最终的目的是要进行决策与行动。由于无政府部门牵头制定标准,也无统一的业界设计要求,现今业界设计的态势感知产品框架各行其道,也没有统一的标准。大部分网络安全设备厂商仅是将原来的ids(intrusiondetectionsystems,入侵检测系统)或af(applicationfirewall,应用防火墙)进行简单改装,并增加可视化大屏的方式组建成所谓的态势感知产品,同时利用现有统一的开源框架,如opensoc(一种数据分析架构)来搭建。由于使用的是老旧的开源框架,臃肿、无用组件较多且自行调试步骤繁琐,同时对商业不免费、不能保证后续的更新维护,难以对大规模集群提供的大数据进行分析和处理,实际使用效果不好。所以,如何克服现有态势感知平台框架搭建方面存在的各项技术缺陷,提供一种拥有大数据存储能力、大数据分析能力的态势感知平台框架设计方案是本领域技术人员亟待解决的问题。技术实现要素:本申请的目的是提供一种数据的态势感知方法,其遵循以大数据为基础进行采集、存储、计算、服务以及显示的设计原则,符合当今企业中大规模数据的安全态势感知要求,可行性高、分析结果更加准确,实际使用效果良好。本申请的另一目的在于提供了一种数据的态势感知系统、平台以及计算机可读存储介质。为实现上述目的,本申请提供一种数据的态势感知方法,该方法包括:通过预设路径获取待测态势数据;对所述待测态势数据执行格式转换操作,得到并存储待计算态势数据;利用大数据计算框架对所述待计算态势数据进行分析,得到分析后态势数据;对所述分析后态势数据进行整理和存储,得到待显示数据;利用数据可视化工具对所述待显示数据进行可视化处理,以便利用可视化的态势数据提供相应的服务。可选的,通过预设路径获取待测态势数据,包括:利用数据探针获取态势数据流量,并执行数据筛选和攻击检测操作,得到所述待测态势数据。可选的,对所述待测态势数据执行格式转换操作,得到并存储待计算态势数据,包括:根据预设数据环境参数判断是否存在集群要求和超过第一时间阈值的历史数据回溯分析要求;若是,则对所述待测态势数据执行所述格式转换操作,并将得到的待计算态势数据利用分布式文件系统进行分布式存储;若否,则对所述待测态势数据执行所述格式转换操作,并将得到的待计算态势数据利用单机文件系统进行压缩存储。可选的,将得到的待计算态势数据利用单机文件系统进行压缩存储,包括:利用基于linux的ext4文件系统和列式数据库引擎对所述待计算态势数据进行压缩存储。可选的,利用大数据计算框架对所述待计算态势数据进行分析,得到分析后态势数据,包括:将所述待计算态势数据根据是否需要进行实时计算分为两类,得到待实时计算数据和待离线计算数据;将所述待实时计算数据利用实时计算框架结合预设实时计算算法进行数据分析,得到实时分析后态势数据;将所述待离线计算数据利用离线计算框架结合预设离线计算计算进行数据分析,得到离线分析后态势数据。可选的,将所述待实时计算数据利用实时计算框架结合预设实时计算算法进行数据分析,包括:利用sparksql读取到所述待实时计算数据,并执行结构化操作,得到结构化数据;利用apachespark计算框架结合所述预设实时计算算法对所述结构化数据进行数据分析;其中,所述sparksql为所述apachespark计算框架的一个组件。可选的,该方法还包括:当采用所述分布式文件系统时,利用资源调度技术对所述待计算态势数据进行资源调度,以便利用所述大数据框架进行分析。可选的,对所述分析后态势数据进行整理和存储,得到待显示数据,包括:将所述分析后态势数据通过预设整理模型生成安全事件,并将所述安全事件独立存储于另一数据库;将所述分析后态势数据按预设的分布式检索框架进行格式转换,得到可索引数据;将所述可索引数据中的每个字段均编入索引目录以便按索引进行查询,得到待显示数据。可选的,该方法还包括:判断可视化的态势数据的参数是否处于正常参数范围内;若否,则通过预设报警路径发送相应的警告信息。为实现上述目的,本申请还提供了一种数据的态势感知系统,该系统包括:数据采集单元,用于通过预设路径获取待测态势数据;数据存储单元,用于对所述待测态势数据执行格式转换操作,得到并存储待计算态势数据;数据计算单元,用于利用大数据计算框架对所述待计算态势数据进行分析,得到分析后态势数据;数据服务单元,用于对所述分析后态势数据进行整理和存储,得到待显示数据;数据显示单元,用于利用数据可视化工具对所述待显示数据进行可视化处理,以便利用可视化的态势数据提供相应的服务。可选的,所述数据采集单元包括:探针获取及处理子单元,用于利用数据探针获取态势数据流量,并执行数据筛选和攻击检测操作,得到所述待测态势数据。可选的,所述数据存储单元包括:环境参数判断子单元,用于根据预设数据环境参数判断是否存在集群要求和超过第一时间阈值的历史数据回溯分析要求;分布式存储子单元,用于对所述待测态势数据执行所述格式转换操作,并将得到的待计算态势数据利用分布式文件系统进行分布式存储;单机存储子单元,用于对所述待测态势数据执行所述格式转换操作,并将得到的待计算态势数据利用单机文件系统进行压缩存储。可选的,所述单机存储子单元包括:优选单机存储模块,用于利用基于linux的ext4文件系统和列式数据库引擎对所述待计算态势数据进行压缩存储。可选的,所述数据计算单元包括:分类子单元,用于将所述待计算态势数据根据是否需要进行实时计算分为两类,得到待实时计算数据和待离线计算数据;实时分析子单元,用于将所述待实时计算数据利用实时计算框架结合预设实时计算算法进行数据分析,得到实时分析后态势数据;离线分析子单元,用于将所述待离线计算数据利用离线计算框架结合预设离线计算计算进行数据分析,得到离线分析后态势数据。可选的,所述实时分析子单元包括:读取及结构化处理模块,用于利用sparksql读取到所述待实时计算数据,并执行结构化操作,得到结构化数据;apachespark分析模块,用于利用apachespark计算框架结合所述预设实时计算算法对所述结构化数据进行数据分析。可选的,所述数据计算单元还包括:资源调度子单元,用于在采用所述分布式文件系统时,利用资源调度技术对所述待计算态势数据进行资源调度,以便利用所述大数据框架进行分析。可选的,所述数据服务单元包括:安全事件生成及存储子单元,用于将所述分析后态势数据通过预设整理模型生成安全事件,并将所述安全事件独立存储于另一数据库;格式转换子单元,用于将所述分析后态势数据按预设的分布式检索框架进行格式转换,得到可索引数据;索引编入子单元,用于将所述可索引数据中的每个字段均编入索引目录以便按索引进行查询,得到待显示数据。可选的,所述数据显示单元包括:阈值判断子单元,用于判断可视化的态势数据的参数是否处于正常参数范围内;警告信息发送子单元,用于通过预设报警路径发送相应的警告信息。为实现上述目的,本申请还提供了一种数据的态势感知平台,该态势感知平台包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述内容所描述的数据的态势感知方法的步骤。为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的数据的态势感知方法的步骤。本申请所提供的一种数据的态势感知方法,通过预设路径获取待测态势数据;对所述待测态势数据执行格式转换操作,得到并存储待计算态势数据;利用大数据计算框架对所述待计算态势数据进行分析,得到分析后态势数据;对所述分析后态势数据进行整理和存储,得到待显示数据;利用数据可视化工具对所述待显示数据进行可视化处理,以便利用可视化的态势数据提供相应的服务。显然,本申请所提供的技术方案,其遵循以大数据为基础进行采集、存储、计算、服务以及显示的设计原则,符合当今企业中大规模数据的安全态势感知要求,可行性高、分析结果更加准确,实际使用效果良好。本申请同时还提供了一种数据的态势感知系统、数据的态势感知平台以及计算机可读存储介质,具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种数据的态势感知方法的流程图;图2为本申请实施例所提供的另一种数据的态势感知方法的流程图;图3为本申请实施例所提供的一种数据的态势感知系统的结构框图;图4为本申请实施例所提供的一种数据的态势感知平台的结构框图。具体实施方式本申请的核心是提供一种数据的态势感知方法、系统、态势感知平台及计算机可读存储介质,其遵循以大数据为基础进行采集、存储、计算、服务以及显示的设计原则,符合当今企业中大规模数据的安全态势感知要求,可行性高、分析结果更加准确,实际使用效果良好。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。以下结合图1,图1为本申请实施例所提供的一种数据的态势感知方法的流程图。其具体包括以下步骤:s101:通过预设路径获取待测态势数据;本步骤旨在通过预设路径获取到待测态势数据。此步骤是态势感知产品进行态势感知的基础,旨在提供必备的数据来源,可以通过一些数据采集设备来获取到待测态势数据。例如,通常的采集设备有:态势感知产品专用的探针(一种数据流量采集器)、诸如af、ac(accesscontroller,接入控制器)、ids的传统安全设备、服务器日志等。其中部分探针同时具备将数据进行初步的筛选和攻击检测能力,即对采集到的数据进行预处理的功能,它能够向上层输出为特定形式的内容和基于攻击检测结果的安全日志。当然,获取态势数据流量的方式不仅限于此,还包括一些已经被判定为正常或恶意的数据流量,以便于结合后续的分析步骤更好的进行态势感知。s102:对待测态势数据执行格式转换操作,得到并存储待计算态势数据;在s101的基础上,本步骤旨在对获取到的待测态势数据进行统一格式的转换,以将通过不同设备、不同数据类型的待测态势数据转成后续处理步骤中统一且可理解的文件数据,并结合具体的实际要求将格式转换后得到的待计算态势数据存储在相应的文件系统中。其中,在数据存储的过程中,可以根据实际情况下数据规模的大小、是否存在一定规模的数据集群以及是否存在超过一定时间的历史数据回溯要求,简单的分为单机文件系统和分布式文件系统。单机文件系统主要针对无集群要求的态势感知产品去设计,且无回溯较长历史数据的分析需求的场景;在存在一定规模的数据集群中,必须使用分布式文件系统才能满足数据存储的需要,不仅能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,同时也满足大规模数据量级分析需要具备的极高i/o(in/out,输入输出)吞吐性能。s103:利用大数据计算框架对待计算态势数据进行分析,得到分析后态势数据;在s102的基础上,本步骤旨在利用大数据计算框架对得到的待计算态势数据进行分析。现有的态势感知方案,只是在普通数据计算框架的基础上利用多种算法轮番对采集来的原始数据各自进行分析,完全依赖实体硬件设备的性能和不超过负载的数据量,一旦实体硬件设备的性能跟不上或数据量过大,就无法正常执行数据分析操作,无法满足现今大数据时代需要的大数据计算能力。本申请在本步骤利用的大数据计算框架包括但不限于spark和hadoop,还可以包括与之相同或能够实现类似功能的分布式计算架构。其中,hadoop是一种分布式系统基础计算架构。用户可以在不了解分布式底层细节的情况下,利用hadoop开发分布式程序并充分利用集群的威力进行高速运算和存储。实现了一个分布式文件系统(hadoopdistributedfilesystem,简称hdfs),hdfs有高容错性的特点,并且设计用来部署在低成本硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。hdfs放宽了posix(portableoperatingsysteminterfaceofunix,可移植操作系统接口)的要求,可以以流的形式访问文件系统中的数据。hadoop的框架最核心的设计就是:hdfs和mapreduce。hdfs为海量的数据提供了存储,则mapreduce为海量的数据提供了计算。mapreduce是一种编程模型,用于大规模数据集(大于1tb)的并行运算。概念"map(映射)"和"reduce(归约)",是它们的主要思想。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。apachespark是专为大规模数据处理而设计的快速通用的计算引擎。spark是一种类hadoopmapreduce的通用并行框架,它拥有hadoopmapreduce所具有的优点。但不同于mapreduce的是:运算过程中间输出的结果可以保存在内存中,从而不再需要读写将文件存储与硬盘中的hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。spark是基于scala(一门多范式的编程语言)语言中实现的,它将scala用作其应用程序框架。与hadoop不同,spark能够和scala紧密集成,使得可以借由scala实现像操作本地集合对象一样轻松地操作分布式数据集。尽管创建spark是为了支持分布式数据集上的迭代作业,但是实际上它是对hadoop的一种补充,在实际使用过程中可以借由第三方集群框架实现spark在hadoop文件系统中的并行运行。由于这两种框架各自存在的优缺点,可以利用apachespark作为进行实时计算的框架、利用mapreduce实现分布式的离线并行计算。因为相比mapreduce,apachespark利用内存存放中间分析结果,分析效率更快、运行时速度更快,因此适用于实时分析,提升态势感知产品的实时检测与响应能力;而在安全事件分析过程中,往往涉及的数据量规模较大,数据涉及的时间范围较长,无法全部加载到内存,因此在没有大量集群的情况下,使用mapreduce更适合。上述中点阐述的两种大数据计算框架只是计算框架而已,还需要在此基础上利用各种分析算法或模型来实现对大数据的分析。具体的,可包括机器学习、关联分析、威胁情报分析、实时攻击分析等,可以根据实际情况下的具体要求、性能限制、分析速度以及特殊要求等综合考虑和选择,此处并不做具体限定。进一步的,由于s102中根据实际情况下数据规模的大小、是否存在一定规模的数据集群以及是否存在超过一定时间的历史数据回溯要求,将文件存储部分简单的分为单机文件系统和分布式文件系统,在采用分布式文件系统时,在本步骤还需要利用资源调度技术对待计算态势数据进行资源调度,以便利用本步骤提供的大数据计算框架进行分析。同时,在对数据量规模较大的原始数据经过本步骤的分析计算后,可以将得到的分析结果也采用s102存储待测态势数据的方式进行分析结果的存储,可以区别于待测态势数据的存储位置,将分析后态势数据单独存放。s104:对分析后态势数据进行整理和存储,得到待显示数据;在s103的基础上,本步骤旨在分析后态势数据进行整理和存储,以便于后续步骤进行数据的可视化处理。换句话说,本步骤目的在于为用户提供分析后态势数据结合原始数据的查询、举证功能,即需要对数据量级较大的原始数据进行检索,一般的搜索框架难以实现,因此可以采用诸如elasticsearch的分布式检索框架来实现。elasticsearch是一个基于lucene(一套用于全文检索和搜寻的开源程式库,它提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻)的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于restfulweb接口,其使用java语言开发,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。当然,还可以选择其它分布式检索框架实现相同或类似的功能,以根据不同分布式检索框架的优缺点结合不同的实际使用情景进行综合考虑和选择,此处并不做具体限定。进一步的,考虑到结合后续进行的数据可视化展示,可以将经过大数据计算框架分析得到的安全事件利用另一数据库进行存储,相比于原始数据的数据规模,根据分析后态势数据得到的安全事件的数据规模已经相对较小,因此不必向原始数据一样存储于hdfs中,可以借由诸如mongodb这样的数据库单独进行存储。mongodb是一个介于关系数据库和非关系数据库之间的产品,支持的数据结构非常松散,因此可以存储比较复杂的数据类型。之所以要将后续进行可视化处理的数据存放进mongodb,是因为它最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。当然,也可以选择其它相同或类似的数据库进行安全事件数据的存放,此处并不做具体限定,可以根据实际情况选择最合适的数据库种类。s105:利用数据可视化工具对待显示数据进行可视化处理,以便利用可视化的态势数据提供相应的服务。在s104的基础上,本步骤旨在实现数据的可视化,通过提供读取存储的分析后数据,将其借由数据可视化工具进行数据的可视化处理,进一步的,还可以提供其它诸如数据共享等方式,对态势感知经过大数据分析后的有效数据进行按需合理利用。其中,经过数据可视化工具处理得到的可以为描述数据参数的可视化图形、分析报表等便于用户进行信息获取的方式。进一步的,还可以对展现出的数据参数进行阈值的设定,并判断可视化的态势数据的参数是否处于正常参数范围内,若否,则通过预设报警路径发送相应的警告信息。其中,预设报警路径的表现形式多种多样,例如预设的邮箱、即时通信工具或通过连接的报警装置发出相应的灯光或声音来提醒管理员。基于上述技术方案,本申请实施例提供的一种数据的态势感知方法,其遵循以大数据为基础进行采集、存储、计算、服务以及显示的设计原则,符合当今企业中大规模数据的安全态势感知要求,可行性高、分析结果更加准确,实际使用效果良好。以下结合图2,图2为本申请实施例所提供的另一种数据的态势感知方法的流程图。其具体包括以下步骤:s201:利用数据探针获取态势数据流量,并执行数据筛选和攻击检测操作,得到待测态势数据;本实施例采用具有数据筛选和攻击检测操作的数据探针对获取到的态势数据流量进行预处理,最终得到待测态势数据。s202:根据预设数据环境参数判断是否存在集群要求和超过第一时间阈值的历史数据回溯分析要求;本步骤旨在结合预设数据环境参数判断是否存在集群要求和超过第一时间阈值的历史数据回溯分析要求,以根据不同的参数要求选用相应的、最合适的文件存储方式。s203:对待测态势数据执行格式转换操作,并将得到的待计算态势数据利用分布式文件系统进行分布式存储;本步骤建立在s202的判断结果为存在集群要求和超过第一时间阈值的历史数据回溯分析要求的基础上,旨在完成格式转化操作的基础上,利用分布式文件系统将待计算态势数据进行分布式存储,以满足大数据存储的实际需要。选优的,可以采用基于hadoop的hdfs实现分布式存储。s204:对待测态势数据执行格式转换操作,并将得到的待计算态势数据利用单机文件系统进行压缩存储;本步骤建立在s202的判断结果为不存在集群要求和超过第一时间阈值的历史数据回溯分析要求的基础上,旨在完成格式转化操作的基础上,利用单机文件系统进行压缩存储即可。优选的,可以利用基于linux操作系统的ext4文件系统(fourthextendedfilesystem,第四代扩展文件系统)和列式数据库引擎对待计算态势数据进行压缩存储。在该组合形成的框架下,可同时支持简单的分布式存储,能弹性的扩充存储容量。s205:将待计算态势数据根据是否需要进行实时计算分为两类,得到待实时计算数据和待离线计算数据;本步骤旨在根据是否需要进行实时计算分为两类,得到待实时计算数据和待离线计算数据。为满足安全分析,部分数据(如攻击行为)需要实时分析以提升检测响应能力,因此划归为待实时计算数据;而部分数据(如攻击意图、安全评估等)需要进行离线回溯、关联分析等,对实时性要求不高,但要求准确,因此划归为待离线计算数据。s206:将待实时计算数据利用实时计算框架结合预设实时计算算法进行数据分析,得到实时分析后态势数据;将待离线计算数据利用离线计算框架结合预设离线计算计算进行数据分析,得到离线分析后态势数据;在s205的基础上,本步骤分别论述了如何根据划分出的两类数据结合相应的计算框架进行计算。其中一个实施例可以为:利用sparksql读取到待实时计算数据,并执行结构化操作,得到结构化数据;利用apachespark计算框架结合预设实时计算算法对结构化数据进行数据分析;其中,sparksql为apachespark计算框架的一个组件,还包括一些其它常用组件。对于待离线计算数据的计算方法,则可以选用更为合适的mapreduce实现分布式的离线并行计算,因为其更加能够满足离线回溯、关联分析的要求,实现更精准度的分析计算。s207:将分析后态势数据通过预设整理模型生成安全事件,并将安全事件独立存储于另一数据库;s208:将分析后态势数据按预设的分布式检索框架进行格式转换得到可索引数据;将可索引数据中的每个字段均编入索引目录以便按索引进行查询,得到待显示数据;s207和s208两步骤则是一种对分析后态势数据进行整理、索引格式转换操作的处理方式,以将安全事件独立存储于另一数据库,防止均存储于同一数据库易发生的严重后果发生。同时,优选的可以利用elasticsearch这一分布式检索框架进行:将分析后态势数据转换为elasticsearch的可识别格式,并将此格式下的每个字段都编入索引,使其可以被elasticsearch搜索到。由于elasticsearch支持集群拓展,能够处理pb(一种数据大小的量级)级别的结构化或非结构化数据,与其它步骤兼容性良好。s209:利用数据可视化工具对待显示数据进行可视化处理;s210:判断可视化的态势数据的参数是否处于正常参数范围内;s211:通过预设报警路径发送相应的警告信息。s209、s210以及s211旨在首先进行数据的可视化处理,并在此基础上,判断可视化的态势数据的参数是否处于正常参数范围内,若否,则通过多种途径实现警告信息的发送,以及时提醒管理人员做出相应的反应。基于上述技术方案,本申请实施例提供的一种数据的态势感知方法,其充分考虑到当今大数据时代的数据规模量,依次对态势数据进行采集、存储、计算、服务以及显示的执行步骤,并结合实际情况的不同,给出相应的解决方案,以良好适应不同情境下的要求,符合当今企业中大规模数据的安全态势感知要求,可行性高、分析结果更加准确,实际使用效果良好。因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。下面请参见图3,图3为本申请实施例所提供的一种数据的态势感知系统的结构框图。该设计系统可以包括:数据采集单元100,用于通过预设路径获取待测态势数据;数据存储单元200,用于对待测态势数据执行格式转换操作,得到并存储待计算态势数据;数据计算单元300于利用大数据计算框架对待计算态势数据进行分析,得到分析后态势数据;数据服务单元400,用于对分析后态势数据进行整理和存储,得到待显示数据;数据显示单元500,用于利用数据可视化工具对待显示数据进行可视化处理,以便利用可视化的态势数据提供相应的服务。其中,数据采集单元100包括:探针获取及处理子单元,用于利用数据探针获取态势数据流量,并执行数据筛选和攻击检测操作,得到待测态势数据。其中,数据存储单元200包括:环境参数判断子单元,用于根据预设数据环境参数判断是否存在集群要求和超过第一时间阈值的历史数据回溯分析要求;分布式存储子单元,用于对待测态势数据执行格式转换操作,并将得到的待计算态势数据利用分布式文件系统进行分布式存储;单机存储子单元,用于对待测态势数据执行格式转换操作,并将得到的待计算态势数据利用单机文件系统进行压缩存储。进一步的,单机存储子单元包括:优选单机存储模块,用于利用基于linux的ext4文件系统和列式数据库引擎对待计算态势数据进行压缩存储。其中,数据计算单元300包括:分类子单元,用于将待计算态势数据根据是否需要进行实时计算分为两类,得到待实时计算数据和待离线计算数据;实时分析子单元,用于将待实时计算数据利用实时计算框架结合预设实时计算算法进行数据分析,得到实时分析后态势数据;离线分析子单元,用于将待离线计算数据利用离线计算框架结合预设离线计算计算进行数据分析,得到离线分析后态势数据。进一步的,实时分析子单元包括:读取及结构化处理模块,用于利用sparksql读取到待实时计算数据,并执行结构化操作,得到结构化数据;apachespark分析模块,用于利用apachespark计算框架结合预设实时计算算法对结构化数据进行数据分析。更进一步的,数据计算单元300还可以包括:资源调度子单元,用于在采用分布式文件系统时,利用资源调度技术对待计算态势数据进行资源调度,以便利用大数据框架进行分析。其中,数据服务单元400包括:安全事件生成及存储子单元,用于将分析后态势数据通过预设整理模型生成安全事件,并将安全事件独立存储于另一数据库;格式转换子单元,用于将分析后态势数据按预设的分布式检索框架进行格式转换,得到可索引数据;索引编入子单元,用于将可索引数据中的每个字段均编入索引目录以便按索引进行查询,得到待显示数据。其中,数据显示单元500包括:阈值判断子单元,用于判断可视化的态势数据的参数是否处于正常参数范围内;警告信息发送子单元,用于通过预设报警路径发送相应的警告信息。以上各单元可以应用于以下的一个具体的实际例子中,并请参见图4,图4为本申请实施例所提供的一种数据的态势感知平台的结构框图:数据流转驱动顺序为自下而上,自上而下依次包括:数据采集层、数据存储层、数据计算层、数据服务层、以及数据显示层,框架中各个分层的工作内容如下所述:数据采集层:该层是基础层,是态势感知产品必备的数据来源。由于业界安全厂商的分析能力不一,对数据采集有一定的筛选和要求,可结合实际情况具体分析。通常的采集设备有:数据探针、传统安全设备、服务器日志,也包括如syslog/snmp(两种日志文件的采集方式)、netflow、httpflow、dnsflow(以上三种为不同层次的数据交换方式)、原始日志、日志还原以及蜜罐信息等。部分探针具备将数据进行筛选和攻击检测能力,输出到上层的为特定形式的内容和基于攻击检测结果的安全日志。数据存储层:旨在将采集的流量、日志等信息经过统一格式的转换,转成可理解的文件数据,并存储在文件系统中,供上层分析。如图4所示,本实施例提供的态势感知平台提供二选一的选型方式来构建数据存储层:具体分为无集群要求和无回溯较长历史数据的分析需求的单机文件系统和与之相反的分布式文件系统。数据计算层:基于大数据计算框架来构建,利用大数据框架的分析能力,对存储在文件系统上的原始可理解数据进行实时分析、离线分析,具体分析方法由“数据分析工具集”(包含各种安全事件分析算法)进行指定。利用大数据的并行计算能力,可以快速的从大量采集的数据中挖掘出有效的安全事件线索,再由“数据分析工具集”进行关联分析整合等合成确认的安全事件。如图4所示,该层可具体分为调度系统、计算框架基础、数据分析工具集,其中:调度系统:只有在存在集群要求、下层为分布式文件系统时,才需要进行资源调度,例如yam和mesos(均为开源分布式资源管理框架)。计算框架基础:为满足安全分析,部分数据(如攻击行为)需要实时分析以提升检测响应能力,而部分数据(如攻击意图、安全评估等)需要进行离线回溯、关联分析等,要求准确但实时性要求不高。因此可分为实时计算和离线计算。实时计算:利用apachespark实现实时计算的框架。数据分析工具中的实时计算算法工具通过指定需要分析的数据类型,用sparksql将数据进行读取并结构化后利用apachespark进行计算分析。相比mapreduce,apachespark分析效率更快、运行时速度更快,因此适用于实时分析,提升态势感知产品的实时检测与响应能力。离线计算:利用mapreduce实现分布式的并行计算。由于安全事件分析过程中,往往涉及的数据量较大,数据涉及的时间范围较长,无法全部加载到内存,在没有大量集群的情况下,使用mapreduce更适合。数据分析工具集:为态势感知产品的分析算法工具,可包括机器学习、关联分析、威胁情报分析、实时攻击分析等。开发人员在开发此类工具时只需从存储层中选定需要分析的数据类型、利用离线或实时计算框架进行处理,并对分析的结果提交到数据存储层进行存储。数据服务层:该层存储数据分析计算后的有效结果,并提供对外服务的接口,需要处理的逻辑包括:(1)整合后的统一格式的原始日志,存入结构化的数据库,用于查询、取证,数据量规模较为庞大;(2)通过“数据分析工具集”的安全事件分析工具检测到的安全事件、关联风险等。用于上层及时的展示和读取。数据量与采集的原始数据量相比,为数据量规模较小。由于需要对数据量级较大的原始数据进行检索,一般的搜索框架难以实现,因此本方案以elasticsearch的分布式检索框架去实现,elasticsearch具备如下优点:(1)分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索。因此只需将原始数据转为elasticsearch要求下的方式,即可被全文搜索;(2)支持集群扩展,处理pb级别的结构化或非结构化数据。因此当启用集群支持时,elasticsearch亦能使用。进一步的,由于后续步骤还需要将已分析后的安全事件进行有效、及时的可视化展示,而这些数据是从原始数据中挖掘出来的小数量级数据,因此还可以采用mongodb数据库进行独立存储。数据可视层:该层主要目的为数据可视,通过提供读取分析数据存储层所存储的数据,将其通过可视化能力进行可视,或提供其他如数据共享等方式,对态势感知经过大数据分析后的有效数据进行按需合理利用,即基于分析后的有效数据提供各种服务。在如上述的整体框架搭建完成后,基于大数据计算的框架已无需再改变,因此开发人员在该框架上开发态势感知平台时只需关注以下模块的开发即可,减少冗余度和耦合度:(1)数据采集:采集需要的数据,无需考虑数据存储层、计算层等,交由框架处理;(2)数据分析工具集:开发安全数据分析能力的工具只需考虑读取的数据类型、具体选用的数据计算框架以及数据分析后的存储方式即可,如将分析的安全事件存入mongodb,将作为举证的原始日志转换elasticsearch需要的格式;(3)数据可视化:只需利用数据服务层提供的接口,对mongodb里的安全数据进行查询展示,对有需要进行举证、查询原始日志的直接使用快速检索。基于上述实施例,本申请还提供了一种数据的态势感知平台,该平台可以包括存储器和处理器,其中,该存储器中存有计算机程序,该处理器调用该存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然,该平台还可以包括各种必要的网络接口、电源以及其它零部件等。本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本
技术领域
:的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1