一种海量日志关联分析方法及系统的制作方法

文档序号:7927650阅读:202来源:国知局
专利名称:一种海量日志关联分析方法及系统的制作方法
技术领域
本发明涉及信息安全领域,具体涉及一种海量日志关联分析方法及系统。
背景技术
Internet的飞速发展,为信息的传播和利用带来了极大的方便,同时也使人类 社会面临着信息安全的巨大挑战。为了缓解日益严重的安全问题,入侵检测设备(IDS: Intrusion Detection System)得到了越来越广泛的部署。IDS安装在被保护的网段中,其 监听网卡工作在混杂模式下,分析网段中所有的数据包,进行网络安全事件的实时检测和 响应。目前IDS普遍采用误用检测技术,其检测方法为首先对标识特定的入侵行为模式进 行编码,建立误用模式库,然后对实际检测过程中得到的事件数据进行过滤,检查是否包含 入侵行为的标识。如果检测到入侵行为,则产生一条对应的日志,其中包含了入侵行为发起 方地址(源地址)、入侵行为目标地址(目的地址)、入侵行为描述(事件类型)等信息。
入侵检测设备的大量引入一方面保护了信息系统的安全,另一方面也带来了新的 问题,概况起来主要体现在以下两个方面 1.连续运行的入侵检测设备会产生海量的日志,而真正有价值的报警信息被淹没 在海量日志中。由于报警量大、不相关报警多,安全管理人员的大部分精力被耗费在处理无 用信息上,很难了解系统的安全威胁状况。 2.现有的入侵检测设备大都是基于单个数据包进行检测的,体现在表现形式上, 入侵检测设备的报警信息为孤立的入侵事件。这样当出现大规模网络异常行为时,很难从 报警信息中直观获取异常行为的特点,难以从整体上评估当前的网络安全状况。

发明内容
本发明的目的在于克服现有技术中的上述缺陷,实现对海量日志的自动分析,给 出对当前网络安全状况的评价,以提高安全管理的效率。 根据本发明的目的,本发明提供了一种海量日志关联分析方法,其特征在于,该方 法包括以下步骤 A.用于进行熵检测的步骤读取所述入侵检测设备日志,计算所述入侵检测设备 日志的源地址和目的地址的熵分布值,判断是否存在大规模的网络安全事件,并输出判断 结果; B.用于进行三元组检测的步骤读取所述入侵检测设备日志,根据源地址、目的 地址、事件类型三个参数,对所述入侵检测设备日志进行归并,检测并报告异常地址或热点 事件,并输出检测结果; C.用于进行热点事件传播展示的步骤读取所述入侵检测设备日志,统计并展示 热点事件在指定时间段内的传播过程,并输出统计结果; D.用于进行综合关联分析的步骤根据上述三个步骤输出的判断结果、检测结 果、统计结果进行关联分析,给出当前网络安全状况的评价。
根据该方法,所述步骤A中利用指数加权移动平均算法检测所述入侵检测设备日志的源地址和目的地址的熵分布值,还更进一步地进行地址分布异常判断,具体包括以下步骤 Al.学习阶段根据设定的学习周期,建立源地址熵值、目的地址熵值的基线,所述基线包括所述熵值的正常值和波动范围; A2.实时检测阶段根据学习阶段建立的源地址熵、目的地址熵的基线,判断当前源地址熵值、目的地址熵值是否正常,从而判断所述入侵检测设备日志的地址分布是否异常,并根据当前的地址熵值动态更新基线。
根据该方法,所述步骤B对所述入侵检测设备日志进行归并后,检测并报告与源
地址、目的地址、事件类型三个参数相关的事件集合。优选地,出现7种攻击情况 Bl.单一方式攻击源地址、目的地址、事件类型均相同的事件集合; B2.多种方式攻击源地址、目的地址相同,事件类型任意的事件集合; B3.查找攻击目标源地址、事件类型相同,目的地址任意的事件集合; B4.遭受同种攻击目的地址、事件类型相同,源地址任意的事件集合; B5.主要攻击来源源地址相同,目的地址、事件类型任意的事件集合; B6.濒危受害目标目的地址相同,源地址、事件类型任意的事件集合; B7.热点事件排名事件类型相同,源地址、目的地址任意的事件集合。 根据该方法,所述步骤C中还包括根据步骤B中检测出并报告的热点事件中获取
当前热点事件,然后以分钟为单位,计算出指定时间段内发出过这些事件的源地址的数量。 根据该方法,所述步骤C中进行展示的方式为图形显示。 根据该方法,所述步骤D给出当前网络安全状况的评价的内容包括源IP地址分布状况、目的IP地址分布状况、当前最活跃的攻击情况、当前的热点事件以及热点事件在过去一个设定时间段的传播过程。 本发明还提供了一种海量日志关联分析系统,通过获取海量的入侵检测设备日
志,对所述入侵检测设备日志进行关联分析,其特征在于,该系统包括熵模块单元、三元组模块单元、热点事件传播展示模块单元、综合关联分析模块单元;其中 所述熵模块单元读取所述入侵检测设备日志,计算源地址和目的地址的熵分布值,判断是否存在大规模网络安全事件,并将判断结果输出给所述综合关联分析模块单元; 所述三元组模块单元读取入侵检测设备的日志,根据源地址、目的地址、事件类型三个参数,对所述入侵检测设备日志进行归并,检测并报告异常地址或热点事件,并将检测结果输出给所述综合关联分析模块单元; 所述热点事件传播展示模块单元读取入侵检测设备的日志,统计并展示热点事件
在指定时间段内的传播过程,并将统计结果输出给所述综合关联分析模块单元; 所述综合关联分析模块单元接收上述三个模块单元输出的判断结果、检测结果、
统计结果,并对这些结果进行关联分析,给出当前网络安全状况的评价。 根据该系统,所述热点事件传播展示模块单元进行展示的方式为图形显示。 根据该系统,所述综合关联分析模块单元给出当前网络安全状况的评价的内容包
括源IP地址分布状况、目的IP地址分布状况、当前最活跃的攻击情况、当前的热点事件以及热点事件在过去一个设定时间段的传播过程。 根据该系统,所述三元组模块单元将其检测结果同时输出到所述热点事件传播展 示模块单元,所述热点事件传播展示模块单元接收到所述检测结果之后,获得当前的热点
事件在指定时间段内的传播过程。 本发明的海量日志关联分析方法和系统具有以下优点 1、通过计算入侵检测设备日志的源地址和目的地址的熵分布值,能够检测出引起
地址分布异常的大规模网络安全事件,如网络扫描、分布式拒绝服务攻击等。 2、根据源地址、目的地址、事件类型三个参数进行归并,能够检测出多种攻击情
况,能够在发生大规模网络安全事件时能够检测出攻击源、攻击目标和事件类型。 3、通过观测和展示热点事件的传播过程,便于网络管理员判断该热点事件的发展
趋势,从而制定出合理的应对措施。 为了进一步说明本发明的原理及特性,以下结合附图和具体实施方式
对本发明进 行详细说明。


图1是按照本发明一个实施方式的海量日志关联分析系统的结构示意图;
图2是按照本发明一个实施方式的检测地址熵分布值的示意流程图。
具体实施例方式
下面结合附图详细描述本发明的具体实施方式
。 图1是按照本发明一个实施方式的海量日志关联分析系统的结构示意图。在按照 该实施方式的海量日志关联分析系统100中,包括熵模块单元101、三元组模块单元102、热 点事件传播展示模块单元103、综合关联分析模块单元104。 熵模块单元101用于读取一个指定时间段内的入侵检测设备日志,然后计算入侵
检测设备日志的源地址和目的地址的熵分布值,判断是否存在大规模网络安全事件,然后
向综合关联分析模块单元104输出当前网络安全事件地址分布状况的判断结果。 三元组模块单元102用于读取一个时间段内的入侵检测设备日志,分别根据入侵
检测设备日志的源地址、目的地址、事件类型对入侵检测设备日志进行归并,从而检测并报
告异常地址、热点事件,并向综合关联分析模块单元104输出统计结果。 热点事件传播展示模块单元103用于从三元组模块单元102中获取当前的热点
事件,计算出指定时间段内发出过这些事件的源地址的数量,向综合关联分析模块单元104
输出统计结果,同时展示热点事件在该时间段内的传播过程。优选地,上述指定时间段以分
钟为单位,上述统计结果是发出热点事件的源IP地址的数量。优选地,上述展示过程采用
图形方式进行显示。 综合关联分析模块单元104用于分别接收来自熵模块单元101、三元组模块单元 102、热点事件传播展示模块单元103的输出结果、检测结果和统计结果,并对这些接收到 的结果进行关联分析。优选地,综合关联分析模块单元104对网络安全状况进行综合评价 的内容包括但不局限于源IP地址分布状况、目的IP地址分布状况、当前最活跃的攻击情 况、当前的热点事件以及热点事件在过去一个设定时间段内的传播过程。
6
按照本发明的一个实施方式,三元组模块单元103向综合关联分析模块单元104 输出的统计结果包括以下7种攻击情况 1、单一方式攻击源地址、目的地址、事件类型均相同的事件集合; 2、多种方式攻击源地址、目的地址相同,事件类型任意的事件集合; 3、查找攻击目标源地址、事件类型相同,目的地址任意的事件集合; 4、遭受同种攻击目的地址、事件类型相同,源地址任意的事件集合; 5、主要攻击来源源地址相同,目的地址、事件类型任意的事件集合; 6、濒危受害目标目的地址相同,源地址、事件类型任意的事件集合; 7、热点事件排名事件类型相同,源地址、目的地址任意的事件集合。 更进一步地,按照本发明的一个实施方式,假设三元组模块单元103设置成获取
每种攻击中排名最高的攻击情况,则如果某个检测周期内入侵检测设备共检测到以下攻击
事件 1.主机192. 168. 0. 1对主机192. 168. 1. 1实施了 50次"SYN—FL00D拒绝服务攻 击"; 2.主机192. 168. 0. 2对主机192. 168. 1. 2实施了 10次"FTP 口令猜测攻击";
3.主机192. 168. 0. 3对主机192. 168. 1. 1 192. 168. 1. 100共100台主机各进行 了一次"HTTP端口扫描攻击"; 4.主机192. 168. 0. 1对主机192. 168. 1. 1实施了 30次"MS—LSA—远程缓冲区溢出 漏洞利用攻击"; 5.主机192. 168. 0. 4对主机192. 168. 1. 1实施了 40次"SYN—FL00D拒绝服务攻 击"; 那么,三元组模块单元103检测出并报告的攻击情况为 单一方式攻击源地址192. 168. 0. 1,目的地址192. 168. 1. 1,事件类型:SYN— FLOOD拒绝服务攻击,事件次数50 ; 多种方式攻击源地址192. 168. 0. 1,目的地址192. 168. 1. l,事件次数80 ;
查找攻击目标源地址192. 168. 0. 3,事件类型HTTP端口扫描攻击,事件次数 100 ; 遭受同种攻击目的地址192. 168. 1. 1,事件类型SYN_FL00D拒绝服务攻击,事
件次数90 ; 主要攻击来源源地址192. 168. 0. 3,事件次数:100 ; 濒危受害目标目的地址192. 168. 1. l,事件次数:121 ; 热点事件排名事件类型HTTP端口扫描攻击,事件次数100。 图2是按照本发明一个实施方式检测源地址、目标地址熵分布值的示意流程图。
该流程从步骤201开始。 步骤201 :读取熵检测配置参数信息,并且将当前的地址熵检测阶段设置为学习 阶段。 步骤202 :查询当前观测周期内,入侵检测设备报告的所有日志。 步骤203 :对入侵检测设备上报的所有日志进行统计,统计出日志中所有的源IP
地址、目的IP地址的出现次数。在统计的时候利用哈希(Hash)算法将源IP地址、目的IP地址映射为整数。优选地,源IP地址、目的IP地址为32位的IPv4地址,在统计的时候利
用Hash(哈希)算法将这些32位的IPv4地址映射为16位的整数。
步骤204 :计算源IP地址、目的IP地址熵分布H。优选的计算方法为
<formula>formula see original document page 8</formula> =<formula>formula see original document page 8</formula>
其中,
&是经过Hash运算后的IP地址i出现的次数,
65535 S是当前观测周期内总的IP地址数量,<formula>formula see original document page 8</formula> 当然,本领域的技术人员应该理解,计算熵分布的算法也可以采用现有技术中任 何适当的熵分布算法。 步骤205:判断当前的熵检测阶段是否处于学习阶段,如果判断结果为"是",则进 入步骤206,否则进入步骤209。
步骤206 :计算估计误差并更新误差队列。具体包括计算源地址的熵估计误 差、目的地址的熵估计误差,并将上述估计误差都加入到误差队列中。优选地,计算源地 址的熵估计误差、目的地址的熵估计误差的优选算法是采用指数加权移动平均数(EWMA, Exponentially Weighted Moving Average)算法,具体的优选计算方法为
Si = a Xi—一(l-a )S卜!
ei = x「Si
其中, Si是第i期地址熵平滑值; a是平滑系数,取值范围为(0, 1),根据从步骤201读取的配置参数信息中得到;
Xi是第i期地址熵计算值,由步骤204中的计算结果得到;
ei是第i期估计误差。 当然,本领域的技术人员应该理解,计算熵估计误差的算法也可以采用现有技术 中任何适当的移动平均算法。 步骤207 :判断误差队列是否已满。具体包括根据从步骤201读取的熵检测配置 参数信息中得到的队列长度参数,判断误差队列的长度是否满足队列长度参数要求,如果 判断结果为"是",则进入步骤208,否则进入步骤202。 步骤208 :计算地址熵的基线并进入到实时检测阶段。具体包括计算源地址熵、 目的地址熵的基线,并将当前的地址熵检测阶段设为实时检测阶段,然后进入步骤202。计 算上述基线的优选计算方法为 (1)根据误差序列计算平均平方误差o :<formula>formula see original document page 8</formula><formula>formula see original document page 8</formula> (2)根据EWMA算法,计算下一个观测周期的地址熵的预测值
Sn= a Xn—一(l-a )Sn—!
步骤209 :判断当前源IP地址熵、目的IP地址熵分布是否正常,如果判断结果为 "是",则进入步骤210,否则进入步骤211 。
具体的判断方法为计算地址熵预测值Sn与计算值之间的差值
(1)如果I Sn_Xn I < 3 o ,则当前的地址熵分布正常;
(2)如果3 。《I Sn_xn| < 5 。,则当前的地址熵分布轻度异常;
(3)如果5 。《I Sn_xn| < 8 。,则当前的地址熵分布中度异常;
(4)如果|Sn_xn| >8o :则当前的地址熵分布高度异常。 步骤210 :输出当前地址熵状态并更新基线。更新基线的具体方式是删去误差队 列中的第一个元素,将步骤209中的估计误差加入到误差队列的末尾,利用步骤208的方法 重新计算基线。然后进入步骤202。 步骤211 :输出当前地址熵检测状态,然后进入步骤202。 以下按照本发明一个实施方式详细描述进行一次海量日志关联分析的过程。假设某个网段有192. 168. 0. 1 192. 168. 0. 100共100台主机,某个时刻攻击者
利用这100台主机,向另外一台主机192. 168. 1. 1发起了 SYN_FLOOD拒绝服务攻击。为了
避免引起网络流量突变,攻击者每分钟添加10台主机进行攻击,10分钟后100台主机都被
用来进行攻击。 那么,按照本发明一个实施方式的海量日志关联分析系统对该次攻击的分析过程 为 1.由于所有的发起的攻击都是针对主机192. 168. 1. 1的,在入侵检测设备产生的 日志中,目的地址的分布状态非常明显。因此熵模块单元101首先会检测到出现了异常,并 按照上述地址熵检测流程,更进一步地得到该网段内所针对的目标地址都是192. 168. 1. 1。 然后,熵模块单元101将地址熵分布异常、目的地址集中为192. 168. 1. 1的判断结果送到综 合关联分析模块单元104。 2.三元组模块单元102通过从源地址、目的地址、事件类型三个参数进行归并,得 出当前最常见的攻击情况是目标为192. 168. 1. 1的主机,受到类型为SYN—FLOOD拒绝服务 的攻击,当前最活跃的攻击事件为SYN_FLOOD拒绝服务攻击,并将检测结果送到综合关联 分析模块单元104。 3.热点事件传播模块单元103统计后得出这10分钟内,发出SYN_FLOOD拒绝服务 攻击的主机次数在逐渐增加,并将统计结果送到综合关联分析模块单元104。
4.综合关联分析模块单元104接收并关联分析熵模块单元101、三元组模块单元 102、热点事件传播展示模块单元103输出的结果,从而得出网络安全状况的综合评价由 于地址熵分布异常,且目的地址都集中在主机192. 168. 1. 1上,因此发生了针对该主机的 拒绝服务攻击;攻击的类型为SYN_FLOOD拒绝服务攻击;攻击过程为从起始时刻起,每分钟 增加10台主机进行攻击,直至攻击源总数为100台主机。 虽然以上描述了本发明的多个具体实施方式
,但是本领域的技术人员应当理解, 这些具体实施方式
仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况 下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述模块单元和/ 或方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于 本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
权利要求
一种海量日志关联分析方法,通过获取海量的入侵检测设备日志,对所述入侵检测设备日志进行关联分析,其特征在于,该方法包括以下步骤A.用于进行熵检测的步骤读取所述入侵检测设备日志,计算所述入侵检测设备日志的源地址和目的地址的熵分布值,判断是否存在大规模的网络安全事件,并输出判断结果;B.用于进行三元组检测的步骤读取所述入侵检测设备日志,根据源地址、目的地址、事件类型三个参数,对所述入侵检测设备日志进行归并,检测并报告异常地址或热点事件,并输出检测结果;C.用于进行热点事件传播展示的步骤读取所述入侵检测设备日志,统计并展示热点事件在指定时间段内的传播过程,并输出统计结果;D.用于进行综合关联分析的步骤根据上述三个步骤输出的判断结果、检测结果、统计结果进行关联分析,给出当前网络安全状况的评价。
2. 根据权利要求1所述的一种海量日志关联分析方法,其特征在于,所述步骤A中利用指数加权移动平均算法检测所述入侵检测设备日志的源地址和目的地址的熵分布值,而且更进一步地进行地址分布异常判断,具体包括以下步骤Al.学习阶段根据设定的学习周期,建立源地址熵值、目的地址熵值的基线,所述基线包括所述源地址熵值、目的地址熵值的正常值和波动范围;A2.实时检测阶段根据学习阶段建立的源地址熵、目的地址熵的基线,判断当前的源地址熵值、目的地址熵值是否正常,从而判断所述入侵检测设备日志的地址分布是否异常,并根据当前的地址熵值动态更新基线。
3. 根据权利要求1所述的一种海量日志关联分析方法,其特征在于,所述步骤B对所述入侵检测设备日志进行归并后,检测并报告与源地址、目的地址、事件类型三个参数相关的事件集合。
4. 根据权利要求1所述的一种海量日志关联分析方法,其特征在于,所述步骤C中还包括根据步骤B中检测并报告的热点事件中获取当前热点事件,然后以分钟为单位,计算出指定时间段内发出过这些事件的源地址的数量。
5. 根据权利要求1或4所述的一种海量日志关联分析方法,其特征在于,所述步骤C中进行展示的方式为图形显示。
6. 根据权利要求1所述的一种海量日志关联分析方法,其特征在于,所述步骤D给出当前网络安全状况的评价的内容包括源IP地址分布状况、目的IP地址分布状况、当前最活跃的攻击情况、当前的热点事件以及热点事件在指定时间段内的传播过程。
7. —种海量日志关联分析系统,通过获取海量的入侵检测设备日志,对所述入侵检测设备日志进行关联分析,其特征在于,该系统包括熵模块单元、三元组模块单元、热点事件传播展示模块单元、综合关联分析模块单元;其中所述熵模块单元读取所述入侵检测设备日志,计算源地址和目的地址的熵分布值,判断是否存在大规模网络安全事件,并将判断结果输出给所述综合关联分析模块单元;所述三元组模块单元读取入侵检测设备的日志,根据源地址、目的地址、事件类型三个参数,对所述入侵检测设备日志进行归并,检测并报告异常地址或热点事件,并将检测结果输出给所述综合关联分析模块单元;所述热点事件传播展示模块单元读取入侵检测设备的日志,统计并展示热点事件在指 定时间段内的传播过程,并将统计结果输出给所述综合关联分析模块单元;所述综合关联分析模块单元接收上述三个模块单元输出的判断结果、检测结果、统计 结果,并对这些结果进行关联分析,给出当前网络安全状况的评价。
8. 根据权利要求7所述的一种海量日志关联分析系统,其特征在于,所述热点事件传 播展示模块单元进行展示的方式为图形显示。
9. 根据权利要求7所述的一种海量日志关联分析系统,其特征在于,所述综合关联分 析模块单元给出当前网络安全状况的评价的内容包括源IP地址分布状况、目的IP地址分布状况、当前最活跃的攻击情况、当前的热点事件以及热点事件在指定时间段内的传播过 程。
10. 根据权利要求7所述的一种海量日志关联分析系统,其特征在于,所述三元组模块 单元将其检测结果同时输出到所述热点事件传播展示模块单元,所述热点事件传播展示模 块单元接收到所述检测结果之后,获得当前的热点事件在指定时间段内的传播过程。
全文摘要
本发明公开了一种海量日志关联分析方法和系统,实现了根据入侵检测设备产生的海量日志,评估当前网络安全状况,并描述当前最应关注的攻击情况。所述方法包括获取入侵检测设备的日志,通过计算入侵检测设备日志源地址和目的地址的分布状况,判断是否存在大规模网络安全事件;根据源地址、目的地址、事件类型三个参数上对入侵检测设备日志进行归并,检测出并报告异常地址、热点事件;统计并通过图形展示热点事件在指定时间段内的传播过程;对上述输出结果进行关联,给出当前网络安全状况的综合评价。所述系统包括熵模块单元、三元组模块单元、热点事件传播展示模块单元、综合关联分析模块单元。
文档编号H04L12/26GK101741633SQ20081022591
公开日2010年6月16日 申请日期2008年11月6日 优先权日2008年11月6日
发明者力立, 吴恩平, 周涛, 林宝晶, 郝春光 申请人:北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司;上海市计算机病毒防范服务中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1