一种基于信息熵方差分析的异常流量检测方法

文档序号:10492219阅读:403来源:国知局
一种基于信息熵方差分析的异常流量检测方法
【专利摘要】本发明公开了一种基于信息熵方差分析的异常流量检测方法,本发明基于拥有大量的互联网用户访问日志,系统对采集到的数据经加工处理后,通过大数据挖掘、关联与统计分析,快速识别并记录攻击行为或异常行为,形成入侵攻击报警信息数据,通过相关入侵攻击数据分析来构建完整的攻击路径,从而实现入侵追踪定位目标任务。同时,该发明能实现事后行为追踪和用户访问行为机器学习,降低系统误报率且提出了网络流量的可测度集,描绘了一个正常网络流量的基线,为异常检测提供了参照。
【专利说明】
-种基于信息滴方差分析的异常流量检测方法
技术领域
[0001] 本发明属于信息领域,尤其设及一种基于信息赌方差分析的异常流量检测方法。
【背景技术】
[0002] 名词解释;
[0003] DDoS:分布式拒绝服务化DoS = Distributed Denial of Service)攻击指借助于客 户/服务器技术,将多个计算机联合起来作为攻击平台,对一个或多个目标发动DDoS攻击。
[0004] CC: (Challenge Collapsar)攻击者借助代理服务器生成指向受害主机的合法请 求,实现DDOS,和伪装。
[0005] CNNIC:中国互联网络信息中屯、(Qiina Internet 化twork Information Center, 简称C順IC)。
[0006] TCP:TCP(Transmission Control Protocol传输控制协议)是一种面向连接的、可 靠的、基于字节流的传输层通信协议,由IETF的RFC 793定义。
[0007] 随着Internet迅猛的发展W及网络社会的到来,网络与人们的日常生活的关系越 来越密切。但Internet是一把双刃剑,它给我们泰来便利的同时,也给我们带来了诸多问 题。在众多的问题当中,网络安全是首要问题。目前网络入侵的频率越来越高,入侵的危害 性也越来越大,尤其是消耗网络资源的入侵行为愈演愈烈。而网络带宽作为一种宝贵的资 源,直接影响到人们访问网络的质量。因此,如何保证带宽资源的有效利用,及时发现和防 御恶意消耗网络带宽的行为是一个重要的研究方向。
[000引DDoS攻击是一种常见的网络攻击方式,DDoS攻击最明显的特征就是流量的大幅度 增加,基于流量变化检测DDoS也是最常见的方法。与最常见的基于单链路流量检测DDoS攻 击相比,基于全网流量变化检测DDoS攻击,能有效降低网络流量波动导致的检测误差。罗华 等人提出了基于网络全局流量异常特征,检测DDoS攻击的方法,通过对全网或运营商网络 中的OD (or i g i n-de S t ina t i on)对(或流,或者节点)之间的流量进行测量,构建网络流量矩 阵,基于链路中攻击流的相关性,将流量矩阵分解为异常流量空间和正常流量空间,利用异 常流量的相关特征检测出攻击。
[0009] Oien等人采用CAT(change-aggregation tree)机制对流经同一个ISP网络中的路 由器流量进行协同分析,根据路由器每个接口的流量分布情况发现流量异常,流量异常报 警信号发送给CAT构建服务器,由CAT构建服务器对报警信号进行协同分析融合处理,实现 对攻击的快速、准确识别。
[0010] TCP协议承载了互联网中的大部分业务,并且TCP协议规定数据接收方需向数据发 送方进行传输确认,因而某一网络节点或某一网段的TCP数据包数量比例在统计意义上是 稳定,如果该比例值发生较大的变化,则认为发生了 DDoS攻击.通过统计计算各子网的进出 TCP包数比例,可W发现被攻击子网地址。
[0011] 在骨干网层面检测DDoS攻击一直是研究的难点。Yuan等人提出了采用Cross-Correlation和Weight Vector方法分析骨干网节点流量,检测孤oS攻击的方法。此方法能 够有效检测多种攻击,如恒速流量攻击、增速流量攻击、Pulsing攻击或TCP-Target攻击等。
[0012] DDoS攻击发生时,在骨干网层面上及时发现被攻击地址对网络安全应急响应具有 重要意义。基于DDoS攻击会导致流量大幅度增加的特征,Sekar等人提出了一种两级DDoS检 测机制,能够及时发现被攻击地址。采用Snmp测量路由器接口流量,并与历史流量数据进行 比对,能够发现流量的异常变化,然后利用化tf low信息,提取被攻击地址。
[0013] 化rew(pulsing)DDoS利用了TCP协议重传的时间特性,根据TCP重传时间间隔,在 较短时间内高速发送攻击包,消耗攻击目标缓冲区,导致大量TCP包被丢弃。TCP包依据重传 规则,过一定时间后重传数据包,此时,攻击主机再次发送攻击包消耗缓冲区。利用较少的 攻击流量,攻击者即可获得较好的攻击效果,且不易被检测。化en等人提出一种化rew DDoS 攻击的识别机制。该方法对多个路由器流量的协同分析,计算流量采样序列的自相关序列, 并利用傅里叶变换(discrete Fourier transform)将自相关序列转换为频域,由于其低频 域的功率谱密度(power spectrum density)比正常流量要高,因而可W检测到shrew DDoS 攻击。Sun等人也提出了一种分布式的DDoS攻击检测方法,利用动态Time Wa巧ing方法,能 够准确地检测出化rew DDoS攻击。流量异常检测的核屯、是实现流量正常行为的描述,并且 能够实时、快速地对异常进行处。而检测方法可W归结为W下4类:(1)阔值检测方法;(2)统 计检测方法;(3)基于小波的检测方法;(4)面向网络安全的检测方法。
[0014] 但是现有技术具有如下缺点
[0015] 1.目前互联网发展速度极快,成为了大数据的时代,而在互联网中的用户交互数 据量也成本的增加,原有的方法大部分是在对TCP包协议做特征检测的方法识别攻击,而当 数据量成倍增加的时候,运样的方案将无法承载。
[0016] 2.检测方法过于繁琐,攻击识别的实时性响应速度比较慢
[0017] 3.由于DDOS其分布式和欺骗的特点,基于特征匹配的传统检测方法已经难W奏 效。有的算法只能用于检测SYN FLOOD攻击,而对于其他的DoS/DDoS攻击则无法检测;有的 算法运用了网络流量的自相似性特征进行分析;有的则对源IP地址过滤来检测防御DDoS攻 击。每种算法都存在各自的缺陷,需要有一定的先验知识,难于区分突发正常流量。

【发明内容】

[0018] 为解决上述问题,本发明提供了一种基于信息赌方差分析的异常流量检测方法。 本发明通过对五元组信息计算信息赌后,再通过机器学习的方法对流量的异变做出准确判 断,在数据采集方面不需要再对包内容读取检测,省去了大量的计算资源消耗,减小了检测 的内容,提高了大数据量下的异常流量实时检测效率;在异常识别方面,通过对用户访问的 行为学习后作出判断,用客观的数据分析方法代替主观识别,提高了异常检测的准确性。
[0019] 为达到上述技术效果,本发明的技术方案是:
[0020] -种基于信息赌方差分析的异常流量检测方法,包括如下步骤:步骤一)设置置信 区间:通过数据包的包头信息,学习流量在一段时间中的的正常行为,运段时间称为时间窗 口;将每个时间窗口中所得的信息赌值进行积累,形成历史行为可测度集,利用历史行为可 测度集建立正常网络基线;对历史行为可测度集内各时间窗口的信息赌值进行方差分析, 根据中屯、极限定理建立正常网络基线的置信区间;步骤二)统计当前时间窗口的信息赌值, 判断当前时间窗口的信息赌值是否超出置信区间;若处于置信区间则判断网络行为正常, 若超出置信区间则说明发生了异常行为。
[0021] 进一步的改进,所述异常行为为DDoS攻击或DoS攻击。
[0022] 进一步的改进,所述步骤二)中,当前时间窗口的信息赌值超出置信区间时做一个 连续时间段的判断,超过设定的连续时间T,则认为是DDoS攻击或DoS攻击发起,记录第一次 超出置信区间的上界Pi;当连续信息赌值低于Pi,则判断攻击结束。
[0023] 进一步的改进,T = 3分钟。
[0024] 进一步的改进,所述步骤一)中,设置一个固定大小的滑动窗口,滑动窗口内包括 固定数量的时间窗口,根据时间顺序不断删除旧的时间窗口,添加新的时间窗口,通过机器 学习方法不断更新正常网络基线。
[0025] 进一步的改进,所述滑动窗口内包括20个时间窗口。
[00%]进一步的改进,所述数据包的包头信息包括源IP地址、源端口号、目的IP地址、目 的端口号和协议类型。
[0027] 本发明仅需要网络包中的五元组信息,通过对五元组信息计算信息赌后,再通过 机器学习的方法对流量的异变做出准确判断。
[0028] 在数据采集方面不需要再对包内容读取检测,省去了大量的计算资源消耗,减小 了检测的内容,提高了大数据量下的异常流量实时检测效率。
[0029] 在异常识别方面,通过对用户访问的行为学习后作出判断,用客观的数据分析方 法代替主观识别,提高了异常检测的准确性。
[0030] 对于机器学习本发明采用了方差分析的方法。
[0031] 信息赌结合方差分析:
[0032] 采用方差分析建立异常流量检测模型。对流量在时间段上进行切割,可W学习到 流量在一段时间中的的正常行为,运段时间称为时间窗口,运个时间窗口可W根据实际机 器学习后的结果进行调整大小,W便能得到更准确的结果。
[0033] 将每个时间段中所得的信息赌值进行积累,在积累了一定数量的测度统计内容后 就形成了历史行为可测度集。利用运些流量历史行为,建立过去一段时间内的正常网络基 线。在系统运行时,统计当前流量行为可测度集,并同正常的网络基线相比较,如果当前流 量行为与正常网络基线出现明显的偏离时,即认为出现了异常行为,并可进一步检测分析; 如果两种行为没有明显偏差,则流量正常,更新正常网络流量模型。
[0034] 在流量发生异常的时候,发生时所在的时间段计算的信息赌值会与学习到的正常 流量有很大的变化。根据中屯、极限定理,认为随机变量序列部分和分布渐近于正态分布,因 此,通过对信息赌值的标准差计算正态分布值,得到了置信区间,作为判断是否异常的依 据。
[0035] 通过方差分析,判断超出置信区间范围的时间点为攻击发起时间。单独采用置信 区间去判断异常,也会出现比较多的误判。所W需要对业务进行特征分析,对于常见的攻击 发生时,会是连续持续的攻击,从数据中的表现来看,攻击的连接数是比较平稳和持续的, 所W对超出置信区间时做一个连续时间段的判断,超过设定的连续时间T,则认为是攻击发 起,记录第一次超出置信区间的上界Pi;当连续信息赌值低于Pi,则判断攻击结束。通过运种 方法可W准确的识别攻击的开始和结束。
[0036] 本发明能在大数据环境下,快速准确的发现网站/服务器是否正在收到攻击。通过 在因特网上统计数据包头的一些信息。通过在核屯、路由器上或提供服务的服务器的监视 器,监视到达数据包的源IP地址、源端口号、目的IP地址、目的端口号、协议类型运些五元组 信息(数据包的包头信息),然后统计单位时间内的连接信息赌运个统计量,通过更进一步 计算赌值分布,来测量运个赌值分布的随机性。如果出现一个较大的阶跃,就认为可能预示 着一个异常流量的攻击。
[0037] 运种方法只需要获取每个数据包的包头信息,而不用检测分析包内容,结合大数 据统计分析手段,能在短时间内分析检测大量的用户连接,通过统计算法分析出目的IP是 否受到攻击。
[0038] 本发明基于拥有大量的互联网用户访问日志,系统对采集到的数据经加工处理 后,通过大数据挖掘、关联与统计分析,快速识别并记录攻击行为或异常行为,形成入侵攻 击报警信息数据,通过相关入侵攻击数据分析来构建完整的攻击路径,从而实现入侵追踪 定位目标任务。同时,该发明能实现事后行为追踪和用户访问行为机器学习,降低系统误报 率。
[0039] 本发明提出了网络流量的可测度集,描绘了一个正常网络流量的基线,为异常检 测提供了参照。
【附图说明】
[0040] 图1为本发明的流程示意图;
[0041] 图2为信息赌值超出置信区间的示意图。
【具体实施方式】
[0042] W下通过【具体实施方式】并且结合附图对本发明的技术方案作具体说明。
[0043] 实施例1
[0044] 基于信息赌方差分析的异常流量检测方法的具体步骤如图1所示。
[0045] 基于流量行为特征的骨干网络异常流量检测与异常流识别方法包括四个步骤:流 量行为特征提取,异常时间点确定,异常目的IP确定W及异常流提取与攻击判定。具体流程 如下:
[0046] (1).从网络设备中获取原始数据,并从中提取出流量行为特征;
[0047] (2).对粗粒度的流量行为特征参数进行处理,确定异常行为发生的时间点;
[0048] (3).分析异常行为发生的时间点流量最大的N个目的IP在历史时间窗内所构成子 流的细粒度流量参数,判定异常目的IP
[0049] (4).找出历史时间窗内与异常目的IP对应的源IP并提取出相关异常流,综合分析 异常流的行为特征参数在异常时间点的变化,判断引起该异常流的异常行为是否为DoS攻 击或者DDoS攻击。
[0050] 1、信息赌计算
[00川信息赌:信息论之父C.E. Shannon在1948年发表的论文"通信的数学理论(A Mathematical HieoiT of Communication)"中,Shannon指出,任何信息都存在冗余,冗余 大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。
[0052] Shannon借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为"信息 赌",并给出了计算信息赌的数学表达式。
[0化3]
[0054]通过分析网络流连接信息赌时间序列,运用统计特征的方法,实现异常连接的识 另IJ,也能有效的区分正常的流量增加与异常攻击所导致的流量增加,对于固定IP、端口号随 机变化的DDoS有比较好的检测效果 [0化日]2、建立正常流量模型
[0056]要进行流量异常检测,首先建立正常的网络流量模型,然后对比正常模型能够识 别异常。通过信息赌的计算,我们将网络中的访问连接进行量化,利用网络连接的历史行为 检测当前异常活动和网络性能的下降。因此正常流量模型的建立需要把反映网络流量的各 项指标都体现出来,使其能够准确反映网络活动。
[0化7] 定义1R={P1'''.P2…..Pi……門}为1?网络连接数集合,其中数据元素为=元组 形式,即Pi = (Si ,Di ,Porti),其中,Si,Di ,Porti分别表示数据包i的源IP地址、目前IP地 址、目的端口号。若P1-,.P2…門的源、目的IP地址及目的端口好均相同,则称其为一组相 关数据,称集合R为相关数据集合。相关数据集合内元数据个数至少为1。
[0化引定义2假设单位时间网络连接数内的数据集合为P= {P1,P2,……PM},其内相关数 据集合为Q= {Q1,Q2,….QN},I Qi I表示集合Qj中连接数;对集合Q中相同IQ3 I的连接数再 次聚集,得到集合D= {D1,….Di,……DkK其中,Di表示有i个数据彼此相似的集合。
[0059] 定义3时间间隔A t内相关连接数Xi出现的频率近似为该Xi的出现概率P (Xi ),所W 某段连续根女流的信烏備(FCE):
[0060]
[0061] 其中,P(Xi)为数据包Xi在时间间隔At内出现的概率。
[0062] 在积累了一定数量的测度统计内容后就形成了历史行为可测度集。利用运些流量 历史行为,我们建立过去一段时间内的正常网络基线。在系统运行时,统计当前流量行为可 测度集,并同正常的网络基线相比较,如果当前流量行为与正常网络基线出现明显的偏离 时,即认为出现了异常行为,并可进一步检测分析;如果两种行为没有明显偏差,则流量正 常,更新正常网络流量模型。
[0063] 3、方差分析
[0064] 方差与标准差是测量离中趋势的最常用和最重要的量。总体方差是一组资料中各 数值与其算术平均数离差平方和的平均数。通常用S 2表示。总体标准差则是总体方差的平 方根,用S表示。从方差与标准差的定义和计算公式,看到它与平均差同样都是W离差来反 映一组数据的差异程度的,所不同在于对离差的处理方式不同,方差和标准差是通过对离 差进行平方来避免正负离差的项目抵消,运使得它不仅能够考虑所有数据的情况来可W反 映数据离散程度大小,而且避免了绝对值计算,运就使得方差成为最重要的离中趋势测度 量。样本方差是一组资料中各数值与其算术平均数离差平方和的平均数。通常用S 2表示。样 本标准差则是样本方差的平方根,用S表示。
[0065] 中屯、极限定理认为,无论研究的统计总体服从什么样的分布,样本平均值的分布 接近一个正态分布,正态分布的均值等于总体分布的均值,标准偏差等于总体分布的标准 变差除W样本大小的平方根。
[0066] 设被测量统计量为X,该统计量前n个单位时间内平均抽样为XI,X2,……,则该统计 量的样本均值为
[0067]
[0068] 标准方差是测量数据的偏差,如果数据离平均值近,则置信区间较窄,对于n个数 据值,样本标准差对总体标准差的无偏估计定义为:
[0069]
[0070] 对于每个测度,只需要维护3个值:样本均值、样本累加和、样本平方累加和。样本 均值和标准差
[0071]
[0072] 能为流量特性的总体值构造一个置信区间(如:平均吞吐量)。样本均值的标准偏 差如果从相同的流量中重复选择样本,并计算每个样本的均值,则运个统计量表明期望的 变化量。中屯、极限定理对称对于大于n的样本,其均值服从均值等于流量总体的均值,标准 差为ScT。的正态分布。因此可W构造总体均值的置信区间y为
[0073]
[0074]
[0075]
[0076] Za是标准正态分布给定的a的分位数。如果当前样本测度值满足上式要求,说明当 前流量正常,若不满足上式要求,则说明当前流量异常。
[0077] 我们采用方差统计模型,根据中屯、极限定理,如果研究的随机变量X可W表示成很 多个独立的随机变量Xi,拉,X3,....,Xn之和,只要每个XiQ = I,2,…n)对X只起微小的作用, 不管运些X服从什么分布,在n比较大的情况下,就可W认为X服从正态分布。由于网络流量 测度都是独立的随机变量,因此运些测度可W使用该定理进行估计。
[0078] 我们现在可W将一个每一个源IP到目的IP在一个时间窗口内的概率值换算为信 息赌值,设定为Tl,前n个信息赌总和和为Xn,平均值为Xn。当有一个新的时间窗口数据进 来,信息赌总和与平均值都会发生变化。样本均值和标准差能为流量特性的总体均值构造 一个置信区间,利用运个置信区间可W判定异常。如果某个时间范围内的测度在此置信区 间内,则认为流量正常,否则认为出现异常,进行异常处理。
[0079] 如图2所示,在流量发生异常变化的时候,可W通过运种方式明显发现信息赌超过 了置信区间的上界。
[0080] 3、连续性跟踪
[0081] 通过置信区间判断异变时,在小粒度时间(10秒、30秒、1分钟)会出现小波动造成 误判情况,对于运样的情况,本方法增加了连续性的跟踪判断:
[0082] 攻击发生时,连续3个采样点,信息赌值都超过了置信区间上界时开始告警,而攻 击开始时间记录为第一个采样点开始的时间。
[0083] 根据置信区间的界限判断时,当信息赌达到稳定时,异常告警将停止,而此时攻击 行为任然在继续,因此我们需要通过信息赌的持续增加的特征W及在攻击结束时,信息赌 值下降的特征通过口限来确定攻击时间,步骤如下:
[0084] (1).将第一个采样点的置信区间上界值记录下来Tl,判断此后的采样点信息赌上 界,只要连续大于第一个采样点置信区间上界值Tl,都记录为攻击行为
[0085] (2).直到判断到下一个采样点的信息赌下界值T2小于第一个采样点的上界值Tl时 算为攻击结束。
[00化]4、找出异常源IP
[0087] 攻击时源IP的连接行为体现为:
[0088] 参连续性
[0089] ?周期性
[0090] 参固定频率
[0091] 因此,我们通过运种特性,再根据实际数据体现的结果,将具有连续周期,固定频 率的源IP进行统计,根据经验设定阀值,将运些异常源IP过滤出来。
[0092] 异常源IP的阀值设定为:连续3分钟,每分钟连接次数超过60次。
[0093] 5、正常流量模型的调整
[0094] 网络行为是不断变化的,即使对于比较稳定的网络环境,也会随着用户行为的变 化而变化。因此,正常流量模型必须是可调整的,要能随着网络行为的改变而调整自己的历 史行为网络基线。
[00M]动态调整测度需要设置一个滑动窗口,利用运个窗口取得新样本,去掉旧样本,运 样可W保证窗口内的测度值为最近最新的历史行为。为了维护一个具有固定大小的滑动窗 口队列,需要在窗口队列的头部抛弃旧数据,在队列尾增加新到的数据。因为对窗口数据的 抛弃和增加是由时间顺序来决定的,所W本方法使用基于单位时间尺度的滑动窗口模型。
[0096] 2.3本发明技术方案带来的有益效果
[0097] 本发明基于拥有大量的互联网用户访问日志,系统对采集到的数据经加工处理 后,通过大数据挖掘、关联与统计分析,快速识别并记录攻击行为或异常行为,形成入侵攻 击报警信息数据,通过相关入侵攻击数据分析来构建完整的攻击路径,从而实现入侵追踪 定位目标任务。同时,该发明能实现事后行为追踪和用户访问行为机器学习,降低系统误报 率。
[0098] 本发明提出了网络流量的可测度集,描绘了一个正常网络流量的基线,为异常检 测提供了参照。
[0099] 上述仅为本发明的一个具体导向实施方式,但本发明的设计构思并不局限于此, 凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明的保护范围的行为。
【主权项】
1. 一种基于信息熵方差分析的异常流量检测方法,其特征在于,包括如下步骤: 步骤一)设置置信区间:通过数据包的包头信息,学习流量在一段时间中的的正常行 为,这段时间称为时间窗口;将每个时间窗口中所得的信息熵值进行积累,形成历史行为可 测度集,利用历史行为可测度集建立正常网络基线;对历史行为可测度集内各时间窗口的 信息熵值进行方差分析,根据中心极限定理建立正常网络基线的置信区间; 步骤二)统计当前时间窗口的信息熵值,判断当前时间窗口的信息熵值是否超出置信 区间;若处于置信区间则判断网络行为正常,若超出置信区间则说明发生了异常行为。2. 如权利要求1所述的基于信息熵方差分析的异常流量检测方法,其特征在于,所述异 常行为为DDoS攻击或DoS攻击。3. 如权利要求2所述的基于信息熵方差分析的异常流量检测方法,其特征在于,所述步 骤二)中,当前时间窗口的信息熵值超出置信区间时做一个连续时间段的判断,超过设定的 连续时间T,则认为是DDoS攻击或DoS攻击发起,记录第一次超出置信区间的上界Pi;当连续 信息熵值低于Pi,则判断攻击结束。4. 如权利要求3所述的基于信息熵方差分析的异常流量检测方法,其特征在于,T = 3分 钟。5. 如权利要求1所述的基于信息熵方差分析的异常流量检测方法,其特征在于,所述步 骤一)中,设置一个固定大小的滑动窗口,滑动窗口内包括固定数量的时间窗口,根据时间 顺序不断删除旧的时间窗口,添加新的时间窗口,通过机器学习方法不断更新正常网络基 线。6. 如权利要求5所述的基于信息熵方差分析的异常流量检测方法,其特征在于,所述滑 动窗口内包括20个时间窗口。7. 如权利要求1所述的基于信息熵方差分析的异常流量检测方法,其特征在于,所述数 据包的包头信息包括源IP地址、源端口号、目的IP地址、目的端口号和协议类型。
【文档编号】H04L29/06GK105847283SQ201610321242
【公开日】2016年8月10日
【申请日】2016年5月13日
【发明人】黄霄
【申请人】深圳市傲天科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1