一种网络异常事件分类方法

文档序号:7902200阅读:187来源:国知局
专利名称:一种网络异常事件分类方法
技术领域
本发明属于网络技术领域,特别涉及一种网络异常事件分类方法。
背景技术
网络异常事件表现为网络中的流量行为相对其正常行为的偏离。它可能是网络滥用,例如DoS攻击、DDoS攻击、端口扫描等;也可能是设备失效,例如路由器端口失效;还可能是合法的用户行为,例如Flash Crowd等。为了在网络异常事件发生时快速地制定出应急方案,降低异常事件的危害,实时地对网络异常事件进行分类已成为近年来学术界广泛关注的问题。目前,骨干网中的异常事件分类主要面临以下困难1.骨干网中的流量巨大,要对如此巨大的流量进行逐包分析以便对网络异常事件进行分类,势必会消耗大量时间,无法满足实时性要求。2.骨干网中的流量具有很强的动态变化性,同一异常在不同时刻的表现也不尽相同,这要求分类算法具有较强的动态适应性。3.骨干网中的异常种类很多,并且某些不同种类的异常具有相似的特征。例如, Point to Multipoint和网络扫描均会引起单个数据源到多个目的地址的网络流数量激增;DoS/DDoS攻击和Alpha攻击均会导致网络中数据流的目的IP地址集中。因而,要找到统一的分类方法来区分不同种类的、具有相似特征的异常十分困难。目前,对网络中的异常流量分类进行了大量研究,提出了很多方法。文献“Kuai Xu, Zhi-Li Zhang,S.Bhattacharyya. Internet Traffic Behavior Profiling for Network Security Monitoring. IEEE/ACM Transactions on Networking,Dec· 2008,,中首先提取出网络流量中的源/目的IP和端口号,对这4项特征参数分别聚类,接下来利用一种基于熵的方法来优化基于各项特征参数的聚类,接着基于这些聚类构建异常行为模式, 从而实现异常事件分类;文献 “A. Lakhina, M. Crovella, C. Diot. Mining Anomalies Using Traffic Feature Distributions. In Proceedings, the conference on applications, technologies, architectures, and protocols for computer communications,2005,, 提出使用k-means算法或分层聚类算法对异常点的源/目的IP和端口等特征参数的熵构成的向量进行聚类,并以欧氏距离作为算法中向量之间的距离,以实现异常分类;文献“A. Lakhina,Μ. Crovella, C. Diot, Characterization of Network-Wide Anomalies in Traffic Flows. In Proceedings,the 4th ACM SIGCOMM conference on Internet measurement, 2004”提出了统计出网络流量中的流数量、包数量和字节数,结合各异常时间点的流量中的主要IP和端口号(取出现概率超过0. 2的IP和端口号)来对异常进行分类; 文献“Y. Yasami, S. P. Mozaffari. A Novel Unsupervised Classification Approach for Network Anomaly Detection by K-Means Clustering and ID3 Decision Tree Learning Methods. The Journal of Supercomputing,2010”提出一种基于主机的组合方法来对网络中的ARP流进行异常分类,该方法首先用基于欧式距离的k-means方法对训练数据进行聚类,然后对每个类建立ID3决策树,之后将这两种方法得出的结果相结合得到门限值,利用该门限值进行异常分类;文献“基于神经网络的入侵识别方法.计算机工程,Vol 29(3) 111-112,119. 2003. 3”提出在BP (Back-propagation)网络的基础上加入一些附加的、内部的反馈通道来生成内部回归神经网络,从而加快其学习速度,实现快速分类;文献“杨岳湘, 王海龙,卢锡城.基于信息熵的大规模网络流量异常分类.计算机工程与科学,Vol 29(2) 40-43,2007”提出了一种基于信息熵的大规模网络流量异常分类方法,首先计算网络流量中的源/目的IP和源/目的端口熵,然后先利用子空间方法进行映射,再用k-means方法进行聚类得到结果。以上的方法都仅利用当前时间点的特征参数值或变化率对异常进行分类,而未利用流量行为在时间上的相关性。由于骨干网中流量的动态变化性,使用单一时间点的特征参数值或变化率难以准确地、全面地反映网络流量行为异常(如背景流量较大时和背景流量较小时,相同类型的异常事件可能具有相似的流量特征参数值变化趋势,却表现出迥然不同的流量特征参数值),限制了分类的性能。

发明内容
本发明的目的是为了解决现有的网络异常事件分类方法存在的问题,提出了一种网络异常事件分类方法。本发明的技术方案是一种网络异常事件分类方法,具体包括如下步骤Si.从网络设备中获取网络中的流数据,从流数据中提取流量特征参数;S2.根据检测到的异常时间点确定历史时间窗并构建异常特征多时间序列,即用异常时间点和它之前的若干个时间点构建历史时间窗,提取历史时间窗内各时间点的流特征参数并计算相对熵,利用相对熵构建各流量特征参数在历史时间窗内的时间序列,并组合为异常特征多时间序列,S3.对于手工标记的训练数据,根据凝聚分层聚类建立初始分类树;S4.对于新捕获的异常数据,计算该异常与当前分类树各子树的距离,找出与新异常距离最小的子树,根据该子树包含的异常种类进行分析以得到分类结果,并更新分类树。本发明的有益效果本发明的方法首先从网络流数据中提取流量特征参数,根据检测到的异常时间点确定历史时间窗并构建异常特征多时间序列,充分利用了流量行为在时间上的相关性,能有效提高骨干网异常事件分类的准确性;同时通过分析异常特征多时间序列之间的相似性,能有效区分不同种类的、具有相似特征的异常;利用信息熵处理海量数据,能保证骨干网异常事件分类的实时性要求。


图1本发明网络异常事件分类方法的流程示意图。图2实施例中构建初始分类树流程示意图。图3实施例中凝聚分层聚类的示意图。图4实施例中对新捕获的异常进行分类流程示意图。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的阐述。本发明的网络异常事件分类方法首先从网络流数据中提取已检测出异常时间点的流特征参数,而后通过计算相对熵以及凝聚分层聚类等方法,按照提取流特征参数—— 异常特征的多时间序列表示——构建初始分类树——找到与新捕获的异常距离最小的子树并进行分析的思路完成骨干网的异常分类。具体流程示意图如图1所示,下面进行具体说明。具体包括如下步骤Si.从网络设备中获取网络中的流数据,从流数据中提取出流量特征参数;S2.根据检测到的异常时间点确定历史时间窗并构建异常特征多时间序列,即用异常时间点和它之前的若干个时间点构建历史时间窗,提取历史时间窗内各时间点的流特征参数并计算相对熵,利用相对熵构建各流量特征参数在历史时间窗内的时间序列,并组合为异常特征多时间序列,S3.对于手工标记的训练数据,根据凝聚分层聚类建立初始分类树;S4.对于新捕获的异常数据,计算该异常与当前分类树各子树的距离,找出与新异常距离最小的子树,根据该子树包含的异常种类进行分析以得到分类结果,并更新分类树。在步骤Sl中,首先从网络设备中获取网络中的流数据,在这里以Netflow数据为例进行说明。在本实施例中,选取了网络流的五元组(源/目的IP,源/目的端口号,网络协议)、每条流的平均包数量以及每个包的平均字节数作为流量特征参数。在选取的流量特征参数中,源/目的IP反映主机行为,源/目的IP反映服务行为, 网络协议反映主机间的数据交换方式,平均包数量和平均字节数分别反映网络层和物理层的流量特征。这些参数可以较完整地刻画出网络异常事件的特点,从而为异常事件分类提供依据。在步骤S2中,对于每个异常时间点,将其之前的若干个时间点(在实施例中,取之前的3个时间点)与它一起构成历史时窗;提取历史时窗内各时间点上的流特征参数, 并计算其相对熵,形成各流量特征参数的时间序列;将所有流量特征参数时间序列组合起来,构建异常特征多时间序列。关于如何确定异常时间点,经典的方法有基于小波的检测方法(P. Barford, J. Kline, D. Plonka, and A. Ron. A Signal Analysis of Network Tra c Anomalies. In Proceedings of IMW, 2002),kalman 5 ! ' (A. Soule, K. Salamatian, and N. Taft. Combining Filtering and Statistical Methods for Anomaly Detection. InProceedings of IMC, 2005)等,在这里不再详细描述。本步骤的流程如下现有的异常分类方法都仅利用当前时间点的特征参数值或变化率对异常进行分类,难以准确反映网络行为引起的流量变化。为了解决这个问题,本发明的技术方案引入了历史时窗,以便获取一段时间内异常特征参数的变化趋势,从而更加准确地描述异常事件并对其进行分类。信息熵标志着系统所含信息量的多少,是对系统不确定性的描述,具体定义如下
其中,X= (ni,i = 1,L,N}表示在参数X的值为i的实例数为
权利要求
1.一种网络异常事件分类方法,具体包括如下步骤S1.从网络设备中获取网络中的流数据,从流数据中提取流量特征参数;S2.根据检测到的异常时间点确定历史时间窗并构建异常特征多时间序列,即用异常时间点和它之前的若干个时间点构建历史时间窗,提取历史时间窗内各时间点的流特征参数并计算相对熵,利用相对熵构建各流量特征参数在历史时间窗内的时间序列,并组合为异常特征多时间序列;S3.对于手工标记的训练数据,根据凝聚分层聚类建立初始分类树;S4.对于新捕获的异常数据,计算该异常与当前分类树各子树的距离,找出与新异常距离最小的子树,根据该子树包含的异常种类进行分析以得到分类结果,并更新分类树。
2.根据权利要求1所述的网络异常事件分类方法,其特征在于,步骤Sl所述的流量特征参数具体为源/目的IP、源/目的端口号、网络协议、每条流的平均包数量以及每个包的平均字节数。
3.根据权利要求1或2所述的网络异常事件分类方法,其特征在于,步骤S3所述的建立初始分类树的具体过程为对于手工标记的训练数据,首先根据手工标记将异常按照类型不同进行分簇;而后计算任意两个异常簇之间的距离;之后,比较各异常簇之间的距离, 将距离最小的两个子树相连,得到初始分类树。
4.根据权利要求3所述的网络异常事件分类方法,其特征在于,所述的计算任意两个异常簇之间的距离的具体过程如下首先采用两个时间序列相关系数的方法度量两个序列的相似性相关系数的计算公式为
5.根据权利要求4所述的网络异常事件分类方法,其特征在于,步骤S3所述的凝聚分层聚类的具体步骤如下1)将每个异常簇作为一个子树,将距离最小的两个子树相连,形成新的子树;2)检查是否所有的簇均已加入同一树中,若所有簇已全部加入到分类树中,则分类树初始化完毕;否则,继续;3)计算新生成的子树与其它子树的距离,返回步骤1)。
6.根据权利要求4或5所述的网络异常事件分类方法,其特征在于,步骤S4所述的计算该异常与当前分类树各子树的距离的具体过程如下计算新异常与各子树的距离的公式如下
全文摘要
本发明公开了一种网络异常事件分类方法。本发明的方法首先从网络流数据中提取流量特征参数,根据检测到的异常时间点确定历史时间窗并构建异常特征多时间序列,充分利用了流量行为在时间上的相关性,能有效提高骨干网异常事件分类的准确性;同时通过分析异常特征多时间序列之间的相似性,能有效区分不同种类的、具有相似特征的异常;利用信息熵处理海量数据,能保证骨干网异常事件分类的实时性要求。
文档编号H04L12/26GK102271091SQ20111026199
公开日2011年12月7日 申请日期2011年9月6日 优先权日2011年9月6日
发明者周颖杰, 胡光岷, 马力 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1