一种基于特征选择与密度峰值聚类的异常流量检测方法

文档序号:9814239阅读:540来源:国知局
一种基于特征选择与密度峰值聚类的异常流量检测方法
【技术领域】
[0001] 本发明属于数据挖掘W及异常检测的交叉领域,特别设及一种基于特征选择与密 度峰值聚类的异常流量检测方法。
【背景技术】
[0002] 当窥探、入侵等恶意行为发生时,网络上传输的流量在某些特性,如流量大小、数 据包长W及数据包特定区域的内容等特性会表现出与正常流量的相异性,若能够尽早检测 运些异常流量,就可W提前采取行动来保护网络安全。研究对运些异常流量的检测、定位造 成异常的主机,进而对异常主机进行处理,对于避免网络拥塞、保证网络性能、避免网络资 源的滥用W及保护网络信息安全,具有重要意义。
[0003] 数据挖掘方法的易用性与自动性使其近年来成为异常检测领域的热点,受到许多 研究机构的重视。当前基于数据挖掘的异常流量检测所面临的挑战主要有:
[0004] 1.由于数据量往往较为庞大,提取的特征维度较高且存在无关特征,使得异常流 量检测占用的计算资源高,分析时间长,因此需要有效的方法提取最合适的特征。
[000引2.当前有监督的分类方法需要对未知的流量进行大量的人工标记,显然无法应用 于大规模的数据量,而一些无监督的聚类方法尽管不需要标记,然而聚类精确度W及所需 时间对一些参数,如聚类中屯、的个数敏感,难W达到满意的结果。
[0006] 特征选择是一种较为常见的对提取的特征进行选择,使之具有更强的信息代表与 相关性,并减少冗余的技术。然而大量的数据挖掘方法需要基于样本的标记,在没有标记的 情况下对特征之间的互信息进行估计存在局限;此外,提取的特征不仅包含离散类型的特 征,还包含连续特征。离散化的效果对结果影响较大。本文采用的基于最大信息系数的无监 督特征选择,从而不仅确保在无标记情况下,信息之间的相关性能够得到较为准确的测量, 且能够在不降低聚类精度的情况下,有效减少冗余的特征数量。
[0007] 聚类是一种普遍的无监督学习方法,旨在将物体分类的有意义的组别。同一个簇 中的成员看作相似的,而不同组别中的成员看作不同的。因此产生于不同机制的网络数据 会被分到不同的组别中去。现有的一种聚类方法,基于密度峰值的聚类算法,尽管结合了基 于距离W及基于密度两类聚类方法的优势,然而在其聚类中屯、的选择阶段需要对所有数据 记录建立二维矩阵,W求记录其二者之间的距离,在单机上,所能处理的数据十分有限。本 文根据其密度峰值特性,采用改进的基于抽样机制的密度峰值聚类算法,对其聚类中屯、选 择阶段进行了一定比例抽样,使得可处理的数据量得到较大提高且仅带来微量误差下降。
[0008] 本发明的目的在于克服现有技术的缺点与不足,提供一种基于无监督特征选择W 及聚类的异常流量检测方法,在继承了无监督特征选择W及聚类无需标记的优势的同时, 也具备处理更多数据的能力。

【发明内容】

[0009] 本发明提出了一种基于特征选择W及密度峰值聚类的网络流量异常检测方法,包 括如下阶段:
[0010] 流量采集阶段:通过网络分析工具监听网络,并将监听到的数据包采集到本地;
[0011] 特征提取阶段:从所述数据包中提取属于同一个流的数据包,对所述数据包进行 特征抽取,并将提取的特征进行归一化;
[0012] 特征选择阶段:利用最大信息系数评估每个特征对分类决策的重要性,再根据特 征之间的冗余度对特征进行简单聚类,在相互之间存在冗余的特征中选择出重要性最高的 一个特征加入特征子集;
[0013] 聚类分析阶段:对所述特征子集的特征,采用改进的基于密度峰值的聚类方法对 特征进行聚类,将其分为多个流量类型簇,对每一个所述流量类型簇进行少量抽样,通过已 有的入侵数据库、网络流量和日志文件进行分析来对抽样的流量数据进行分辨并标记,利 用抽样样本众数类别的流量类型来覆盖整个流量类型簇的流量类型,W检测出异常流量。
[0014] 本发明提出的所述基于特征选择W及密度峰值聚类的网络流量异常检测方法中, 所述流量采集阶段包括下述步骤:
[001引步骤la:初始化Linux系统;
[0016] 步骤Ib:使用yum命令来安装tcpdump;
[0017] 步骤Ic:采集通过系统的网卡的流量抓取tcp数据包,将数据包保存到本地的.cap 文件中。
[0018] 本发明提出的所述基于特征选择W及密度峰值聚类的网络流量异常检测方法中, 所述特征提取阶段包括下述步骤:
[0019] 步骤2a:从所述数据包的IP包头中提取五元组,所述五元组为源地址、源端口、目 的地址、目的端口 W及协议类型;
[0020] 步骤化:从所述数据包的TCP报头中提取flag字段的特征,包括基本特征、时间戳、 从源主机到目标主机数据的字节数、从目标主机到源主机的数据字节数;
[0021 ]步骤2c:将连续的特征进行归一化,使之落在[0.0,1.0 ]的区间内。
[0022] 本发明提出的所述基于特征选择W及密度峰值聚类的网络流量异常检测方法中, 所述特征选择阶段包括下述步骤:
[0023] 步骤3a:将所述数据的特征分为离散型与连续型,其中离散型的特征直接使用互 信息公式计算两个特征之间的相关度;对于连续型的特征,使用最大信息系数来评估两个 特征之间的相关度;
[0024] 步骤3b:将每一个特征与其他特征之间的关联度进行求和,得到求和变量数值;
[0025] 步骤3c:移除所述求和变量数值小于特定阔值的特征;
[0026] 步骤3d:对于剩余的特征,将两者之间相关度大于特定阔值的特征进行聚类,形成 簇,同一簇内的特征存在冗余,
[0027] 步骤3e:对每一个簇,选取簇内与其他特征之间相关度最大的一个特征,加入并获 得特征子集。
[0028] 本发明提出的所述基于特征选择W及密度峰值聚类的网络流量异常检测方法中, 所述方法的聚类分析阶段包括下述步骤:
[0029] 步骤4a:将经过重要度W及冗余度筛选的特征所形成的子集导入系统用于聚类分 析;
[0030] 步骤4b:加入抽样机制,对每一个所述流量类型簇进行少量抽样,计算抽样样本在 高维空间的密度W及距离,并确定聚类中屯、;
[0031] 步骤4c:为高维空间中的每一个点选择距离最近的一个聚类中屯、;
[0032] 步骤4d:通过对簇进行抽样W及样本进行鉴别,确定各数据的类型,W甄别出异常 流量。
[0033] 本发明的有益效果在于:
[0034] 本发明通过数据挖掘方法进行异常流量检测,可W检测出W往未知的、潜在的异 常流量,从而避免将运些流量数据划分到已知的类别中去;通过应用最大信息系数对特征 之间的相关性进行估计,避免了对连续型特征进行离散化而造成的结果不精确;再利用特 征之间的相关度,对特征进行聚类,将存在冗余的特征聚到一个簇中,并最后取簇中相关度 最高的一个特征,加入到最终特征子集;通过对聚类中屯、选择阶段进行抽样优化,避免对所 有的数据记录进行欧式距离的两两运算与保存,极大地降低了运个过程用到的数据量,且 仅带来微量检测准确率的下降。
【附图说明】
[0035] 图1是本发明基于特征选择与密度峰值聚类的异常流量检测方法的流程图。
【具体实施方式】
[0036] 结合W下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、 条件、实验方法等,除W下专口提及的内容之外,均为本领域的普遍知识和公知
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1