一种基于谱聚类算法的网络攻击检测方法

文档序号:10597154阅读:1200来源:国知局
一种基于谱聚类算法的网络攻击检测方法
【专利摘要】本发明公开了一种基于谱聚类算法的网络攻击检测方法,本发明利用NS2网络模拟器实现对拒绝服务攻击流的有效模拟,从而建立拒绝服务攻击模型,并采集实验数据且对数据进行验证;应用代数变换,设计基于转移概率矩阵的谱聚类算法,筛选出可疑隐蔽式网络攻击的通道;本发明对系统进行设计、测试、验证,再对互联网络攻击检测方法研究得出结论和建议;与现有技术相比,本发明采用的谱聚类算法的异常检测方法误报率低,检测率较高。
【专利说明】
一种基于谱聚类算法的网络攻击检测方法
技术领域
[0001] 本发明涉及网络技术领域,尤其涉及一种基于谱聚类算法的网络攻击检测方法。
【背景技术】
[0002] 随着互联网的快速发展和工业信息化的推进以及多种网络的融合,网络在各企事 业单位中发挥着它独有的重要作用,利用网络处理各种信息也在日益增多。互联网经济的 蓬勃发展背后,网络信息安全事件却时有发生。网络诈骗、病毒木马等阴暗面也随之而来, 目前网络攻击目标范围广,从传统的计算机互联网到各行各业,如工业控制系统、交通、能 源、航空、移动互联网和物联网等。网络攻击目的以信息窃取和获取经济利益为主。在技术 手段上,为了持续性控制或持续获得有用信息,网络攻击者采用高级隐蔽技术对抗不断增 强的安全威胁检测技术,从而能长期潜伏和信息窃取而不被发现。具有高隐蔽性和持续性 的网络攻击能长期躲避安全审查,对网络安全危害大,是目前安全防护和发现威胁的难点。
[0003] 网络攻击检测是网络安全的重要技术手段,是一种主动的安全防护技术,提供对 内部攻击、外部攻击和误操作的实时保护,能在网络系统受到危害之前拦截入侵。异常检测 方法通用性较强,能够检测出未知的入侵攻击行为,但异常检测方法误报率较高,同时检测 率较低。对此,研究人员采取各种手段来降低误报率以提高检测效率。
[0004] 针对僵尸网络和隐蔽木马检测国内外都有相应的检测方法,也有明显的防御效 果。针对APT网络公司提出三种检测方案:第一是主机端防范入侵突破,解决的问题是恶意 代码检测和主机应用防护。第二是网络通信,包括命令与控制通信信道发现,数据泄露检测 以及内网威胁检测。第三是综合检测、大数据分析方面检测。以上三种检测方案国外主要的 检测产品有FireEye的恶意代码防御系统MPS(MalwareProtection System)和Bit9的可信 安全平台,以及趋势科技的Deep Discovery和RSA的NetWitness。国内方面:对主机端的防 范入侵和综合检测有南京瀚海源的产品"星云"和安天的"追影"高级威胁鉴定器及启明星 辰天阗威胁检测与智能分析系统等。但对于网络通信检测国内尚未见到对应产品。
[0005] 目前APT、僵尸网络和木马存在部分重叠的隐蔽式网络攻击更多,也更难检测。国 内的网络防护主要是边界防护,安全设备一般部署在网关位置,网络内部缺乏有效的攻击 检测和防护,缺乏有效的内网网络数据流的监控方法,很容易被攻破。多年来,网络安全防 护缺乏前瞻性研究,核心技术思想没有实质变化,当新型网络攻击突破当前防护体系的核 心防护技术后,整个网络安全行业似乎一下子被拉开差距,处于疲于应付的状态。

【发明内容】

[0006] 发明目的:针对上述问题,本发明旨在提供一种基于谱聚类算法的网络攻击检测 方法。
[0007] 技术方案:一种基于谱聚类算法的网络攻击检测方法,包括如下步骤:
[0008] (1)输入数据样本集D = {di,cb,…,dn},其中n为样本集大小;
[0009] (2)用K均值算法对数据样本集聚类r次,r〈〈n,每次随机选取初值,得到r个划分结 果;
[0010] ⑶构建超图的邻接矩阵H,计算相似度矩阵A = HXHT/r,计算正则化拉普拉斯矩 阵其中HT表示矩阵H的转置矩阵,D为对角度矩阵,对角元素为D( i,i) = 2 jA( i, j),L为非正则化拉普拉斯矩阵L = D-A;
[0011] (4)用谱聚类算法对收集的数据样本集进行划分。
[0012]进一步的,步骤⑵中所述的r取值范围为5?20。
[0013] 进一步的,步骤(3)具体包括如下子步骤:
[0014] (3.1)将步骤(2)中每次得到的划分结果作为证据,计算两个数据cU,山的相似度;
[0015] (3.2)设C(1),…,Cw分别为对数据样本集 r次运行K均值算法得到的r个划分结果, 计算数据cU和数据山的相似度卩:di与dj属于同一个簇的次数除以算法运行次数r。
[0016] 进一步的,所述步骤(4)具体包括如下子步骤:
[0017] (4.1)计算L?的前k个最小特征向量vi,…,vk;
[0018] (4.2)设矩阵V = [ V1,…,vk] G RnXk,Zi G Rk为对应于V的第i行的列向量,使用K均值 算法把Z = {zi|i = l,…,n}聚为k个簇Ci,…,Ck,进行有效筛选;
[0019](4.3)输出31={〇1,.",〇1<},其中〇1={山|2卢(^,(1卢〇},1<;[^^。进一步筛选出可 疑通道。
[0020] 有益效果:本发明利用NS2(Network Simulator,version 2)网络模拟器实现对拒 绝服务攻击流的有效模拟,从而建立拒绝服务攻击模型,并采集实验数据且对数据进行验 证;应用代数变换,设计基于转移概率矩阵的谱聚类算法,筛选出可疑隐蔽式网络攻击的通 道;本发明对系统进行设计、测试、验证,再对互联网络攻击检测方法研究得出结论和建议; 与现有技术相比,本发明采用的谱聚类算法的异常检测方法误报率低,检测率较高。
【具体实施方式】
[0021]下面结合【具体实施方式】对本发明进行详细说明。
[0022]本发明基于谱聚类算法的网络攻击检测方法如下步骤:
[0023] (1)输入数据样本集D= {di,d2,…,dn},其中n为样本集大小:分析知识库,收集数 据样本集,应用人工和程序对数据样本集进行检查、分类;对国内外现有的检测方法研究分 析;对数据样本集精确描述网络行为,并能够区分"合法"与"非法"的行为,在保证精确性的 同时,对特征串进行处理,使特征串尽量不要太长,便于后面的处理。
[0024]本发明采用网络流量特征参数技术:分析攻击流量的特征参数提取方法。构造相 似矩阵,对数据流进行聚类,同时改进谱聚类算法,降低算法的复杂度。
[0025] (2)用K均值算法对数据样本集聚类r次,r〈〈n,本实施例中r的取值为5<r<20,每 次随机选取初值,得到r个划分结果;
[0026] (3)构建超图的邻接矩阵H,计算相似度矩阵A = HXHT/r,计算正则化拉普拉斯矩 阵其中HT表示矩阵H的转置矩阵,D为对角度矩阵,对角元素为D( i,i) = 2 jA( i, j),L为非正则化拉普拉斯矩阵L = D-A;具体为:
[0027] (3.1)将步骤(2)中每次得到的划分结果作为证据,计算两个数据cU,山的相似度; [0028] (3.2)设C(1),…,CW分别为对数据样本集r次运行K均值算法得到的 r个划分结果, 计算数据cU和数据山的相似度卩:di与dj属于同一个簇的次数除以算法运行次数r。
[0029] (4)用谱聚类算法对收集的数据样本集进行划分,具体为:
[0030] (4.1)计算L?的前k个最小特征向量vi,…,vk;
[0031] (4.2)设矩阵V = [V1,…,vk] G RnXk,Zi GRk为对应于V的第i行的列向量,使用K均值 算法把Z = {zi|i = l,…,n}聚为k个簇Ci,…,Ck,进行有效筛选;
[0032] (4.3)输出31={〇1,..,〇1<},其中〇1={山|2」£(^,(1」£〇},1<;[^^。进一步筛选出可 疑通道。
[0033] 与分类问题不同的是,聚类学习中的数据是无类别标签的,因此,由不同的聚类算 法得到的划分结果存在一个簇标签对应问题。为解决该问题,我们拟使用超图表示,把对象 之间的两两关系表示出来,进而得到对象之间的相似度矩阵A = HXHT/r,其中H为超图的邻 接矩阵。将本发明设计的算法称之为证据累积的谱聚类算法(Spectral Clustering Algorithm using Evidence Accumulation,SCAEA)〇
[0034] 本发明应用代数变换,设计基于转移概率矩阵的谱聚类算法,筛选出可疑隐蔽式 网络攻击的通道。为解决聚类集成问题,本发明在聚类集成阶段使用正则化拉普拉斯矩阵 Lrw,得到一种新的算法。要使算法可扩展到大规模应用,拟通过代数变换避免n阶方阵Lrw 的特征值分解问题。
[0035] 对于其中L = D-S为非正则化拉普拉斯矩阵,D为对角度矩阵,对 角元素为4 =1!二&,要计算Lrw的前k个最小特征向量,只需求解图上的随机游走对应的 转移概率矩阵P = D4S的前k个最大特征向量。考虑特征值分解问题:D^SxzAx,对方程两边 同时左乘D1/2,并令q = D1/2x,得到D-1/2SD-1/2q = Aq,即D-1/2HHTD-1/2q = (rA) q。设Q = D-1/2H,则 D-V2HHTD-1/2 = 〇〇7哪\=(以)9。显然〇为11\七的矩阵,不妨设如勺秩为瓜111^)=?^^,其3¥0 被定义为:
[0036] Q = U2Vt (1)
[0037] 其中 UTU = VTV=In,2 =0^8(0!,…,〇n),〇i为 Q 的奇异值,且有当 彡P时,〇i>0, 当i彡p+1时,〇i = 0。由式(2-7)可得:
[0038] qt=V2Ut (2)
[0039]将式(1)分别左乘、右乘式(2),得到:〇〇1=1]5:21^,〇% = 口:¥,因此〇的左、右奇异 向量分别等于QQT和QTQ的P个非〇特征值对应的特征向量,而奇异值等于QQT和Q TQ的特征值 的非负平方根。
[0040]根据以上分析,欲求Lrw的前k个最小特征向量X,只需求QQT的前k个最大特征向量 q,而q等于Q的前k个最大左奇异向量。另外,根据式(1),等式两边同时右乘FS人其中为 S的广义逆,经过简单整理得到L/=/W;_,即U可以通过求解t阶方阵的=_4的特征值和 特征向量(g卩Q的右奇异向量)得到,由此,我们即可避免 n阶方阵Lrw的特征值分解问题。 [0041]本发明利用NS2网络模实现对拒绝服务攻击流的有效模拟,从而建立拒绝服务攻 击模型,并采集实验数据并对数据进行验证,从面对系统进行设计、测试、验证,再对互联网 络攻击检测方法研究得出结论和建议。
[0042]以上所述仅是对本发明的优选实施方式,并非对本发明作任何形式上的限制,应 当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出 若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于谱聚类算法的网络攻击检测方法,其特征在于,包括如下步骤: (1) 输入数据样本集D= {di,d2,…,dn},其中η为样本集大小; (2) 用K均值算法对数据样本集聚类r次,r〈〈n,每次随机选取初值,得到r个划分结果; (3) 构建超图的邻接矩阵H,计算相似度矩阵A = HXHT/r,计算正则化拉普拉斯矩阵Lrw 其中『表示矩阵H的转置矩阵,D为对角度矩阵,对角元素为D(i,i) = Σ jA(i,j),L为 非正则化拉普拉斯矩阵L = D-A; (4) 用谱聚类算法对收集的数据样本集进行划分。2. 根据权利要求1所述的一种基于谱聚类算法的网络攻击检测方法,其特征在于,步骤 (2) 中所述的r取值范围为5彡r彡20。3. 根据权利要求1所述的一种基于谱聚类算法的网络攻击检测方法,其特征在于,步骤 (3) 具体包括如下子步骤: (3.1) 将步骤(2)中每次得到的划分结果作为证据,计算两个数据cU,山的相似度; (3.2) 设C(1),···,(:《分别为对数据样本集r次运行K均值算法得到的r个划分结果,计算 数据cU和数据山的相似度S lj即:土与山属于同一个簇的次数除以算法运行次数r。4. 根据权利要求3所述的一种基于谱聚类算法的网络攻击检测方法,其特征在于,所述 步骤(4)具体包括如下子步骤: (4.1) 计算Lrw的前k个最小特征向量vi,···,vk; (4.2) 设矩阵V=[vi,…,vk ]e Rnxk,z i e Rk为对应于V的第i行的列向量,使用K均值算法 把Z = {zi|i = l,…,η}聚为k个簇Ci,…,Ck,进行有效筛选; (4.3) 输出31={〇1,~,〇1<},其中〇1={山|2卢(^,(1卢〇},1<;[^^,进一步筛选出可疑通 道。
【文档编号】H04L29/06GK105959270SQ201610262362
【公开日】2016年9月21日
【申请日】2016年4月25日
【发明人】董琴, 季鹏宇, 徐森, 邵洪成, 孙久
【申请人】盐城工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1