一种基于谱聚类算法的网络攻击检测方法

文档序号：10597154阅读：1200来源：国知局

一种基于谱聚类算法的网络攻击检测方法
【专利摘要】本发明公开了一种基于谱聚类算法的网络攻击检测方法，本发明利用NS2网络模拟器实现对拒绝服务攻击流的有效模拟，从而建立拒绝服务攻击模型，并采集实验数据且对数据进行验证；应用代数变换，设计基于转移概率矩阵的谱聚类算法，筛选出可疑隐蔽式网络攻击的通道；本发明对系统进行设计、测试、验证，再对互联网络攻击检测方法研究得出结论和建议；与现有技术相比，本发明采用的谱聚类算法的异常检测方法误报率低，检测率较高。
【专利说明】
一种基于谱聚类算法的网络攻击检测方法
技术领域
[0001] 本发明涉及网络技术领域，尤其涉及一种基于谱聚类算法的网络攻击检测方法。
【背景技术】
[0002] 随着互联网的快速发展和工业信息化的推进以及多种网络的融合，网络在各企事业单位中发挥着它独有的重要作用，利用网络处理各种信息也在日益增多。互联网经济的蓬勃发展背后，网络信息安全事件却时有发生。网络诈骗、病毒木马等阴暗面也随之而来，目前网络攻击目标范围广，从传统的计算机互联网到各行各业，如工业控制系统、交通、能源、航空、移动互联网和物联网等。网络攻击目的以信息窃取和获取经济利益为主。在技术手段上，为了持续性控制或持续获得有用信息，网络攻击者采用高级隐蔽技术对抗不断增强的安全威胁检测技术，从而能长期潜伏和信息窃取而不被发现。具有高隐蔽性和持续性的网络攻击能长期躲避安全审查，对网络安全危害大，是目前安全防护和发现威胁的难点。
[0003] 网络攻击检测是网络安全的重要技术手段，是一种主动的安全防护技术，提供对内部攻击、外部攻击和误操作的实时保护，能在网络系统受到危害之前拦截入侵。异常检测方法通用性较强，能够检测出未知的入侵攻击行为，但异常检测方法误报率较高，同时检测率较低。对此，研究人员采取各种手段来降低误报率以提高检测效率。
[0004] 针对僵尸网络和隐蔽木马检测国内外都有相应的检测方法，也有明显的防御效果。针对APT网络公司提出三种检测方案：第一是主机端防范入侵突破，解决的问题是恶意代码检测和主机应用防护。第二是网络通信，包括命令与控制通信信道发现，数据泄露检测以及内网威胁检测。第三是综合检测、大数据分析方面检测。以上三种检测方案国外主要的检测产品有FireEye的恶意代码防御系统MPS(MalwareProtection System)和Bit9的可信安全平台，以及趋势科技的Deep Discovery和RSA的NetWitness。国内方面:对主机端的防范入侵和综合检测有南京瀚海源的产品"星云"和安天的"追影"高级威胁鉴定器及启明星辰天阗威胁检测与智能分析系统等。但对于网络通信检测国内尚未见到对应产品。
[0005] 目前APT、僵尸网络和木马存在部分重叠的隐蔽式网络攻击更多，也更难检测。国内的网络防护主要是边界防护，安全设备一般部署在网关位置，网络内部缺乏有效的攻击检测和防护，缺乏有效的内网网络数据流的监控方法，很容易被攻破。多年来，网络安全防护缺乏前瞻性研究，核心技术思想没有实质变化，当新型网络攻击突破当前防护体系的核心防护技术后，整个网络安全行业似乎一下子被拉开差距，处于疲于应付的状态。

【发明内容】

[0006] 发明目的：针对上述问题，本发明旨在提供一种基于谱聚类算法的网络攻击检测方法。
[0007] 技术方案:一种基于谱聚类算法的网络攻击检测方法，包括如下步骤：
[0008] (1)输入数据样本集D = {di，cb，…，dn}，其中n为样本集大小；
[0009] (2)用K均值算法对数据样本集聚类r次，r〈〈n，每次随机选取初值，得到r个划分结果；
[0010] ⑶构建超图的邻接矩阵H，计算相似度矩阵A = HXHT/r，计算正则化拉普拉斯矩阵其中HT表示矩阵H的转置矩阵，D为对角度矩阵，对角元素为D( i，i) = 2 jA( i， j)，L为非正则化拉普拉斯矩阵L = D-A;
[0011] (4)用谱聚类算法对收集的数据样本集进行划分。
[0012]进一步的，步骤⑵中所述的r取值范围为5?20。
[0013] 进一步的，步骤(3)具体包括如下子步骤：
[0014] (3.1)将步骤(2)中每次得到的划分结果作为证据，计算两个数据cU，山的相似度；
[0015] (3.2)设C(1)，…，Cw分别为对数据样本集 r次运行K均值算法得到的r个划分结果，计算数据cU和数据山的相似度卩：di与dj属于同一个簇的次数除以算法运行次数r。
[0016] 进一步的，所述步骤(4)具体包括如下子步骤：
[0017] (4.1)计算L?的前k个最小特征向量vi，…，vk;
[0018] (4.2)设矩阵V = [ V1，…，vk] G RnXk，Zi G Rk为对应于V的第i行的列向量，使用K均值算法把Z = {zi|i = l，…，n}聚为k个簇Ci，…，Ck，进行有效筛选；
[0019](4.3)输出31={〇1，."，〇1<}，其中〇1={山|2卢(^，(1卢〇}，1<;[^^。进一步筛选出可疑通道。
[0020] 有益效果：本发明利用NS2(Network Simulator，version 2)网络模拟器实现对拒绝服务攻击流的有效模拟，从而建立拒绝服务攻击模型，并采集实验数据且对数据进行验证;应用代数变换，设计基于转移概率矩阵的谱聚类算法，筛选出可疑隐蔽式网络攻击的通道;本发明对系统进行设计、测试、验证，再对互联网络攻击检测方法研究得出结论和建议；与现有技术相比，本发明采用的谱聚类算法的异常检测方法误报率低，检测率较高。
【具体实施方式】
[0021]下面结合【具体实施方式】对本发明进行详细说明。
[0022]本发明基于谱聚类算法的网络攻击检测方法如下步骤：
[0023] (1)输入数据样本集D= {di，d2，…，dn}，其中n为样本集大小:分析知识库，收集数据样本集，应用人工和程序对数据样本集进行检查、分类;对国内外现有的检测方法研究分析;对数据样本集精确描述网络行为，并能够区分"合法"与"非法"的行为，在保证精确性的同时，对特征串进行处理，使特征串尽量不要太长，便于后面的处理。
[0024]本发明采用网络流量特征参数技术:分析攻击流量的特征参数提取方法。构造相似矩阵，对数据流进行聚类，同时改进谱聚类算法，降低算法的复杂度。
[0025] (2)用K均值算法对数据样本集聚类r次，r〈〈n，本实施例中r的取值为5<r<20,每次随机选取初值，得到r个划分结果；
[0026] (3)构建超图的邻接矩阵H，计算相似度矩阵A = HXHT/r，计算正则化拉普拉斯矩阵其中HT表示矩阵H的转置矩阵，D为对角度矩阵，对角元素为D( i，i) = 2 jA( i， j)，L为非正则化拉普拉斯矩阵L = D-A;具体为：
[0027] (3.1)将步骤(2)中每次得到的划分结果作为证据，计算两个数据cU，山的相似度； [0028] (3.2)设C(1)，…，CW分别为对数据样本集r次运行K均值算法得到的 r个划分结果，计算数据cU和数据山的相似度卩：di与dj属于同一个簇的次数除以算法运行次数r。
[0029] (4)用谱聚类算法对收集的数据样本集进行划分，具体为：
[0030] (4.1)计算L?的前k个最小特征向量vi，…，vk;
[0031] (4.2)设矩阵V = [V1，…，vk] G RnXk，Zi GRk为对应于V的第i行的列向量，使用K均值算法把Z = {zi|i = l，…，n}聚为k个簇Ci，…，Ck，进行有效筛选；
[0032] (4.3)输出31={〇1，..，〇1<}，其中〇1={山|2」￡(^，(1」￡〇}，1<;[^^。进一步筛选出可疑通道。
[0033] 与分类问题不同的是，聚类学习中的数据是无类别标签的，因此，由不同的聚类算法得到的划分结果存在一个簇标签对应问题。为解决该问题，我们拟使用超图表示，把对象之间的两两关系表示出来，进而得到对象之间的相似度矩阵A = HXHT/r，其中H为超图的邻接矩阵。将本发明设计的算法称之为证据累积的谱聚类算法（Spectral Clustering Algorithm using Evidence Accumulation，SCAEA)〇
[0034] 本发明应用代数变换，设计基于转移概率矩阵的谱聚类算法，筛选出可疑隐蔽式网络攻击的通道。为解决聚类集成问题，本发明在聚类集成阶段使用正则化拉普拉斯矩阵 Lrw，得到一种新的算法。要使算法可扩展到大规模应用，拟通过代数变换避免n阶方阵Lrw 的特征值分解问题。
[0035] 对于其中L = D-S为非正则化拉普拉斯矩阵，D为对角度矩阵，对角元素为4 =1!二&，要计算Lrw的前k个最小特征向量，只需求解图上的随机游走对应的转移概率矩阵P = D4S的前k个最大特征向量。考虑特征值分解问题:D^SxzAx，对方程两边同时左乘D1/2，并令q = D1/2x，得到D-1/2SD-1/2q = Aq，即D-1/2HHTD-1/2q = (rA) q。设Q = D-1/2H，则 D-V2HHTD-1/2 = 〇〇7哪\=(以)9。显然〇为11\七的矩阵，不妨设如勺秩为瓜111^)=?^^，其3￥0 被定义为：
[0036] Q = U2Vt (1)
[0037] 其中 UTU = VTV=In，2 =0^8(0!，…，〇n)，〇i为 Q 的奇异值，且有当彡P时，〇i>0，当i彡p+1时，〇i = 0。由式(2-7)可得：
[0038] qt=V2Ut (2)
[0039]将式（1)分别左乘、右乘式(2)，得到:〇〇1=1]5：21^，〇% = 口:￥，因此〇的左、右奇异向量分别等于QQT和QTQ的P个非〇特征值对应的特征向量，而奇异值等于QQT和Q TQ的特征值的非负平方根。
[0040]根据以上分析，欲求Lrw的前k个最小特征向量X，只需求QQT的前k个最大特征向量 q，而q等于Q的前k个最大左奇异向量。另外，根据式（1)，等式两边同时右乘FS人其中为 S的广义逆，经过简单整理得到L/=/W;_，即U可以通过求解t阶方阵的=_4的特征值和特征向量(g卩Q的右奇异向量)得到，由此，我们即可避免 n阶方阵Lrw的特征值分解问题。 [0041]本发明利用NS2网络模实现对拒绝服务攻击流的有效模拟，从而建立拒绝服务攻击模型，并采集实验数据并对数据进行验证，从面对系统进行设计、测试、验证，再对互联网络攻击检测方法研究得出结论和建议。
[0042]以上所述仅是对本发明的优选实施方式，并非对本发明作任何形式上的限制，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。
【主权项】
1. 一种基于谱聚类算法的网络攻击检测方法，其特征在于，包括如下步骤： (1) 输入数据样本集D= {di，d2，…，dn}，其中η为样本集大小； (2) 用K均值算法对数据样本集聚类r次，r〈〈n，每次随机选取初值，得到r个划分结果； (3) 构建超图的邻接矩阵H，计算相似度矩阵A = HXHT/r，计算正则化拉普拉斯矩阵Lrw 其中『表示矩阵H的转置矩阵，D为对角度矩阵，对角元素为D(i，i) = Σ jA(i，j)，L为非正则化拉普拉斯矩阵L = D-A; (4) 用谱聚类算法对收集的数据样本集进行划分。2. 根据权利要求1所述的一种基于谱聚类算法的网络攻击检测方法，其特征在于，步骤 (2) 中所述的r取值范围为5彡r彡20。3. 根据权利要求1所述的一种基于谱聚类算法的网络攻击检测方法，其特征在于，步骤 (3) 具体包括如下子步骤： (3.1) 将步骤(2)中每次得到的划分结果作为证据，计算两个数据cU，山的相似度； (3.2) 设C(1)，···，(：《分别为对数据样本集r次运行K均值算法得到的r个划分结果，计算数据cU和数据山的相似度S lj即：土与山属于同一个簇的次数除以算法运行次数r。4. 根据权利要求3所述的一种基于谱聚类算法的网络攻击检测方法，其特征在于，所述步骤(4)具体包括如下子步骤： (4.1) 计算Lrw的前k个最小特征向量vi，···，vk; (4.2) 设矩阵V=[vi，…，vk ]e Rnxk，z i e Rk为对应于V的第i行的列向量，使用K均值算法把Z = {zi|i = l，…，η}聚为k个簇Ci，…，Ck，进行有效筛选； (4.3) 输出31={〇1，~，〇1<}，其中〇1={山|2卢(^，(1卢〇}，1<;[^^，进一步筛选出可疑通道。
【文档编号】H04L29/06GK105959270SQ201610262362
【公开日】2016年9月21日
【申请日】2016年4月25日
【发明人】董琴, 季鹏宇, 徐森, 邵洪成, 孙久
【申请人】盐城工学院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董琴;季鹏宇;徐森;邵洪成;孙久;
技术所有人：盐城工学院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。