一种基于集成学习和半监督svm的计算机入侵检测方法

文档序号:8282631阅读:395来源:国知局
一种基于集成学习和半监督svm的计算机入侵检测方法
【技术领域】
[0001] 本发明属于计算机入侵检测领域,是数据挖掘方法在计算机入侵检测领域的应 用,具体的说是一种基于集成学习和半监督SVM的计算机入侵检测方法,可用于对计算机 入侵进行检测。
【背景技术】
[0002] 近年来,随着网络的普及与应用领域的逐渐扩展,网络安全与信息安全问题日渐 突出。入侵检测技术是近年来出现的新型网络安全技术,目的是提供实时的入侵检测及采 取相应的防护手段,如记录日志、断开网络连接等。扩展了系统管理员的安全管理能力(包 括安全日志、监控、攻击识别及响应),帮助计算机系统抵御攻击。它以探测与控制技术为本 质,起着主动防御的作用,是网络安全中极其重要的部分。
[0003] 日常使用计算机时,我们可以收集到很多正常入侵计算机的样本,例如访问的网 页、聊天信息等,但是可收集的攻击样本却很少,类似于木马病毒信息等。对于这些样本信 息,计算机系统都要对其进行识别,判断它们是否对计算机系统造成危害。所以计算机入侵 检测的目的就是检测出这些攻击样本,对它们进行分析和解读,得到有用的信息帮助我们 提高计算机的防御能力。通常大家把正常样本称为多数类,把攻击样本称为少数类,便于理 解和记录。
[0004] 计算机入侵检测技术的研宄已经走过了二十多年的发展历史:1980年4月,James 第一次详细阐述了计算机入侵检测的概念。他将计算机入侵尝试或威胁定义为:潜在的、有 预谋的、未经授权的访问信息、操作信息,致使系统不可靠或无法使用的企图,并提出用审 计追踪来监视入侵威胁。1987年,乔治敦大学的Denning和SRI/CSL的Peter提出了一个 经典的入侵检测模型,首次将计算机入侵检测的概念作为一种计算机系统的安全防御措施 提出;1990年,加州大学戴维斯分校的Heberlein等提出了新的概念:基于网络的入侵检测 NSM,入侵检测被分为基于主机的和基于网络的两个基本类型,同时该系统第一次直接将网 络流作为数据来源。
[0005] 本质上,计算机入侵检测是一个模式识别和分类的问题,但入侵检测中需要分类 的数据更加复杂,体现为多维,小样本和不可分性。近年来,国内外学者利用人工智能和机 器学习的算法来解决传统入侵检测技术中存在的若干问题,主要包括数据挖掘、计算机免 疫学、神经网络、支持向量机等,并且在原有技术的基础上进行了有效改进,使得机器学习 成为当前入侵检测研宄领域的一个热点。但是,当前的入侵检测系统仍存在以下不足:(1) 由于入侵检测数据维度高,导致检测效率低;(2)对未知攻击无能为力,缺乏泛化能力,漏 报率高:(3)攻击行为特征库不断更新,系统维护工作量大。

【发明内容】

[0006] 本发明的目的在于针对现有技术的不足,提出一种基于集成学习和半监督SVM的 计算机入侵检测方法,以提高检测结果的准确率和稳定性。
[0007] 为实现上述目的,本发明包括如下步骤:
[0008] (1)将一个包括正常样本和攻击样本的计算机入侵检测数据集中的所有数据归一 化到区间[0, 1];
[0009] (2)从该入侵检测数据集中选取标记样本集和未标记样本集;
[0010] 统计该入侵检测数据集中正常样本的数量和攻击样本的数量,分别将正常样本和 攻击样本记为多数类nump()S和少数类numMg,然后从这两类中随机选取一部分作为标记样本 集,其中Xi是标记样本,y i是标记样本X i的标记,用于标识标记样本X 1是攻击样 本还是正常样本,i是选取的标记样本,1是标记样本的个数;将剩余的数据作为未标记样 本集{^/}/=1,其中Xj是未标记样本,j是选取的未标记样本,U是未标记样本的个数;
[0011] (3)使用标记样本集训练SVM分类器,使用SVM分类器对未标记样本集进行预测, 得到未标记样本集的预测标记集,其中yj是未标记样本X j的预测标记;
[0012] (4)使用标记样本集、未标记样本集及预测标记集训练半监督SVM分类器,使用 半监督SVM分类器迭代更新未标记样本的预测标记集,输出并记录此时的分类模型 modelt,其中,t为步骤4当前已经执行的次数,modelt表示步骤(4)执行第t次时得到的 分类模型;
[0013] (5)提取半监督SVM分类器输出的分类模型model,中的负类支持向量对应的样 本,在标记样本集丨X p :^和未标记样本集{'T;=1中移除与负类支持向量对应的样本;
[0014] (6)如果半监督SVM分类器输出的分类模型model,中的负类支持向量不为空,则 返回执行步骤(3),否则执行步骤(7);
[0015] (7)设步骤⑷总共执行了 T次,则得到T个分类模型[WO办/丄1I1,使用㈨0&/,};:, 对未标记样本集进行预测,得到τ组未标记样本集的预测标记集,其中 t表示选取的分类模型,j表示选取的未标记样本,u表示未标记样本的个数,yj;t表示第t 组未标记样本集中第j个样本的预测标记;
[0016] (8)将标记样本集{',乃}^、未标记样本集^^=1及T组未标记样本集的预测标 记集输入基于邓恩指数的集成学习分类器中,得到未标记样本集的最终分类 结果iyf iizF7L1,根据最终分类结果确定入侵检测数据集中的正常样本和攻击样本。
[0017] 本发明与现有的技术相比具有以下优点:
[0018] 1.本发明综合考虑在实际应用中,采集到的入侵检测数据经常会出现标记样本很 少,同时存在大量未标记样本的情况,通过采用半监督学习的方法,充分利用了所有正常样 本的信息,避免了这部分信息的丢失;
[0019] 2.本发明在计算机入侵检测的过程中,引入了重复欠采样半监督SVM支持向量的 策略,让分类器的分类结果逐渐逼近真实的分类结果,有利于SVM对入侵检测数据进行分 类;
[0020] 3.本发明通过使用集成学习策略,提高了计算机入侵检测方法的稳定性;
[0021] 4.本发明易实现并行化处理,并通过消除冗余数据,提高了模型的训练速度。
【附图说明】
[0022] 图1是本发明的总流程图;
[0023] 图2是本发明中参数k的设置对分类器的性能影响分析图;
【具体实施方式】
[0024] 参照图1,本发明的具体实现步骤如下:
[0025] 步骤1,将一个包括正常样本和攻击样本的计算机入侵检测数据集中的所有数据 归一化到区间[0, 1];
[0026] 步骤2,从该入侵检测数据集中选取标记样本集和未标记样本集;
[0027] 统计该入侵检测数据集中正常样本的数量和攻击样本的数量,分别将正常样本和 攻击样本记为多数类num p()S和少数类numMg,然后从这两类中随机选取一部分作为标记样本 集,其中Xi是标记样本,y i是标记样本X i的标记,用于标识标记样本X 1是攻击样 本还是正常样本,i是选取的标记样本,1是标记样本的个数;将剩余的数据作为未标记样 本集,其中\是未标
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1