一种基于集成学习的入侵检测方法

文档序号:7928811阅读:182来源:国知局
专利名称:一种基于集成学习的入侵检测方法
技术领域
本发明属于网络信息安全技术领域,尤其涉及一种基于集成学习的入侵检测方法。
背景技术
随着hternet技术的飞速发展,网络安全的重要性及其对社会的影响越来越大, 网络安全问题也越来越突出,并逐渐成为hternet及各项网络服务和应用进一步发展所亟需解决的关键问题。此外网络入侵和攻击行为正朝着分布化、规模化、复杂化、间接化等趋势发展,势必对安全产品技术提出更高的要求。入侵检测是对入侵行为的检测,入侵检测系统通过收集网络及计算机系统内所有关键节点的信息,检查网络或系统中是否存在违反安全策略行为及被攻击迹象。入侵检测的数据来源是各种网络安全设备(如防火墙、IDS、IPS等)的日志,这些设备会实时的记录每个时间监测点目标网络的活动情况以便分析目标网络的运行情况。入侵检测技术的理论来源是模式识别中分类问题,将各种网络攻击抽象成一个已知类别,将网络安全设备的历史运行日志作为训练样本集使用人工智能算法通过训练学习得到多分类模型,即入侵检测系统。目前入侵检测的解决方案,主要是利用神经网络、支持向量机等单学习机方法,单学习机的方法误差相对较大、易出现过拟合现象、计算过程复杂。入侵检测系统的核心性能要求是准确性和实时性,目前基于单学习机的解决方案在这两方面均有不足。为了改善入侵检测系统的准确性,本发明采用集成学习Boosting算法设计入侵检测系统,集成学习Boosting算法的最大优势在于通过对弱学习算法的反复迭代训练从而得到高精度的分类模型。为了改善入侵检测系统的实时性,本发明分别在特征提取阶段和集成学习Boosting算法的弱学习算法选择上使用核主成分分析和核心向量机,从而使得在尽量不降低精度的情况下提高入侵检测系统的速度。为此本发明采用集成学习Boosting算法设计入侵检测系统,有效改善了入侵检测系统精度和实时性。

发明内容
针对上述背景技术中提到的单学习机方法误差较大、易出现过拟合现象、计算过程复杂等不足,本发明提出了一种基于集成学习的入侵检测方法。本发明的技术方案是,一种基于集成学习的入侵检测方法,其特征是所述方法包括以下步骤步骤1 使用核主成分分析从网络安全设备日志的属性Xl,x2, L,Xn中提取入侵检测所需要的时间监测点i的特征数据屹4,Λ ,χ;;步骤2 将特征数据χ ,X丨,Λ ^丨结合时间监测点i的网络安全态势/构造成集成学习Boosting算法中弱学习算法可读的训练样本集Steain ;步骤3 利用集成学习Boosting算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h,再利用对弱学习机序列h加权求和的方法得到强学习机H ;步骤4 利用强学习机H完成当前入侵检测分析。所述弱学习算法为核心向量机。所述步骤1包括以下步骤
Rn Hilbert步骤1. 1 将属性Χι,χ2, L,Xn的数据t , ,利用核函数变换Φ : μ、
Xl, X2 ,/V , XnX —
从Rn空间映射到Hilbert空间,得到Hilbert空间中的数据(χ),Φ〖(χ),Λ ,Φ! (χ);步骤1. 2 在Hilbert空间中计算Φ (χ),Φ〖(χ),Λ ,Φ:(X)各分量的协方差矩阵C ;步骤1. 3 求解协方差矩阵C所对应的特征方程Xu=Cu中的特征值及非零特
η
征值对应的特征向量U,并将特征向量U的表达式为〃 = 1%0^^;
9=1步骤1. 4 求解α ,,可得特征向量α的对偶特征方程m λ α =Ka ;步骤1. 5 将特征向量α单位化;步骤1. 6 计算各Φ,(χ)在特征向量υ上的投影仏⑴;步骤1.7:将所有投影^1(X)组合成一个矢量g(x) = [gl(x), A,作为样本的特征向量;
η步骤1.8 用比值Λ/ΣΛ表示分量^1(X)对样本总体方差的贡献度,按贡献度从
9=1
大到小排序,最终选取前指定个最大的特征值λ ^对应的特征向量Utl构成训练样本集所需的特征数据^,^,八一;。所述步骤3包括以下步骤步骤3. 1 设定集成学习Boosting算法最大迭代次数k,并设定集成学习 Boosting算法所调用的弱学习算法;步骤3. 2 规范化训练样本集Strain,并设定训练样本集Strain为集成学习Boosting 算法的原始数据样本集D ;步骤3.3 以cof(l)为概率从原始数据样本集D中抽取的样本集Df,并由弱学习算法训练,得到弱学习机hf;步骤3. 4 计算弱学习机hf的训练误差ε f ;步骤3. 5 计算弱学习机hf的权重a f ;步骤3. 6 更新原始数据样本集D中训练样本的权重;步骤3. 7 当满足下列两个条件之一,则执行步骤3. 8 ;否则返回步骤3. 3 ;条件1 集成学习Boosting算法达到最大迭代次数k ;条件2 样本集Df不再变化;步骤3. 8 输出强学习机H。所述训练误差ε f的计算公式为
权利要求
1.一种基于集成学习的入侵检测方法,其特征是所述方法包括以下步骤步骤1 使用核主成分分析从网络安全设备日志的属性Xl,X2, L,Xn中提取入侵检测所需要的时间监测点i的特征数据屹Λ ,χ;;步骤2 将特征数据χ ,χ丨Λ ^丨结合时间监测点i的网络安全态构造成集成学习 Boosting算法中弱学习算法可读的训练样本集Strain ;步骤3 利用集成学习Boosting算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h,再利用对弱学习机序列h加权求和的方法得到强学习机H ; 步骤4 利用强学习机H完成当前入侵检测分析。
2.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述弱学习算法为核心向量机。
3.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述步骤1包括以下步骤Rn Hilbert步骤1. 1 将属性Xl,x2, L,xn的数据t t . 淨j用核函数变换Φ : μ、从铲Xl, X2 ,/V , XriX —空间映射到Hilbert空间,得到Hilbert空间中的数据Φ (χ),Φ〖(χ),Λ ,Φ'η(χ);步骤1. 2 在Hilbert空间中计算Φ (χ),Φ〖(χ),Λ ,Φ!(x)各分量的协方差矩阵C ; 步骤1.3:求解协方差矩阵C所对应的特征方程Xu=Cu中的特征值及非零特征值η对应的特征向量U,并将特征向量U的表达式为" = 1%0^^;9=1步骤1.4:求解α ^,可得特征向量α的对偶特征方程mλ α = Κα ;步骤1.5:将特征向量α单位化;步骤1. 6 计算各Φ,(χ)在特征向量υ上的投影gjx);步骤1.7:将所有投影^1(X)组合成一个矢量g(x) = [gl(x), A,作为样本的特征向量;η步骤ι. 8 用比值表示分量^1(X)对样本总体方差的贡献度,按贡献度从大到9=1小排序,最终选取前指定个最大的特征值λ ^对应的特征向量Utl构成训练样本集所需的特征数据 ,
4.根据权利要求1所述的一种基于集成学习的入侵检测方法,其特征是所述步骤3包括以下步骤步骤3. 1 设定集成学习Boosting算法最大迭代次数k,并设定集成学习Boosting算法所调用的弱学习算法;步骤3. 2 规范化训练样本集Steain,并设定训练样本集Steain为集成学习Boosting算法的原始数据样本集D ;步骤3.3:以cof(l)为概率从原始数据样本集D中抽取的样本集Df,并由弱学习算法训练,得到弱学习机hf ;步骤3. 4 计算弱学习机hf的训练误差ε f ; 步骤3. 5 计算弱学习机hf的权重α f ;步骤3. 6 更新原始数据样本集D中训练样本的权重;步骤3. 7 当满足下列两个条件之一,则执行步骤3. 8 ;否则返回步骤3. 3 ;条件1 集成学习Boosting算法达到最大迭代次数k ;条件2:样本集Df不再变化;步骤3. 8:输出强学习机H。
5.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述训练误差ε f的计算公式为
6.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述权重αf 的计算公式为
7.根据权利要求4所述的一种基于集成学习的入侵检测方法,其特征是所述强学习机H的计算公式为
全文摘要
本发明公开了网络信息安全技术领域中的一种基于集成学习的入侵检测方法。该方法使用核主成分分析从网络安全设备的日志中提取入侵检测所需要的若干特征,进而将各个时间监测点中这些特征的数据结合当时网络安全态势构造成训练样本集;在集成学习Boosting算法中使用核心向量机作为弱学习算法,利用集成学习Boosting算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列,再利用对弱学习机序列加权求和的方法得到强学习机;利用强学习机完成当前入侵检测分析。本发明在提高入侵检测系统实时性,降低入侵检测漏报率和误报率方面,以及提高入侵检测系统泛化能力方面,有较好的性能。
文档编号H04L12/26GK102263790SQ20111020087
公开日2011年11月30日 申请日期2011年7月18日 优先权日2011年7月18日
发明者李元诚, 王宇飞 申请人:华北电力大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1