基于数据挖掘的异常检测方法

文档序号:6566107阅读:375来源:国知局
专利名称:基于数据挖掘的异常检测方法
技术领域
本发明涉及计算机异常检测方法,尤其是一种基于数据挖掘的异常检测方法。
背景技术
入侵检测是对计算机系统攻击行为的检测,提供了对内部攻击、外部攻击和误操作的实时保护。为了能够准确的识别攻击类型,入侵检测通过从计算机本地系统中的日志记录文件、计算机的网络系统中的若干个关键结点等中收集相关资料信息的,并且在通过对于这些数据的分析,得到检测的计算机本地系统或者是计算机网络系统中是否有违反安全策略的行为发生或者是否遭受到侵袭的迹象的结果。入侵检测可以监测并且分析用户和系统的日常记录活动、检查系统配置中的安全漏洞、评估计算机系统的关键资源与数据文件的完整性、识别现有已知的攻击行为或者是用户滥用、统计并且分析异常行为、对于系统日志记录进行管理和维护,即在计算机系统性能并不会受到影响的情况下,对计算机系统网络进行实时的监测和控制。由于现有入侵检测技术中,采集到的大量数据作为入侵检测系统的数据源,对其进行分析处理以判断是否发生入侵事件,大量的数据在提供了可供利用的信息量的同时, 也增加了有效利用这些数据的困难,有用信息反而可能会淹没在大量的冗余数据之中,增加了特征提取的困难。

发明内容
本发明的目的是提供一种基于数据挖掘的异常检测方法,通过提取网络数据中有用网络数据特征,消除了网络数据中的冗余属性,提高了检测的精度,且降低了误报和漏报的概率。为了实现上述目的,本发明提供了一种一种基于数据挖掘的异常检测方法,其特征在于由以下步骤组成
51、以网络数据作为观测变量,采用!^ast-ICA方法从所述观测变量中提取观测变量特征,构成观测变量特征集合Z,即获得消除冗余属性且降低数据维数的网络数据特征;
52、采用AdaBoost方法训练观测变量特征以观测变量特征集为训练集,各观测变量特征作为训练文本,向各训练文本赋予一个权值,其中所述权值用于表示所述训练文本被弱分类器选入训练集的概率,当弱分类器训练结束后,根据训练集的分类结果调节各训练文本的权重如果所述训练样本被所述弱分类器精确分类,则所述弱分类器的权重降低,则其被下一弱分类器选入训练集的概率降低;如果所述训练样本未被所述弱分类器精确分类,则其被下一弱分类器选入训练集的概率提升,最终获得强分类器;
53、根据所述强分类器对异常网络数据进行检测。在所述步骤Sl中由以下步骤组成
S10、设定N个观测变量Xi,构成观测变量集合且每个观测变量均表示为M个独立分量^的线性组合,其中M个独立分量力·构成独立分量集合,i=l,……,N,j=l,……,M且N、M均为大于1的整数,求取观测变量集合的转置矩阵X= ( ,-, ^以及独立分量集合的转置矩阵S= (S1,約,·■■, /,且设定X=A*S,其中A = (αφΝ.又M为未知的混合矩阵;
511、对所述观测变量进行白化处理;
512、设定混合矩阵A的广义逆为分离矩阵W,根据公式通过随机梯度方法调节所述分离矩阵W,求取所述转置矩阵S的最优估汁^从而获得消除冗余属性且降低数据维数的网络数据特征。所述步骤S12中通过随机梯度法调节分离矩阵W由以下步骤组成
(1)根据公式Wi + = KiO(W^ik)Ki) i-S I G(Wfik)Xi) I Wi (k)对所述分离矩阵 W 以
行为单位进行迭代处理,其中mm表示k次迭代后所述分离矩阵w中与观测变量集合中第
i个观测变量巧相对应的一行向量,^Ci + !)表示k+l次迭代后分离矩阵W中与观测变量集
合中第i个观测变量巧相对应的一行向量,Wf (M表示k次迭代后分离矩阵w中与观测变
量集合中第i个观测变量巧相对应的一行向量的转置矩阵,E为期望运算符,G为高斯分布运算符,i、k均为大于1的整数;
(2)、判断巧汸+1)-巧(i)的绝对值<ξ是否成立,如果成立则结束迭代处理,获得最
终分离矩阵W(n),执行步骤(3),如果不成立则重复执行步骤(1),其中ξ取0 1之间的任意数值;
Wi ( )
(3)、对所述最终分离矩阵W(η)以行为单位进行归一化处理,即两(功=|^|,其中 I Il表示求取范数;
(4)将最终分离矩阵W(η)代入公式圹=W*X中求得所述转置矩阵S的最优估计>
,从而获得消除冗余属性且降低数据维数的网络数据特征。在所述步骤S2中由以下步骤组成
520、设定训练集为
权利要求
1.一种基于数据挖掘的异常检测方法,其特征在于由以下步骤组成51、以网络数据作为观测变量,采用!^ast-ICA方法从所述观测变量中提取观测变量特征,构成观测变量特征集合Z,即获得消除冗余属性且降低数据维数的网络数据特征;52、采用AdaBoost方法训练观测变量特征以观测变量特征集为训练集,各观测变量特征作为训练文本,向各训练文本赋予一个权值,其中所述权值用于表示所述训练文本被弱分类器选入训练集的概率,当弱分类器训练结束后,根据训练集的分类结果调节各训练文本的权重如果所述训练样本被所述弱分类器精确分类,则所述弱分类器的权重降低,则其被下一弱分类器选入训练集的概率降低;如果所述训练样本未被所述弱分类器精确分类,则其被下一弱分类器选入训练集的概率提升,最终获得强分类器;53、根据所述强分类器对异常网络数据进行检测。
2.根据权利要求1所述的基于数据挖掘的异常检测方法,其特征在于在所述步骤Sl 中由以下步骤组成510、设定N个观测变量X1,构成观测变量集合且每个观测变量均表示为M个独立分量 ^的线性组合,其中M个独立分量。构成独立分量集合,i=l,……,N,j=l,……,M且N、 M均为大于1的整数,求取观测变量集合的转置矩阵X= ( , ,-,%/以及独立分量集合的转置矩阵S= …,且设定X=A*S,其中A= (%)况><1/为未知的混合矩阵;511、对所述观测变量进行白化处理;512、设定混合矩阵A的广义逆为分离矩阵W,根据公式7= W*X通过随机梯度方法调节所述分离矩阵W,求取所述转置矩阵S的最优估汁^从而获得消除冗余属性且降低数据维数的网络数据特征。
3.根据权利要求2所述的基于数据挖掘的异常检测方法,其特征在于所述步骤S12 中通过随机梯度法调节分离矩阵W由以下步骤组成(1)根据公式m(k+ l) = E\ XiG(Wfik)Xi) I-EI G(WfiMxi) i WM 对所述分离矩阵 W 以行为单位进行迭代处理,其中WKi表示k次迭代后所述分离矩阵w中与观测变量集合中第i个观测变量,相对应的一行向量,im+x)表示k+i次迭代后分离矩阵w中与观测变量集合中第i个观测变量^相对应的一行向量,Wf (k)表示k次迭代后分离矩阵W中与观测变量集合中第i个观测变量 相对应的一行向量的转置矩阵,E为期望运算符,G为高斯分布运算符,i、k均为大于1的整数;(2)、判断》+-巧(λ)的绝对值< ξ是否成立,如果成立则结束迭代处理,获得最终分离矩阵W(n),执行步骤(3),如果不成立则重复执行步骤(1),其中ξ取O 1之间的任意数值;ψ. (η)(3)、对所述最终分离矩阵W(η)以行为单位进行归一化处理,即两(《) = Jji^I,其中I! Il表示求取范数;(4)将最终分离矩阵W (η)代入公式f = IV*X中求得所述转置矩阵S的最优估计1,从而获得消除冗余属性且降低数据维数的网络数据特征。
4.根据权利要求1所述的基于数据挖掘的异常检测方法,其特征在于在所述步骤S2 中由以下步骤组成S20、设定训练集为G={( , ),……H)} , A- e少,=,其中y为转置矩阵S的最优估计,i=l,……,m+n,m+n为大于1的整数;&为类标号, =+1时为少数类, =一 1时为多数类,少数类样本的个数为m,多数类样本的个数为n,且m<<n ;S21、初始化所述训练集将训练集G中各(而為)的权重均初始化为1/n;S22、以BP为弱分类器,调用Weaklearn进行T次迭代训练,其中每次迭代训练获得一组弱分类器函数;S23、在每次迭代训练前判定迭代次数>T是否成立,如果成立则由T组弱分类器函数组合获得强分类器,如果不成立则调整权重,重复执行步骤S22。
全文摘要
本发明公开了一种基于数据挖掘的异常检测方法,属于网络安全技术领域。该异常检测方法基于独立分量分析和Adaboost方法,首先用Fast-ICA算法进行特征提取,以消除冗余属性,降低数据维数。AdaBoost方法依次训练一组弱分类器,将它们集成为一个强分类器。通过本发明,有效地消除网络数据中的冗余属性信息,减少了分类器的训练和检测的运算量;同时也提高了检测的精度,降低样本误报和漏报的概率。
文档编号G06F21/00GK102324007SQ20111028301
公开日2012年1月18日 申请日期2011年9月22日 优先权日2011年9月22日
发明者严鸣, 唐朝伟, 张雪臻, 时豪, 李超群, 杨磊 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1