基于树突细胞算法的网络数据异常检测方法

文档序号:7735741阅读:503来源:国知局
专利名称:基于树突细胞算法的网络数据异常检测方法
技术领域
本发明属于网络安全领域,特别涉及一种网络数据异常检测方法,可用于对网络 中接收的数据进行异常检测。
背景技术
网络数据异常检测方法通常采用人工免疫系统中的经典免疫学否定选择方法 NSA, NSA利用免疫系统“自我”与“非我”作为判断数据是否为入侵数据的唯一标准,会造成 误检和漏检,除此之外,NSA还有两个主要缺点,规模问题与覆盖率问题,即当检测数据过于 庞大时,检测集的生成和更新会降低系统的时效性以及覆盖率不可能达到100%,即使目前 最常用的匹配规则Hamming规则、r连续位规则、r块规则等都避免不了漏洞的出现。基于传统免疫学的自我-非我模型识别网络数据异常检测方法存在的上述问题, 1994年免疫学家Polly Matzinger提出了一个理论免疫系统并不区分自我和非我,而是 响应损害身体的危险信号,这一理论称为危险理论。Greensmith等免疫学家认为危险理论 可以将AIS和入侵检测系统联系起来,模拟人工免疫中的树突状细胞的免疫应答,利用对 组织环境中的危险信号变化特别敏感的一类专职抗原提呈细胞APC,摄取细胞中的环境信 号即抗原数据和信号数据,融合信号数据,处理大量的抗原数据,当有危险信号产生时,启 动抗原提呈细胞APC,计算抗原数据所处细胞环境,根据抗原异常程度即成熟环境抗原值判 定抗原类型异常与否。Greensmith根据上述树突状细胞机理设计实现树突状细胞算法,并将树突状细胞 算法应用于网络数据异常检测中,通常有信号定义方法、信息增益降维方法以及信号处理 方法,利用这些方法能得到较高的检测率,但是在这些方法中由于信号定义方法采用经验 数据,随机性很大,造成检测率高低不稳定。

发明内容
本发明的目的在于克服上述已有技术的缺陷,提出一种基于树突细胞算法的网络 数据异常检测方法,以提高检测率的稳定性,并进一步提高检测率和降低误报率。实现本发明目的的技术思路是将树突细胞算法应用到网络数据异常检测方法 中,通过建立一个基于树突细胞的计算模型,对入侵信号进行检测。其实现步骤包括如下(1)从KDD99数据库中,选取10%的数据作为入侵信号,并归一化这些信号的文本 特征及数值特征,其中将信号标记的异常特征设定为1,将信号标记的正常特征设定为0 ;(2)从归一化后的KDD99数据中选定抗原类型和输入信号2a)从归一化后的KDD99数据中选定3种文本特征即协议类型、目标主机的网络服 务类型和连接正常或错误的状态作为抗原类型;2b)计算归一化后的KDD99数据中的属性特征信息增益G(A)G(A)^E(S)- Σ (智)五(民)
veV(A) I
其中,A是所有归一化后的KDD99数据中的特征,E(S)是特征A的所有特征值的
熵,= 只log2jR,式中i是KDD99数据中标记特征即正常为0或者异常为l,Pi是S属
i=0
于标记特征i的比例,即S属于标记特征0或1的数目与S属于标记特征0和1的总数目 的百分比,V是所有归一化后的KDD99数据中的特征值,V(A)是特征A的所有特征值,Sv是 特征A的特征值为ν的子集个数,S是特征A的所有特征值的集合总数,E (Sv)是特征A的 特征值为ν的熵;2c)计算归一化后的KDD99数据中与攻击类别和正常类别的相关特征的信息增 益I (A),并选定与攻击类别和正常类别的相关特征作为输入信号,计算相关特征信息增益 I(A)
权利要求
1. 一种基于树突细胞算法的网络数据异常检测方法,包括如下步骤(1)从KDD99数据库中,选取10%的数据作为入侵信号,并归一化这些信号的文本特征 及数值特征,其中将信号标记的异常特征设定为1,将信号标记的正常特征设定为0 ;(2)从归一化后的KDD99数据中选定抗原类型和输入信号2a)从归一化后的KDD99数据中选定3种文本特征即协议类型、目标主机的网络服务类 型和连接正常或错误的状态作为抗原类型;2b)计算归一化后的KDD99数据中的属性特征信息增益G(A)G(A)^E(S)- Σ (@)五(民)veV(A) I其中,A是所有归一化后的KDD99数据中的特征,E(S)是特征A的所有特征值的熵,= 只10&只,式中i是KDD99数据中标记特征即正常为0或者异常为1,?1是3属于i=0标记特征i的比例,即S属于标记特征0或1的数目与S属于标记特征0和1的总数目的 百分比,V是所有归一化后的KDD99数据中的特征值,V(A)是特征A的所有特征值,Sv是特 征A的特征值为ν的子集个数,S是特征A的所有特征值的集合总数,E (Sv)是特征A的特 征值为ν的熵;2c)计算归一化后的KDD99数据中与攻击类别和正常类别的相关特征的信息增益 I (A),并选定与攻击类别和正常类别的相关特征作为输入信号,计算相关特征信息增益 I (A)公式如下^)= ΣvgV(A) Pl其中,A是所有归一化后的KDD99数据中的特征,ν是所有归一化后的KDD99数据中的 特征值,V(A)是特征A的所有特征值,sv是特征A的特征值为ν的子集个数,S是特征A的 所有特征值的集合总数;(3)分别设定树突细胞算法中DC细胞种群数M为100、迁移阈值为100到300之间的 随机数和成熟环境抗原阈值为0. 8 ;(4)读取归一化后的KDD99数据,对输入信号Ik进行权值转换,得到输出信号0」,即协 同刺激分子信号O1、半成熟信号O2和成熟信号O3 ;(5)将输出信号0”仏和O3分别进行累加,比较累加协同刺激分子信号与迁移阈值,如 果累加协同刺激分子信号大于迁移阈值,则标记细胞环境和提呈抗原类型,该细胞环境包 括成熟环境和半成熟环境,当累加半成熟信号大于累加成熟信号,细胞环境标记为半成熟 环境,抗原类型被提呈为半成熟环境,当累加半成熟信号小于累加成熟信号,细胞环境标记 为成熟环境,抗原类型被提呈为成熟环境;如果累加协同刺激分子信号小于迁移阈值,则转 至步骤⑷;(6)根据被提呈的抗原类型,将抗原被提呈为成熟环境的次数占此类抗原被提呈总次 数的百分比与成熟环境抗原阈值进行比较,如果抗原类型的成熟环境抗原值大于成熟环境 抗原阈值,则抗原类型为异常,否则为正常;(7)将所得抗原类型正常或者异常与归一化后的KDD99数据中标记特征进行比较,如果抗原类型正常,且归一化后的KDD99数据中标记特征为0,或者抗原类型异常,且归一化 后的KDD99数据中标记特征为1,则为正检,否则为误检,并计算检测率DR和误报率FA。
2.根据权利要求1所述的网络数据异常检测方法,其中步骤(1)所述的归一化入侵信 号的文本特征及数值特征,是先将信号文本特征映射为数值特征;再将映射的数值特征和 KDD99数据中原有的数值特征归一化。
3.根据权利要求1所述的网络数据异常检测方法,其中步骤(4)所述的对输入信号Ik 进行权值转换,通过如下公式进行转换
4.根据权利要求1所述的网络数据异常检测方法,其中步骤(7)所述的计算检测率DR 和误报率FA DR = TP/(TP+FN)FA = FP/(TN+FP)其中,TP表示抗原类型为异常,且归一化后的KDD99数据中标记特征为1的抗原类型 数目;TN表示抗原类型为正常,且数据中标记特征为0的抗原类型数目;FP表示抗原类型 为异常,且数据中标记特征为0的抗原类型数目;FN表示抗原类型为正常,且数据中标记特 征为1的抗原类型数目。
全文摘要
本发明公开了一种基于树突细胞算法的网络数据异常检测方法。主要解决现有技术检测率不稳定的缺点。其实现步骤为(1)归一化KDD99数据的文本特征及数值特征;(2)从归一化后的KDD99数据中选定抗原类型和输入信号;(3)分别设定树突细胞算法中DC细胞种群数M、迁移阈值和成熟环境抗原阈值;(4)读取数据,对输入信号进行权值转换;(5)根据输出信号,标记细胞环境和提呈抗原类型;(6)计算抗原类型的成熟环境抗原值;(7)计算检测率和误报率。本发明与现有技术相比提高了检测率的稳定性,并进一步提高检测率和降低误报率,可用于对网络中接收的数据进行异常检测。
文档编号H04L12/26GK102123062SQ20111010154
公开日2011年7月13日 申请日期2011年4月22日 优先权日2011年4月22日
发明者公茂果, 刘芳, 张建, 段婷婷, 焦李成, 王彦涛, 马文萍, 马晶晶 申请人:西安电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1