一种基于特征选择和决策树的网络异常分类规则提取方法

文档序号:9787706阅读:452来源:国知局
一种基于特征选择和决策树的网络异常分类规则提取方法
【技术领域】
[0001] 本发明涉及网络通信领域,且特别涉及一种基于特征选择和决策树的网络异常分 类规则提取方法。
【背景技术】
[0002] 目前,大部分的异常入侵检测系统主要使用分类技术发现网络中存在的异常数据 模式。主要的方法有:神经网络技术、贝叶斯分类技术、遗传算法、决策树、支持向量机等技 术。
[0003] 上述每种技术虽然都各有特点和优势,但是如果使用单一的分类技术进行异常检 测,会产生应用的局限性,即虽然在某些场合下可以检测到最优解或近似最优解,但是在外 界环境发生变化后,方法则得不到有效求解,失去应有的功能,因此很难有说哪种方法优于 另外一种。而且,随着网络数据量的增多和大数据的出现,异常检测中也出现了 "维数灾难" 的问题,即要处理的属性和特征越来越多,寻找有效的特征和排除干扰特征成为网络异常 检测的重要研究课题。
[0004] 本发明提出的技术是使用混合智能系统进行异常检测,与单一的检测方法相比, 这种技术提高了异常检测的准确性。混合智能系统将不同系统中的结果合并以得到最优 解。

【发明内容】

[0005] 本发明提出一种基于特征选择和决策树的网络异常分类规则提取方法,是一种基 于混合人工智能的网络异常检测方法,其利用遗传算法进行特征发现,利用决策树算法产 决策规则,可以广泛应用于网络异常分类规则提取。
[0006] 为了达到上述目的,本发明提出一种基于特征选择和决策树的网络异常分类规则 提取方法,包括下列步骤:
[0007] 步骤A:对数据库中的特征数据进行预处理,初始化参数,产生初始解;
[0008] 步骤B:使用遗传算法进行参数优化,选择具有最好测试准确性的特征;
[0009] 步骤C:使用决策树算法进行构造决策规则;
[0010] 步骤D:评估所述决策规则的准确率;
[0011] 步骤E:判断是否达到终止条件;
[0012] 步骤F:当未达到终止条件时,返回步骤B继续执行;
[0013] 步骤G:当达到终止条件时,输出异常发现决策规则、准确率和选择的规则。
[0014] 进一步的,所述数据库中的特征种类为41个,每个特征取值的数据类型为连续性 或离散型取值。
[0015] 进一步的,所述使用遗传算法进行特征选择的步骤包括:
[0016] 步骤1:在数据库中,选择所有发生异常的记录,并对这些记录进行编码,将特征编 码成基因;
[0017] 步骤2:设置适应度函数,通过适应度函数来评估基因对某个分类的贡献;
[0018] 步骤3:对数据库中的每个记录编码形成具有Μ个个体的初始群体P。,设置进化代 数计数器c = 〇和最大进化代数G,根据步骤20设置的适应度函数计算每个个体的适应度函 数;
[0019] 步骤4:选择操作,将初始群体P。中的个体按照适应度函数从大到小进行排序,选 择前N个个体构成新的群体P'。;
[0020] 步骤5:交叉操作,在K。上应用两点交叉,生成新的群体P〃。,其中交叉概率为95%; [0021]步骤6:变异操作,在P〃。上应用变异算子,变异概率为5 %,生成新的群体P〃' c; [0022] 步骤7:若c〈G,贝ljc = c+l ,ΡρρΜ。,重新执行步骤3~步骤7;
[0023]步骤8:在最终生成的群体中,保留Gi=l的特征作为降维后的特征。
[0024] 进一步的,所述对数据库中记录进行编码采用Michigan编码方法,将所述特征Ai 编码成基因 i,所述基因具有四个域即Wi,0i,Vi和Gi,其中Wi是权值域,其取值范围为[0,1 ]; 0:为运算符域取值为〈"和"〉" W是值域,即在⑴运算符下特征的取值而是作用域, 取值为1或〇而=1表示染色体中存在基因心,反之仏=0表示染色体中无此基因。
[0025]进一步的,所述设置适应度函数步骤中,定义一个基因个体的准确性和精确性分 别表示为Accuracy = pp/(pp+nn)和Precision = pn/(pn+np),因此个体的适应度函数计算 如下:
[0027] 其中Accuracyi和Precisiom分别是第i个基因的准确度和精确度。
[0028] 进一步的,所述使用决策树算法进行构造决策规则的步骤为使用C4.5决策树算法 对遗传生成的特征进行网络异常分类规则发现。
[0029] 进一步的,所述C4.5决策树算法步骤如下:
[0030] 对于数据库中的记录,仅选择保留GA算法选择出的特征构成的数据库S作为训练 集;
[0031] 创建节点N;
[0032]如果训练集为空,在返回节点N标记为Failure;
[0033] 如果训练集中的所有记录都属于同一个类别,则以该类别标记节点N;
[0034] 如果候选属性为空,则返回N作为叶节点,标记为训练集中最普通的类;
[0035] for each候选属性attribute_list;
[0036] if候选属性是连续的then;
[0037] 对属性进行离散化;
[0038]选择候选属性attribute_list中具有最高信息增益的属性D;
[0039]标记节点N为属性D;
[0040] for each属性D的一个值;
[0041] 由节点N长出一个条件为D = d的分支;
[0042]设8是训练集中D = d的训练样本的集合;
[0043] if s为空;
[0044] 加上一个树叶,标记为训练集中最普通的类;
[0045] else 加上一个由C4.5(R_{D},C,s)返回的点。
[0046] 本发明提出的基于特征选择和决策树的网络异常分类规则提取方法,是一种混合 智能算法,将遗传算法和决策树相结合,首先通过遗传算法进行特征选择和降维,然后在降 维后的数据上利用决策树算法提取分类和决策规则,产生的分类规则用于网络异常发现和 预测。本发明提出了一种结合了特征选择和决策规则发现的混合智能网络异常检测算法, 结合了遗传算法(GA)和决策树算法(DT),首先使用GA进行特征选择,然后应用DT进行决策 规则发现,本发明利用混合智能系统进行异常检测,与单一的检测方法相比,提高了网络异 常检测的准确性。
【附图说明】
[0047] 图1所示为本发明较佳实施例的基于特征选择和决策树的网络异常分类规则提取 方法流程图。
[0048] 图2所示为本发明较佳实施例的网络异常检测特征数据库中的特征及类型示意 图。
[0049] 图3所示为本发明较佳实施例的典型编码方案示意图。
【具体实施方式】
[0050] 以下结合附图给出本发明的【具体实施方式】,但本发明不限于以下的实施方式。根 据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简 化的形式且均使用非精准的比率,仅用于方便、明晰地辅助说明本发明实施例的目的。
[0051] 请参考图1,图1所示为本发明较佳实施例的基于特征选择和决策树的网络异常分 类规则提取方法流程图。本发明提出一种基于特征选择和决策树的网络异常分类规则提取 方法,包括下列步骤:
[0052] 步骤A:对数据库中的特征数据进行预处理,初始化参数,产生初始解;
[0053] 步骤B:使用遗传算法进行参数优化,选择具有最好测试准确性的特征;
[0054] 步骤C:使用决策树算法进行构造决策规则;
[0055] 步骤D:评估所述决策规则的准确率;
[0056] 步骤E:判断是否达到终止条件;
[0057] 步骤F:当未达到终止条件时,返回步骤B继续执行;
[0058]步骤G:当达到终止条件时,输出异常发现决策规则、准确率和选择的规则。
[0059] 再请参考图2,图2所示为本发明较佳实施例的网络异常检测特征数据库中的特征 及类型示意图。根据本发明较佳实施例,所述数据库中的特征种类为41个,每个特征取值的 数据类型为连续性或离散型取值。
[0060] 在网络异常检测中,较多的属性(特征)增加了数据分类中的维数,甚至造成"维数 灾难"问题。因此首先需要通过特征选择进行降维,这里我们选择遗传算法GA,因为GA可以 较快的得到全局最优解。
[0061 ]所述使用遗传算法进行特征选择的步骤包括:
[0062]步骤1:在数据库中,选择所有发生异常的记录,并对这些记录进行编码,将特征编 码成基因;
[0063] 步骤2:设置适应度函数,通过适应度函数来评估基因对某个分类的贡献;
[0064] 步骤3:对数据库中的每个记录编码形成具有Μ个个体的初始群体P。,设置进化代 数计数器c = 〇和最大进化代数G,根据步骤20设置的适应度函数计算每个个体的适应度函 数;
[0065] 步骤4:选择操作,将初始群体P。中的个体按照适应度函数从大到小进行排序,选 择前
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1