网络入侵检测方法及系统

文档序号:35374932发布日期:2023-09-08 14:27阅读:23来源:国知局
网络入侵检测方法及系统

本发明属于网络入侵检测,具体涉及网络入侵检测方法及系统。


背景技术:

1、在计算机视觉、信息安全和医学等领域,数据分类经常受到一类数据分布的偏斜影响。深度森林算法是一种集成学习算法,由随机森林和极端随机森林组成,其在不平衡学习领域得到了众多学者的青睐,另外,其具有良好的可并行性。在大数据时代下,不论是传统的基于统计学的机器学习算法还是近年来新兴大火的各种深度学习手段都被国内外研究者针对不平衡学习领域的特点进行改造,应用于该领域。

2、网络入侵数据集的显著特点就是数据不均衡和数据规模大,常见的机器学习算法,如逻辑回归算法、随机森林算法等在直接训练这类不均衡数据集时,效果都会大打折扣。所以常用的处理方式是,先将机器学习算法进行改进,然后再用改进后算法进行集成训练。深度森林作为一种较新的集成学习算法,其组成包括随机森林和极端随机森林,但在处理大规模数据时,随机森林数量限制了其并行计算的程度,用于网络入侵检测则会影响检测准确性。


技术实现思路

1、为了解决上述问题,本发明提供了网络入侵检测方法及系统,能够有效提高分类检测能力,防止决策树对某些样本数据的识别能力趋于一致,使得网络入侵检测模型具有很好的检测准确性。

2、本发明采用了以下方案:

3、<方法>

4、本发明提供网络入侵检测方法,包括以下步骤:

5、步骤1,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;

6、步骤2,拆分原始数据得到训练集和测试集,再经过数据处理后得到rdd数据,以便分布式处理;

7、步骤3,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;

8、步骤4,使用验证数据并行评估模型的auc值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;

9、步骤4.1,计算各节点的auci值;

10、步骤4.2,基于每个节点的auci得到相应决策树的auc值:

11、

12、式中,k为节点数量,ni为第i个节点的样本数,auci为第i个节点的auc值;

13、然后将决策树的auc值按从大到小顺序排列,保留预定比例的auc值高的决策树;

14、步骤4.3,计算决策树内积和,计算公式如下:

15、

16、式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和s;

17、步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:

18、

19、式中,p为目标决策树上的非叶节点总数,q为比较决策树上的非叶节点总数,p和q分别是目标决策树p和比较决策树q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;

20、步骤4.5,将每个子森林中所有amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;

21、步骤5,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;

22、步骤6,对级联每一层都采用步骤4和5进行优化,训练得到最终的网络入侵检测模型;

23、步骤7,采用网络入侵检测模型对网络访问数据进行检测。

24、优选地,本发明提供的网络入侵检测方法,在步骤4.2中,预定比例为3/4~1/2范围内任意值。

25、优选地,本发明提供的网络入侵检测方法,在步骤4.5中,阈值为25~35范围内任意值。

26、优选地,本发明提供的网络入侵检测方法,在步骤4.2中,预定比例a为2/3;在步骤4.5中阈值为30。

27、优选地,本发明提供的网络入侵检测方法,步骤3包括以下子步骤:

28、步骤3.1,使划分前后深度森林所产生的类向量保持完全一致;设子森林中决策树数量为m,则样本类向量的输出为:

29、

30、式中,ui为子森林中第i棵树产生的类向量;

31、步骤3.2,设原深度森林中总共有m棵树,划分出的子森林数为g,则最终类向量为:

32、

33、式中,mg为第g个子森林中决策树的数量;q(mg)为第g个子森林输出的最终类向量。

34、优选地,本发明提供的网络入侵检测方法,在步骤4.1中,第i个节点的auc值auci:

35、

36、式中,1[f(t0)<f(t1)]为一个指示函数,当f(t0)<f(t1)时返回1,否则返回0;di0是第i个节点的反例集合,di1是第i个节点的正例集合。

37、<系统>

38、进一步,本发明还提供了网络入侵检测系统,能够自动实现上述<方法>,包括:

39、数据获取部,对有关网络入侵二分类异常数据库中的原始数据进行数据清洗与特征工程处理,获得可用于进行机器学习的原始数据集;

40、预处理部,拆分原始数据得到训练集和测试集,再经过数据处理后得到rdd数据,以便分布式处理;

41、级联模型构建部,使用训练数据并行构建级联层深度森林,并划分子森林并行计算;

42、优化部,执行以下步骤4.1~4.5,使用验证数据并行评估模型的auc值并比较森林中决策树的内积和,挑选出泛化能力和相似度较低的决策树重新组成优化过的深度森林;

43、步骤4.1,计算各节点的auci值;

44、步骤4.2,基于每个节点的auci得到相应决策树的auc值:

45、

46、式中,k为节点数量,ni为第i个节点的样本数,auci为第i个节点的auc值;

47、然后将决策树的auc值按从大到小顺序排列,保留预定比例的auc值高的决策树;

48、步骤4.3,计算决策树内积和,计算公式如下:

49、

50、式中,k为包括决策树根节点在内的非叶子节点索引,采用深度优先策略遍历这些节点,在遍历的同时获得该节点分裂时的特征索引和特征值,对节点中的(i,v)对计算内积和s;

51、步骤4.4,基于步骤4.3,对每个子森林:比较任意决策树与其他决策树的内积和差值,将比较的目标记为目标决策树,将与之比较的其他决策树记为比较决策树;对于每个目标决策树,遍历计算其与所有比较决策树的内积和差值,并求取均值:

52、

53、式中,p为目标决策树上的非叶节点总数,q为比较决策树上的非叶节点总数,p和q分别是目标决策树p和比较决策树q上非叶节点的序号,ip+1和iq+1分别为序号为p+1和q+1的特征索引,vp+1和iq+1分别为序号为p+1和q+1基尼系数最小的特征值;amn为含有m个决策树的子森林中第n个子决策树内积和差值的均值;

54、步骤4.5,将每个子森林中所有amn>阈值的目标决策树保留,每个子森林中保留的决策树形成新的子森林,所有新的子森林形成优化过的深度森林模型;

55、训练部,使用验证集对当前优化过的深度森林模型并行测试,并将类概率向量同训练集一起并行训练以构建下一级联层;

56、检测模型生成部,对级联每一层都采用优化部和训练部进行优化、训练,得到最终的网络入侵检测模型;

57、检测部,采用网络入侵检测模型对网络访问数据进行检测;

58、控制部,与数据获取部、预处理部、级联模型构建部、优化部、训练部、检测模型生成部、检测部均通信相连,控制它们的运行。

59、优选地,本发明提供的网络入侵检测系统,还可以包括:输入显示部,与控制部通信相连,用于让用户输入操作指令,并进行相应显示。

60、优选地,本发明提供的网络入侵检测系统,在优化部中,预定比例为3/4~1/2范围内任意值。

61、优选地,本发明提供的网络入侵检测系统,在优化部中,阈值为25~35范围内任意值。

62、发明的作用与效果

63、本发明将深度森林算法作为网络入侵检测模型中的分类器,将深度森林划分为了多个子森林并行计算,在分布式计算中,每个节点训练出一个局部模型,然后将所有局部模型的预测结果进行聚合,得到全局模型的预测结果。在计算auc时,将每个节点的auci进行加权平均得到相应决策树的auc值,并将决策树的auc值按从大到小顺序排列,保留预定比例的auc值高的决策树;进一步,对每个子森林,比较任意决策树与其他决策树的内积和差值,进而得到差值累加的平均值amn,将每个子森林中所有amn>阈值的目标决策树保留形成新的子森林,所有新的子森林形成优化过的深度森林模型;通过此对模型的每一级联层进行优化。能够充分提高模型的分类能力,特别是对不平衡数据的分类能力,有效防止了决策树对某些样本数据的识别能力趋于一致。本发明最终生成的网络入侵检测模型具有很好的检测准确性,并且有效提高了算法的并行度,加快了入侵检测的速度,适用于大规模数据处理。并且,本发明分布式设计提高了方法的可扩展性和可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1