一种多CNN融合入侵检测方法、系统、介质、设备及终端

文档序号:34536201发布日期:2023-06-27 12:26阅读:178来源:国知局
一种多CNN融合入侵检测方法、系统、介质、设备及终端

本发明属于网络安全,尤其涉及一种多cnn融合入侵检测方法、系统、介质、设备及终端。


背景技术:

1、目前,随着互联网的普及与发展,网络技术已渗透到人们生活的方方面面,为人类提供了诸多便利和好处。但是,网络是把双刃剑,在发挥其有利作用的同时,网络攻击也极大地影响了人们的正常生活。因此,各类安全防护技术应运而生。然而,当前的网络防御形势并不乐观。传统的网络防护技术如防火墙、数据加密、访问控制等实施被动防御,无法应对动态变化的网络入侵。传统的深度学习方法对于处理一维数据的效果没有处理二维数据的效果突出,无法正确检测出未知攻击;对于数据特征的挖掘不够深入,深度学习模型可解释性差,对于弱相关特征检测性能不够理想;深度学习算法通常具有神经网络不同层之间连接节点连续,同层之间节点无连接的特点,属于黑盒模型,可解释性差。

2、入侵检测技术作为积极的网络安全防护技术,能够实现对外部入侵、内部入侵及误操作的有效识别,将网络攻击的不利影响降至最低。目前,应用于入侵检测领域的方法主要有机器学习和深度学习算法等。随着计算机性能的提升和算力的发展,深度学习方法已被广泛应用。与机器学习方法相比,深度学习方法省去了人工提取特征的步骤,对特征进行深层次学习,对复杂函数表征能力强,能够有效应对海量高维数据,在入侵检测领域中极具优势和潜力。

3、通过上述分析,现有技术存在的问题及缺陷为:

4、(1)传统的网络防护技术如防火墙、数据加密、访问控制等实施被动防御,无法应对动态变化的网络入侵;传统的深度学习方法对于处理一维数据的效果没有处理二维数据的效果突出,无法正确检测出未知攻击。

5、(2)传统的深度学习方法对于数据特征的挖掘不够深入,深度学习模型可解释性差,对于弱相关特征检测性能不够理想。

6、(3)传统的深度学习算法通常具有神经网络不同层之间连接节点连续,同层之间节点无连接的特点,属于黑盒模型,可解释性差。


技术实现思路

1、针对现有技术存在的问题,本发明提供了一种多cnn融合入侵检测方法、系统、介质、设备及终端,尤其涉及一种基于相关性分析的多cnn融合入侵检测方法、系统、介质、设备及终端。

2、本发明是这样实现的,一种多cnn融合入侵检测方法,多cnn融合入侵检测方法包括:利用短时傅里叶方法将一维时间序列转化为二维图像输入卷积神经网络进行分类检测;基于cicids2017数据集,依照表示特征信息得到五个聚类中心,计算相关系数并进行五个聚类;构建多cnn融合入侵检测模型并利用cicids2017数据集进行训练;在模型测试阶段,构建模拟真实网络实验环境采集真实网络流量数据,评估模型对于不同环境及不同攻击类型的检测性能。

3、进一步,多cnn融合入侵检测方法包括以下步骤:

4、步骤一,选取公开数据集cicids2017并对数据集cicids2017进行数据预处理,选取最具有代表性的五个特征;

5、步骤二,将85维特征依据相关性大小分为五类,分别为5×17维特征;

6、步骤三,对五类特征分别划分训练集和测试集,利用短时傅里叶方法将一维时间序列转化为对应图像,并各自构建cnn模型;

7、步骤四,将五个独立的cnn模型融合后构建多cnn融合入侵检测模型;

8、步骤五,对已构建的多cnn融合入侵检测模型进行训练,而后进行测试,部署在真实网络环境中实现入侵检测功能。

9、进一步,步骤一中的对数据集cicids2017进行数据预处理,选取最具有代表性的五个特征包括:

10、(1)对公开数据集cicids2017进行缺失值、重复值的查看与剔除;

11、(2)对公开数据集cicids2017采用one-hot编码方法进行数据数值化;

12、(3)对公开数据集cicids2017进行标准化与归一化操作,具体公式如下:

13、

14、其中,x’表示x数据标准化后的值,x表示数据集中的原始数据,表示数据平均值,xstad表示数据平均绝对误差。特殊地,存在以下判断:

15、1)若则x’=0;

16、2)若xstad=0,则x’=0。

17、

18、其中,x*表示x数据归一化后的值,x表示数据集中的原始数据,xmin表示数据最小值,xmax表示数据最大值,将标准化后的数据x’归一化到[0,1]区间。

19、(4)将公开数据集cicids2017按照特征表示信息:属性信息、数据包统计数据信息、数据包相关标志位信息、数据包详细比率信息以及数据流统计数据信息,选取五个具有代表性的典型特征,依次为protocol、totlen fwd pkts、psh flag cnt、down/up ratio以及active mean。

20、进一步,步骤二中的将85维特征依据相关性大小分为五类,分别为5×17维特征包括:

21、(1)对公开数据集cicids2017所具有的85维特征计算相关矩阵,得到特征两两之间计算相关系数;

22、(2)以五个具有代表性的典型特征:protocol、totlenfwd pkts、psh flag cnt、down/up ratio和active mean为中心,分别列举出与相关系数排名前14的特征,构成五种以相关性聚类的不同类别;相关性排序过程按照典型特征顺序进行。

23、进一步,步骤三中的对五类特征分别划分训练集和测试集,利用短时傅里叶方法将一维时间序列转化为对应图像,并各自构建cnn模型包括:

24、(1)划分五组训练集与测试集;

25、1)从公开数据集cicids2017中随机抽取五万条正常流量和五万条攻击流量;

26、2)按照五类相关性聚类特征将十万条流量分为五类数据流量,其中每类数据流量包含17维特征;

27、3)按照8:2的比例生成五组一一对应的训练集与测试集;

28、(2)利用短时傅里叶方法将训练集与测试集对应的一维时间序列转化为二维图像,以便输入cnn模型;

29、(3)构建五个结构与组成相同,相互独立的cnn模型;

30、构建五个相同的cnn模型,分别由一个输入层、两个卷积层和池化层、三个全连接层组成;其中,输入层用以将输入的流数据转化为二维矩阵;卷积层使用64个零填充滤波器提取输入矩阵的局部特征;池化层通过2×2的下采样简化特征表达,其中步长为1;各隐藏层的激活函数均采用relu函数;在展平层与第一个全连接层之间采用参数为0.5的dropout层进行正则化。

31、进一步,步骤四中的将五个独立的cnn模型融合后构建多cnn融合入侵检测模型包括:

32、(1)根据特征之间的相关性,将五个已构建好的cnn模型应用于五类数据特征;其中,单个cnn模型均不包含输出层;

33、(2)将每个cnn最后一个隐藏层输出的数据合并,得到融合数据;

34、(3)构建由softmax层组成的输出层,输入融合数据,得到分类预测概率。

35、进一步,步骤五中的对已构建的多cnn融合入侵检测模型进行训练,而后进行测试,部署在真实网络环境中实现入侵检测功能包括:

36、(1)利用公开数据集cicids2017对多cnn融合入侵检测模型进行训练;

37、1)定义损失函数为交叉熵代价函数,计算公式为:

38、

39、其中,p表示期望结果,q表示实际预测结果。

40、2)定义优化器为adam,依据历史梯度更新变量;

41、3)将五组一一对应的训练集与测试集输入模型进行训练。

42、(2)利用采集数据对多cnn融合入侵检测模型进行测试,并规定评估指标,对模型性能作以评估;

43、1)构建模拟真实网络环境,采集真实网络流量;

44、2)将采集到的数据输入多cnn融合入侵检测模型进行分类预测;

45、3)选取准确率、召回率、混淆矩阵作为评估指标,评估入侵检测模型性能。

46、(3)将多cnn融合入侵检测模型部署在真实网络环境中,实现入侵检测。

47、其中,步骤1)中的构建模拟真实网络环境,采集真实网络流量包括:

48、①构建三个包含小型局域网的真实网络环境;其中,每个模拟实验环境包含四个主机,在每台主机上部署wireshark软件进行正常网络流量的抓取,再利用cicflowmeters软件进行特征文件的转换;

49、②构建三个包含小型局域网的,进行子网划分的真实网络环境;其中,每个模拟环境包含两个子网,一个子网中包含两个主机,一台为攻击机,一台为靶机;在攻击机上安装kali linux黑客系统,模拟网络攻击对靶机实施入侵;在靶机上安装wireshark软件进行攻击网络流量的抓取,再利用cicflowmeters软件进行特征文件的转换。

50、步骤2)中的将采集到的数据输入多cnn融合入侵检测模型进行分类预测包括:将从模拟真实网络环境中采集的数据输入已训练模型进行测试,评估模型性能,若满足预期,则完成训练;反之,则重新开始训练。

51、本发明的另一目的在于提供一种应用所述的多cnn融合入侵检测方法的多cnn融合入侵检测系统,多cnn融合入侵检测系统包括:

52、数据预处理模块,用于选取公开数据集cicids2017并对数据集cicids2017进行数据预处理,选取最具有代表性的五个特征;

53、模型构建模块,用于对五类特征划分训练集和测试集,分别构建cnn模型,将五个独立的cnn模型融合后构建多cnn融合入侵检测模型;

54、模型训练模块,用于定义损失函数和优化器,利用公开数据集cicids2017对多cnn融合入侵检测模型进行训练;

55、模型测试模块,用于利用采集数据对多cnn融合入侵检测模型进行测试,并规定评估指标,对模型性能作以评估。

56、本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的多cnn融合入侵检测方法的步骤。

57、本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的多cnn融合入侵检测方法的步骤。

58、本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的多cnn融合入侵检测系统。

59、结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:

60、第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:

61、面对当前深度学习算法广泛应用于入侵检测领域的现状,传统的深度学习算法对于二维图像的分类检测效果明显优于一维数据。将一维时间序列转化为图像作为输入数据,避免了传统算法中存在的特征提取与数据重构等一系列复杂操作。另外,为进一步提高入侵检测模型的性能,关注于弱相关特征的相关性。因此,本发明基于相关性分析的多cnn融合入侵检测方法提出了一种将多个cnn模型融合实现多分类的全新思路。本发明通过计算相关系数将数据特征进行五种聚类,利用短时傅里叶方法(stft)完成向二维图像的转化,输入五个cnn模型最后在softmax层进行融合,实现预测分类的功能。

62、本发明提供的基于相关性分析的多cnn融合入侵检测方法主要包含四个阶段:数据预处理阶段、模型构建阶段、模型训练阶段、模型测试阶段。本发明通过将输入数据形式作以一定的转化,改进以往传统的深度学习算法,依照特征相关性原则构建多个cnn模型并加以融合,并在不同网络环境中采集的真实网络流量数据上进行测试,可得所构建的多cnn融合入侵检测模型具有更高的检测精度且适用于不同的网络环境和攻击类型。

63、本发明提供了一种解决深度学习算法针对二维数据分类检测效果优于一维数据分类检测效果的思路方法;本发明提供了一种解决特征之间相关性弱,由相关性大小实现数据特征聚类的方法;本发明提供了一种利用短时傅里叶变换(stft)方法实现由一维时间序列向二维图像的转换方法;本发明还提供了一种构建模拟真实网络环境采集网络流量数据的方法。本发明能够将一维网络流量数据转化为二维图像,按照相关性大小对数据进行分块聚类,关注于弱相关特征的相关性,分别构建五个cnn模型,最终实现融合。相较传统一维数据输入深度学习模型与单个cnn模型来说,本发明的检测性能有了较高的提升,并且在测试阶段没有采用公开入侵检测数据集,而是采集真实网络流量环境中的流量数据,证明了该模型能够适用于不同网络环境及不同攻击类型。

64、本发明针对于深度学习算法对于二维数据识别分类效果更好的特点,利用短时傅里叶方法(stft)将一维时间序列转化为二维图像输入卷积神经网络(cnn)进行分类检测;关注于弱相关特征之间的相关性,以cicids2017数据集为例,依照表示特征信息选出五个聚类中心,而后计算相关系数进行五个聚类;在模型测试阶段并不局限于公开数据集,而是构建模拟真实网络实验环境采集真实网络流量数据,评估模型对于不同环境及不同攻击类型的检测性能。

65、第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:

66、本发明提供了一种基于相关性分析的多cnn融合入侵检测方法,通过对数据依照相关性大小聚成五类,利用短时傅里叶变换(stft)将一维时间序列转化为二维图像并分别构建五个完全相同的cnn模型,最终在输出softmax层融合输出数据,预测分类概率,提高了传统深度学习算法的检测性能。

67、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:

68、(1)本发明的技术方案转化后的预期收益和商业价值为:

69、本发明突破了以往入侵检测领域直接对一维流量分类的现状,利用深度学习算法对二维图像的良好性能。采用短时傅里叶方法(stft)将一维时间序列转化为二维图像输入卷积神经网络(cnn)进行分类检测,并在后期融合cnn模型,可部署在真实网络流量环境中实现入侵检测功能。

70、(2)本发明的技术方案填补了国内外业内技术空白:

71、本发明的技术方案针对深度学习算法对于二维图像分类效果更好的特点,将一维网络流量转化为二维图像进行分类。并且关注于弱相关性特征,将五个cnn模型融合,大大提升了模型的性能。用真实网络流量代替公开数据集进行测试,证实其能够适用于不同网络环境和不同攻击类型。

72、(3)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:

73、针对弱相关性特征,没有直接用统一的深度学习分类模型进行训练,而是根据计算其相关系数进行分类,而后构建五个相同的cnn模型,最后将五个cnn模型融合输出分类结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1