网络入侵数据分类方法、装置、电子设备及存储介质

文档序号:33465633发布日期:2023-03-15 06:29阅读:32来源:国知局
网络入侵数据分类方法、装置、电子设备及存储介质

1.本发明涉及计算机技术领域,尤其涉及一种网络入侵数据分类方法、装置、电子设备及存储介质。


背景技术:

2.随着大数据、互联网与物联网等技术的快速发展,日益复杂的网络活动对网络系统安全提出了更高的要求;其中,网络入侵数据分类是业界研究的热门课题。
3.相关技术中,通常利用机器学习的方式对网络入侵数据进行检测以实现对网络入侵数据的分类;然而,现代化网络入侵向着复杂化、分布化、规模化等方向发展,面对更加智能化的网络入侵,基于传统浅层机器学习对网络入侵数据进行检测时,会面临特征不平衡、类别不平衡及未知网络入侵数据的情况,进而导致基于传统浅层机器学习难以对网络入侵数据进行精确分类。
4.因此,如何提高网络入侵数据分类的准确率是目前亟待解决的问题。


技术实现要素:

5.针对现有技术存在的问题,本发明实施例提供一种网络入侵数据分类方法、装置、电子设备及存储介质。
6.本发明提供一种网络入侵数据分类方法,包括:
7.对采集的流量数据进行预处理,得到待分类流量数据;
8.将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数;
9.将各所述初始分类结果进行融合处理,得到目标分类结果。
10.可选地,所述将各所述初始分类结果进行融合处理,得到目标分类结果,包括:
11.获取每一个所述分类检测模型对应的分类准确率及分类召回率;所述分类准确率及所述分类召回率是在对所述分类检测模型进行训练的过程中得到的;
12.针对每一个所述分类检测模型,基于所述分类准确率及所述分类召回率,确定所述分类检测模型对应的权重值;所述权重值用于表征所述分类检测模型的分类效果;
13.基于所述待分类流量数据,确定所述待分类流量数据针对各所述分类检测模型的专注向量;所述专注向量用于表征所述待分类流量数据与各所述分类检测模型的关联程度;
14.将每一个所述分类检测模型的所述初始分类结果、所述权重值及所述专注向量进行融合处理,得到所述目标分类结果。
15.可选地,所述第一模型组通过以下方式训练得到:
16.利用密度峰值聚类算法对流量数据样本进行划分,得到n个流量数据样本子集;每
一个所述流量数据样本子集对应一个初始深度信念网络模型;
17.将每一个所述流量数据样本子集输入对应的所述初始深度信念网络模型进行训练,得到n个所述目标深度信念网络模型。
18.可选地,所述第一模型组输出的初始分类结果通过以下方式得到:
19.利用密度峰值聚类算法对所述待分类流量数据进行划分,得到n个待分类流量数据子集;每一个所述待分类流量数据子集对应一个所述目标深度信念网络模型;n为正整数;
20.将每一个所述待分类流量数据子集输入对应的所述目标深度信念网络模型,得到n个所述目标深度信念网络模型输出的n个第一分类结果;
21.基于所述待分类流量数据,确定所述待分类流量数据针对各所述待分类流量数据子集的从属系数;各所述从属系数用于表征所述待分类流量数据与各所述待分类流量数据子集的关联程度;
22.基于n个所述从属系数及n个所述第一分类结果,确定所述初始分类结果。
23.可选地,所述第二模型组通过以下方式训练得到:
24.将第一流量数据样本输入初始条件变分自编码器进行训练,得到所述目标条件变分自编码器;
25.将目标流量数据样本的标签输入所述目标条件变分自编码器,得到所述目标流量数据样本;
26.将所述第一流量数据样本及所述目标流量数据样本输入初始深度神经网络模型进行训练,得到所述目标深度神经网络模型。
27.可选地,所述目标堆叠稀疏自编码网络模型通过以下方式训练得到:
28.将流量数据样本输入初始堆叠稀疏自编码网络模型,得到所述初始堆叠稀疏自编码网络模型对应的参数集;
29.基于所述参数集对所述初始堆叠稀疏自编码网络模型进行训练,直至损失函数达到预设阈值,得到所述目标堆叠稀疏自编码网络模型。
30.本发明还提供一种网络入侵数据分类装置,包括:
31.预处理模块,用于对采集的流量数据进行预处理,得到待分类流量数据;
32.第一输入模块,用于将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数;
33.融合模块,用于将各所述初始分类结果进行融合处理,得到目标分类结果。
34.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络入侵数据分类方法。
35.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络入侵数据分类方法。
36.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网络入侵数据分类方法。
37.本发明提供的网络入侵数据分类方法、装置、电子设备及存储介质,由于分类检测模型池中的第一模型组包括n个目标深度信念网络模型,第二模型组包括目标条件变分自编码器和目标深度神经网络模型;因此,将待分类流量数据输入n个目标深度信念网络模型,实现了将待分类流量数据进行多维度的特征表达,在待分类流量数据具有高维度或特征数量较多的情况下,降低了对待分类流量数据的漏报率与误报率,从而可以避免特征不平衡的问题;将待分类流量数据输入第二模型组中的目标条件变分自编码器,可以扩充指定类别的流量数据样本的数量,基于扩充的流量数据样本训练出的目标深度神经网络模型,分类准确率更高,从而可以避免类别不平衡的问题,进而提高了对待分类流量数据进行分类的准确率;将待分类流量输入目标堆叠稀疏自编码网络模型,针对未知类型的待分类流量数据,通过目标堆叠稀疏自编码网络模型对待分类流量数据进行多层次特征属性表现与学习,高效提取各种待分类流量数据特征,实现对未知类型的待分类流量数据的识别,从而可以避免未知类别入侵检测问题;将分类检测模型池中各分类检测模型输出的初始分类结果进行融合处理,进一步提高网络入侵数据分类的准确率。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本发明提供的网络入侵数据分类方法的流程示意图;
40.图2是本发明提供的第一模型组输出初始分类结果的过程示意图;
41.图3是本发明提供的对流量数据进行分类的过程示意图;
42.图4是本发明提供的网络入侵数据分类装置的结构示意图;
43.图5是本发明提供的电子设备的结构示意图。
具体实施方式
44.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.为了便于更加清晰地理解本技术各实施例,首先对一些相关的背景知识进行如下介绍。
46.现代化网络入侵向着复杂化、分布化、规模化等方向发展,其难以度量与认知的特点使得传统网络安全被动防御手段难以应对,也对网络安全系统的主动防御性能提出了更高的需求。当前,面对更加智能化的网络入侵,基于传统浅层机器学习的入侵检测方法主要存在以下问题:
47.(1)特征不平衡问题:传统的浅层机器学习方法往往基于已有知识的人工特征划分。这种方法对于特征维度与数据容量异常的入侵信息无法通过人工划分与选择的特征进行高效表示,降低了系统的检测性能,导致其对具有高维特征或特征数量较多的入侵数据
的漏报率与误报率较高,分类准确率低。
48.(2)类别不平衡问题:在实际入侵检测场景中,入侵系统希望对小样本类别入侵有较高的检测准确率。然而,由于网络流量数据中正常流量远大于异常流量,训练样本中存在严重的类别不平衡问题。这种类别不平衡的训练集训练出的模型往往对样本较多的类别有较好的拟合效果,从而倾向于将网络入侵划入样本较多的类别,出现过拟合情况,导致模型性能较差,无法对小样本入侵类型进行有效识别。
49.(3)未知类别入侵检测问题:传统的机器学习方法基于现有入侵训练集进行模型训练,将网络入侵与已知入侵行为特征进行匹配,对于已知入侵的检测分类较为高效。然而,当前各种新型网络攻击层出不穷,入侵类型多变,在面对未知类别入侵时,特别是日益增多的基于机器学习的恶意攻击,传统的机器学习方法难以应对。
50.综上所述,针对上述存在的问题,为了提高网络入侵数据的分类准确率,本发明实施例提供一种网络入侵数据分类方法、装置、电子设备及存储介质。
51.下面结合图1对本发明提供的网络入侵数据分类方法进行具体描述。图1是本发明提供的网络入侵数据分类方法的流程示意图,参见图1所示,该方法包括步骤101-步骤103,其中:
52.步骤101、对采集的流量数据进行预处理,得到待分类流量数据。
53.首先需要说明的是,本发明的执行主体可以是能够实现网络入侵数据分类的任何电子设备,例如可以为智能手机、智能手表、台式电脑、手提电脑等任何一种。
54.可以理解的是,网络流量数据采集质量直接决定了网络攻击检测性能。因此在本实施例一种可能的实现方式中,需要将分类检测模型池的各分类检测模型部署在网络交换机或互联网网关上进行数据采集,以获得完整的网络流量数据。
55.在采集到流量数据之后,需要对采集的流量数据进行预处理,得到待分类流量数据;其中,待分类流量数据的数据结构符合深度网络所需的数据结构。
56.对流量数据进行预处理具体通过以下步骤实现:
57.步骤1、对流量数据进行特征映射。
58.网络流量数据由数字数据与符号数据组成,由于深度学习网络仅对数字数据进行学习,因此需先将流量数据进行特征映射,转换为数字特征。
59.具体地,可以采用独热编码(one-hot encoding)方法进行编码,对符号特征进行数字化映射,转换为更多维度的数字特征。例如,协议类型特征中的“tcp”、“udp”和“icmp”分别映射为独热编码[0,0,1]、[0,1,0]和[1,0,0]。
[0060]
步骤2、将特征映射后的流量数据进行数据归一化。
[0061]
由于数字特征常存在一定的维度差异,为减少维度范围差异带来的影响,需要将特征映射后的流量数据进行数据归一化,将其映射到[0,1]的范围内,得到待分类流量数据;具体通过以下公式(1)进行数据归一化:
[0062][0063]
其中,x'i表示待分类流量数据;xi表示归一化前特征值;x
max
与x
min
分别代表归一化前特征值的最大与最小值。
[0064]
步骤102、将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池
中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数。
[0065]
在分类检测模型池中包括有第一模型组、第二模型组及目标堆叠稀疏自编码网络模型(stacked sparse autoencoder,ssae)。
[0066]
其中,第一模型组中包括有n个目标深度信念网络模型(deep belief networks,dbn);
[0067]
第二模型组中包括有目标条件变分自编码器(conditional variational autoencoders,cvae)和目标深度神经网络模型(deep neural networks,dnn)。
[0068]
在本实施例中,在得到待分类流量数据之后,分别将待分类流量数据输入各分类检测模型(即第一模型组、第二模型组及ssae)中,分别得到第一模型组、第二模型组及ssae输出的初始分类结果。
[0069]
需要说明的是,将待分类流量数据输入至n个dbn模型,利用dbn模型可以将待分类流量数据进行多维度的特征表达。
[0070]
将待分类流量数据输入cvae,以使cvae能够生成指定类别的流量数据,用该指定类别的流量数据训练dnn网络,可以避免由于数据量不足导致dnn网络分类精度低的问题。
[0071]
将待分类流量数据输入ssae,可以实现对未知类型的待分类流量数据的识别,从而可以避免未知类别入侵检测问题。
[0072]
步骤103、将各所述初始分类结果进行融合处理,得到目标分类结果。
[0073]
在本实施例中,基于多个并行的分类检测模型输出的初始分类结果,进行多源信息融合分类预测,针对待分类流量数据的入侵信息特征进行差异化决策融合,实现基于集群决策融合的网络入侵数据分类。
[0074]
本发明提供的网络入侵数据分类方法,由于分类检测模型池中的第一模型组包括n个目标深度信念网络模型,第二模型组包括目标条件变分自编码器和目标深度神经网络模型;因此,将待分类流量数据输入n个目标深度信念网络模型,实现了将待分类流量数据进行多维度的特征表达,在待分类流量数据具有高维度或特征数量较多的情况下,降低了对待分类流量数据的漏报率与误报率,从而可以避免特征不平衡的问题;将待分类流量数据输入第二模型组中的目标条件变分自编码器,可以扩充指定类别的流量数据样本的数量,基于扩充的流量数据样本训练出的目标深度神经网络模型,分类准确率更高,从而可以避免类别不平衡的问题,进而提高了对待分类流量数据进行分类的准确率;将待分类流量输入目标堆叠稀疏自编码网络模型,针对未知类型的待分类流量数据,通过目标堆叠稀疏自编码网络模型对待分类流量数据进行多层次特征属性表现与学习,高效提取各种待分类流量数据特征,实现对未知类型的待分类流量数据的识别,从而可以避免未知类别入侵检测问题;将分类检测模型池中各分类检测模型输出的初始分类结果进行融合处理,进一步提高网络入侵数据的分类准确率。
[0075]
可选地,所述第一模型组通过以下方式训练得到,具体包括步骤1)至步骤2):
[0076]
步骤1)、利用密度峰值聚类算法对流量数据样本进行划分,得到n个流量数据样本子集;每一个所述流量数据样本子集对应一个初始深度信念网络模型;
[0077]
步骤2)、将每一个所述流量数据样本子集输入对应的所述初始深度信念网络模型
进行训练,得到n个所述目标深度信念网络模型。
[0078]
针对网络入侵数据容量与维度过大的问题,采用密度峰值聚类算法和深度信念网络组合对网络入侵数据进行特征降维与分类,可以避免特征不平衡的问题。
[0079]
在本实施例中,在对采集的流量数据进行预处理,得到待分类流量数据之后,需要利用密度峰值聚类算法对流量数据样本进行划分,得到n个流量数据样本子集。
[0080]
其中,密度峰值聚类算法全称为基于快速搜索和发现密度峰值的聚类算法(clustering by fast search and find of density peaks,dpca)。
[0081]
具体地,利用密度峰值聚类算法对流量数据样本进行划分,具体通过以下步骤1-2实现:
[0082]
步骤1、计算流量数据样本的样本点局部密度以及流量数据样本的样本点之间的相对距离。
[0083]
具体地,样本点局部密度可以通过以下公式(2)计算得到:
[0084][0085]
其中,ρi表示样本点局部密度;d
ij
表示样本点i与样本点j的欧式距离;dc表示样本点i的邻域截断距离。
[0086]
流量数据样本的样本点之间的相对距离σi是指样本点i与其他密度更高的样本点之间的最小距离;在计算样本点i前需要对每个样本点的局部密度ρi进行排序。
[0087]
对于密度最高的样本点,相对距离σi通过以下公式(3)表示:
[0088][0089]
对于其余样本点,相对距离σi通过以下公式(4)表示:
[0090][0091]
步骤2、输出以局部密度ρi为横轴,相对距离σi为纵轴的决策图。利用决策图,将ρi和σi都相对较高的点标记为簇中心;将ρi相对较低但是σi相对较高的点标记为噪声点;将剩余的样本点进行分配,分配时,将每个剩余点分配到它的最近邻且密度比其大的样本点所在的簇,进而实现将流量数据样本进行划分,得到n个流量数据样本子集(簇)。
[0092]
在得到n个流量数据样本子集之后,便可将每一个流量数据样本子集输入对应的初始dbn模型进行训练,得到训练好的n个目标dbn模型。
[0093]
具体地,首先通过无监督预训练的方式对dbn模型的参数进行初始化,然后基于已完成聚类的n个流量数据样本子集分别对n个初始dbn模型进行从后向前的有监督训练。
[0094]
需要说明的是,dbn模型由多个波兹曼机叠加组成,最后一层为一个分类器。其中每个dbn模型包含三个隐藏层,对训练数据中的抽象特征进行学习,并自动提取高级特征,实现特征自动筛选与降维。
[0095]
可选地,在实际应用中,将待分类流量数据输入第一模型组,得到第一模型组输出的初始分类结果,具体通过以下步骤a-步骤d实现:
[0096]
步骤a、利用密度峰值聚类算法对所述待分类流量数据进行划分,得到n个待分类流量数据子集;每一个所述待分类流量数据子集对应一个所述目标深度信念网络模型;n为
正整数。
[0097]
步骤b、将每一个所述待分类流量数据子集输入对应的所述目标深度信念网络模型,得到n个所述目标深度信念网络模型输出的n个第一分类结果。
[0098]
步骤c、基于所述待分类流量数据,确定所述待分类流量数据针对各所述待分类流量数据子集的从属系数;各所述从属系数用于表征所述待分类流量数据与各所述待分类流量数据子集的关联程度。
[0099]
步骤d、基于n个所述从属系数及n个所述第一分类结果,确定所述初始分类结果。
[0100]
在本实施例中,首先需要利用密度峰值聚类算法(dpca)将待分类流量数据进行划分,得到n个待分类流量数据子集;需要说明的是,此处将待分类流量数据进行划分的方法与上文提及的对流量数据样本进行划分的方法相似,在此不再赘述。
[0101]
在得到n个待分类流量数据子集之后,需要将每一个待分类流量数据子集输入对应的目标dbn模型,得到n个目标dbn模型输出的n个第一分类结果。
[0102]
例如,针对待分类流量数据子集1中的流量数据x1,第一个目标dbn模型输出的第一分类结果为:x1属于入侵类型a;第二个目标dbn模型输出的第一分类结果为:x1属于入侵类型a;第三个目标dbn模型输出的第一分类结果为:x1属于入侵类型b。
[0103]
同时,还需要基于待分类流量数据,确定待分类流量数据针对各待分类流量数据子集的从属系数,具体通过以下公式(5)、(6)计算得到:
[0104][0105][0106]
其中,μi表示第i个待分类流量数据子集的从属系数;n表示待分类流量数据子集的个数;k(ci,x)表示高斯核函数;di表示ci与x在核空间上的投影核距离。
[0107]
通过上述公式(5)、(5)可以得到各待分类流量数据子集的从属矩阵:u={μi|i=1,2,...,n}。
[0108]
在得到从属矩阵u及n个第一分类结果之后,基于从属矩阵u对n个目标dbn模型的第一分类结果进行决策融合,得到第一模型组输出的初始分类结果,具体通过以下公式(7)表示:
[0109][0110]
其中,z表示第一模型组输出的初始分类结果;dbni(x)表示第i个目标dbn模型的第一分类结果。
[0111]
下面结合图2对第一模型组输出初始分类结果的过程进行进一步说明;图2是本发明提供的第一模型组输出初始分类结果的过程示意图。
[0112]
步骤1、基于dpca算法对网络入侵数据(即上文提及的待分类流量数据)进行划分,得到n个聚类数据(即上文提及的n个待分类流量数据子集)。
[0113]
步骤2、将n个聚类数据分别输入n个dbn模型,得到n个dbn模型输出的第一分类结果。
[0114]
步骤3、基于入侵数据,确定入侵数据针对各聚类数据的从属矩阵u。
[0115]
步骤4、基于各第一分类结果以及从属矩阵u进行决策融合,得到第一模型组输出初始分类结果。
[0116]
在上述实施方式中,针对网络入侵数据容量与维度过大的问题,采用密度峰值聚类算法和目标深度信念网络组合对待分类流量数据进行特征降维与分类,实现了将待分类流量数据进行多维度的特征表达,在待分类流量数据具有高维度或特征数量较多的情况下,降低了对待分类流量数据的漏报率与误报率,从而可以避免特征不平衡的问题,提高了网络入侵数据分类的准确率。
[0117]
可选地,所述第二模型组通过以下方式训练得到,具体包括步骤[1]-步骤[3]:
[0118]
步骤[1]、将第一流量数据样本输入初始条件变分自编码器进行训练,得到所述目标条件变分自编码器;
[0119]
步骤[2]、将目标流量数据样本的标签输入所述目标条件变分自编码器,得到所述目标流量数据样本;
[0120]
步骤[3]、将所述第一流量数据样本及所述目标流量数据样本输入初始深度神经网络模型进行训练,得到所述目标深度神经网络模型。
[0121]
在本实施例中,为了解决针对流量数据样本类别不平衡问题,首先需要将第一流量数据样本输入初始cvae进行训练,直至cvae对应的损失函数最小化,得到训练好的目标cvae;其中,第一流量数据样本中包括至少一种类别的网络入侵数据样本。
[0122]
cvae对应的损失函数通过以下公式(8)表示:
[0123][0124]
其中,表示cvae对应的损失函数;-kl(q
φ
(z|x,y)||pθ(x|z,y))表示kl距离,用来量化并优化cvae的输入向量qφ(z|x,y)与解码器输出向量在分布上的差异;e
qφ(z|x,y
)[logpθ(y|x,z)]表示对数重构似然;logpθ(y|x)表示条件似然函数。
[0125]
在训练得到目标cvae之后,需要将目标流量数据样本的标签输入目标cvae,得到目标流量数据样本;需要说明的是,目标流量数据样本是期望生成的数据样本。
[0126]
具体地,选取期望生成的目标流量数据样本的标签输入训练好的目标cvae,生成携带标签的目标流量数据样本
[0127]
然后将生成的新目标流量数据样本并入网络入侵数据训练集中,完成样本类别平衡,即每个类别样本数量相等。
[0128]
最后将第一流量数据样本及目标流量数据样本输入初始dnn模型进行训练,得到目标dnn模型。
[0129]
在上述实施方式中,针对流量数据样本类别不平衡问题,通过已训练的条件变分自编码器指定入侵类别,生成指定的少数类别的目标流量数据样本,从而平衡数据集,避免小样本类型攻击误判,增加样本多样性。另外,条件变分自编码器作为一种有监督学习方法,将目标流量数据样本的标签加入到训练数据中进行拼接,作为目标条件变分自编码器的输入向量,并且可以通过将标签与潜在变量的拼接作为解码器的输入数据来生成确定类别数据,从而实现对小样本类别入侵的高效分类。
[0130]
可选地,所述目标堆叠稀疏自编码网络模型通过以下方式训练得到,具体包括步骤[a]-步骤[b]:
[0131]
步骤[a]、将流量数据样本输入初始堆叠稀疏自编码网络模型,得到所述初始堆叠稀疏自编码网络模型对应的参数集;
[0132]
步骤[b]、基于所述参数集对所述初始堆叠稀疏自编码网络模型进行训练,直至损失函数达到预设阈值,得到所述目标堆叠稀疏自编码网络模型。
[0133]
在本实施例中,首先需要将流量数据样本输入初始ssae模型进行参数预训练,得到初始ssae模型对应的参数集;其中,初始ssae模型包括softmax层,用于对初始ssae模型的输出进行分类。
[0134]
具体地,对初始ssae模型中的每个自编码器进行无监督预训练,将流量数据样本作为输入,对初始ssae模型的第一个自编码器参数进行训练,对损失函数进行拟合,得到第一个自编码器初始参数θ1={w1,b1};其中,损失函数为交叉熵函数,具体通过以下公式(9)表示:
[0135][0136]
其中,l(x,y)表示交叉熵损失函数;m表示每个流量数据样本的元素个数;xi、yi分别表示输入、输出流量数据样本第i个元素。
[0137]
下一个自编码器的输入为前一个自编码器隐藏层输出,逐层训练自编码器,得到初始ssae模型对应的参数集θ={w,b},初始ssae模型的输出为最后一层自编码器的隐藏层输出。
[0138]
然后,基于参数集θ={w,b}对初始ssae模型进行训练,直至损失函数达到预设阈值,得到目标ssae;其中,损失函数通过以下公式(10)表示:
[0139][0140]
其中,β表示稀疏惩罚权重因子;k表示隐藏层神经元数目;ρ表示稀疏参数;表示隐藏节点j的平均激活度;ρ与之间的kl距离通过以下公式(11)表示:
[0141][0142]
为了惩罚高激活度,ρ取为接近0的常数。当ρ和差距较大时,即平均激活程度较大时,较大,其中通过以下公式(12)表示:
[0143][0144]
其中,m为输入层节点个数,ρ
j,r
为向量xi中第r层中第j个节点的激活程度。
[0145]
在得到目标ssae模型之后,在实际应用中,需要将待分类流量数据输入目标ssae
模型进行检测分类,得到基于目标ssae和softmax层输出的分类结果。
[0146]
在上述实施方式中,针对未知入侵类型的待分类流量数据,通过无监督稀疏堆叠自编码模型对待分类流量数据进行多层次特征属性表现与学习,高效提取各种非线性入侵数据特征,并基于softmax分类器进行分类,实现不依赖于已知入侵类别的入侵检测;需要说明的是,为避免特征冗余与过拟合,在稀疏堆叠自编码模型中加入稀疏性限制,旨在对部分隐藏层神经元进行活跃度抑制,使稀疏堆叠自编码模型更高效地表达数据特征。
[0147]
可选地,所述将各所述初始分类结果进行融合处理,得到目标分类结果,具体通过以下步骤[1]-步骤[4]实现:
[0148]
步骤[1]、获取每一个所述分类检测模型对应的分类准确率及分类召回率;所述分类准确率及所述分类召回率是在对所述分类检测模型进行训练的过程中得到的;
[0149]
步骤[2]、针对每一个所述分类检测模型,基于所述分类准确率及所述分类召回率,确定所述分类检测模型对应的权重值;所述权重值用于表征所述分类检测模型的分类效果;
[0150]
步骤[3]、基于所述待分类流量数据,确定所述待分类流量数据针对各所述分类检测模型的专注向量;所述专注向量用于表征所述待分类流量数据与各所述分类检测模型的关联程度;
[0151]
步骤[4]、将每一个所述分类检测模型的所述初始分类结果、所述权重值及所述专注向量进行融合处理,得到所述目标分类结果。
[0152]
在本实施例中,首先初始化各分类检测模型的权重wi=0,i∈{1,2,3}。
[0153]
然后,在对各分类检测模型进行训练的过程中获取每一个分类检测模型对应的分类准确率及分类召回率;基于分类准确率和分类召回率对权重wi进行学习,迭代更新其决策权重,确定分类检测模型对应的权重值,具体通过以下公式(13)计算得到;其中,采用fbeta-measure指标来衡量各分类检测模型的分类效果。
[0154][0155]
其中,wi表示第i个分类检测模型对应的权重值;r表示分类召回率;p表示分类准确率;由于入侵检测更倾向于减少入侵漏报,因此参数β取2。
[0156]
在确定出各分类检测模型对应的权重值后,还需要对每个分类检测模型对应的权重值进行归一化处理,具体通过以下公式(14)表示:
[0157][0158]
在对每个分类检测模型对应的权重值进行归一化处理的同时,还需要基于待分类流量数据,确定待分类流量数据针对各分类检测模型的专注向量,具体通过以下公式(15)-(17)表示:
[0159][0160][0161]
[0162]
其中,γ1、γ2、γ3分别表示待分类流量数据针对第一模型组、第二模型组及目标堆叠稀疏自编码网络模型的专注向量;分别为网络流量数据样本集维度与类别样本数基线;d、n分别为待分类流量数据维度与第二模型组预测类别样本数;α为类别未知系数,w
max
为wi中的最大值。
[0163]
最后,将每一个分类检测模型的初始分类结果、权重值及专注向量进行融合处理,得到目标分类结果,具体通过以下公式(18)计算得到:
[0164][0165]
其中,y表示目标分类结果;γi表示第i个专注向量;wi表示第i个分类检测模型对应的权重值;p
ij
(x)表示分类检测模型输出的初始分类结果。
[0166]
在上述实施方式中,将分类检测模型池中各分类检测模型输出的初始分类结果进行融合处理,根据待分类流量数据的数据特征进行权重分配,高效融合各分类检测模型的决策,对不同特征类型待分类流量数据进行差异化决策,最大化对应特征类型决策倾向,从而进一步提高网络入侵数据分类的准确率。
[0167]
为了更清晰的理解本发明提供的网络入侵数据分类方法,下面结合图3以对采集的流量数据进行分类为例进行进一步介绍;图3是本发明提供的对流量数据进行分类的过程示意图,包括步骤1-步骤6:
[0168]
步骤1、采集网络流量数据。
[0169]
步骤2、对采集的流量数据进行预处理,得到待分类流量数据。
[0170]
步骤3、将待分类流量数据输入分类检测模型池,分别得到第一模型组输出的预测结果1、第二模型组输出的预测结果2及ssae模型输出的预测结果3。
[0171]
需要说明的是,第一模型组包括n个dbn模型;第二模型组包括cvae及dnn;ssae模型中包括softmax层。
[0172]
步骤4、针对分类检测模型池中每一个分类检测模型,基于分类准确率及分类召回率,进行权重学习,确定各分类检测模型对应的权重值。
[0173]
步骤5、基于待分类流量数据,确定待分类流量数据针对各分类检测模型的专注向量。
[0174]
步骤6、将每一个分类检测模型的预测结果、权重值及专注向量进行融合处理(即集群决策融合),得到目标分类结果。
[0175]
下面对本发明提供的网络入侵数据分类装置进行描述,下文描述的网络入侵数据分类装置与上文描述的网络入侵数据分类方法可相互对应参照。图4是本发明提供的网络入侵数据分类装置的结构示意图,如图4所示,该网络入侵数据分类装置400包括:预处理模块401、第一输入模块402、融合模块403,其中:
[0176]
预处理模块401,用于对采集的流量数据进行预处理,得到待分类流量数据;
[0177]
第一输入模块402,用于将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整
数;
[0178]
融合模块403,用于将各所述初始分类结果进行融合处理,得到目标分类结果。
[0179]
本发明提供的网络入侵数据分类装置,由于分类检测模型池中的第一模型组包括n个目标深度信念网络模型,第二模型组包括目标条件变分自编码器和目标深度神经网络模型;因此,将待分类流量数据输入n个目标深度信念网络模型,实现了将待分类流量数据进行多维度的特征表达,在待分类流量数据具有高维度或特征数量较多的情况下,降低了对待分类流量数据的漏报率与误报率,从而可以避免特征不平衡的问题;将待分类流量数据输入第二模型组中的目标条件变分自编码器,可以扩充指定类别的流量数据样本的数量,基于扩充的流量数据样本训练出的目标深度神经网络模型,分类准确率更高,从而可以避免类别不平衡的问题,进而提高了对待分类流量数据进行分类的准确率;将待分类流量输入目标堆叠稀疏自编码网络模型,针对未知类型的待分类流量数据,通过目标堆叠稀疏自编码网络模型对待分类流量数据进行多层次特征属性表现与学习,高效提取各种待分类流量数据特征,实现对未知类型的待分类流量数据的识别,从而可以避免未知类别入侵检测问题;将分类检测模型池中各分类检测模型输出的初始分类结果进行融合处理,进一步提高网络入侵数据分类的准确率。
[0180]
可选地,所述融合模块403,进一步用于:
[0181]
获取每一个所述分类检测模型对应的分类准确率及分类召回率;所述分类准确率及所述分类召回率是在对所述分类检测模型进行训练的过程中得到的;
[0182]
针对每一个所述分类检测模型,基于所述分类准确率及所述分类召回率,确定所述分类检测模型对应的权重值;所述权重值用于表征所述分类检测模型的分类效果;
[0183]
基于所述待分类流量数据,确定所述待分类流量数据针对各所述分类检测模型的专注向量;所述专注向量用于表征所述待分类流量数据与各所述分类检测模型的关联程度;
[0184]
将每一个所述分类检测模型的所述初始分类结果、所述权重值及所述专注向量进行融合处理,得到所述目标分类结果。
[0185]
可选地,所述装置还包括:
[0186]
第一划分模块,用于利用密度峰值聚类算法对流量数据样本进行划分,得到n个流量数据样本子集;每一个所述流量数据样本子集对应一个初始深度信念网络模型;
[0187]
第一训练模块,用于将每一个所述流量数据样本子集输入对应的所述初始深度信念网络模型进行训练,得到n个所述目标深度信念网络模型。
[0188]
可选地,所述装置还包括:
[0189]
第二划分模块,用于利用密度峰值聚类算法对所述待分类流量数据进行划分,得到n个待分类流量数据子集;每一个所述待分类流量数据子集对应一个所述目标深度信念网络模型;n为正整数;
[0190]
第二输入模块,用于将每一个所述待分类流量数据子集输入对应的所述目标深度信念网络模型,得到n个所述目标深度信念网络模型输出的n个第一分类结果;
[0191]
第一确定模块,用于基于所述待分类流量数据,确定所述待分类流量数据针对各所述待分类流量数据子集的从属系数;各所述从属系数用于表征所述待分类流量数据与各所述待分类流量数据子集的关联程度;
[0192]
第二确定模块,用于基于n个所述从属系数及n个所述第一分类结果,确定所述初始分类结果。
[0193]
可选地,所述装置还包括:
[0194]
第二训练模块,用于将第一流量数据样本输入初始条件变分自编码器进行训练,得到所述目标条件变分自编码器;
[0195]
第三输入模块,用于将目标流量数据样本的标签输入所述目标条件变分自编码器,得到所述目标流量数据样本;
[0196]
第三训练模块,用于将所述第一流量数据样本及所述目标流量数据样本输入初始深度神经网络模型进行训练,得到所述目标深度神经网络模型。
[0197]
可选地,所述装置还包括:
[0198]
第四输入模块,用于将流量数据样本输入初始堆叠稀疏自编码网络模型,得到所述初始堆叠稀疏自编码网络模型对应的参数集;
[0199]
第四训练模块,用于基于所述参数集对所述初始堆叠稀疏自编码网络模型进行训练,直至损失函数达到预设阈值,得到所述目标堆叠稀疏自编码网络模型。
[0200]
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行网络入侵数据分类方法,该方法包括:对采集的流量数据进行预处理,得到待分类流量数据;将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数;将各所述初始分类结果进行融合处理,得到目标分类结果。
[0201]
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0202]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的网络入侵数据分类方法,该方法包括:对采集的流量数据进行预处理,得到待分类流量数据;将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数;将各所述初始分类结果进行融合处理,得到目标分类结果。
[0203]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的网络入侵数据分类方法,该方法包括:对采集的流量数据进行预处理,得到待分类流量数据;将所述待分类流量数据输入分类检测模型池,得到所述分类检测模型池中各分类检测模型输出的初始分类结果;所述分类检测模型包括第一模型组、第二模型组及目标堆叠稀疏自编码网络模型;所述第一模型组包括n个目标深度信念网络模型,所述第二模型组包括目标条件变分自编码器和目标深度神经网络模型,n为正整数;将各所述初始分类结果进行融合处理,得到目标分类结果。
[0204]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0205]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0206]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1