网络流量数据的自适应增强方法及装置与流程

文档序号:26949761发布日期:2021-10-16 00:45阅读:150来源:国知局
网络流量数据的自适应增强方法及装置与流程

1.本发明涉及数字信息处理技术领域,尤其涉及一种网络流量数据的自适应增强方法及装置。


背景技术:

2.随着it架构的日益复杂,互联网规模、用户人数、网络速度等爆炸式增长,网络安全攻击越来越复杂和隐秘,需要分析的特征维度也在大规模增长。及时的网络监控网络异常识别能够为网络管理人员提供重要的信息支撑,为维持网络正常运行、保护用户上网安全有着重要意义。目前基于分类的网络流量异常检测技术是异常检测的重点研究领域之一,由于攻击行为会导致网络数据出现一些偏离正常表现的异常行为,研究者多采用基于逻辑回归、贝叶斯、支持向量机、决策树等分类技术对于网络流量进行训练,构建出学习模型,对网络流量数据进行分类,从而识别异常。
3.但是,由于网络本身特性,网络流量数据存在天然的不平衡的问题,例如在异常检测的二分类问题中,数据集中正常流量数据通常多于异常流量数据,这会导致基于分类的异常检测模型朝多数类样本过拟合,也就是异常检测结果在正常流量数据的识别上表现得更好,但在属于少数类的异常流量数据上识别准确率会降低,这与异常检测的期望不符。在流量异常检测的不平衡学习中,可以从数据的角度出发,针对导致数据集不平衡的源头问题,采用技术手段对少数类数据进行增强,从而让数据集中不同类别的数据信息相对均衡。
4.在针对不平衡数据的过采样技术中,针对同类数据的分布在出现小范围分离的问题,采用k

means方法对少数类样本的分布区域进行划分,通过仅在安全区域进行过采样来避免产生噪声;针对合成样本数量比例分配问题,通过使稀疏的少数类别样本增加来对抗小的分离问题;在每个选定的簇中实现少数和多数实例的目标比率。该方法需要预先设置更多的参数,易受异常值的影响,且仅考虑到群集分布的稀疏性信息,可能造成合成样本依赖的信息不足。
5.使用结合k

means聚类的数据增强方法平衡数据集,需要额外设置超参数,这使得其在实践过程中需要花费较多的时间来寻找最佳参数,且在分配合成样本数量时将更多样本分配给少数样本稀疏分布的群集,没有综合考虑样本数量等因素,可能造成样本分配比例不合理,进一步影响合成平衡数据集的效果。
6.基于类别均衡的代表样本发现方法,对数据集进行样本发现工作以有效地发现及组合高质量的代表样本,在分配合成样本数量时,只考虑了数量比例因素,而未考虑样本的分布情况,可能造成密集聚类信息的冗余和稀疏聚类信息不能充分利用,导致合成样本依赖的信息不足。


技术实现要素:

7.本发明提供的网络流量数据的自适应增强方法,用于克服现有技术中存在的上述问题,利用hac聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并
且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。
8.本发明提供一种网络流量数据的自适应增强方法,包括:
9.基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
10.获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;
11.根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;
12.基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。
13.根据本发明提供的一种网络流量数据的自适应增强方法,所述基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类,包括:
14.根据所述原始网络流量数据集中的第一多数类样本数量和第一少数类样本数量,确定所述原始网络流量数据集的第一不平衡比;
15.基于所述hac算法对所述原始网络流量数据集进行聚类,并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量,确定所述聚类的第二不平衡比;
16.将所述第二不平衡比小于所述第一不平衡比的聚类作为所述少数类聚类。
17.根据本发明提供的一种网络流量数据的自适应增强方法,所述获取所述少数类聚类中少数类样本的稀疏度权重和数量权重,包括:
18.根据所述少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离,确定所述目标少数类聚类的马氏距离矩阵;
19.基于目标relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值;
20.根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重;
21.其中,所述目标少数类聚类是根据与所述少数类样本处于同一聚类的少数类聚类确定的;
22.所述特征集是根据所述原始网络流量数据集中每个样本的特征确定的。
23.根据本发明提供的一种网络流量数据的自适应增强方法,所述基于目标relisf算法对所述原始网络流量数据集的特征集进行处理,以获取所述特征集中每个特征的特征权重值,包括:
24.从所述原始网络流量数据集中随机选择第一预设数量个第一目标样本;
25.确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离;
26.确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离;
27.从所述同类样本集中筛选出第二预设数量个所述第一欧式距离最小的第二目标样本,作为所述第一目标样本的同类最近邻样本;
28.从每个所述不同类样本集中筛选出所述第二预设数量个所述第二欧式距离最小的第二目标样本,作为所述第一目标样本的不同类最近邻样本;
29.根据所述同类最近邻样本和所述不同类最近邻样本,确定所述每个特征的特征权
重值;
30.其中,所述同类样本集是根据与所述第一目标样本同类别的样本确定的;
31.所述不同类样本集是根据与所述第一目标样本不同类别的样本确定的。
32.根据本发明提供的一种网络流量数据的自适应增强方法,所述根据所述马氏距离矩阵和所述每个特征的特征权重值,确定所述稀疏度权重和所述数量权重,包括:
33.按照从大到小将所述每个特征的特征权重值顺序排序,以确定特征权重向量;
34.根据所述特征权重向量和所述马氏距离矩阵,确定所述少数类聚类中的少数类样本加权距离;
35.根据所述少数类样本加权距离和每个少数类聚类中的少数类样本数量,确定所述每个少数类聚类中少数类样本的稀疏度;
36.对所述稀疏度进行归一化处理,以确定所述稀疏度权重;
37.根据每个少数类聚类中的少数类样本数量和所有少数类聚类中的少数类样本总数量,确定每个少数类聚类的聚类数量;
38.对所述聚类数量进行归一化处理,以确定所述数量权重。
39.根据本发明提供的一种网络流量数据的自适应增强方法,所述根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量,包括:
40.根据所述稀疏度权重和所述数量权重,确定少数类合成样本权重;
41.根据所述少数类合成样本权重和预设采样比例,确定所述少数类合成样本数量。
42.根据本发明提供的一种网络流量数据的自适应增强方法,所述基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强,包括:
43.确定每个少数类聚类中的目标少数类样本与少数类样本集中所有样本的第三欧氏距离;
44.从所述少数类样本集中所有样本中筛选出第二预设数量个与所述目标少数类样本的第三欧氏距离最小的近邻样本;
45.根据所述少数类合成样本数量,确定采样倍率;
46.从所述近邻样本中随机选择所述采样倍率个目标近邻样本,并根据所述过采样算法、所述近邻样本和所述目标近邻样本,对所述原始网络流量数据集进行数据增强。
47.本发明还提供一种网络流量数据的自适应增强装置,包括:聚类分类模块、权重确定模块、数量确定模块和数据增强模块;
48.所述聚类分类模块,用于基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
49.所述权重确定模块,用于获取所述少数类聚类中少数类样本的稀疏度权重和数量权重;
50.所述数量确定模块,用于根据所述稀疏度权重和所述数量权重,确定少数类合成样本数量;
51.所述数据增强模块,用于基于过采样算法和所述少数类合成样本数量,对所述原始网络流量数据集进行数据增强。
52.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络流量数据
的自适应增强方法的步骤。
53.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络流量数据的自适应增强方法的步骤。
54.本发明提供的网络流量数据的自适应增强方法及装置,利用hac聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,同时解决了现有技术中合成样本依赖信息不足的问题。
附图说明
55.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
56.图1是本发明提供的网络流量数据的自适应增强方法的流程示意图;
57.图2是本发明提供的网络流量数据的自适应增强装置的结构示意图;
58.图3是本发明提供的电子设备的结构示意图。
具体实施方式
59.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
60.为了及时发现网络中存在的异常行为,对网络进行监控的同时进行网络异常检测越来越重要。而网络流量数据集本身存在着不平衡的问题,例如正常流量数据和异常流量数据的数据规模不平衡。因此如何解决网络流量数据不平衡是当前面临的重要问题。
61.针对二分类不平衡数据中经常存在的数据分离、合成样本数量分配问题,基于聚类的数据增强方法,通过k

means等聚类方法筛选少数类聚类,从而在聚类内部合成新样本,但是这些方法需要预先设置更多的参数,且易受异常值的影响。在对新增样本的数量分配上,传统的数量分配方法为了充分利用少数类样本信息,将更多样本分配给少数样本稀疏分布的群集,但未考虑少数类聚类的数量信息,可能造成合成样本依赖的信息不足。因此,本发明在面向流量异常检测的二分类问题时,提出了一种网络流量数据的自适应增强方法,利用hac算法划分互不干扰的少数类采样区域,解决数据分离问题,同时利用hac聚类算法不需要参数及异常值不敏感的特性,减少需要预先设置的参数,降低噪声的影响。然后,在聚类后筛选出少数类聚集区域后,提出根据聚类中样本稀疏度和样本数量比重分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,最后通过过采样算法对每个少数类簇进行样本合成,得到增强后的数据集。
62.基于分类的异常检测技术依赖于网络流量数据集,而网络流量数据集本身存在着不平衡的问题,例如正常流量数据和异常流量数据的数据规模不平衡,基于此本发明提供一种网络流量数据的自适应增强方法,具体实现如下:
63.图1是本发明提供的网络流量数据的自适应增强方法的流程示意图,如图1所示,方法包括:
64.s1、基于层次凝聚聚类(hierarchical agglomerative clustering,hac)算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
65.s2、获取少数类聚类中少数类样本的稀疏度权重和数量权重;
66.s3、根据稀疏度权重和数量权重,确定少数类合成样本数量;
67.s4、基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。
68.需要说明的是,上述方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra

mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,非移动电子设备可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本发明不作具体限定。
69.具体地,本发明提供的网络流量数据的自适应增强方法可以应用于对不平衡的网络流量数据集进行少数类扩充。
70.首先,通过基于层次凝聚式聚类hac的数据预处理方法对原始网络流量数据集进行数据分离,并根据原始网络流量数据集的不平衡比以及聚类结果中聚类的不平衡比对得到的聚类进行筛选,得到适合生成新样本的少数类聚类。然后,通过一种基于聚类稀疏度和样本量的合成样本数量分配方法,对筛选得到的少数类聚类,计算少数类聚类中少数类样本的稀疏度权重sparsity_weight和少数类样本的数量权重num_weight。最后基于计算得到的少数类样本的稀疏度权重和数量权重分配少数类合成样本数量,最后通过过采样算法例如合成少数类过采样技术(synthetic minority oversampling technique,smote)对原始网络流量数据集中的少数类样本进行数据增强。
71.本发明提供的网络流量数据的自适应增强方法,利用hac聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量权值比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,同时解决了现有技术中合成样本依赖信息不足的问题。
72.进一步地,在一个实施例中,步骤s1可以具体包括:
73.s11、基于hac算法对原始网络流量数据集进行聚类,并根据聚类结果中聚类的第二多数类样本数量和第二少数类样本数量,确定所述聚类的第二不平衡比;
74.s12、将第二不平衡比小于第一不平衡比的聚类作为少数类聚类。
75.具体地,根据以下公式,计算原始网络流量数据集x的不平衡比ir,即上述第一不平衡比,其中,num(maj(x))代表数据集x的多数类样本数量,即上述第一多数类样本数量,num(min(x))代表数据集x的少数类样本数量,即上述第一少数类样本数量,其计算方法为:按标签遍历数据集x,统计数据集x中各类别数目并进行比较,将数目多者作为多数类,反之作为少数类,由此得到第一多数类样本数量num(maj(x))和第一少数类样本数量num(min(x)),并根据公式(1)得到数据集x的平衡比。
[0076][0077]
通过hac算法对数据集x进行聚类,对于得到多个聚类假设为c1,c2……
c
n
,根据公式(2)计算聚类的不平衡比c
i
_ir(即第二不平衡比),其中,num(c
i
_maj)代表聚类c
i
的多数类样本数量(也即是第二多数类样本数量),num(c
i
_min)代表指聚类c
i
的少数类样本数量(也即是第二少数类样本数量)。
[0078][0079]
筛选出第二不平衡比小于第一不平衡比的聚类,作为少数类聚类,用于接下来的数据合成。
[0080]
本发明提供的网络流量数据的自适应增强方法,利用hac算法将原始网络流量数据集划分互不干扰的少数类聚类类簇,解决了数据的分离问题。
[0081]
进一步地,在一个实施例中,步骤s2可以具体包括:
[0082]
s21、根据少数类样本与目标少数类聚类中其余少数类样本的马哈拉诺比斯距离,确定目标少数类聚类的马氏距离矩阵;
[0083]
s22、基于目标relisf算法对原始网络流量数据集的特征集进行处理,以获取特征集中每个特征的特征权重值;
[0084]
s23、根据马氏距离矩阵和每个特征的特征权重值,确定稀疏度权重和数量权重;
[0085]
其中,目标少数类聚类是根据与少数类样本处于同一聚类的少数类聚类确定的;
[0086]
特征集是根据原始网络流量数据集中每个样本的特征确定的。
[0087]
具体地,对于目标少数类聚类fc
i
,计算目标少数类聚类fc
i
中的少数类样本到该聚类fc
i
中的其他少数类样本的马哈拉诺比斯距离,得到该聚类fc
i
的少数类样本马氏距离矩阵。
[0088][0089]
其中,a=(a1,a2,...,a
d
)和b=(b1,b2,...,b
d
)代表目标少数类聚类fc
i
的少数类样本,min_dist_fc
i
代表马氏距离,s代表预设协方差矩阵,d代表该聚类fc
i
的维度。
[0090]
在原始网络流量数据集x中,使用改进的目标relief算法(特征权重算法)对样本的特征集进行处理,获取特征集中每个特征的特征权重值,例如给类别相关性高的特征赋予更大的权重,其中,特征集是根据原始网络流量数据集x中每个样本的特征确定的,例如一个z维的样本,就包含z个特征。
[0091]
根据马氏距离矩阵和每个特征的特征权重值,确定稀疏度权重和数量权重。
[0092]
本发明提供的网络流量数据的自适应增强方法,同时考虑了少数类样本的稀疏度和数量信息,避免了最终合成样本的信息不足的问题。
[0093]
进一步地,在一个实施例中,步骤s22可以具体包括:
[0094]
s221、从原始网络流量数据集中随机选择第一预设数量个第一目标样本;
[0095]
s222、确定每个第一目标样本与同类样本集中每个第二目标样本间的第一欧式距离;
[0096]
s223、确定每个第一目标样本与每个不同类样本集中第三目标样本间的第二欧式距离;
[0097]
s224、从同类样本集中筛选出第二预设数量个第一欧式距离最小的第二目标样本,作为第一目标样本的同类最近邻样本;
[0098]
s225、从每个不同类样本集中筛选出第二预设数量个第二欧式距离最小的第二目标样本,作为第一目标样本的不同类最近邻样本;
[0099]
s226、根据同类最近邻样本和不同类最近邻样本,确定每个特征的特征权重值;
[0100]
其中,同类样本集是根据与第一目标样本同类别的样本确定的;
[0101]
不同类样本集是根据与第一目标样本不同类别的样本确定的。
[0102]
具体地,步骤1、在原始网络流量数据集x中随机选择第一预设数量个例如d个第一目标样本r,计算第一目标样本r与同类样本集(与第一目标样本r处于同一类别)中的每个样本(即第二目标样本)间的欧氏距离(即第一欧式距离),选择第二预设数量个例如k个与第一目标样本r的欧式距离最短的第二目标样本作为第一目标样本r同类最近邻样本,计算每个与第一目标样本r不同类别的样本集中每个样本间的欧式距离,分别在每个不同类样本集中选择第二预设数量个如k个与第一目标样本r之间欧式距离最近的样本作为不同类最近邻,其中,第一预设数量是根据样本x的特征维度数确定的。
[0103]
步骤2、假设数据集x的特征维度数为d,则将步骤1重复d次,基于公式(4)计算每个特征的特征权重值w(a)。
[0104][0105]
其中,h
j
代表同类最近邻样本,m
j
(c)代表不同类最近邻样本,w

(a)代表预设的初始特征权重矩阵,diff(a,i
x
,i
y
)公式如下:
[0106][0107]
其中,ix,iy分别代表数据集x中的样本点,diff(a,i
x
,i
y
)代表样本点ix,iy的a特征是否相同。
[0108]
本发明提供的网络流量数据的自适应增强方法,通过获取少数类样本的特征权重值,为后续基于该特征权重值得到少数类样本的稀疏度权重和数量权重奠定了基础。
[0109]
进一步地,在一个实施例中,步骤s23可以具体包括:
[0110]
s231、按照从大到小将所述每个特征的特征权重值顺序排序,以确定特征权重向量;
[0111]
s232、根据特征权重向量和马氏距离矩阵,确定少数类聚类中的少数类样本加权距离;
[0112]
s233、根据少数类样本加权距离和每个少数类聚类中的少数类样本数量,确定每个少数类聚类中少数类样本的稀疏度;
[0113]
s234、对稀疏度进行归一化处理,以确定稀疏度权重;
[0114]
s235、根据每个少数类聚类中的少数类样本数量和所有少数类聚类中的少数类样本总数量,确定每个少数类聚类的聚类数量;
[0115]
s236、对聚类数量进行归一化处理,以确定数量权重。
[0116]
具体地,将经过步骤2计算得到的每个特征的特征权重值从大到小进行排序,形成特征权重向量w=(w1,w2,w3,...,w
d
),并基于公式(6)计算每个少数类聚类中的少数类样本加权距离:
[0117][0118]
其中,avg_min_dist(fc
i
)2代表聚类fc
i
中某个少数类样本加权距离,n_fc
i
代表聚类fc
i
中少数类样本的数量,w
avg
代表特征权重向量的平均值。
[0119]
根据少数类样本加权距离avg_min_dist(fc
i
)2和少数类聚类fc
i
中的少数类样本数量n_fc
i
,基于公式(7)计算每个少数类聚类中少数类样本的稀疏度sparsity_factor(fc
i
):
[0120][0121]
对于得到的每个少数类样本的稀疏度sparsity_factor(fc
i
)进行标准化和归一化处理,根据公式(8)计算每个少数类聚类fc
i
的稀疏度权重sparsity_weight(fc
i
),其中,稀疏度权重sparsity_weight(fc
i
)定义为少数类聚类的稀疏度除以所有少数类聚类的稀疏度之和,其中n为少数类聚类的数量,μ=min(sparsity_factor(fc
k
))。
[0122][0123]
对于每一个少数类聚类fc
i
,计算聚类样本数量权重,每个少数类聚类的聚类数量为少数类聚类的少数类样本数量除以所有少数类聚类的少数类样本数量之和(即少数类样本总数量),并对聚类数量进行标准化和归一化,得到数量权重,其中μ

=min(log n_fc
k
),少数类聚类fc
k
中的少数类样本数量n_fc
k

[0124][0125]
其中,num_weight(fc
i
)代表少数类聚类fc
k
中某个少数类样本的数量权重。
[0126]
本发明提供的网络流量数据的自适应增强方法,综合考虑了少数类距离的稀疏度和数量比例,为少数类聚类分配合成样本数量,有效解决了不平衡数据集数据增强中的合成样本数量分配问题。
[0127]
进一步地,在一个实施例中,步骤s3可以具体包括:
[0128]
s31、根据稀疏度权重和数量权重,确定少数类合成样本权重;
[0129]
s32、根据少数类合成样本权重和预设采样比例,确定少数类合成样本数量。
[0130]
具体地,根据稀疏度权重和数量权重,基于公式(10)计算每个少数类聚类最终的少数类合成样本数量权重fc_weight(fc
i
):
[0131]
fc_weight(fc
i
)=α1*num_weight(fc
i
)+α2*sparsity_weight(fc
i
)
ꢀꢀ
(10)
[0132]
其中,其中α1和α2为常数,且α1,α2相加之和为1,α1,α2分别取值为0.4和0.6。
[0133]
将少数类合成样本权重fc_weight(fc
i
)与预设采样比例sample_num相乘就可以得到少数类聚类fc
i
需要合成的少数类合成样本数量fc_num(fc
i
)。
[0134]
fc_num(fc
i
)=fc_weight(fc
i
)*sample_num
ꢀꢀ
(11)
[0135]
其中,sample_num是根据数据集x中多数类样本和少数类样本的数量差值与预设常数n得到的,n代表预设采样比例,默认为1,具体如公式(12)所示:
[0136]
sample_num=n*(num(maj(x))

num(min(x)))
ꢀꢀꢀꢀꢀ
(12)
[0137]
本发明提供的网络流量数据的自适应增强方法,根据聚类中样本稀疏度和样本数量权重重分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,既考虑了聚类稀疏度,又利用了聚类中样本数量,避免了只考虑单方面情况造成的样本信息冗余和样本依赖的信息不足的问题。
[0138]
进一步地,在一个实施例中,步骤s4可以具体包括:
[0139]
s41、确定每个少数类聚类中的目标少数类样本与少数类样本集中所有样本的第三欧氏距离;
[0140]
s42、从少数类样本集中所有样本中筛选出第二预设数量个与目标少数类样本的第三欧氏距离最小的近邻样本;
[0141]
s43、根据少数类合成样本数量,确定采样倍率;
[0142]
s44、从近邻样本中随机选择采样倍率个目标近邻样本,并根据过采样算法、近邻样本和目标近邻样本,对原始网络流量数据集进行数据增强。
[0143]
具体地,对于每个少数类聚类中的每一个目标少数类样本x,以欧氏距离为标准计算该目标少数类样本x到少数类样本集中所有样本的距离(即第三欧式距离),并从少数类样本集中所有样本中筛选出第二预设数量个如k个与目标少数类样本x的第三欧氏距离最小的近邻样本,得到其k近邻样本,其中,少数类样本集是由所有少数类样本组成的。
[0144]
根据少数类合成样本数量fc_num(fc
i
),基于公式(13)计算采样倍率n
i

[0145][0146]
其中,num(fc
i
)为该少数类聚类的样本总数。
[0147]
对于每一个目标少数类样本x,从其k近邻样本中随机选择n
i
个目标近邻样本,假设选择的目标近邻样本为xn,根据过采样算法如smote分别与原样本x按照以下公式构建新的样本x
new
,以对原始网络流量数据进行增强。
[0148]
x
new
=x+rand(0,1)*|x

xn|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0149]
将上述过程应用于每一个少数类聚类,完成基于稀疏度和数量的样本分配及合成工作,得到增强后的原始网络流量数据。
[0150]
本发明提供的网络流量数据的自适应增强方法,利用聚类划分互不干扰的少数类采样区域,解决数据分离问题,同时利用hac聚类算法不需要超参数及异常值不敏感的特性,减少需要预先设置的参数,降低噪声的影响,提高计算速度,同时考虑了聚类稀疏度,又利用了聚类中样本数量,避免了只考虑单方面情况造成的样本信息冗余和样本依赖的信息不足的问题。
[0151]
下面对本发明提供的网络流量数据的自适应增强装置进行描述,下文描述的网络
流量数据的自适应增强装置与上文描述的网络流量数据的自适应增强方法可相互对应参照。
[0152]
图2是本发明提供的网络流量数据的自适应增强装置的结构示意图,如图2所示,包括:聚类分类模块210、权重确定模块211、数量确定模块212和数据增强模块213;
[0153]
聚类分类模块210,用于基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
[0154]
权重确定模块211,用于获取少数类聚类中少数类样本的稀疏度权重和数量权重;
[0155]
数量确定模块212,用于根据稀疏度权重和数量权重,确定少数类合成样本数量;
[0156]
数据增强模块213,用于基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。
[0157]
本发明提供的网络流量数据的自适应增强装置,利用hac聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量权值比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,同时解决了现有技术中合成样本依赖信息不足的问题。
[0158]
图3是本发明提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)311、存储器(memory)312和总线(bus)313,其中,处理器310,通信接口311,存储器312通过总线313完成相互间的通信。处理器310可以调用存储器312中的逻辑指令,以执行如下方法:
[0159]
基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
[0160]
获取少数类聚类中少数类样本的稀疏度权重和数量权重;
[0161]
根据稀疏度权重和数量权重,确定少数类合成样本数量;
[0162]
基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。
[0163]
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0164]
进一步地,本发明公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的网络流量数据的自适应增强方法,例如包括:
[0165]
基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
[0166]
获取少数类聚类中少数类样本的稀疏度权重和数量权重;
[0167]
根据稀疏度权重和数量权重,确定少数类合成样本数量;
[0168]
基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。
[0169]
另一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的网络流量数据的自适应增强方法,例如包括:
[0170]
基于层次凝聚聚类hac算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;
[0171]
获取少数类聚类中少数类样本的稀疏度权重和数量权重;
[0172]
根据稀疏度权重和数量权重,确定少数类合成样本数量;
[0173]
基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。
[0174]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0175]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0176]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1