一种基于改进生成对抗网络的多类不平衡网络流量数据增强方法

文档序号:37756145发布日期:2024-04-25 10:42阅读:5来源:国知局
一种基于改进生成对抗网络的多类不平衡网络流量数据增强方法

本发明涉及流量数据增强领域,具体涉及一种基于改进生成对抗网络的多类不平衡网络流量数据增强方法。


背景技术:

1、随着信息技术的不断发展,网络流量数据在各个领域的重要性日益凸显。网络流量数据包含着丰富的信息,可用于网络性能监测、入侵检测、流量分析等方面,对于维护网络安全和提升网络效率具有至关重要的作用。然而,随着网络规模的扩大和网络应用的多样化,网络流量数据呈现出多类不平衡的特点,给流量数据的分析和处理带来了新的挑战。

2、在传统的网络流量数据处理中,由于不同类型的网络流量数据分布不均,通常存在一些正常类别和一些数量极少的异常类别。这种多类不平衡的现象使得针对异常类别的流量数据分析变得相对困难,而且容易导致在识别、分类和入侵检测等应用中对异常类别的忽视。因此,提高对于多类不平衡网络流量数据的处理能力成为网络安全领域亟需解决的问题。

3、传统的方法通常采用过采样、欠采样等手段来处理多类不平衡问题,但这些方法存在着一定的局限性,容易引发过拟合或信息丢失等问题。近年来,生成对抗网络(gan)作为一种强大的生成模型,吸引了广泛的关注。gan可以通过学习训练数据分布的方式生成新的样本,为数据增强提供了一种新的思路。然而,现有的gan方法在处理多类不平衡网络流量数据时,仍然存在一些问题,例如生成对抗网络容易陷入模式崩溃导致生成数据多样性不足、鉴别器受到噪声干扰导致生成对抗网络生成数据质量过差等。

4、因此,有必要提出一种基于改进生成对抗网络的多类不平衡网络流量数据增强方法,以解决传统方法的局限性,提高对罕见类别的关注度,从而更加有效地应对多类不平衡网络流量数据的挑战。


技术实现思路

1、发明目的:本发明针对网络流量数据正常样本和异常样本类间不平衡问题,提出了一种基于改进生成对抗网络的多类不平衡网络流量数据增强方法。该方法利用生成对抗网络,产生充足的网络流量数据,使数据样本均衡,以满足机器学习模型训练所需。

2、本发明采用的技术方案为:

3、一种基于生成对抗网络的多类不平衡网络流量数据增强方法,包括以下步骤:

4、(1)获取多类不平衡网络流量数据集,对所述数据集进行数据数值化和数据标准化,以产生数据矩阵;

5、(2)构建多类不平衡网络流量数据增强模型,所述多类不平衡模型网络流量数据增强模型包括生成器与鉴别器,所述鉴别器使用离散小波变换(dwt)代替传统鉴别器中的跨步卷积,解决了鉴别器易受噪声干扰问题,提高了所述鉴别器的稳定性;

6、(3)优化多类不平衡网络流量数据增强模型损失函数,为了解决传统gan模型生成数据具有随机性、无法指定网络流量类别生成相应数据样本的问题,所述生成器损失函数引入分类交叉熵函数,为了解决传统gan模型鉴别器模式崩溃导致的生成数据多样性不足的问题,所述鉴别器损失函数引入wassertein距离,同时为了满足wassertein距离所需要的lipschitz连续性,引入梯度惩罚;

7、(4)将网络流量数据输入到多类不平衡网络流量数据增强模型中,根据多类不平衡网络流量数据集中的数据对所述生成器进行参数更新,更新后将多类不平衡网络流量数据集以及对应的样本标签通过所述生成器获得网络流量数据,将所述网络流量数据输入至鉴别器,根据鉴别器的输出结果对所述鉴别器进行参数更新,重复此步骤对所述多类不平衡网络流量数据增强模型进行训练,直到该模型达到纳什均衡;

8、(5)根据训练后的多类不平衡模型网络流量数据增强模型生成模拟数据获得平衡网络流量数据集。

9、优选的,步骤(2)中,所述模型具体包括:

10、1)条件生成对抗网络cgan是一种生成对抗网络的变体,引入了条件信息,使生成器能够根据给定的条件来生成特定类型的数据,这种结构使得生成器能够生成更具控制性和指导性的输出,适合多类不平衡网络流量数据增强。生成对抗网络主要由生成器和鉴别器两部分组成,生成器由n个反卷积层组成,通过输入的随机噪声向量和类别信息输出生成数据;鉴别器由n个卷积层组成,尝试区分真实数据和生成数据。

11、2)鉴别器的卷积层容易受到噪声干扰,很小的数据噪声会极大地改变卷积层的输出。本发明通过使用离散小波变换(dwt)代替鉴别器中的跨步卷积,有效地提高了鉴别器的噪声鲁棒性,提高了鉴别器的鉴别性能,从而避免了对抗神经网络的模式崩溃,保证了生成样本的多样性。

12、3)dwt层将给定的1维数据z={zj}j∈i分解为低频分量和高频分量由于噪声存在于数据的高频分量中,所以dwt层直接去除高频分量达到去噪的效果,得到去噪后的数据l={lk}k∈i和h={hk}k∈i是正交小波的低通滤波器和高通滤波器,可供选择的正交小波基函数包括haar、daubechies、symlets、coiflets、biorthogonal。通过dwt层得到的去噪后的数据znew的表达式为:

13、

14、znew=∑jlj-2kzj 公式(2)

15、优选的,步骤(3)中,所述模型具体包括:

16、1)条件生成对抗网络cgan的生成器和鉴别器之间相互竞争,生成器尽可能生成真实数据去欺骗鉴别器,而鉴别器则尽可能地鉴别输入的数据是真实的还是虚假的。因此,cgan的优化就是一个极小极大化问题,其目标函数的表达式为:

17、

18、其中,x,y,z是真实数据,类别信息和随机生成的高斯白噪声;d,g分别为鉴别器和生成器。

19、2)条件生成对抗网络cgan使用js散度和kl散度作为生成数据和真实分布之间的距离度量。js散度和kl散度会导致梯度消失或梯度爆炸,使得生成数据无法接近真实数据的分布。本发明引入wassertein距离和梯度惩罚项代替js和kl散度,同时为了满足wassertein距离所需要的lipschitz连续性,引入梯度惩罚,防止训练梯度消失或梯度爆炸,同时对生成器引入类别损失,能够更可靠地生成高质量并且接近对应类别的数据。因此改进后的cgan网络的目标函数的表达式为:

20、

21、其中,表示在真实数据和生成数据中的随机抽样样本,表示该样本的条件信息;crossentropy表示交叉熵损失。

22、与现有技术相比,本发明的有益效果是:

23、首先,本发明通过引入wassertein距离和梯度惩罚项代替js和kl散度,防止训练梯度消失或梯度爆炸,同时对生成器引入类别损失,能够更可靠地生成高质量并且接近对应类别的数据。其次,本发明通过在条件生成对抗网络cgan原始模型基础上,通过离散小波变换(dwt)代替鉴别器中的跨步卷积,提高了鉴别器的噪声鲁棒性,提高鉴别器的鉴别性能,得到多类不平衡网络流量数据增强模型,保证生成样本的多样性,更适用于多类不平衡的网络流量数据,模型训练更加稳定。最后,本发明可以得到多种异常类型的网络流量增强数据,以解决网络流量数据集数据样本不均衡问题。综上所述,本发明是一种有效的多类不平衡网络流量数据增强方法,具有较强的使用价值和应用前景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1