一种基于多生成器GAN数据增强的入侵检测方法及系统

文档序号:36232641发布日期:2023-12-01 06:52阅读:137来源:国知局
一种基于多生成器

本发明涉及计算机应用,更具体地,特别涉及一种基于多生成器gan数据增强的入侵检测方法及系统。


背景技术:

1、目前,随着大数据、云计算和5g通信技术的快速发展,物联网(iot)得到了广泛的应用,使得人类生活进入了万物互联的新时代。iot不仅拓展了通信维度,推动了“物与物、物与人、人与人”之间广泛而又智能的连接,且极大提升了现代社会的管理服务效能和人们的生活质量。借助大数据、人工智能和云计算等技术的发展,iot被广泛扩展到智慧农业、智慧城市、智慧医疗和工业互联网等多种应用场景。但是,iot是通过先进的信息通信技术将虚拟网络与物理环境相连,在促进人类智慧化发展的同时,也不可避免的将虚拟网络中存在的安全风险和漏洞引入物理环境中。因此,如何保障物联网设备的安全,减少企业和个人受到来自网络攻击的威胁,已经成为业内人员和网络安全技术人员密切关注的问题。

2、入侵检测作为一种能有效保护网络安全性的主动防御技术,受到了广泛的研究。近年来,许多富有创新性的入侵检测技术被提出。通常,研究者们将入侵检测问题归类为二分类或者多分类问题。基于此,许多传统的机器学习分类方法被用到了入侵检测领域,如决策树、支持向量机、多层感知机和随机森林等。但是传统的机器学习方法因其固有的特性,无法有效处理海量、高维和复杂的网络数据。深度学习方法能够有效学习数据的内部表示特征,对于处理高维、复杂和存在噪声的数据具有优异效果。因此,将深度学习技术应用于网络入侵检测领域受到了广泛的研究。在入侵检测中应用较为广泛的深度学习技术包括卷积神经网络、循环神经网络和自编码网络等。

3、然而,尽管目前相关学者已提出许多先进的入侵检测方法,但仍存在以下缺陷。首先,从互联网中收集有效的攻击样本非常困难,并且需要耗费极大的人力和物力。这就使得在实验中攻击样本的数量会远少于正常样本,从而引起数据集中的类间不平衡问题。例如,数据集中的正常流量样本有100000条,而攻击样本仅有1000条。将多数类样本和少数类样本的比值称为不平衡率(ir),则正常和攻击样本的不平衡率为100。当使用有监督的分类算法进行非平衡数据的分类时,会极大的增加少数类样本的分类难度,从而导致对攻击类型数据的检测率极低。其次,面对极少量样本时,依靠传统的非平衡数据处理方法和深度学习方法很难实现有效的分类。极少量样本代表多数类和少数类样本的不平衡率达到了极高的值。例如,当攻击样本仅有50条时,正常样本和攻击样本的ir达到了2000,这属于极度不平衡数据。面对极少量样本时,有监督分类器通常会倾向于将所有的攻击样本识别为正常样本。而传统的数据采样方法面对这种极度不平衡数据时,也极难处理此类问题。


技术实现思路

1、为了解决现有的技术问题,本发明提出了一种基于多生成器gan数据增强的入侵检测方法,即tmg-gan模型,以克服现有数据增强技术难以有效拟合数据的整体分布、容易引入噪声数据和容易造成分类边界模糊的问题,并且本发明提出的tmg-gan模型是经过改进后的gan模型。改进后的模型设计了多生成器结构、添加了分类器结构和引入了新的生成器附加损失,以提高数据生成质量和增强分类边界清晰度,同时设计了一种基于分类器的生成数据评估方法,可以有效的过滤生成数据中的噪声数据。

2、根据本发明的第一方面,提供了一种安全的主动式入侵检测方法,包括以下步骤:

3、步骤s1,对非平衡数据进行采集,包括采集网络流量中的正常样本和少量的模拟攻击样本;

4、步骤s2,对采集到的数据进行数据预处理,预处理包括数值化和特征归一化;

5、步骤s3,将预处理完成的数据划分为训练样本集和测试样本集,其中,训练样本集用于tmg-gan模型和cnn检测模型的训练,测试样本集用于cnn检测模型的测试;

6、步骤s4,构建tmg-gan模型;使用训练数据训练tmg-gan模型,使用训练完成的tmg-gan模型生成各类攻击样本,使各类攻击样本的数量和正常样本一致,得到平衡的训练样本集;

7、步骤s5,构建cnn检测模型,使用平衡的训练数据训练cnn检测模型;

8、步骤s6,输入测试数据,对训练完成的cnn检测模型进行性能测试。

9、在上述技术方案的基础上,本发明还可以作出如下改进。

10、可选的,在步骤s1中,采集的非平衡数据类别包括:正常流量、以及ddos、dos、brute force、spoofing、web attack和bot常见网络攻击流量,并且采集的非平衡数据中正常流量远大于其它攻击流量。

11、可选的,在步骤s2中,所述数值化采用one-hot编码将字符型数据特征转换为数值型特征,所述归一化采用最大-最小方法将数据归一化到[0,1]区间,其公式如下:

12、

13、其中,x*为归一化后的数据,x为当前原始数据,xmin为当前属性中的最小的数据值,xmax为当前属性中的最大数据值。

14、可选的,所述tmg-gan模型包含了多个生成器、一个判别器和一个分类器;在步骤s4中,所述构建tmg-gan模型;使用训练数据训练tmg-gan模型,使用训练完成的tmg-gan模型生成各类攻击样本,使各类攻击样本的数量和正常样本一致,得到平衡的训练样本集包括:

15、多组生成器生成和原始数据分布相似的伪样本,判别器判定输入样本是来自于真实样本或是生成器生成的样本;通过生成器和判别器的对抗训练,最终生成器生成以假乱真的伪样本数据,即tmg-gan训练完成;当tmg-gan训练完成后,使用生成器生成各类攻击样本,以扩增原始攻击样本,使得原始数据集中的攻击样本和正常样本达到平衡状态。

16、可选的,所述tmg-gan模型中的每一个生成器负责一类样本的训练和生成;在训练判别器时,分类器的分类损失用于更新判别器的附加损失。

17、可选的,所述tmg-gan的目标函数表示如下:

18、

19、式中,s=n+1为数据的总类别数,d(xk)表示对真实样本的判别概率,表示对生成样本的判别概率,e[·]表示期望值,c(xk)表示用于更新判别器的分类损失,表示用于更新生成器gk的分类损失。ok表示生成样本和其它样本计算余弦相似度的结果。

20、可选的,所述生成器附加损失表达式如下:设由生成器生成的样本为对应的原始样本为xk,经过特征提取器f得到两种样本的高维特征为和f(xk);则生成样本与原始样本间的余弦相似度由如下公式得出:

21、

22、可选的,在步骤s4中,使用tmg-gan进行数据生成时,还包括基于生成器的噪声样本过滤,保留使分类器正确分类的生成样本,过滤掉难分类的伪样本。

23、可选的,所述基于生成器的噪声样本进行过滤中,过滤算法如下:假设生成器g1~n生成的各类攻击样本数据为对应的标签为将生成的样本数据输入到分类器c中,如果并且则属于易分类样本;如果并且则属于难分类样本。

24、根据本发明的第二方面,提供一种安全的主动式入侵检测系统,包括:

25、数据采集模块,用于对非平衡数据进行采集,包括采集网络流量中的正常样本和少量的模拟攻击样本;对采集到的数据进行数据预处理,预处理包括数值化和特征归一化;

26、数据处理模块,用于将预处理完成的数据划分为训练样本集和测试样本集,其中,训练样本集用于tmg-gan模型和cnn检测模型的训练,测试样本集用于cnn检测模型的测试;

27、第一生成模块,用于构建tmg-gan模型;使用训练数据训练tmg-gan模型,使用训练完成的tmg-gan模型生成各类攻击样本,使各类攻击样本的数量和正常样本一致,得到平衡的训练样本集;

28、第二生成模块,用于构建cnn检测模型,使用平衡的训练数据训练cnn检测模型;输入测试数据,对训练完成的cnn检测模型进行性能测试。

29、本发明的技术效果和优点:

30、1.本发明提出使用一种基于tmg-gan数据增强的入侵检测方法,不仅可以有效检测已知的网络攻击类型,对未知攻击也具有较好的泛化性能。

31、2.本发明使用的tmg-gan模型能够从全局拟合原始数据的分布,解决了传统过采样方法只能从局部生成数据的缺陷,并且通过将高维特征间的余弦相似度作为生成器的训练损失,可以更好的分离各类生成数据的分布,从而增强分类边界的清晰度。

32、3.本发明提出的tmg-gan模型中设计了分类器模块,可以用于生成数据中噪声数据的过滤,从而保证了生成数据的质量,从而解决了传统gan模型的数据增强方案会引入噪声数据的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1