一种网络恶意流量检测方法

文档序号:38028258发布日期:2024-05-17 13:05阅读:14来源:国知局
一种网络恶意流量检测方法

本发明涉及网络安全领域,具体是一种网络恶意流量检测方法。


背景技术:

1、随着互联网技术的迅速发展和成本的降低,车联网和物联网的应用也在逐渐普及。预计到2026 年,物联网生态系统的投资将超过 1 万亿美元。预计到2028年,车联网的市场销售额将达4481.6亿。然而,伴随着互联网产业规模的逐渐扩大,带来的不仅是便利的生活方式,还有不断升级的网络安全风险。

2、随着互联网技术的发展,网络攻击的数量和攻击地方式也在不断的增加。在2023年中,相关网络安全公司检测到了远超2022年的攻击数量,其中的单个勒索攻击造成了近500万美元的经济损失。此外,还检测到了多个新型攻击方式。面对日趋严峻的网络安全形势,提出一个更加准确,高效的入侵检测系统的重要性不言而喻。

3、在网络恶意流量检测这一场景中,传统方法通常需要手动设计特征并基于规则进行特征提取,这通常需要大量的网络安全经验和复杂的规则定制与更新。这一方法难以适应新型恶意流量,且基于规则的检测方法泛化能力较差,无法高效的检测网络流量。深度学习是一种通过模拟人脑中的神经结构和学习方式来进行模型训练的技术,它能够从原始网络流量数据中直接学习恶意流量的访问特征,而无需手动设计复杂的规则和特征。使用深度学习的模型往往具有更好的泛化能力,同时可以通过使用不同的网络结构捕获网络流量中数据复杂且抽象的特征并提升检测的准确性。

4、虽然使用深度学习技术能够取得较为优秀的准确性,但是该类检测系统通常需要大量的时间用于检测任务,在计算资源有限的情况下会导致设备的检测效率极为低下。


技术实现思路

1、为克服上述现有技术的不足,本发明提供一种网络恶意流量检测方法,通过对网络流量数据预处理;使用主成分分析方法与k均值类聚方法进行特征选择;使用一维卷积神经网络和长短期记忆网络分别提取空间特征和时序依赖特征,并利用自适应特征融合模块进行特征融合完成模型构造;根据性能指标使用tpe超参数优化算法调整模型超参数,实现对恶意流量种类的准确识别,降低矩阵计算消耗,以达到提升恶意网络流量检测效率的目的。

2、本发明采取的技术方案如下。

3、一方面,本发明提供一种网络恶意流量检测方法,包括:

4、收集网络流量数据包并进行数据预处理,获得网络流量数据;

5、使用主成分分析方法与k均值类聚方法对网络流量数据进行特征选择;

6、将特征选择后的网络流量数据按照设定比例划分为训练集和验证集;

7、使用一维卷积神经网络提取网络流量数据的空间特征,使用长短期记忆网络提取网络流量数据的时序依赖特征,利用自适应特征融合模块融合空间特征和时序依赖特征,实现网络恶意流量检测模型的构造;

8、将训练集输入网络恶意流量检测模型进行训练,提取不同类别的网络流量数据特征;

9、将验证集输入训练后的网络恶意流量检测模型进行验证,验证完成后输出性能指标;

10、根据性能指标,使用tpe超参数优化算法调整网络恶意流量检测模型的超参数,以获得最优超参数下的网络恶意流量检测模型并保存该模型;

11、加载最优超参数配置下的网络恶意流量检测模型,将待测网络流量数据输入模型,根据学习到的网络流量数据特征识别恶意流量数据,完成对网络恶意流量的检测。

12、可选的,使用抓包工具从模拟的网络环境中收集网络流量数据包,网络流量数据包包括多种恶意攻击的网络流量数据包和正常流量的网络流量数据包;将包括多种网络流量类别的网络流量数据包的报文头与其网络流量类别进行配对,位于同一网络流量数据包的网络流量数据确定为相同的网络流量类别标签;

13、根据网络流量数据包发送的顺序将确定好标签的网络流量数据包中的网络流量数据分批次提取并保存在csv文件中,最终获得网络流量数据。

14、可选的,网络流量类别由时间区间和主机ip共同决定;

15、在收集网络流量数据包的过程中,根据每种网络流量数据包的发送时间和主机ip地址将处于同一个时间区间的所述网络流量数据包根据不同ip地址标记为正常类别或者对应的攻击类别;

16、模拟网络环境可以避免依据时间区间进行标记所带来的时间强相关性,使得多种网络流量在同一时间进行混合,更接近真实网络环境能够增加模型的泛化能力。

17、可选的,网络流量类别包含正常流量类别的情况,共有7种,分别为正常流量、ddos攻击、dos攻击、僵尸网络、bruteforce攻击、渗透攻击和sql注入攻击。

18、可选的,数据预处理包括文本数据处理、缺失值填充、删除重复数据、弱化数据相关性以及数据标准化;

19、文本数据处理包括文本正则替换、文本整数编码和数据类型转化,其中,文本整数编码是指通过整数编码将文本标签数据转换为整数标签;数据类型转化是将时序特征从文本数据转换为时间戳数值;

20、使用缺失位置的特定时间区间内的均值实现缺失值填充操作;

21、弱化数据相关性指的是删除与模拟网络环境中网络流量类别强相关的特征。进行文本数据处理能够保证模型正确处理网络流量数据中的文本内容,通过弱化数据的强相关性能够增加模型的泛化能力以适应真实的网络环境,进行标准化处理能够加快模型的收敛速度。

22、可选的,使用主成分分析方法与k均值类聚方法对网络流量数据进行特征选择包括:

23、使用主成分分析方法完成数据降维,得到特征子空间;

24、利用k均值类聚方法对降维后的数据进行类聚操作,形成多个类聚簇,根据每个类聚簇内数据点的均值建立类别子空间;

25、根据特征子空间与类别子空间计算余弦相似度,选取余弦相似度较高的特征,完成对网络流量数据的特征选择,余弦相似度公式如下:

26、;

27、其中,表示点积运算, x表示特征子空间向量, y表示类别子空间向量,表示特征子空间向量的范数,表示类别子空间向量的范数,cosine similarity函数表示不同向量空间的余弦相似度;

28、由于网络流量数据存在着特征繁多,关系复杂的问题。传统的手动特征选择将需要专业人员进行长时间的手动处理,浪费大量的人力物力。而使用主成分分析方法和k均值类聚方法能够自动计算出各个特征对于网络流量的重要程度,以便于相关研究人员快速提取有效的特征,避免模型训练过程中的耗时长和过拟合。

29、可选的,网络恶意流量检测模型的构造包括:

30、一维卷积神经网络为根据网络流量数据的空间特性构建的精简的minivggnet;

31、对一维卷积神经网络和长短期记忆网络处理后得到的特征数据进行上采样,并计算每个特征的权重,自适应特征融合模块包括权重计算公式,根据权重计算公式实现空间特征和时序依赖特征的融合,权重计算公式如下:

32、;

33、其中, f表示空间特征, g表示时序依赖特征,表示计算得到的空间特征权重,表示计算得到的时序依赖特征权重,表示对特征数据进行上采样操作, fusion函数表示特征权重的计算与融合;

34、自适应特征融合模块后接入全连接层和softmax层,最终实现网络恶意流量检测模型的构造;

35、传统的minivggnet往往是面向二维数据且结构较深,这样会不可避免增加计算量和数据预处理步骤,本发明中所使用的minivggnet针对网络流量数据的特点,进行了重新构建。重构后的模型在保证检测效果的情况下,降低了模型的深度,减少了检测过程中对硬件资源的消耗。同时,针对注意力自适应融合所带来的计算量陡增问题,所提出的自适应特征融合模块在借鉴了门控特征融合的思想后,在保证了较高的检测准确度的情况下降低了对计算资源的消耗,加快了模型的检测的速度。

36、可选的,将训练集输入网络恶意流量检测模型后,使用交叉熵损失函数计算预测类别与真实类别的差异,使用adam优化算法控制网络恶意流量检测模型反向传播的学习率和训练轮数;

37、交叉熵损失函数的计算公式为:

38、;

39、其中, i表示网络流量数据,网络流量数据共有 n条, c表示网络流量类别,网络流量类别共有 m个,与分别代表第 i条数据的真实类别与预测类别, l函数表示预测的网络流量类别与真实的网络流量类别 y之间误差的损失函数值。

40、可选的,性能指标包括准确率、精准率、召回率、f1值和分类结果矩阵。

41、可选的,在确认构建的网络恶意流量检测模型能够检测出恶意网络流量后,使用tpe超参数优化算法对网络恶意流量检测模型中的超参数进行优化,以获取最佳的超参数配置;

42、tpe超参数优化算法通过在指定的参数空间中选取一组超参数用于网络恶意流量检测模型的训练和评估,并根据该组参数所获得的性能指标选取下一组超参数组合,tpe超参数优化算法的计算公式如下:

43、;

44、其中,表示该组参数 x优化更新后的新参数值, e表示期望,表示在该组参数 x下观测到模型性能指标的概率分布。

45、与现有技术相比,本发明所达到的有益效果:

46、本发明利用适用于网络流量数据的一维卷积神经网络对网络流量数据进行处理,在降低模型卷积操作中的矩阵计算量的同时,还提高了网络流量检测效率;使用一维卷积神经网络搭建了一个较为精简高效的minivggnet结构,该结构在原始minivggnet的基础上进行了改进,能够在使用较低计算资源的情况下,提取出具有代表性的空间特征;同时,还使用多层单向长短期记忆网络在提高模型对于时序依赖特征提取能力的同时,避免了单层双向长短期记忆网络对计算资源的大量消耗;本发明构造了自适应特征融合模块,该模块能够在使用较低的计算资源的情况下自适应地融合空间特征和时序依赖特征,在提高模型的检测速度的同时保障了模型的检测性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1