一种流量检测方法及装置与流程

文档序号:36320833发布日期:2023-12-08 20:35阅读:35来源:国知局
一种流量检测方法及装置与流程

本技术涉及数据处理,具体而言,涉及一种流量检测方法及装置。


背景技术:

1、目前基于机器学习进行网络流量分类是热门研究方向,其中有监督训练模型需要大量的高质量标注样本进行模型训练,提取有效的流量特征也对模型影响巨大。现有的流量检测方法,通常先依据各样本数据的数据维度以及维度特征值,构建数据维度特征值表,然后基于数据维度特征值表中样本数据对初始自动编码器进行训练,得到满足模型精度的自动编码器,再根据自动编码器输出的降维特征数据对分类器进行训练,最后使用训练好的分类器进行流量分类。然而,在实践中发现,现有方法需要大量的、精准的带标签样本进行训练,耗费大量人力,同时,对于对抗样本攻击的鲁棒性差,从而降低了流量检测效率。


技术实现思路

1、本技术实施例的目的在于提供一种流量检测方法及装置,能够利用少量标注样本训练模型,减少人力消耗,且能够提升模型在对抗样本攻击下的鲁棒性,进而有利于提升流量检测效率。

2、本技术第一方面提供了一种流量检测方法,包括:

3、获取原始编码器模型、训练样本和预设的分类器;其中,所述训练样本包括带标签的第一图像训练样本和无标签的第二图像训练样本;

4、使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器;

5、使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器;

6、对所述第二编码器进行优化,得到掩码自编码器;

7、获取待检测的原始流量;

8、对所述原始流量进行预处理,得到预处理流量;

9、通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果;

10、根据所述流量识别结果生成流量检测报告。

11、在上述实现过程中,该方法可以优先获取原始编码器模型、带标签的第一图像训练样本、无标签的第二图像训练样本和预设的分类器;可见,该方法的第一步是获取基础数据和模型,从而以此来方便后续步骤的执行。在获得带标签的第一图像训练样本和无标签的第二图像训练样本之后,该方法可以使用第一图像训练样本对原始编码器模型进行有监督训练,得到第一编码器;并使用第二图像训练样本对第一编码器进行无监督训练,得到第二编码器;可见,该方法可以通过有监督训练预训练编码器,进一步通过无监督训练再次训练预训练编码器,从而以此得到半监督训练成果。此时,再对第二编码器进行优化,得到掩码自编码器,便能够实现优质掩码自编码器的生成效果。在得到上述掩码自编码器之后,该方法进入正式作业,其首先便是要获取待检测的原始流量;然后,便是对原始流量进行预处理,得到预处理流量;再后,通过掩码自编码器和分类器对预处理流量进行流量识别,得到流量识别结果;最后,再根据流量识别结果生成流量检测报告;可见,该方法能够基于训练好的掩码自编码器更高效地提取流量的关键特征,面对误导性、欺骗性的流量特征,并根据流量有限的关键特征识别流量类别,从而使其具有良好的鲁棒性和抗干扰性,进而能够保障流量分类效果。

12、进一步地,所述使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器,包括:

13、通过预设的掩码矩阵对所述第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;

14、获取所述第一处理样本中未被遮盖的图像部分样本;

15、通过所述图像部分样本对所述原始编码器模型进行训练,得到第一编码器。

16、在上述实现过程中,该方法在进行有监督训练的过程中可以通过预设的掩码矩阵对第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;然后,获取第一处理样本中未被遮盖的图像部分样本;最后,再通过图像部分样本对原始编码器模型进行训练,得到第一编码器。可见,该方法可以使得原始编码器从未被遮盖的部分学习图像的特征,同时辅以填充内容和重构来确定最终的有监督损失,从而以此来确定出预训练的第一编码器。

17、进一步地,所述使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器,包括:

18、对所述第二图像训练样本进行掩码处理,得到第二处理样本;其中,所述第二处理样本包括弱掩码处理样本和强掩码处理样本;

19、将所述弱掩码处理样本和所述强掩码处理样本输入至所述第一编码器中进行无监督训练,得到第二编码器。

20、在上述实现过程中,该方法在基于第一编码器进行无监督训练的过程中,可以优先对第二图像训练样本进行掩码处理,得到包括弱掩码处理样本和强掩码处理样本的第二处理样本;然后,将弱掩码处理样本和强掩码处理样本输入至第一编码器中进行无监督训练,得到第二编码器。可见,该方法可以基于弱掩码和强掩码进行双方向预测,并在预测结束时选择交叉熵损失函数作为损失函数,从而以此来确定第二编码器。

21、进一步地,所述对所述第二编码器进行优化,得到掩码自编码器,包括:

22、获取对所述原始编码器模型进行有监督训练时的有监督损失函数以及对所述原始编码器模型进行无监督训练时的无监督损失函数;

23、基于所述有监督损失函数和所述无监督损失函数,构建半监督学习的整体损失函数;

24、基于所述整体损失函数对所述第二编码器进行优化,得到掩码自编码器。

25、在上述实现过程中,该方法在构造出半监督学习的掩码自编码器时,可以结合有监督损失函数和无监督损失函数进行构建,从而以此来完成编码器优化过程,得到掩码自编码器。可见,该方法基于两种损失函数自行进行调整,从而使得基于调整后的损失函数确定的掩码自编码器能够获取到更高质量的特征。

26、进一步地,所述对所述原始流量进行预处理,得到预处理流量,包括:

27、对所述原始流量进行组流处理,得到第一处理流量文件;

28、对所述第一处理流量文件进行删除冗余数据包处理,得到第二处理流量文件;

29、根据预设的流量长度对所述第二处理流量文件进行流截断处理,得到多个截断流量文件;

30、对所述截断流量文件及西宁字节序列归一化处理,得到预处理流量;其中,所述预处理流量为预设尺寸的灰度图像。

31、在上述实现过程中,该方法在对原始流量进行预处理,得到预处理流量时,可以对原始流量进行组流、删除冗余数据包的预处理,然后再通过流截断将每个流统一为固定字节长度,并在最后将长度统一的流量按照字节序列归一化,转化为尺寸为m×m的灰度图像,从而得到适合处理的标准化图像。

32、进一步地,所述通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果,包括:

33、对所述预处理流量进行掩码处理,得到待处理的掩码流量数据;

34、通过所述掩码自编码器对所述掩码流量数据进行特征提取,得到目标流量特征;

35、将所述目标流量特征输入至预先构建的分类器进行流量识别,得到流量识别结果。

36、在上述实现过程中,该方法在通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果的过程中,可以优先对所述预处理流量进行掩码处理,得到待处理的掩码流量数据,再通过所述掩码自编码器对所述掩码流量数据进行特征提取,得到隐层特征,最后再基于隐层特征进行流程识别,得到流量识别结果。可见,该方法能够基于隐层特征来获取更好的流量分类效果。

37、本技术第二方面提供了一种流量检测装置,所述流量检测装置包括:

38、第一获取单元,用于获取原始编码器模型、训练样本和预设的分类器;其中,所述训练样本包括带标签的第一图像训练样本和无标签的第二图像训练样本;

39、第一训练单元,用于使用所述第一图像训练样本对所述原始编码器模型进行有监督训练,得到第一编码器;

40、第二训练单元,用于使用所述第二图像训练样本对所述第一编码器进行无监督训练,得到第二编码器;

41、优化单元,用于对所述第二编码器进行优化,得到掩码自编码器;

42、第二获取单元,用于获取待检测的原始流量;

43、预处理单元,用于对所述原始流量进行预处理,得到预处理流量;

44、流量识别单元,用于通过所述掩码自编码器和所述分类器对所述预处理流量进行流量识别,得到流量识别结果;

45、生成单元,用于根据所述流量识别结果生成流量检测报告。

46、在上述实现过程中,该装置能够优先构建掩码自编码器,然后再基于该掩码自编码器进行流量的检测,从而更稳定地得到更优质的流量分类结果。

47、进一步地,所述第一训练单元包括:

48、第一处理子单元,用于通过预设的掩码矩阵对所述第一图像训练样本进行部分随机遮盖处理,得到第一处理样本;

49、第一获取子单元,用于获取所述第一处理样本中未被遮盖的图像部分样本;

50、第一训练子单元,用于通过所述图像部分样本对所述原始编码器模型进行训练,得到第一编码器。

51、进一步地,所述第二训练单元包括:

52、第二处理子单元,用于对所述第二图像训练样本进行掩码处理,得到第二处理样本;其中,所述第二处理样本包括弱掩码处理样本和强掩码处理样本;

53、第二训练子单元,用于将所述弱掩码处理样本和所述强掩码处理样本输入至所述第一编码器中进行无监督训练,得到第二编码器。

54、进一步地,所述优化单元包括:

55、第二获取子单元,用于获取对所述原始编码器模型进行有监督训练时的有监督损失函数以及对所述原始编码器模型进行无监督训练时的无监督损失函数;

56、构建子单元,用于基于所述有监督损失函数和所述无监督损失函数,构建半监督学习的整体损失函数;

57、优化子单元,用于基于所述整体损失函数对所述第二编码器进行优化,得到掩码自编码器。

58、进一步地,所述预处理单元,具体用于对所述原始流量进行组流处理,得到第一处理流量文件;

59、所述预处理单元,具体还用于对所述第一处理流量文件进行删除冗余数据包处理,得到第二处理流量文件;

60、所述预处理单元,具体还用于根据预设的流量长度对所述第二处理流量文件进行流截断处理,得到多个截断流量文件;

61、所述预处理单元,具体还用于对所述截断流量文件及西宁字节序列归一化处理,得到预处理流量;其中,所述预处理流量为预设尺寸的灰度图像。

62、进一步地,所述流量识别单元包括:

63、第三处理子单元,用于对所述预处理流量进行掩码处理,得到待处理的掩码流量数据;

64、特征提取子单元,用于通过所述掩码自编码器对所述掩码流量数据进行特征提取,得到目标流量特征;

65、流量识别子单元,用于将所述目标流量特征输入至预先构建的分类器进行流量识别,得到流量识别结果。

66、本技术第三方面提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行本技术第一方面中任一项所述的流量检测方法。

67、本技术第四方面提供了一种计算机可读存储介质,其存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行本技术第一方面中任一项所述的流量检测方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1