基于多模态学习的加密流量分类方法、装置及存储介质

文档序号:34866429发布日期:2023-07-23 20:37阅读:76来源:国知局
基于多模态学习的加密流量分类方法、装置及存储介质

本发明涉及计算机网络管理,尤其是涉及一种基于多模态学习的加密流量分类方法、装置及存储介质。


背景技术:

1、近年来,由于互联网的广泛普及与蓬勃发展,人们在日常生活中无时无刻产生着大量网络流量。虽然互联网在衣食住行各方面大幅改善了人们的日常生活,但随之而来的隐私泄露问题也日益成为了焦点。为此,加密技术逐渐被应用在了互联网通信中,一定程度地解决了网络安全方面的问题。然而,这也不可避免地导致了互联网中加密流量的数量呈现逐年攀升的趋势。因此,针对加密流量的分类方法也逐渐成为了学业界和工业界中亟待解决的难题。实现加密流量的精准分类一方面能够协助网络运营商根据流量的类型合理分配带宽资源,有效保证服务质量;另一方面有助于检测通过加密技术伪装的恶意流量,加强网络安全的防御。

2、在互联网的初期,流量分类的主流方法为端口号匹配和深度包检测技术。而伴随着动态端口和加密技术的普及,这两项分类方法也开始不再适用。由于机器学习领域的兴起,越来越多的研究者开始采用基于统计的机器学习算法解决加密流量的分类问题。虽然统计特性不受加密技术的掩盖,并且在一部分研究中也展现了成效,然而此类方法过度依赖专家知识设计有效特征,存在耗时、费力、复杂的明显短板。

3、鉴于此,近几年的深度学习技术由于具有端到端和自动学习特征的优势,已经在加密流量分类领域广受研究者的青睐。目前已有不少的研究将深度学习应用在了加密流量分类上,但现有的方法仍然存在以下的改进空间:(1)加密流量信息利用不完备:加密流量的有效载荷信息由于受到加密技术的混淆,具有的分布特性会被一定程度的掩盖,现有多数方法仅聚焦堆叠深层网络提取有效载荷特征,而未充分利用鲜明的统计信息,导致加密流量的表征能力弱。(2)忽略加密流量的异构性:加密流量在内容和时序上分别具有层级结构和时域关联特性,目前的方法未利用上述特性设计合适的特征提取网络,难以实现高精度的分类性能。


技术实现思路

1、本发明的目的是为了提供一种基于多模态学习的加密流量分类方法、装置及存储介质,通过构建有效载荷模态和统计信息模态以充分利用流量的异构性,在加密流量的不同细粒度分类任务上实现高精度的性能。

2、本发明的目的可以通过以下技术方案来实现:

3、一种基于多模态学习的加密流量分类方法,包括以下步骤:

4、s1、采集目标加密流量数据,并通过流量划分和数据清洗获得有效会话;

5、s2、提取有效会话的异构信息,构建由内容矩阵和时序矩阵组成的多模态数据集;

6、s3、基于多模态数据集,利用层级注意力网络依次从数据包级别到会话级别提取内容模态特征;

7、s4、基于多模态数据集,利用时序循环网络提取不同粒度的时序模态特征;

8、s5、基于多模态融合网络对内容模态特征和时序模态特征进行融合,并采用高速网络提取高层多模态特征;

9、s6、基于高层多模态特征,通过输出层输出流量分类概率,实现加密流量分类。

10、进一步地,所述s1包括以下步骤:

11、s11、利用wireshark捕获指定网络接口的目标加密流量,获得pcap格式原始流量文件;

12、s12、利用哈希数据结构根据五元组将每个pcap文件划分成双向的会话;

13、s13、考虑到网络通信中存在一定数量的明文域名解析会话,进行数据清洗,滤除此类会话避免分类结果产生偏差;

14、s14、删除tcp会话中的ack数据包、重传数据包,并移除所有数据包的数据链路层协议头部,获得干净的有效会话。

15、进一步地,所述五元组的结构表示为<源ip地址,目的ip地址,源端口,目的端口,传输层协议>,其中,源和目的两个方向可互换。

16、进一步地,所述s2包括以下步骤:

17、s21、依次选取每条有效会话的前n个数据包代表整条会话的数据;

18、s22、解析每个数据包的字节内容,提取传输层的有效载荷字节序列,并处理为以太网mtu大小为m的固定长度,从而获得尺寸为n行m列的内容矩阵对应每条有效会话;

19、s23、解析每个数据包的协议头部,提取每个数据包的统计信息序列,所述统计信息序列包括到达时间间隔、数据包方向、长度和tcp窗口大小,将四个统计信息序列进行维度拼接,获得尺寸为n行4列的时序矩阵对应每条有效会话,其中到达时间间隔由相邻数据包的到达时间依次相减确定,数据包方向由分析ip地址推断服务器和客户端身份确定,数据包长度由传输层有效载荷序列的长度确定;

20、s24、将内容矩阵和时序矩阵中的每个元素进行归一化,并按照预配置的比例划分为训练集与测试集,用于训练和测试层级注意力网络、时序循环网络和多模态融合网络。

21、进一步地,所述层级注意力网络包括依次连接的分布式一维卷积模块、分布式注意力机制模块、面向数据包序列的双向gru模块,基于层级注意力网络提取内容模态特征具体包括以下步骤:

22、s31、利用分布式一维卷积模块依次迭代内容矩阵的每一行,在数据包级别提取每个数据包有效载荷的内容特征;

23、s32、利用分布式注意力机制依次对s31输出的内容特征序列赋予注意力权重,依次将每个内容特征序列上的序列点进行加权求和,转换成高纯度的内容特征向量;

24、s33、将s32获得的每个内容特征向量堆叠成会话级别的内容特征序列,利用双向gru模块对会话级别的内容特征建模,输出内容模态特征。

25、进一步地,所述时序循环网络包括依次连接的时间卷积网络(tcn)模块和双向gru模块,基于时序循环网络提取时序模态特征具体包括以下步骤:

26、s41、将时序矩阵输入时间卷积网络模块,通过多层膨胀因果卷积进行短期特征提取,构建恒等映射;

27、s42、基于双向gru模块从前向和反向捕获长期特征,输出时序模态特征。

28、进一步地,所述s5中的多模态融合网络,考虑到内容模态特征和时序模态特征都为序列形式,利用点对点融合方式在每个序列点上进行维度拼接,并利用高速网络自适应地提取多模态表示,获得高层多模态特征。

29、进一步地,所述s6具体为:对高层多模态特征通过flatten运算降维并输入全连接输出层,通过softmax函数映射为分类概率,得到加密流量的分类标签,实现加密流量分类。

30、一种基于多模态学习的加密流量分类装置,包括存储器、处理器,以及存储于所述存储器中的程序,所述处理器执行所述程序时实现如上述所述的方法。

31、一种存储介质,其上存储有程序,所述程序被执行时实现如上述所述的方法。

32、与现有技术相比,本发明具有以下有益效果:

33、1、本发明提出了一种新的加密流量异构表示方式,利用会话的有效载荷信息和统计信息构建内容矩阵和时序矩阵,更好地增强加密流量的输入表征。

34、2、本发明基于流量的层级结构特性构建层级注意力网络,通过充分提取数据包和会话不同细粒度的内容特征,全方面地挖掘加密流量的内容差异。

35、3、本发明基于流量的时序关联特性构建时序循环网络,引入两种记忆长度的模型优化时序特征的提取,有效实现加密流量时序特性的建模。

36、4、本发明利用并行集成的方式提出多模态模型,采用内容模态和时序模态相结合的特征提取方法,提升加密流量的分类性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1