一种基于自监督学习的网络流独立编码方法

文档序号:36081511发布日期:2023-11-18 01:37阅读:26来源:国知局
一种基于自监督学习的网络流独立编码方法

本发明属于流量数据处理领域,具体涉及一种基于自监督学习的网络流独立编码方法。


背景技术:

1、如今,网络攻击已经渗透到各种关键的互联网应用中,比如物联网系统、企业网络和工业基础设施。异常流量分析是检测网络攻击的重要手段。基于深度学习的异常流量分析取得了显著成效,但仍然存在着一些不足。

2、(1)只能在特定场景下的进行流量分析。比如公开号为cn113705619a的中国专利只面向加密恶意流量的检测。公开号为cn114268468a的中国专利只面向智能电网系统中的漏洞检测。

3、(2)对于处理大规模的流量数据仍然存在着困难。比如公开号为cn113347659b的专利使用lstm和cnn对流量进行分析。但lstm无法处理过大量级的序列,对于1000量级以上的序列或者更长的序列就可能会出现梯度爆炸等问题。另外,每一个lstm的单元节点都意味着有4个全连接层,如果时间序列跨度较大,并且网络较深,会出现计算量大和耗时偏多的问题。由于cnn池化层的原因,使用它来提取流量特征会丢失一定有价值的信息。

4、(3)缺乏标记数据。现有的一些深度学习模型都是监督型学习,都需要大量的标记数据,但实际场景中缺乏这些标记数据。比如所述专利cn114268468a从数据流中获取预设格式的数据信息后要对信息进行人为的筛选才能得到目标信息。


技术实现思路

1、为此,本发明所要解决的技术问题是提供一种基于自监督学习的网络流独立编码方法,实现了能够生成网络流的统一表示,能够深入研究网络流特征——集体分析网络数据包、流和相互关系的基础信息。

2、本发明的上述技术目的是通过如下方案实现的:

3、一种基于自监督学习的网络流独立编码方法,包括:

4、s1、采集数据;

5、s2、将所述数据形成的数据包以多元组信息归属至对应的流中;

6、s3、预处理所述数据包表示为原始二进制数据并生成统一数据包,得到关于所述统一数据包的多维向量;

7、s4、以所述多维向量为输入基于attention的ed模型提取流特征。

8、进一步的,所述步骤s3中,所述预处理包括

9、在预设的多种协议下,以各协议允许的最大包头协议表示该协议;

10、将不同协议的头部组合为固定长度的包头;

11、若在数据包中不包括参与的任一协议,将该协议对应所述固定长度的包头中的对应位置填充等字节的0。

12、进一步的,所述多元组为五元组,五元组信息表示为<源ip、源端口、目的ip、目的端口、协议>。

13、进一步的,所述s4具体包括:

14、s401、生成基于多维向量的向量序列;

15、s402、以预设长度的滑动窗口对向量序列进行采样后得到多个子序列;

16、s403、在预设长度中编码第一长度的向量得到隐藏长度序列,解码预设长度中第二长度的向量;

17、所述隐藏长度序列中的序列长度等于所述预设长度;

18、s404、计算隐藏长度序列中等同所述第二长度量级的序列关于等同所述第一长度两级的序列的相关性,得到注意力向量均值,即数据包的采样特征;

19、s405、计算流特征,所述流特征是数据包中注意力向量均值的平均值。

20、进一步的,所述第一长度与所述第二长度之和等于所述预设长度。

21、进一步的,s403中,利用图神经网络lstm执行编码。

22、本发明的上述技术方案,相比现有技术具有以下优点:

23、(1)本发明实现了大规模的流量处理,在网络中,同一条网络流通常会被分成多个数据包进行传输,而且多个网络流的数据包可能会混杂在一起传输,因此在网络流量分析中,很难将每个数据包精确地归属到相应的流中。并且来自不同协议的流量,其中的数据包结构也不相同。本发明根据数据包的五元信息<源ip、源端口、目的ip、目的端口、协议>将数据包归属到对应的流中。并且实现了对数据包的格式化,使得不管是来自哪个协议的流量,都能将流中每个数据包的二进制位数进行统一方便后续对网络流的编码。上述内容使模型可以单独处理每条网络流量,所以可以并行地处理多条流量,解决大规模流量处理困难问题。

24、(2)发明中计算数据包之间的相似性也就是提取数据包最相关的特征作为一条网络流的特征,并且保留了数据包序列的上下文信息,实现了网络流的统一编码。可以支撑一些后续的工作比如可以识别防范各种像ddos攻击、恶意软件等网络攻击和威胁;可以监测应用的性能和响应时间以做出相应的优化以及了解用户的行为和喜好以提供用户的个性化服务。



技术特征:

1.一种基于自监督学习的网络流独立编码方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于自监督学习的网络流独立编码方法,其特征在于,所述步骤s3中,所述预处理包括

3.根据权利要求1所述的基于自监督学习的网络流独立编码方法,其特征在于,所述多元组为五元组,五元组信息表示为<源ip、源端口、目的ip、目的端口、协议>。

4.根据权利要求1所述的基于自监督学习的网络流独立编码方法,其特征在于,所述s4具体包括:

5.根据权利要求4所述的基于自监督学习的网络流独立编码方法,其特征在于,所述第一长度与所述第二长度之和等于所述预设长度。

6.根据权利要求4所述的基于自监督学习的网络流独立编码方法,其特征在于,s403中,利用图神经网络lstm执行编码。


技术总结
本发明提供一种基于自监督学习的网络流独立编码方法,S1、采集数据;S2、将所述数据形成的数据包以多元组信息归属至对应的流中;S3、预处理所述数据包表示为原始二进制数据并生成统一数据包,得到关于所述统一数据包的多维向量;S4、以所述多维向量为输入基于attention的ED模型提取流特征。本发明通过实现了能够生成网络流的统一表示,能够深入研究网络流特征——集体分析网络数据包、流和相互关系的基础信息。

技术研发人员:殷丽华,罗熙,段紫桐,首鑫
受保护的技术使用者:广州大学
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1