本发明涉及网络安全,特别是涉及一种网络流量筛选与分析方法、装置、电子设备及介质。
背景技术:
1、由于高速网络环境中的流量呈现出流量的速率高、流量规模大、存储内存有限的特点,使更精准地识别高速网络环境中的流量分布情况、应用类别变得更加具有挑战。检测网络流量中最频繁的项目,需要对网络流进行频数估计。进行准确的频率估计是庞大数据中的常见的一种查询,这对数据监控具有重要意义。
2、然而目前,对于获取及识别大流的问题的研究极少,网络流量的大流识别的泛化性和准确性均较差。
技术实现思路
1、有鉴于此,本发明旨在提出一种网络流量筛选与分析方法、装置、电子设备及介质,以解决目前的网络流量的大流识别的泛化性和准确性较差的问题。
2、为达到上述目的,本发明的技术方案是这样实现的:
3、一种网络流量筛选与分析方法,包括:
4、基于捕获的流量数据,确定大流数据;所述大流数据表征在预设时间段内数据包数量超过预设值的流量数据;其中,所述大流数据包括数据编码和数据特征;
5、将所述大流数据作为训练样本,对预设的大流分类模型进行训练;所述大流分类模型用于输出所述大流数据的应用类别分类概率;其中,在每一次训练中,基于所述大流分类模型输出的分类概率对所述大流分类模型的参数进行更新,以得到训练完成的大流分类模型;
6、将待分类的大流数据输入所述训练完成的大流分类模型,以得到所述待分类的大流数据的分类概率;所述分类概率表征所述待分类的大流数据的应用类别;
7、对所述分类概率进行归一化处理,得到所述待分类的大流数据的分类结果。
8、进一步地,所述将所述大流数据作为训练样本,对预设的大流分类模型进行训练,包括:
9、对所述大流数据进行向量编码,得到大流数据向量;
10、将所述大流数据向量作为训练样本,对所述预设的大流分类模型进行训练。
11、进一步地,所述基于捕获的流量数据,确定大流数据,包括:
12、对所述捕获的流量数据进行解析,得到多个所述流量数据的数据编码和数据特征;
13、基于多个所述流量数据的数据编码,对多个所述流量数据进行映射处理,以将所述流量数据映射至预设的位数组中的对应位置;
14、基于各个位置各自对应的计数器,对映射至该位置的所述流量数据的数量进行计数,得到各个所述位置的计数值;
15、基于所述计数值确定所述大流数据。
16、进一步地,在所述得到多个所述流量数据的数据编码和数据特征之后,所述方法还包括:
17、将所述数据特征以预设存储方式进行存储;
18、所述基于所述计数值确定所述大流数据,包括:
19、确定所述计数值大于预设值的位置;
20、将所述位置对应的流量数据标记为候选大流数据;
21、基于所述候选大流数据,将所述候选大流数据的数据编码与对应的数据特征结合,得到所述大流数据。
22、进一步地,在所述得到多个所述流量数据的数据编码和数据特征之后,所述方法还包括:
23、基于多个所述流量数据的数据编码,确定所述流量数据的数据类型;所述数据类型包括tcp类型和udp类型中的任一者;
24、在所述数据类型为udp类型的情况下,对所述流量数据的长度进行补齐,以使所述udp类型的流量数据长度与tcp类型流量数据的长度一致。
25、进一步地,所述数据编码包括:所述流量数据的源ip地址、源端口、目的ip地址、目的端口以及传输层协议。
26、进一步地,所述流量数据包括tcp类型和udp类型,在所述流量数据为所述tcp类型的情况下,所述数据特征包括数据包字节数、相邻数据包时间间隔、数据包方向、数据包的存活时间、数据包的tcp窗口时间及tcp标志位;
27、在所述流量数据为所述udp类型的情况下,所述数据特征包括数据包字节数、相邻数据包时间间隔、数据包方向及数据包的存活时间。
28、相对于现有技术,本发明所提供的网络流量筛选与分析方法具有如下优势:
29、本发明通过基于捕获的流量数据,确定大流数据;所述大流数据表征在预设时间段内数据包数量超过预设值的流量数据;其中,所述大流数据包括数据编码和数据特征;将所述大流数据作为训练样本,对预设的大流分类模型进行训练;所述大流分类模型用于输出所述大流数据的应用类别分类概率;其中,在每一次训练中,基于所述大流分类模型输出的分类概率对所述大流分类模型的参数进行更新,以得到训练完成的大流分类模型;将待分类的大流数据输入所述训练完成的大流分类模型,以得到所述待分类的大流数据的分类概率;所述分类概率表征所述待分类的大流数据的应用类别;对所述分类概率进行归一化处理,得到所述待分类的大流数据的分类结果。
30、由于将包括有数据编码和数据特征的大流数据作为训练样本对大流分类模型进行训练,以使大流分类模型能够更好地学习大流数据的序列关系和结构关系,进而提升大流分类模型的泛化性和准确性。又通过对待分类的大流数据的分类概率进行归一化处理,得到待分类的大流数据的分类结果,进一步提升了对大流数据分类的准确性。
31、本发明的另一目的在于提供一种网络流量筛选与分析装置,以解决目前的网络流量的大流识别的泛化性和准确性较差的问题。
32、为达到上述目的,本发明的技术方案是这样实现的:
33、一种网络流量筛选与分析装置,包括:
34、确定模块,用于基于捕获的流量数据,确定大流数据;所述大流数据表征在预设时间段内数据包数量超过预设值的流量数据;其中,所述大流数据包括数据编码和数据特征;
35、训练模块,用于将所述大流数据作为训练样本,对预设的大流分类模型进行训练;所述大流分类模型用于输出所述大流数据的应用类别分类概率;其中,在每一次训练中,基于所述大流分类模型输出的分类概率对所述大流分类模型的参数进行更新,以得到训练完成的大流分类模型;
36、输入模块,用于将待分类的大流数据输入所述训练完成的大流分类模型,以得到所述待分类的大流数据的分类概率;所述分类概率表征所述待分类的大流数据的应用类别;
37、归一化模块,用于对所述分类概率进行归一化处理,得到所述待分类的大流数据的分类结果。
38、所述的网络流量筛选与分析装置与上述的网络流量筛选与分析方法相对于现有技术具有相同的优势,在此不做赘述。
39、本发明的另一目的在于提供一种电子设备,以解决目前的网络流量的大流识别的泛化性和准确性较差的问题。
40、为达到上述目的,本发明的技术方案是这样实现的:
41、一种电子设备,包括:
42、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的网络流量筛选与分析方法。
43、所述的电子设备与上述的网络流量筛选与分析方法相对于现有技术具有相同的优势,在此不做赘述。
44、本发明的另一目的在于提供一种计算机可读介质,以解决目前的网络流量的大流识别的泛化性和准确性较差的问题。
45、为达到上述目的,本发明的技术方案是这样实现的:
46、一种计算机可读介质,包括:
47、当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的网络流量筛选与分析方法。
48、所述的计算机可读介质与上述的网络流量筛选与分析方法相对于现有技术具有相同的优势,在此不做赘述。