本申请涉及流量识别,尤其涉及一种流量识别模型训练方法、识别方法、装置、设备和介质。
背景技术:
1、近年来网络攻击事件数量上升的同时攻击手段也变得更加隐蔽,攻击者通常采用加密的通信传输方式进行信息交互,这些加密攻击流量混杂在正常业务数据中,发现难度较大。
2、现有技术中加密流量识别方法中多为根据与已有网络协议生成特征库,并与采集流量的流量特征对比,进而通过比对结果来确定捕捉到的网络流量是否为加密流量。
3、在实施过程中发现:单独对比特征库的模式可能会出现因网络协议特征库更新不及时,导致不能识别出部分新型加密流量;以及仅仅通过网络协议这一维度进行判断,有可能会出现大量不易识别的异常流量,从而导致异常流量的识别准确率降低。
技术实现思路
1、本申请提供一种流量识别模型训练方法、识别方法、装置、设备和介质,用解决现有技术中仅通过特征比对方式进行流量识别导致识别结果准确率低的问题,通过采用基于多种特征聚类得到的识别算法进行流量识别,提高异常流量的识别准确率。
2、第一方面,本申请提供了一种流量识别模型训练方法,包括:
3、获取用于进行模型训练的样本流量数据;所述样本流量数据为基于互联网安全协议传输的流量数据包;
4、对所述样本流量数据进行特征提取,得到所述样本流量数据的数据特征;
5、基于所述数据特征对各所述样本流量数据进行至少一个轮次的聚类处理,直至满足预设训练停止条件时,得到训练完成的流量识别模型。
6、可选的,所述获取用于进行模型训练的样本流量数据,包括:
7、对抓取到的多个网络流量数据包进行数据包筛选处理,得到会话完整的流量数据包;
8、分别对各所述流量数据包进行字段解析处理,得到各所述流量数据包对应的数据字段;
9、基于所述数据字段分别对各所述流量数据包进行筛选处理,得到符合训练要求的样本流量数据。
10、可选的,所述数据特征包括属性特征和状态特征;所述属性特征包括所述样本流量数据的标志位数据和传输速度数据;所述状态特征包括所述流量数据的空闲状态时间数据和活跃状态时间数据。
11、可选的,所述基于所述数据特征对各所述样本流量数据进行至少一个轮次的聚类处理,直至满足预设训练停止条件时,得到训练完成的流量识别模型,包括:
12、在任一轮次的训练过程中,基于当前轮次的初始聚类中心点,对所述数据特征进行聚类处理,得到聚类处理后的各聚类中心点;
13、在各所述聚类中心点满足预设训练停止条件时停止训练,得到训练完成的流量识别模型。
14、可选的,所述方法还包括:在停止训练前判断各所述聚类中心点是否满足预设训练停止条件;其中,判断方法包括:
15、对于任一聚类中心点,确定属于当前聚类中心点的至少一个数据特征,并获取各所述数据特征的特征标签;
16、基于各所述特征标签确定当前聚类中心点是否满足预设训练停止条件。
17、第二方面,本申请还提供了一种流量识别方法,包括:
18、获取流量数据,对所述流量数据进行特征提取,得到所述流量数据的数据特征;所述流量数据为基于互联网安全协议传输的流量数据包;
19、基于预先训练完成的流量识别模型对所述数据特征进行流量识别,得到所述流量数据的目标识别结果;所述流量识别模型基于第一方面所述的流量识别模型训练方法训练得到。
20、第三方面,本申请还提供了一种流量识别模型训练装置,包括:
21、样本流量数据获取模块,用于获取用于进行模型训练的样本流量数据;所述样本流量数据为基于互联网安全协议传输的流量数据包;
22、数据特征获得模块,用于对所述样本流量数据进行特征提取,得到所述样本流量数据的数据特征;
23、模型训练模块,用于基于所述数据特征对各所述样本流量数据进行至少一个轮次的聚类处理,直至满足预设训练停止条件时,得到训练完成的流量识别模型。
24、第四方面,本申请还提供了一种流量识别装置,包括:
25、数据特征获得模块,用于获取流量数据,对所述流量数据进行特征提取,得到所述流量数据的数据特征;所述流量数据为基于互联网安全协议传输的流量数据包;
26、识别结果获得模块,用于基于预先训练完成的流量识别模型对所述数据特征进行流量识别,得到所述流量数据的目标识别结果;所述流量识别模型基于第一方面所述的流量识别模型训练方法训练得到。
27、第五方面,本申请提供一种终端设备,包括:处理器,以及与所述处理器通信连接的存储器;
28、所述存储器存储计算机执行指令;
29、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的方法。
30、第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
31、第七方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法。
32、本申请提供的技术方案中,通过对各网络流量数据所采用的传输协议进行判断,并将采用互联网安全协议传输的网络流量数据作为样本流量数据进行后续的识别模型训练;对上述样本流量数据进行数据特征提取,得到样本流量数据对应的多种数据特征;进而基于各数据特征分别进行聚类训练,得到训练完成的流量识别算法;通过采用基于多种特征聚类得到的识别算法进行流量识别,提高异常流量的识别准确率。
1.一种流量识别模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取用于进行模型训练的样本流量数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述数据特征包括属性特征和状态特征;所述属性特征包括所述样本流量数据的标志位数据和传输速度数据;所述状态特征包括所述流量数据的空闲状态时间数据和活跃状态时间数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述数据特征对各所述样本流量数据进行至少一个轮次的聚类处理,直至满足预设训练停止条件时,得到训练完成的流量识别模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在停止训练前判断各所述聚类中心点是否满足预设训练停止条件;其中,判断方法包括:
6.一种流量识别方法,其特征在于,所述方法包括:
7.一种流量识别模型训练装置,其特征在于,所述装置包括:
8.一种流量识别装置,其特征在于,所述装置包括:
9.一种终端设备,其特征在于,包括:处理器以及与所述处理器通信连接的存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5中任意一项所述的流量识别模型训练方法,和/或,权利要求6所述的流量识别方法。