面向类别不平衡下的SSLVPN加密流量识别分类方法

文档序号:31510409发布日期:2022-09-14 11:03阅读:44来源:国知局
面向类别不平衡下的SSLVPN加密流量识别分类方法
面向类别不平衡下的ssl vpn加密流量识别分类方法
技术领域
1.本发明涉及加密流量识别领域,具体地说,是一种面向类别不平衡下的sslvpn加密流量识别分类方法。


背景技术:

2.在远程作业、远程办公成为企业和政府的常态后,ssl vpn因其灵活性、易于维护管理、成本低等优势,在网络流量中的占比日益增加,但这也给了其他人可乘之机。


技术实现要素:

3.本发明针对现有技术中的不足,提供一种面向类别不平衡下的ssl vpn加密流量识别分类方法,采用基于改进的c-smote(centroid-smote)算法,平衡原始数据集,解决样本数据集不平衡造成的模型欠拟合或过拟合问题。在平衡数据集后进行数据预处理,然后利用基于注意力机制改进的cnn网络流量识别模型,识别分类ssl vpn流量,并用深度可分离卷积替代传统卷积,减少网络参数和计算复杂度。所提方法不仅解决了传统方法在处理不平衡的海量高维数据时存在特征提取困难、检测率低的问题,同时改进后的深度学习模型能提取网络流量中具有非常显著性的细粒度的特征,更有效地捕捉网络流量中存在的依赖性,还能减少网络参数和计算复杂度。
4.为了达到上述目的,本发明采用以下技术方案:
5.一种面向类别不平衡下的ssl vpn加密流量识别分类方法,包括以下步骤:
6.步骤一、获取数据集:捕获网络数据流量,生成会话,通过五元组对网络数据流量过滤分流并获取原始实验数据集;
7.步骤二、平衡数据集:采用基于改进的c-smote算法,对原始实验数据集进行处理;
8.步骤三、数据预处理:读取数据流,截取一定长度的字节,并进行归一化处理,然后将ssl vpn流量实验数据集分为训练集和测试集两部分;
9.步骤四、ssl vpn加密流量识别分类模型:在传统的一维cnn网络流量模型中引入注意力机制,然后用深度可分离卷积替代传统卷积;
10.步骤五、分类ssl vpn加密流量:将经过步骤三处理后的数据集输入到基于注意力机制改进的cnn网络流量识别模型,识别分类ssl vpn加密流量;
11.步骤六、对获得的指标结果分析,并选取参数,优化加密流量识别方法。
12.本发明的进一步改进,所述步骤一中获取数据集的具体内容和方法是:定义 tcp流为以握手协议中的syn标志位开始,并且以fin标志位或以rst标志位结尾的tcp双向流;定义udp流为以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则认为数据流结束,新数据流的开始。
13.本发明的进一步改进,所述步骤二中所述平衡数据集,具体内容和过程为:计算原始数据集中每类样本的数量,分离原始实验数据集中的多数类和少数类样本,然后设定多数类样本与少数类样本的比值不大于10,计算出所需生成的少数类样本数量;计算少数类
样本的质心;以质心为端点,根据插值的方法生成新样本,重复此过程,直到新生成的少数类样本略多于需要的少数类样本;将包含新生成样本的少数类样本设为s,筛选出边界模糊样本并删除,直至符合设定的少数类样本数量。
14.本发明的进一步改进,步骤三中所述数据预处理的具体过程为:读取平衡化后数据集中的每条数据流,判断每个数据流的长度是否符合784个字节;如果数据流的长度大于784个字节,则执行截断,如果数据流的长度小于784,则执行零填充;对提取的数据进行归一化处理;将处理好的平衡流量数据集按8:2的比例分为训练集和测试集两部分。
15.本发明的进一步改进,步骤四中所述在ssl vpn加密流量识别分类模型的具体过程为:改进传统的一维cnn网络流量模型,在卷积层、bn层和池化层后引入注意力层,并用深度可分离卷积层替代传统卷积层。
16.本发明的进一步改进,步骤五中所述分类ssl vpn加密流量的具体流程为:
17.流程一、采用训练集的数据流训练基于注意力机制改进的cnn网络流量识别模型;流程二、用测试集数据流测试模型分类效果,调节模型参数;重复流程一和二,直至得到最优的基于注意力机制改进的cnn网络流量识别模型。
18.本发明的有益效果:与现有技术相比,本发明包括以下优点和有益效果:
19.(1)本发明对ssl vpn流量识别分类前先进行数据集的平衡化处理,解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题,提高基于深度学习的流量识别模型性能,使得识别分类更加精确有效,提高ssl vpn流量识别分类准确率。
20.(2)基于改进的c-smote(centroid-smote)算法,不仅能有效避免传统smote算法易受噪声干扰、泛化能力差的问题,而且新生成的样本更集中在样本集中心,因此具有更丰富的特征属性,增加了少数类样本的多样性。
21.(3)基于注意力机制改进的cnn网络流量识别模型,不仅克服需要手工提取特征且难以获取最优特征子集的问题,还能提取网络流量中具有非常显著性的细粒度的特征,从而更加有效地捕捉网络流量中存在的依赖性,提升识别准确率,在改用深度可分离卷积代替传统卷基层后,还能减少网络参数和计算复杂度。
附图说明
22.图1为本发明的整体流程图。
23.图2为本发明中基于改进的c-smote算法的原理示意图。
24.图3为本发明平衡实验数据集前后的实验结果对比图表。
具体实施方式
25.为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
26.一种面向类别不平衡下的ssl vpn加密流量识别分类方法,针对传统方法在处理不平衡的海量高维数据时存在特征提取困难、检测率低的问题。采用基于改进的c-smote(centroid-smote)算法,平衡原始数据集,解决样本数据集不平衡造成的模型欠拟合或过拟合问题。在平衡数据集后利用基于注意力机制改进的cnn网络流量识别模型,识别ssl vpn流量,并用深度可分离卷积替代传统卷积,减少网络参数和计算复杂度。
27.如图1所示,面向类别不平衡下的加密流量识别方法过程至少包括:获取数据集、平衡数据集、数据预处理、ssl vpn加密流量识别分类模型、分类ssl vpn 加密流量和指标结果分析几个步骤。
28.获取数据集:采用的是lashkar等人在2016年发布的vpn-nonvpn数据集,通过五元组对流量过滤分流获取原始实验数据集。其中对于tcp流,本发明实验判定条件是以握手协议中的syn标志位开始,并且以fin标志位或者rst标志位结尾的tcp双向流。对于udp流,由于udp协议设计特点不同于tcp协议有着显式的fin结束标志,本发明则以第一个数据包到达为开始,如果两个数据包到达的时间间隔超过一分钟,则可认为数据流结束,意味着新数据流的开始。
29.平衡数据集:就是采用基于改进的c-smote算法对不平衡数据集进行处理。先分离原始实验数据集中的多数类和少数类样本,根据多数类样本与少数类样本的比值不大于10,计算出所需生成的少数类样本数量;然后计算出少数类样本的质心,利用质心来生成新的样本;最后将包含新生成样本的少数类样本设为s,删除分类边界上的模糊样本。
30.数据预处理:读取平衡数据集中所有的数据流,选择每个会话前784个字节。如果数据流的长度大于784个字节,则执行截断,如果数据流的长度小于784,则执行零填充。然后,对提取的数据进行归一化处理。最后,将处理好后的平衡流量数据集分为训练集和测试集两部分。
31.分类ssl vpn加密流量:把训练集的数据流输入到基于注意力机制改进的 cnn网络流量识别模型中识别分类目的加密流量,通过测试集数据流调试模型参数,得到最优的分类器模型并决策评估。其中基于注意力机制改进的cnn网络流量识别模型主要流程如下:
32.网络流量识别模型由两个cnn层(即cnn层-1和cnn层-2)组成。每一层由深度可分离卷积层、批量归一化层、池化层和注意力层组成;
33.因为并非所有的包向量对流量的分类都有同等的贡献。因此,应该更加注意更有用的向量。利用注意层为每个隐藏状态生成一个权值。将每个隐藏状态和其对应的权值进行计算,得到注意力层向量;
34.使用全连接连接cnn层-2的输出,完成流量识别。
35.基于注意力机制改进的cnn网络流量能提取网络流量中具有非常显著性的细粒度的特征,从而更加有效地捕捉网络流量中存在的依赖性,更有利于加密流量的识别效果,而且采用深度可分离卷积代替传统卷积,还能减少模型计算量和复杂度。
36.指标结果:对实验结果得到的指标结果进行分析,并选取合适的参数,优化算法,提高识别率。
37.如图2所示,基于改进的c-smote算法具体的领域计算策略是:计算原始数据集中每类样本的数量,分离原始实验数据集中的多数类和少数类样本,然后设定多数类样本与少数类样本的比值不大于10,计算出所需生成的少数类样本数量。
38.计算少数类样本的质心:设少数类样本的原始样本为,
[0039][0040]
其中,表示样本xm的第i个属性,则质心为,
[0041]
[0042][0043]
其中,q为少数类样本的总数,然后根据以下公式生成新的少数类样本
[0044]
x
new
=xj+rand(0,1)*(x
c-xj)
[0045]
一直生成新样本,直到新生成的少数类样本数量略多于需要的少数类样本数量。然后,将新生成的样本插入少数类样本集,将包含新生成样本的少数类样本设为集合s。取集合s中一个样本xs,找距离xs最近的w个样本。若在这w个样本中,少数类样本的数量小于多数类的数量,则将其视为边界模糊样本并删除,直至集合s的数量符合设定的少数类样本数量。
[0046]
从图3可以看出类别平衡的数据集3项评价指标均好于类别不平衡的数据集,而且类别平衡的数据集综合评价指标
f1
均在90%以上,具有良好的识别分类效果。这是因为用不平衡的数据集训练模型时,模型会偏向多数类样本,而忽视少数类样本,产生欠拟合和过拟合的问题,对数据集进行平衡化后可有效减缓以上问题。且本发明提出的基于改进的c-smote算法相比于传统smote算法,不再采用随机选择的方式,而是使用少数类样本的质心,这样新生成的样本的特征属性更为丰富,有效增加了少数类样本的多样性。
[0047]
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1