基于半监督学习的未知协议聚类方法和装置与流程

文档序号:37300769发布日期:2024-03-13 20:48阅读:12来源:国知局
基于半监督学习的未知协议聚类方法和装置与流程

本发明涉及信息安全,尤其涉及一种基于半监督学习的未知协议聚类方法和装置。


背景技术:

1、如今,网络信息安全与对抗已成为信息时代备受关注的重要问题。在电子对抗等领域,通信双方使用的协议往往是订制的、非公开的,所截获的通信数据大多是连续的比特流信息;在网络监管等领域,网络通信过程中使用的协议解析工具也会遇到许多无法解析的比特流协议。对于这些协议,协议分析者没有任何先验知识,解析这些完全夫知的协议十分困难。

2、已有方法是基于端口和基于有效载荷进行聚类,或者利用指纹特征的数据帧定界方法,或者基于关联规则识别特定环境下未知协议的方法。但是这些方法均是在单协议假定下进行分析,在实际应用环境下,捕获得到的未知协议数据往往是多种协议混合的,已有方法聚类准确性受限于协议假定是否准确,且无法实现混合协议在无协议假定情况下的聚类。


技术实现思路

1、本发明提供一种基于半监督学习的未知协议聚类方法和装置,以期能够解决现有技术中未知协议聚类准确性较差,无法实现混合协议在无协议假定情况下聚类的问题。

2、本发明提供一种基于半监督学习的未知协议聚类方法,所述方法包括:

3、采集待分析的未知协议数据;

4、将所述未知协议数据输入预先构建的聚类预测模型,以得到所述聚类预测模型输出的聚类结果;

5、其中,所述聚类预测模型是利用已知协议样本的聚类结果进行聚类训练得到的,所述已知协议样本的聚类结果是利用已知协议样本的特征数据和聚类标签进行聚类训练得到的。

6、在一些实施例中,利用已知协议样本的特征数据和聚类标签进行聚类训练,以得到已知协议样本的聚类结果,具体包括:

7、采集海量的已知协议样本,并对各已知协议样本的数据打标签;

8、基于特征工程,提取所述已知协议样本的特征数据;

9、对提取的特征数据进行训练,以得到监督学习模型和新的数据集;

10、基于所述新的数据集进行聚类训练,以得到已知协议样本的聚类结果。

11、在一些实施例中,基于特征工程,提取所述已知协议样本的特征数据,具体包括:

12、将所述已知协议样本的流量数据划分为会话,并删除噪音数据;

13、抽取流量数据中的原始特征;

14、基于所述流量数据对所述原始特征进行衍生,以衍生出的特征所述特征数据。

15、在一些实施例中,所述原始特征至少包括发包时间、上下行标志、客户端ip、客户端端口、服务端ip、服务端端口和载荷长度;且/或,

16、所述衍生出的特征具体至少包括流持续时间、上行数据包数量、下行数据包数量、上行字节数、下行字节数和上行数据包最小值。

17、在一些实施例中,对提取的特征数据进行训练,以得到监督学习模型和新的数据集,具体包括:

18、将提取所述已知协议样本的特征数据,划分训练集和测试集;

19、将训练集输入到adaboost算法中进行训练,以得到监督学习模型;

20、采用网格搜索的方式选择到算法的最优参数;

21、采用xgboost计算每个特征的重要度,并将重要度低于阈值的特征去除,以生成新数据集。

22、在一些实施例中,基于所述新的数据集进行聚类训练,以得到已知协议样本的聚类预测模型,具体包括:

23、基于所述新的数据集,根据预设的dbscan算法参数进行训练,得到不同标签类型的聚类预测结果;

24、对聚类后的标签和原始已知协议的标签进行映射,得到一个新的训练数据集;

25、对新的训练数据集进行聚类训练,以得到聚类预测模型。

26、本发明还提供一种基于半监督学习的未知协议聚类装置,所述装置包括:

27、数据采集单元,用于采集待分析的未知协议数据;

28、结果生成单元,用于将所述未知协议数据输入预先构建的聚类预测模型,以得到所述聚类预测模型输出的聚类结果;

29、其中,所述聚类预测模型是利用已知协议样本的聚类结果进行聚类训练得到的,所述已知协议样本的聚类结果是利用已知协议样本的特征数据和聚类标签进行聚类训练得到的。

30、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的方法。

31、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的方法。

32、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的方法。

33、本发明提供的基于半监督学习的未知协议聚类方法,通过采集待分析的未知协议数据,将所述未知协议数据输入预先构建的聚类预测模型,即可得到所述聚类预测模型输出的聚类结果;其中,所述聚类预测模型是利用已知协议样本的聚类结果进行聚类训练得到的,所述已知协议样本的聚类结果是利用已知协议样本的特征数据和聚类标签进行聚类训练得到的。

34、这样,本发明所提供的方法和装置,摒弃了利用端口以及载荷数据进行聚类以及采用指纹特征的数据帧定界方法和基于关联规则识别特定环境下未知协议的传统方法,提出了一种基于半监督学习的方法实现未知协议的聚类的新思路,针对直接采用无监督学习聚类算法效果不佳的问题,该方案采用半监督学习思想,对已知协议的数据进行监督学习训练、获取到重要的特征,然后对重要的特征进行聚类,得到新的标签后,重新进行监督学习训练,迭代得到重要特征,然后进行无监督的聚类训练,得未知协议的无监督聚类模型,可以更加准确、快速实现对未知协议的聚类分析,从而解决了现有技术中未知协议聚类准确性较差,无法实现混合协议在无协议假定情况下聚类的问题。



技术特征:

1.一种基于半监督学习的未知协议聚类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于半监督学习的未知协议聚类方法,其特征在于,利用已知协议样本的特征数据和聚类标签进行聚类训练,以得到已知协议样本的聚类结果,具体包括:

3.根据权利要求2所述的基于半监督学习的未知协议聚类方法,其特征在于,基于特征工程,提取所述已知协议样本的特征数据,具体包括:

4.根据权利要求3所述的基于半监督学习的未知协议聚类方法,其特征在于,所述原始特征至少包括发包时间、上下行标志、客户端ip、客户端端口、服务端ip、服务端端口和载荷长度;且/或,

5.根据权利要求3所述的基于半监督学习的未知协议聚类方法,其特征在于,对提取的特征数据进行训练,以得到监督学习模型和新的数据集,具体包括:

6.根据权利要求3所述的基于半监督学习的未知协议聚类方法,其特征在于,基于所述新的数据集进行聚类训练,以得到已知协议样本的聚类预测模型,具体包括:

7.一种基于半监督学习的未知协议聚类装置,其特征在于,所述装置包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。


技术总结
本发明提供了一种基于半监督学习的未知协议聚类方法和装置,所述方法包括:采集待分析的未知协议数据;将所述未知协议数据输入预先构建的聚类预测模型,以得到所述聚类预测模型输出的聚类结果;其中,所述聚类预测模型是利用已知协议样本的聚类结果进行聚类训练得到的,所述已知协议样本的聚类结果是利用已知协议样本的特征数据和聚类标签进行聚类训练得到的。解决了现有技术中未知协议聚类准确性较差,无法实现混合协议在无协议假定情况下聚类的问题。

技术研发人员:任玉坤,闫伯龙
受保护的技术使用者:北京观成科技有限公司
技术研发日:
技术公布日:2024/3/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1