P2p网络流量检测方法

文档序号:7951000阅读:266来源:国知局
专利名称:P2p网络流量检测方法
技术领域
本发明涉及一种网络流量检测方法,特别是涉及一种P2P (peer-to-peer)网络流量检测方法。
背景技术
随着P2P网络技术的广泛应用,P2P网络流量在国内主干网上占的比例已经从过去的0.76%激增到70%左右。因此,对P2P流量的识别和控制对于提高网络服务质量和网络的管理与维护具有重要意义。传统的P2P流量检测主要采用DPI (Deep Packet Inspection)方法,DPI方法具有明显的局限性。DPI方法依据报文应用层中的特征字段来检测,存在两方面的缺陷一方面,DPI方法只能识别已知协议特征的P2P流量;另一方面,它无法识别加密协议的流量,还牵涉到侵犯用户隐私的问题。随着P2P软件和协议的不断升级,以及加密机制的广泛应用, DPI方法的检测效率将大大降低。近几年,基于连接行为和机器学习的P2P流量识别方法成为国内外的研究热点。i^ 1 "Karagiannis Τ, Papagiannaki K, Faloutsos Μ. BLINC Multilevel t raffic classification in the dark. New York =Proc of ACM SIGC0MM,2005 :229-240” 公开了一种基于传输层行为的P2P流量识别方法BLINC(Blind Classification),该方法基于{IP,Port}对、传输协议类型等P2P协议的连接特征来识别P2P协议。由于BLINC不依赖于知名P2P端口号和应用层特征字段,所以能识别加密网络流和未知P2P协议。因为在不同的网络环境中,网络的连接状况差异较大,BLINC方法的稳定性不好。文献 2 "Moore A W, Zuev D. Internet t raffic classification using Bayesian analysis techniques. New York :Proc of the 2005 ACM SIGMETRICS Conf on Measurement and Modeling of Computer Systems, 2005, 50-60”公开了一种基于大量传输层特征的朴素贝叶斯模型的流量分类方法,该方法提取传输层的248个统计特征,使用实际流量数据对模型进行训练,对常用协议有很好的分类效果。由于朴素贝叶斯方法是基于各项属性条件独立的前提,而且需要对大量网络流进行标注以组成训练集,代价较高,扩展性不好。文献3 “徐鹏,刘琼,林森.基于支持向量机的hternet流量分类研究[J].计算机研究与发展,2009,46 (3) :407-414”公开了一种基于SVM的流量分类方法,能有效降低冗余属性的干扰,而且不依赖与贝叶斯方法中的先验概率,有很好的分类准确率和稳定性。但缺点同样在于需要大量标注好的网络流进行训练,而且标注的准确性直接影响最后的分类准确率。有监督学习方法中一般都采用17-fileter来实现训练集的标注,17-fileter根据应用层特征字段匹配来识别协议,随着P2P协议的不断更新和升级已及加密技术的广泛应用,17-fileter的准确性无法保障。如果无法获得一定数量的标注准确的训练集,所有的有监督学习的方法的检测准确率都无法保障。文献 4 “J.Erman,A. Mahanti, Μ. Arlitt. Semi-supervised network trafficclassification. ACM International Conference on Measurement and Modeling of Computer Systems Performance Evaluation Review,35 (1),2007,369-370”公开了将半监督学习方法引入到^ternet流量分类的分类方法,该方法首先使用K-means算法对标注样本和未标注样本进行聚类,然后根据聚类结果簇中标注样本的标签来标记未标注样本,可以认为是聚类方法的一种扩展,最终都需要进行手工标记。文献5“Thorsten Joachims. Transductive Inference for Text Classification using Support Vector Machines.San Francisco International Conference on Machine Learning(ICML),1999,200-2009”公开了一种将TSVM方法应用于文本分类,为将 TSVM方法应用于hternet流量分类提供了理论基础。

发明内容
为了克服现有的网络流量检测方法检测精度差的不足,本发明提供一种P2P网络流量检测方法。该方法分两个阶段来训练分类器,首先使用半监督聚类来近似估计测试样本中的正例样本数N的值,然后根据N的值来进一步训练TSVM模型。与背景技术相比,N的值更加接近真实值,使得训练出的TSVM分类模型具有很好的稳定性和鲁棒性,可以提高网络流量检测精度。本发明解决其技术问题所采用的技术方案是一种P2P网络流量检测方法,其特点是包括以下步骤(a)使用流量采集卡在网关出口捕获网络流量,对捕获的网络流量进行数据包解析,并计算相应的流统计特征。(b)根据网络数据包的源IP地址、源端口、传输协议、目的端口、目的IP地址信息进行网络流重组,信息相同的数据包组成一个数据流。使用17-fileter对重组后的网络流进行标注,标注数据分为P2P协议和非P2P协议两类。(c)以数据流为单位提取统计特征,包括包大小、包到达时间间隔、流大小、流持续时间。协议已知的数据流加上协议类别标签,P2P协议数据流的标签为“1”,非P2P协议数据流的标签为“_1”,协议未知的数据流标签为“0”,每条数据流对应一个样本,用一个特征向量表示。将标注协议数据与未标注协议数据混合,使用K-Means聚类算法对混合数据聚类,生成两个聚类簇。(d)将步骤(C)得到的标注协议数据流样本和未标注协议数据流样本混合到一起构成训练集,标注协议数据流样本集用trairuset表示,未标注协议数据流样本集用test_ set表不。(e)使用K-Means聚类算法对步骤(d)中的train_Set和test_set组成的混合训练集进行半监督聚类,生成两个聚类簇。分别计算两个簇中的包含的标注数据中P2P协议数据的比例,确定两个簇所属的类别。根据P2P协议簇中包含的样本个数来近似确定测试样本中的正例样本数N的值。(f)根据步骤(e)确定的测试样本中的正例样本数N的值,使用标注协议数据和未标注协议数据共同训练TSVM分类模型。TSVM的训练过程描述如下Minimize
权利要求
1. 一种P2P网络流量检测方法,其特征在于包括下述步骤(a)使用流量采集卡在网关出口捕获网络流量,对捕获的网络流量进行数据包解析,并计算相应的流统计特征;(b)根据网络数据包的源IP地址、源端口、传输协议、目的端口、目的IP地址信息进行网络流重组,信息相同的数据包组成一个数据流;使用17-fileter对重组后的网络流进行标注,标注数据分为P2P协议和非P2P协议两类;(c)以数据流为单位提取统计特征,包括包大小、包到达时间间隔、流大小、流持续时间;协议已知的数据流加上协议类别标签,P2P协议数据流的标签为“ 1 ”,非P2P协议数据流的标签为“_1”,协议未知的数据流标签为“0”,每条数据流对应一个样本,用一个特征向量表示;将标注协议数据与未标注协议数据混合,使用K-Means聚类算法对混合数据聚类,生成两个聚类簇;(d)将步骤(c)得到的标注协议数据流样本和未标注协议数据流样本混合到一起构成训练集,标注协议数据流样本集用trairuset表示,未标注协议数据流样本集用test_set 表不;(e)使用K-Means聚类算法对步骤(d)中的train_Set和test_set组成的混合训练集进行半监督聚类,生成两个聚类簇;分别计算两个簇中的包含的标注数据中P2P协议数据的比例,确定两个簇所属的类别;根据P2P协议簇中包含的样本个数来近似确定测试样本中的正例样本数N的值;(f)根据步骤(e)确定的测试样本中的正例样本数N的值,使用标注协议数据和未标注协议数据共同训练TSVM分类模型;TSVM的训练过程描述如下
全文摘要
本发明涉及一种P2P网络流量检测方法,用于解决现有的网络流量检测方法检测精度差的技术问题。技术方案是采用两个阶段来训练分类器,首先使用半监督聚类来近似估计测试样本中的正例样本数N的值,然后根据N的值来进一步训练TSVM模型。与背景技术相比,N的值更加接近真实值,使得训练出的TSVM分类模型具有很好的稳定性和鲁棒性,提高了网络流量检测精度。本发明由于使用大量未标注数据参与训练分类模型,充分利用了半监督学习的优势,与传统的只使用标注数据训练模型的监督学习算法相比,准确性和稳定性更好。
文档编号H04L12/26GK102291279SQ201110237498
公开日2011年12月21日 申请日期2011年8月18日 优先权日2011年8月18日
发明者丁要军, 蔡皖东 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1