一种并行网络流量分类方法

文档序号:8383612阅读:542来源:国知局
一种并行网络流量分类方法
【技术领域】
[0001] 本发明属于数据处理技术领域,具体设及一种并行网络流量分类方法。
【背景技术】
[0002] 随着高速网络的迅速发展,新型网络业务不断涌现,网络规模因其开放性、共享性 等特点不断地扩大,不同的应用流量呈现不同特征,日趋严重的网络安全W及网络服务质 量问题给网络流量分类领域带来巨大的挑战。网络流量分类是认识、管理和优化各种网络 资源的重要依据,它将基于TCP^P协议的Internet产生的双向TCP流或UDP流按照网络 应用类型(例如WWW、FTP、MIL、P2P等)进行分类。
[0003] 网络流量特征选择作为流量分类的关键步骤,在损失较少信息的情况下,从大量 候选特征属性中删除无关或冗余的特征,降低候选特征维数,减少训练时间和计算复杂度, 提高学习算法效率及分类的精度。虽然特征选择从研究之初到现在,已有很多成熟的方法, 但是关于网络流量方面的特征选择方法研究较少。
[0004] 在网络流量分类算法方面,基于流统计特征的机器学习方法成为主流,大多数基 于流统计特征的机器学习方法均使用单个基分类器处理流量分类问题,而其缺陷在于难W 适应网络环境的动态变化,在不同环境下的分类效果差距较大。集成学习通过对样本学习 训练出若干个基分类器,然后根据某种规则将该些分类结果进行整合W解决某一具体问 题。而大量研究发现,选择部分基分类器进行集成学习比选择所有的基分类器具有更好的 泛化性,该种方法被称为选择性集成。基分类器选择性集成学习目的在于不降低甚至进一 步提高基分类器预测精度的前提下,尽可能减少参与集成学习的基分类器数目。
[0005] 尽管结合特征选择方法与选择性集成思想可W很大程度上提高分类准确率并体 现出较好的泛化性,但随着数据采集和数据存储技术的飞速发展,网络流量数据集规模越 来越大,单一的计算节点资源已不能高效快速的解决分类问题,数据存储方式的变化对分 类算法的计算效率、并行性和分布化都提出了要求。

【发明内容】

[0006] 本发明所要解决的是目前单一计算节点资源不能高效解决大规模数据处理的问 题而提供一种并行网络流量分类方法。
[0007] 为解决上述问题,本发明是通过W下技术方案实现的:
[000引一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网 络流量分类得到分类结果过程S2。
[0009] 上述网络流量数据进行特征选择的过程S1具体如下:
[0010] S1-1.将初始数据DA处理成特征向量X后,按照设定的向量个数a将其划分为a 份特征向量子集Y,且所有类标签作为单独一个类标签向量C;
[0011] S1-2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类 标签向量C传到该a个映射任务节点;
[0012]Sl-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从各特征向量X中预 选出鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S, 并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上;
[0013]S1-4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与 类标签向量C的类标签互信息标准化值SU(x,C);
[0014]S1-5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准 化值SU(X,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该 特征向量;
[0015]S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特 征向量,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值 SU(x,x'),如果该特征向量存在特征互信息标准化值SU(x,x')大于类标签互信息标准化 值SU(X,C)的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到 优选特征向量子集V中;
[0016]S1-7.重复步骤S1-6,直到整合特征向量子集S为空,此时整合优选特征向量子集 V与类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中。
[0017] 步骤S1-3中,鉴别能力强与相关性大的特征的预选过程如下:
[001引S1-31.根据费舍尔得分公式计算每个特征向量的费舍尔得分Fk;
[0019]
【主权项】
1. 一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网络 流量分类得到分类结果过程S2,其特征是,上述网络流量数据进行特征选择的过程S1具体 如下: S1-1.将初始数据DA处理成特征向量后,按照设定的向量个数a将其划分为a份特征 向量子集,且所有类标签作为单独一个类标签向量C; S1-2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类标签 向量C传到这a个映射任务节点; S1-3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从各特征向量中预选出 鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S,并将 整合特征向量子集S与类标签向量C一起发送到规约任务节点上; S1-4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与类标 签向量的类标签互信息标准化值SU(x,C); S1-5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征 向量; S1-6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量, 计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x'), 如果该特征向量存在特征互信息标准化值SU(x,x')大于类标签互信息标准化值SU(x,C) 的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到优选特征 向量子集中; S1-7.重复步骤S1-6,直到整合特征向量子集S为空,此时整合优选特征向量子集V与 类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中。
2. 根据权利要求1所述的一种并行网络流量分类方法,其特征是,步骤S1-3中,鉴别能 力强与相关性大的特征的预选过程如下: S1-31.根据费舍尔得分公式计算每个特征向量的费舍尔得分Fk;
式中,i表示类别,c表示类的数量,ni表示第i类样本的数量,xf表示第i类中第k个 特征的均值,%表示所有样本中第k个特征的均值,表示第i类中第k个特征的方差; S1-32.根据互信息的标准化公式计算每个特征向量与类标签向量的类标签互信息标 准化值SU(x,C);
式中,H(x)表示特征向量x的信息j:商,H(C)表示类标签向量C的信息j:商,I(X,C)表示 特征向量x与类标签向量C的联合熵; S1-33.根据给定的权重系数a,将上述两个公式融合得到目标评价函数Tk; Tk= a XFk+(l-a ) XSU(x, C) 51- 34.选出各特征向量子集Y中目标评价函数Tk大于预设阈值的特征向量,并将特征 向量进行整合后得到整合特征向量子集S。
3. 根据权利要求1所述的一种并行网络流量分类方法,其特征是,步骤S1-4中的类标 签互信息标准化值SU(x,C)和步骤S1-6中的特征互信息标准化值SU(x,x')的计算公式分 别为:
式中,H(x)表示特征向量x的信息j:商,H(x')表示特征向量X'的信息j:商,H(C)表示类 标签向量C的信息j:商,I(X,C)表示特征向量x与类标签向量C的联合j:商,I(X,X')表示特 征向量x与特征向量X'的联合j:商。
4. 根据权利要求1所述的一种并行网络流量分类方法,其特征是,上述对网络流量分 类得到分类结果的过程S2具体如下: 52- 1.对经过特征选择之后的训练集L按样本向量化,按设定的向量个数s重复抽样S 份作为样本训练集,随机抽取其中的一份作为测试集; S2-2.再次启动映射任务,将划分后的s-1份样本训练集均分到s-1个映射任务节点 上,并将测试集传到这s-1个映射任务节点; S2-3.对每个样本训练集训练一个基分类器,用测试集分别测试各基分类器得到该基 分类器的预测类标签向量;将预测类标签向量中的类标签与实际的类标签向量中的类标签 逐一进行比较,获得每个基分类器的分类准确率;选出分类准确率大于设定阈值的基分类 器,将被选基分类器、该基分类器对应的分类准确率和预测类标签向量一起传送到规约任 务节点; S2-4.再次启动规约任务,根据不一致性度量公式计算各基分类器的差异性值du,选 出差异性大的基分类器集成为分类器集; S2-5.通过多数投票方式,用得到的分类器集对测试集进行分类。
5. 根据权利要求4所述的一种并行网络流量分类方法,其特征是,步骤S2-4具体如 下: S2-41.根据不一致性度量公式计算两个基分类器屯和屯之间的差异dij;
式中,N°°和N11分别表示2个基分类器d1与t均预测错误与均预测正确的样本数目,W1表示基分类器di预测错误而基分类器I预测正确的样本数目,N1(1表示基分类器di预测 正确而基分类器七预测错误的数目; S2-42.度量n个基分类器间的差异,可得基分类器差异性矩阵Div;
式中,dij表不基分类器d1与dj的差异性值; S2-43.根据下式计算每个基分类器屯在整体基分类器的差异性值& ;
式中,du表示基分类器d1与d」的差异性值,n表示基分类器的个数; S2-44.整合上述3个公式得到基分类器差异性矩阵Ds;
式中,A表示基分类器屯在整体基分类器的差异性值,i= 1,2,...,11,11表示基分类 器的个数; S2-45.根据下公式计算整体基分类器的平均差异性值AV;
(11) 式中,&表示基分类器屯在整体基分类器的差异性值,i=l,2,...,n,n表示基分类 器的个数; S2-46.将基分类器差异性矩阵1中各基分类器的差异性&与平均差异性值AV比较, 当七2 47,,则选中该基分类器屯参与最后的集成预测。
6.根据权利要求5所述的一种并行网络流量分类方法,其特征是,步骤S2-41中du的 值的变化范围在[〇, 1]之间,du值越大,表示基分类器间的差异性越大。
【专利摘要】本发明公开一种并行网络流量分类方法,基于Hadoop集群平台提供的MapReduce并行框架,先对数据集进行预处理,通过特征选择方法对高维网络流量数据降维,去除不相关以及冗余特征;然后通过选择性集成学习训练多个基分类器,选出其中准确率高以及差异性大的基分类器集成;最后通过多数投票方式得出最终分类结果。本发明能够有效的解决海量数据降维及分类问题,很大程度上提高了数据处理效率。
【IPC分类】G06F17-30, H04L12-26
【公开号】CN104702465
【申请号】CN201510066197
【发明人】王勇, 龙也, 陶晓玲, 何倩, 韦毅, 曾小宝
【申请人】桂林电子科技大学
【公开日】2015年6月10日
【申请日】2015年2月9日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1