一种基于本体知识推理的并行网络流量分类方法_3

文档序号：9754484阅读：来源：国知局

η )，以〈网络流量本体分片标识符，网络流量本体分片〉为键值对、输入到映射函数；
[0050] Π -4、映射函数利用步骤Π -1构造的推理机对网络流量本体分片进行知识推理，得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签（图2中的类型Li到 Lm);
[0051 ] Π -5、以〈网络应用类型标签，网络流量实例〉为键值对、输出到规约函数；
[0052] Π -6、规约函数（图2中的Reduce 1到Reduce m)根据网络应用类型标签合并网络流量实例，形成已分类网络流量实例集(图2中的流量集合Ci到流量集合Cm);
[0053] Π -7、输出已分类网络流量实例集，完成网络流量分类。
[0054]为验证本发明方法的有效性，对不同网络流量数据规模，单机环境和集群环境下知识推理分类时间进行对比，对比结果如图3所示。图3中横坐标为网络流量实例数，单位为万条;纵坐标为分类时间，单位为秒。图3中▽连线表示单机，□连线表示2台机，?连线表示 3台机，Λ连线表示4台机。从图3可以看出，当网络流量实例数较少时，不同个数的计算节点网络流量分类所需的时间差距不大。在流量样本数只有6万条的小规模分类任务中，单机环境所需分类时间甚至低于只开启了 2个节点的集群环境，逼近于开启了 3个节点的集群环境。因为当网络流量实例数据量较少时，MapReduce的调度任务以及分割和重组数据等步骤仍需要耗费一定的时间。由此可知对于小规模数据的处理，并不能体现本发明方法的优势。但随着网络流量实例数据规模的增大，单机与集群环境的分类所耗时间的差距就越来越大，此时MapReduce的额外开销逐步趋于稳定，本发明方法中并行处理的优势逐渐显现出来，体现本发明方法并行处理的高效性。
[0055] 为了能更精确地衡量本发明方法采用并行化技术所得到的性能方面的提升，使用加速比R作为评价指标：
[0056] R = TS/Tp
[0057] 式中变量Ts表示单机环境下本方法的运行时间，变量TP表示并行环境下本方法的运行时间。图4给出了当集群环境为采用2、3、4台机，即计算节点分别为2、3、4时，本方法的加速比曲线图。图4中横坐标为网络流量实例数，单位为万条;纵坐标为网络流量分类时间的加速比。图4中▽连线表示2台机，□连线表示3台机，?表示4台机。如图4所示，当网络流量实例数一定时，随着计算节点的增加，其加速比呈现阶跃式变化;随着网络流量实例数的增加，加速比在增大到一个最大值之后逐渐减小，之后趋于稳定。经过对各个节点运行状态的观测与分析可知，当网络流量实例数较小时，集群的资源利用率不高，各计算节点的资源没有被有效利用；随着网络流量实例的增加，加速比呈现上扬趋势，增加到最大值，此时集群的资源利用率达到最高，集群中各个节点的资源均能被很好地调度;随着网络流量实例数继续增加，加速比逐渐减小，然后趋于平稳。这是因为加速比到达最大值时集群资源的利用已达到瓶颈，集群的调度器开始调整调度策略，最终达到一个稳态。
[0058]以上实验结果表明，本方法可以有效地提高执行效率，MapReduce并行技术能够有效地提高大规模网络流量本体中网络流量实例的分类效率。
[0059]上述实施例，仅为对本发明的目的、技术方案和有益效果进一步详细说明的具体个例，本发明并非限定于此。凡在本发明的公开的范围之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围之内。
【主权项】
1. 一种基于本体知识推理的并行网络流量分类方法，根据互联网网络流量采集环境和流量的信息资源构建多层的网络流量本体，将互联网中的每条网络流量对应网络流量本体中的一个网络流量实例，按如下步骤进行分类：1. 建立决策树分类模型并生成推理规则集在互联网中选取网络流量作为样本，已标记应用类型的网络流量样本作为网络流量训练样本集，利用决策树算法训练已标记应用类型的网络流量训练样本集，建立网络流量的决策树分类模型，并将决策树分类模型转化成推理规则集； π、通过知识推理对网络流量实例进行并行化分类采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机;对已构建的网络流量本体，借助MapReduce并行计算框架，调用推理机进行并行知识推理，即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系，对网络流量实例进行网络应用类型标记，完成网络流量分类。2. 根据权利要求1所述的基于本体知识推理的并行网络流量分类方法，其特征在于：所述步骤I具体包括如下子步骤： 1-1、借助决策树算法对已标记应用类型的网络流量训练样本集进行训练，建立网络流量的决策树分类模型，所述集合A= {ai，a2，......，ai}表示由网络流量训练样本集中i个网络流量的统计特征值组成的集合;集合T = {ti，t2，......，t j }表示由网络流量训练样本集中j种网络流量所属的应用类型组成的集合;集合V ={ vi，V2，......，vk}表示由k个决策判定基准值组成的集合，它由集合A中的各个元素经过决策树算法统计计算得出，作为决策树中选取决策路径的判定依据； 1-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径，以决策判定基准值为依据，将网络流量的决策树分类模型中的每条分类路径均转化成"如果-贝Γ，8卩"IF-THEN"结构，建立IF-THEN结构的网络流量分类模型； 1-3、采用Jena工具包的推理规则语法描述步骤1-2建立的IF-THEN结构的网络流量分类模型，并生成推理规则集。3. 根据权利要求1所述的基于本体知识推理的并行网络流量分类方法，其特征在于：所述步骤Π 具体包括如下子步骤： Π -1、采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机； Π -2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模，对已构建好的网络流量本体进行分割，得到多个网络流量本体分片，将网络流量本体分片上传至Hadoop分布式文件系统，并对每一个网络流量本体分片进行标识； Π -3、启动多个MapReduce的映射函数，以〈网络流量本体分片标识符，网络流量本体分片〉为键值对、输入到映射函数； Π -4、映射函数利用步骤Π -1构建的推理机对网络流量本体分片进行知识推理，得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签； H -5、以〈网络应用类型标签，网络流量实例〉为键值对、输出到规约函数； Π -6、规约函数根据网络应用类型标签合并网络流量实例，形成已分类网络流量实例集； Π -7、输出已分类网络流量实例集，完成网络流量分类。
【专利摘要】本发明为一种基于本体知识推理的并行网络流量分类方法，步骤为：Ⅰ、利用决策树算法训练已标记应用类型的网络流量训练样本集，建立网络流量的决策树分类模型，并将其转化成推理规则集；Ⅱ、采用Jena工具包将推理规则集构造成推理机，借助MapReduce并行计算框架，调用推理机进行并行知识推理，挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系，对网络流量实例标记网络应用类型，完成网络流量分类。本发明引入并行处理技术MapReduce，以云计算为网络流量本体知识推理的存储和计算资源，对网络流量实例进行并行化分类，有效提高分类效率；结合机器学习和本体知识推理，构建推理规则集，直接针对网络流量本体中的流量实例进行有效分类。
【IPC分类】H04L12/851
【公开号】CN105516020
【申请号】CN201510974162
【发明人】陶晓玲, 韦毅, 王勇, 孔德艳, 亢蕊楠, 伍欣
【申请人】桂林电子科技大学
【公开日】2016年4月20日
【申请日】2015年12月22日

完整全部详细技术资料下载

当前第3页1 2 3