一种基于本体知识推理的并行网络流量分类方法_2

文档序号:9754484阅读:来源:国知局
3] 1-3、采用Jena工具包的推理规则语法描述步骤1-2建立的IF-THEN结构的网络流 量分类模型,并生成推理规则集。
[0024] 所述步骤Π 具体包括如下子步骤:
[0025] Π -1、采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机;
[0026] Π -2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数 据规模,对已构建好的网络流量本体进行分割,得到多个网络流量本体分片,将网络流量本 体分片上传至Hadoop分布式文件系统,并对每一个网络流量本体分片进行标识;
[0027] Π -3、启动多个MapReduce的映射(Map)函数,以〈网络流量本体分片标识符,网络 流量本体分片〉为键值对、输入到映射函数;
[0028] Π -4、映射函数利用步骤Π -1构造的推理机对网络流量本体分片进行知识推理, 得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签;
[0029] Π -5、以〈网络应用类型标签,网络流量实例〉为键值对、输出到规约函数;
[0030] Π -6、规约函数根据网络应用类型标签合并网络流量实例,形成已分类网络流量 实例集;
[0031 ] Π -7、输出已分类网络流量实例集,完成网络流量分类。
[0032]与现有技术相比,本发明一种基于本体知识推理的并行网络流量分类方法的优点 为:1、引入大规模数据集的并行处理技术MapReduce,故可采用云计算作为网络流量本体知 识推理的存储和计算资源,为用户提供具有并行化、虚拟化、按需服务等特点的高效服务; 2、通过知识推理对网络流量实例进行并行化分类,有效提高分类效率;适当增加计算节点 可加速完成分类;3、结合机器学习方法与本体的知识推理,通过构建推理规则集直接针对 网络流量本体中的网络流量实例进行有效分类。
【附图说明】
[0033]图1为本基于本体知识推理的并行网络流量分类方法实施例的总体框图;
[0034] 图2为本基于本体知识推理的并行网络流量分类方法实施例步骤Π 的架构图;
[0035] 图3为本基于本体知识推理的并行网络流量分类方法实施例单机环境和集群环境 下知识推理分类时间对比曲线图;
[0036] 图4为本基于本体知识推理的并行网络流量分类方法实施例不同数据规模、不同 节点的集群环境下的加速比曲线图。
【具体实施方式】
[0037]本基于本体知识推理的并行网络流量分类方法实施例采用剑桥大学摩尔(Moore) 教授团队采集并公开的数据集作为网络流量信息资源,本例称之为摩尔数据集,本例所用 摩尔数据集包含377526个网络流量样本,其中的每个网络流量样本都是完备的传输控制协 议(TCP)双向流量,有248个网络流量统计特征,由网络流量的源端口号、目的端口号等基本 属性和包的平均间隔时间等统计属性组成,最后一项标记为网络流量所属的应用类型。
[0038]本例选取摩尔数据集中的12种网络应用类型作为分类目标,12种网络应用类型 为:万维网(WWW)、游戏(Games)、服务(Service)、邮件(Mail )、攻击(Attack)、数据库 (Database)、交互(Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连 接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点(P2P)。共选 取10个网络流量统计特征作为知识推理的依据,所选10个统计特征为服务器端口号、客户 端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节 数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输 控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束 (FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、 所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数。
[0039]为了更具客观性,本例将摩尔数据集拆分成两部分,分别作为本例的训练样本集 和测试样本集,从训练样本集中随机抽取3000条作为训练样本,从测试样本集中随机抽取 30万条作为测试样本。
[0040] 本基于本体知识推理的并行网络流量分类方法实施例的总体框图如图1所示,本 例根据摩尔数据集构建多层的网络流量本体,将摩尔数据集的测试样本中的每条网络流量 对应网络流量本体中的一个网络流量实例,利用决策树算法对已标记应用类型的网络流量 训练样本进行训练,建立网络流量的决策树分类模型,并将决策树分类模型转化成推理规 则集,采用Jena工具包将推理规则集构造成相应的推理机;对已构建的网络流量本体借助 MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络流量本体中网络流 量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型标记,完成网络流 量分类。
[0041] I、建立决策树分类模型并生成推理规则集
[0042] 1-1、借助机器学习以及数据挖掘软件weka3.7.10自带的决策树算法对本例的训 练样本集进行训练,建立网络流量的决策树分类模型,本例集合A表示本例的训练样本集中 网络流量的统计特征值集合,集合A={服务器端口号、客户端端口号、被转发的同向包中所 含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议 包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标 志位的总个数、所有同向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有反向 包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节 数、所有反向包初始化窗口的总字节数};集合T表示本例的训练样本集中网络流量所属的 应用类型集合,集合T={万维网,游戏,服务,邮件,攻击,数据库,交互,文件传输协议控制, 文件传输协议被动连接,文件传输协议数据,多媒体,点对点};集合v= {VI,V2,......,Vk}表 示由k个决策判定基准值组成的集合,它由集合A中的各个元素经过决策树算法统计计算得 出,作为决策树中选取决策路径的判定依据。
[0043] 1-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径, 以决策判定基准值为依据,将网络流量的决策树分类模型中的每条分类路径均转化成"如 果-则",即"IF-THEN"结构,建立IF-THEN结构的网络流量分类模型;
[0044] 1-3、采用Jena工具包的推理规则语法描述步骤1-2建立的IF-THEN结构的网络流 量分类模型,并生成推理规则集。
[0045] Π 、通过知识推理对网络流量实例进行并行化分类
[0046]本步骤采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机,对已构 建好的网络流量本体、借助MapReduce并行计算框架,调用Jena推理机进行并行知识推理, 即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行 网络应用类型标记,完成网络流量分类。具体包括如下述子步骤,如图2所示:
[0047] Π -1、采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机;
[0048] Π -2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数 据规模,对已构建好的网络流量本体进行分割,得到多个网络流量本体分片(图2中的本体 分片〇ι到〇0,将网络流量本体分片上传至Hadoop分布式文件系统,并对每一个网络流量本 体分片进行标识;
[0049] Π -3、启动多个MapReduce的映射(Map)函数(图2中的Map 1到Map
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1