一种基于本体知识推理的并行网络流量分类方法_2

文档序号：9754484阅读：来源：国知局

3] 1-3、采用Jena工具包的推理规则语法描述步骤1-2建立的IF-THEN结构的网络流量分类模型，并生成推理规则集。
[0024] 所述步骤Π 具体包括如下子步骤：
[0025] Π -1、采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机；
[0026] Π -2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模，对已构建好的网络流量本体进行分割，得到多个网络流量本体分片，将网络流量本体分片上传至Hadoop分布式文件系统，并对每一个网络流量本体分片进行标识；
[0027] Π -3、启动多个MapReduce的映射(Map)函数，以〈网络流量本体分片标识符，网络流量本体分片〉为键值对、输入到映射函数；
[0028] Π -4、映射函数利用步骤Π -1构造的推理机对网络流量本体分片进行知识推理，得到网络流量本体分片中每条网络流量实例对应的网络应用类型标签；
[0029] Π -5、以〈网络应用类型标签，网络流量实例〉为键值对、输出到规约函数；
[0030] Π -6、规约函数根据网络应用类型标签合并网络流量实例，形成已分类网络流量实例集；
[0031 ] Π -7、输出已分类网络流量实例集，完成网络流量分类。
[0032]与现有技术相比，本发明一种基于本体知识推理的并行网络流量分类方法的优点为：1、引入大规模数据集的并行处理技术MapReduce，故可采用云计算作为网络流量本体知识推理的存储和计算资源，为用户提供具有并行化、虚拟化、按需服务等特点的高效服务； 2、通过知识推理对网络流量实例进行并行化分类，有效提高分类效率;适当增加计算节点可加速完成分类;3、结合机器学习方法与本体的知识推理，通过构建推理规则集直接针对网络流量本体中的网络流量实例进行有效分类。
【附图说明】
[0033]图1为本基于本体知识推理的并行网络流量分类方法实施例的总体框图；
[0034] 图2为本基于本体知识推理的并行网络流量分类方法实施例步骤Π 的架构图；
[0035] 图3为本基于本体知识推理的并行网络流量分类方法实施例单机环境和集群环境下知识推理分类时间对比曲线图；
[0036] 图4为本基于本体知识推理的并行网络流量分类方法实施例不同数据规模、不同节点的集群环境下的加速比曲线图。
【具体实施方式】
[0037]本基于本体知识推理的并行网络流量分类方法实施例采用剑桥大学摩尔(Moore) 教授团队采集并公开的数据集作为网络流量信息资源，本例称之为摩尔数据集，本例所用摩尔数据集包含377526个网络流量样本，其中的每个网络流量样本都是完备的传输控制协议(TCP)双向流量，有248个网络流量统计特征，由网络流量的源端口号、目的端口号等基本属性和包的平均间隔时间等统计属性组成，最后一项标记为网络流量所属的应用类型。
[0038]本例选取摩尔数据集中的12种网络应用类型作为分类目标，12种网络应用类型为：万维网（WWW)、游戏（Games)、服务（Service)、邮件（Mail )、攻击（Attack)、数据库 (Database)、交互（Interactive)、文件传输协议控制(FTP-Control)、文件传输协议被动连接(FTP-Pasv)、文件传输协议数据(FTP-Data)、多媒体(Multimedia)和点对点（P2P)。共选取10个网络流量统计特征作为知识推理的依据，所选10个统计特征为服务器端口号、客户端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束 (FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数。
[0039]为了更具客观性，本例将摩尔数据集拆分成两部分，分别作为本例的训练样本集和测试样本集，从训练样本集中随机抽取3000条作为训练样本，从测试样本集中随机抽取 30万条作为测试样本。
[0040] 本基于本体知识推理的并行网络流量分类方法实施例的总体框图如图1所示，本例根据摩尔数据集构建多层的网络流量本体，将摩尔数据集的测试样本中的每条网络流量对应网络流量本体中的一个网络流量实例，利用决策树算法对已标记应用类型的网络流量训练样本进行训练，建立网络流量的决策树分类模型，并将决策树分类模型转化成推理规则集，采用Jena工具包将推理规则集构造成相应的推理机;对已构建的网络流量本体借助 MapReduce并行计算框架，调用推理机进行并行知识推理，即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系，对网络流量实例进行网络应用类型标记，完成网络流量分类。
[0041] I、建立决策树分类模型并生成推理规则集
[0042] 1-1、借助机器学习以及数据挖掘软件weka3.7.10自带的决策树算法对本例的训练样本集进行训练，建立网络流量的决策树分类模型，本例集合A表示本例的训练样本集中网络流量的统计特征值集合，集合A={服务器端口号、客户端端口号、被转发的同向包中所含数据的总字节数、被转发的反向包中所含数据的总字节数、所有同向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有反向包中传输控制协议包头所含推送(PUSH)标志位的总个数、所有同向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有反向包中传输控制协议包头所含结束(FIN)标志位的总个数、所有同向包初始化窗口的总字节数、所有反向包初始化窗口的总字节数};集合T表示本例的训练样本集中网络流量所属的应用类型集合，集合T={万维网，游戏，服务，邮件，攻击，数据库，交互，文件传输协议控制，文件传输协议被动连接，文件传输协议数据，多媒体，点对点};集合v= {VI，V2，......，Vk}表示由k个决策判定基准值组成的集合，它由集合A中的各个元素经过决策树算法统计计算得出，作为决策树中选取决策路径的判定依据。
[0043] 1-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径，以决策判定基准值为依据，将网络流量的决策树分类模型中的每条分类路径均转化成"如果-则"，即"IF-THEN"结构，建立IF-THEN结构的网络流量分类模型；
[0044] 1-3、采用Jena工具包的推理规则语法描述步骤1-2建立的IF-THEN结构的网络流量分类模型，并生成推理规则集。
[0045] Π 、通过知识推理对网络流量实例进行并行化分类
[0046]本步骤采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机，对已构建好的网络流量本体、借助MapReduce并行计算框架，调用Jena推理机进行并行知识推理，即挖掘出网络流量本体中网络流量实例和网络应用类型的对应关系，对网络流量实例进行网络应用类型标记，完成网络流量分类。具体包括如下述子步骤，如图2所示：
[0047] Π -1、采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机；
[0048] Π -2、根据每个计算节点的性能以及网络流量本体中所描述的网络流量实例的数据规模，对已构建好的网络流量本体进行分割，得到多个网络流量本体分片（图2中的本体分片〇ι到〇0,将网络流量本体分片上传至Hadoop分布式文件系统，并对每一个网络流量本体分片进行标识；
[0049] Π -3、启动多个MapReduce的映射(Map)函数（图2中的Map 1到Map

完整全部详细技术资料下载

当前第2页1 2 3