一种基于本体知识推理的并行网络流量分类方法

文档序号:9754484阅读:417来源:国知局
一种基于本体知识推理的并行网络流量分类方法
【技术领域】
[0001] 本发明涉及网络管理技术领域,具体为一种基于本体知识推理的并行网络流量分 类方法。
【背景技术】
[0002] 随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式 和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前 所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优 化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、Q〇S(Quality of Service,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及 安全检测的重要环节。
[0003] 网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如 胃、?了?、獻11^2?等),将网络通信产生的双向1^流量或1^流量进行分类。
[0004] 近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方 法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法 对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前网络流量分 类较为广泛使用的机器学习方法主要有:贝叶斯、神经网络、支持向量机和决策树等。
[0005] 剑桥大学Moore的网络流量分类方法研究主要是Naive Bayes及其改进方法的研 究。Charalampos Rotsos和Moore等引入半监督流量分类方法训练分类器,采用NB和核估计 NB两种算法对分类器进行建模,实验结果表明该方法能比传统方法取得更高分类性能。但 是此类算法是基于概率统计的学习方法,过于依赖样本空间的分布,具有潜在的不稳定性。
[0006] 使用前馈神经网络的网络流量分类方法有效地消除了基于端口或者基于负载的 分类方法的弊端,测试验证该方法较NB具有更好的稳定性和健壮性,在网络流量分类中的 应用具有良好的性能和前景。但是,即使是神经网络应用广泛的BP算法,在应用中也暴露了 不少的缺陷,如易形成局部极小而得不到全局最优,训练次数多使得学习效率低,收敛速度 慢等。
[0007] 从网络数据包头部获得网络流参数,再进行有规律的偏差训练和无偏差训练对比 SVM分类算法,在处理大样本数据集时,计算复杂度高,训练速度慢。用SVM决策树进行网络 流量分类,解决SVM流量分类存在无法识别区域和训练时间较长的问题。然而研究还是不能 彻底解决计算性能瓶颈问题,而且该方法是一种有监督的学习方法,不能很好地发现网络 流量中的新应用。
[0008] We i Li和Moore为了避免检测包的载荷,从网络流量开始的网络数据包中提取12个 统计特征,同时考虑了延迟和吞吐量,在C4.5决策树流量分类方法下分类准确性达99.8%。 Tomasz Bu j low等人提出了一种C5 · 0机器学习算法,通过实验验证该算法平均分类准确率 达到99.3-99.9%。但是决策树缺乏伸缩性,并在处理大数据集时容易增加分类算法的额外 开销,降低了分类的准确性。
[0009] 在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系 统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点 是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式 化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息 (如获取环境等)的描述及知识推理,获得的流量数据存在不一致性、不能共享和缺乏网络 流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信 息。
[0010] 在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信 息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有 效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。本体 也被用于决策支持系统作为一种知识表达的工具,知识推理是本体在决策支持系统中的重 要功能,其也被应用于分类(诸如图像分类等)问题。
[0011 ] 近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形 式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树, 旨在消除流类别定义的模糊性。Chengj ie Gu等人提出一种基于流轮廓和本体的在线自学 习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基 于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应 用尚属起步阶段。
[0012] 云计算是以数据为中心的密集型超级计算技术,对大数据集进行处理、分析,并向 用户提供高效服务,具有并行化、虚拟化、按需服务等特点。其并行处理技术MapReduce能够 为可划分的大规模数据并行计算处理问题提供充分的并行计算语义,已经被广泛接受。云 计算技术为解决网络流量分类中海量数据处理问题提供了新方法。因此,本体与云计算相 结合应用于网络流量分类,将发挥它们各自在海量异构数据描述与处理方面的优势,本体 用于网络流量信息资源一致性描述和知识管理,而云计算为本体的构建及知识管理提供了 存储和计算资源。

【发明内容】

[0013] 本发明的目的是公开一种基于本体知识推理的并行网络流量分类方法,针对大规 模网络流量本体中的网络流量实例,借助机器学习方法和本体的知识推理实现网络流量分 类。
[0014] 本发明设计的一种基于本体知识推理的并行网络流量分类方法,根据互联网网络 流量采集环境和流量的信息资源构建多层的网络流量本体,将互联网中的每条网络流量对 应网络流量本体中的一个网络流量实例,按如下步骤对网络流量进行分类:
[0015] I、建立决策树分类模型并生成推理规则集
[0016] 在互联网中选取网络流量作为样本,已标记应用类型的网络流量样本作为网络流 量训练样本集,利用决策树算法训练网络流量训练样本集,建立网络流量的决策树分类模 型,并将决策树分类模型转化成推理规则集;
[0017] Π 、通过知识推理对网络流量实例进行并行化分类
[0018]采用Jena工具包将步骤I生成的推理规则集构造成相应的推理机,对已构建的网 络流量本体,借助MapReduce并行计算框架,调用推理机进行并行知识推理,即挖掘出网络 流量本体中网络流量实例和网络应用类型的对应关系,对网络流量实例进行网络应用类型 标记,完成网络流量分类。所述Jena工具包为用于本体构建及其推理的工具包,其为2004年 HP公司开发的基于Java的开放源代码语义网工具包。
[0019]以下对各步骤详细说明。
[0020]所述步骤I具体包括如下子步骤:
[0021] 1-1、借助决策树算法对已标记应用类型的网络流量训练样本集进行训练,建立网 络流量的决策树分类模型,所述集合A = {ai,a2,......,ai}表示由网络流量训练样本集中i个 网络流量的统计特征值组成的集合;集合T= {tl,t2,......,tj}表示由网络流量训练样本集 中j种网络流量所属的应用类型组成的集合;集合V= {vi,V2,......,vk}表示由k个决策判定 基准值组成的集合,它由集合A中的各个元素经过决策树算法统计计算得出,作为决策树中 选取决策路径的判定依据;
[0022] 1-2、网络流量的决策树分类模型中从根节点到每个子叶的路径均视为分类路径, 以决策判定基准值为依据,将网络流量的决策树分类模型中的每条分类路径均转化成"如 果-则",即"IF-THEN"结构,建立IF-THEN结构的网络流量分类模型;
[002
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1