一种基于本体的网络流量分类方法

文档序号:9828152阅读:677来源:国知局
一种基于本体的网络流量分类方法
【技术领域】
[0001] 本发明涉及网络管理技术领域,具体为一种基于本体的网络流量分类方法。
【背景技术】
[0002] 随着Web技术的迅猛发展和企业信息化需求的不断提高,许多新型网络应用模式 和应用需求应运而生,随之而来的网络流量数据也呈现出爆炸性增长,给网络监管带来前 所未有的挑战,也使得用户对网络流量进行精细化管理的需求越来越强烈。作为管理和优 化各类网络资源的关键技术,网络流量分类广泛应用于网络监控、Q〇S(Quality of Service,服务质量)管理、网络安全、态势分析等领域,是高效实现网络管理、流量控制以及 安全检测的重要环节。
[0003] 网络流量分类是指在基于TCP/IP协议的互联网中,按照网络的应用类型(例如 胃、?了?、獻11^2?等),将网络通信产生的双向1^流量或1^流量进行分类。
[0004] 近年来许多研究人员将注意力转向了基于网络流量统计特征的机器学习分类方 法,根据流量的某些属性(如平均包长、平均包间隔时间等)的统计信息,采用机器学习方法 对流量进行分类,该方法不受动态端口、载荷加密及网络地址转换的影响。目前较为广泛使 用的机器学习的网络流量分类方法主要有:贝叶斯,神经网络,支持向量机、决策树等。
[0005] 剑桥大学Moore的网络流量分类方法研究主要是.Naive Bayes及其改进方法的 研究。Charalampos Rotsos和Moore等引入半监督流量分类方法训练分类器,采用NB和核估 计NB两种算法对分类器进行建模,实验结果表明该方法能比传统方法取得更高分类性能。 但是此类算法是基于概率统计的学习方法,过于依赖样本空间的分布,具有潜在的不稳定 性。
[0006] 使用前馈神经网络的网络流量分类方法有效地消除了基于端口或者基于负载的 分类方法的弊端,测试验证该方法较NB具有更好的稳定性和健壮性,在网络流量分类中的 应用具有良好的性能和前景。但是,即使是神经网络应用广泛的BP算法,在应用中也暴露了 不少的缺陷,如易形成局部极小而得不到全局最优,训练次数多使得学习效率低,收敛速度 慢等。
[0007] 从网络数据包头部获得网络流量参数,再进行有规律的偏差训练和无偏差训练对 比SVM分类算法,在处理大样本数据集时,计算复杂度高,训练速度慢。用SVM决策树进行网 络流量分类,解决SVM流量分类存在无法识别区域和训练时间较长的问题。然而研究还是不 能彻底解决计算性能瓶颈问题,而且该方法是一种有监督的学习方法,不能很好地发现网 络流量中的新应用。
[0008] We i Li和Moore为了避免检测包的载荷,从网络流量开始的网络数据包中提取12个 统计特征,同时考虑了延迟和吞吐量,在C4.5决策树流量分类方法下分类准确性达99.8%。 Tomasz Bu j low等人提出了一种C5 · 0机器学习算法,通过实验验证该算法平均分类准确率 达到99.3-99.9%。但是决策树缺乏伸缩性,并在处理大数据集时容易增加分类算法的额外 开销,降低了分类的准确性。
[0009] 在高速大规模复杂网络环境下,各个网络节点传感器使用不同的网络流量采集系 统收集网络数据包,网络流量数据格式不一,语义、语法异构。故目前网络流量数据的特点 是多源、异构、海量,现有的网络流量分类技术大多只能对网络流量数据进行简单的格式 化,缺少对数据异构(格式异构、语法异构、语义异构)的有效解决方法,也缺乏对流量信息 (如获取环境等)的描述及知识管理,获得的流量数据存在不一致性、不能共享和缺乏网络 流量分类知识等问题,因而现有的流量分类方法难以提供网络管理决策分析所需的资源信 息。
[0010] 在人工智能领域,本体逐渐被应用于知识工程、智能信息集成、数据挖掘、海量信 息的组织和处理等领域中。本体为解决资源规范、无二义性和可扩展性描述问题提供了有 效的途径,在描述资源方面具有通用性、开放性、智能性、准确性和综合性等诸多优点。本体 也被用于决策支持系统作为一种知识表达的工具,知识推理是本体在决策支持系统中的重 要功能,其也被应用于分类(诸如图像分类等)问题。
[0011 ] 近年来研究者尝试引入本体到网络流量分类领域。Pietrzyk,Marcin首次尝试形 式化定义流的类别,使用经典的开发本体准则,迭代构建一个基于本体范例的类别分类树, 旨在消除流类别定义的模糊性。Chengj ie Gu等人提出一种基于流轮廓和本体的在线自学 习网络流量分类框架,通过流轮廓与流量类别之间的映射关系实现流量分类。但是目前基 于本体的网络流量分类方法还不能应用于大规模复杂网络,本体在网络流量分类领域的应 用尚属起步阶段。

【发明内容】

[0012] 本发明的目的是设计一种基于本体的网络流量分类方法,针对互联网的大规模复 杂网络环境下网络流量数据的多源、异构特点,通过构建网络流量本体对网络流量信息资 源一致性描述及领域知识管理,并借助机器学习方法和本体的知识推理实现网络流量分 类。
[0013] 本发明设计的一种基于本体的网络流量分类方法,主要包括如下步骤:
[0014] I、构建网络流量本体
[0015]针对互联网大规模复杂网络流量信息资源的特点,构建网络流量本体对网络流量 信息资源进行分层描述,以消除由不同网络设备所采集的网络流量信息资源间的不一致 性,减小异构信息资源对网络流量分类结果的影响;
[0016] Π 、建立决策树分类模型并生成推理规则集
[0017] 利用决策树算法训练已标记应用类型的网络流量训练样本集,建立网络流量的决 策树分类模型,并将决策树分类模型转化成推理规则集;
[0018] m、通过知识推理得到分类结果
[0019] 采用Jena工具包将步骤Π 生成的推理规则集构造成相应的推理机,并用该推理机 对步骤I构建的网络流量本体进行知识推理,即挖掘出网络流量本体中的网络流量实例和 网络应用类型之间的对应关系,并对网络流量实例进行网络应用类型标记,完成网络流量 分类。所述Jena工具包为用于本体构建及其推理的工具包,其为2004年HP公司开发的基于 Java的开放源代码语义网工具包。
[0020] 以下对各步骤详细说明。
[0021 ]所述步骤I具体包括如下子步骤:
[0022] 1-1、设计网络流量本体结构
[0023]本方法根据互联网网络流量采集环境和网络流量信息资源设计网络流量本体结 构,本方法构建的网络流量本体结构为多层结构,首层包括互联网中流量采集节点(Nodes) 信息和流量(TrafTi c s)信息。所述流量采集节点的下一层记录流量采集节点的相关信息, 包括流量采集节点的网络软硬件设备信息(Devicelnfo)、流量采集节点的流量采集工具 (Tools)及流量采集节点的配置参数(Configuration);所述流量采集工具的下一层记录各 流量采集节点的各种流量采集工具名称以及流量采集信息格式。所述流量信息的下一层记 录互联网上网络流量的相关信息,包括网络流量实例集合(Flows )、流量统计特征集合 (Attributes)、流量所属应用类型(AppType)及协议(Protocol);所述流量所属应用类型的 下一层描述各种应用类型,如万维网(www)、游戏(Games)、服务(Service)、邮件(Mail)、攻 击(Attack)、数据库(Database)、交互(Interactive)、文件传输协议数据(FTP-Data)、多媒 体(Multimedia)和点对点(P2P)。
[0024] 1-2、构建网络流量本体
[0025]根据步骤I-I设计的网络流量本体结构,针对互联网上各种流量信息资源,以基于 Java语言开发的本体编辑软件Prot6g6的应用程序编程接口(API)自动化构建网络流量本 体模型,用网络本体语言OWL将网络流量本体模型描述成文件形式的网络流量本体,并保存 至本地磁盘。
[0026]步骤1-2具体包括如下次子步骤:
[0027] 1-2-1、采用本体编辑软件Prot6g6新建网络流量本体模型;
[0028] 1-2-2、解析待分类的网络流量信息,根据子步骤I-I设计的网络
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1