流量数据分类方法及装置的制造方法

文档序号:9710698阅读:427来源:国知局
流量数据分类方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,特别是涉及一种流量数据分类方法及装置。
【背景技术】
[0002] 在现有技术中,网络流量的业务类型分类具有广泛的使用范围和极高的实用价 值。它能够实时地对高带宽,高传输速率的端口中的网络流量数据进行准确的业务类型分 类。由于网络中不同的业务类型对网络资源的需求不同,以及人们对不同业务类型的网络 流量的管理方式有所不同,所以高效、准确的网络流量业务分类是网络资源管理和流量控 制等操作的依据。
[0003] 基于深度报文检测(De印Packet Inspection,简称为DPI)的网络流量分类技术 需要依赖对应的业务类型特征库,而特征库的构建本身需要依靠大量人工开销来完成;同 时,现有网络流量的业务种类和特征会不断发生着变化和更新。这就导致目前的DPI流量 分类技术不能够对网络中新的流量业务特征进行及时更新,因此也就无法对新的业务流量 进行识别。

【发明内容】

[0004] 鉴于现有技术中DPI流量分类技术不能够对网络中新的流量业务特征进行及时 更新而导致的更新效率低和准确率易退化的问题,提出了本发明以便提供一种流量数据分 类方法及装置。
[0005] 本发明提供一种流量数据分类方法,包括:
[0006] 在网络汇聚端口进行数据包采集,将数据包按照五元组重组为流,生成流量数据, 并根据预先对流量数据中的一部分流量数据进行的业务类型标记,针对每个业务种类,对 应形成学习样本,并将流量数据中的剩余部分设置为待分类的流量数据集合;
[0007] 抽取流量数据集合中每条流量数据的公共数值属性特征集合,并将流量数据集合 中的流量数据整理成由公共数值属性特征集合构成的流记录;
[0008] 根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数值属性特 征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录 中流量数据的公共数值属性特征集合,对流量数据集合中的流量数据进行业务类型标记。
[0009] 优选地,五元组包括:源网络协议IP地址、目的IP地址、源端口、目的端口、以及 传输层协议。
[0010] 优选地,根据学习样本,采用子空间聚类方式对流记录中每个业务种类的公共数 值属性特征集合进行计算具体包括:
[0011] 步骤1,对每个公共数值属性的维度均划分出等数量区域单元个数,对每个公共数 值属性建立一个对应的一维空间,将每个区域单元按照其对某一业务种类的学习样本的覆 盖率进行排序,通过熵值计算模型,计算出区域单元对某一业务种类的学习样本达到的最 小覆盖率,将最小覆盖率作为区域单元的密度门限值;
[0012] 步骤2,根据密度门限值,在λ维子空间集合中,删除λ维子空间中覆盖率小于密 度门限值的区域单元,将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖 率进行相加,得到λ维子空间对一类学习样本的覆盖率,其中,λ > 1 ;
[0013] 步骤3,对当前λ维子空间集合中的每个λ维子空间,按照它们对一业务种类的 学习样本的覆盖率进行排序,并采用最短编码长度计算模型,统计出当前λ维子空间集合 中,一个λ维子空间对一业务种类的学习样本至少达到的覆盖率,将该至少达到的覆盖率 作为λ维子空间的学习样本覆盖率门限值;
[0014] 步骤4,在当前λ维子空间集合中,删除覆盖率小于学习样本覆盖率门限值的子 空间,针对当前λ维子空间集合中的每两个λ维子空间,只有当两者仅有一个维度的属性 不同才时进行λ+l维子空间的计算,此时先搜索它们各自包含的区域单元,如果两个不同 子空间的区域单元在所有相同的维度属性中的区域单元编号均相同,则对两个区域单元包 含的学习样本求交集,如果交集不为空则创建对应的λ+1维子空间的新单元,不断循环计 算λ+1维子空间的新单元,直到所有的λ维子空间两两均被处理过后停止;
[0015] 步骤5,根据获取的所有λ +1维子空间集合,重复步骤2到步骤4,直到符合预定 条件后停止,执行步骤6;
[0016] 步骤6,从维度数最大的子空间集合中,选择样本覆盖率最大的子空间,通过最大 区域计算模型,得到对应每个聚类的表达式,将所有聚类结果的表达式用析取范式表示,获 取每个业务种类的公共数值属性特征集合。
[0017] 优选地,预定条件为满足以下条件至少之一:
[0018] 当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间;
[0019] 合成之后的新高维度子空间没有覆盖率大于或等于密度门限值的区域单元; [0020] 当前子空间的维度数目为最大值;
[0021] 对于λ维子空间集合,当前不存在λ维子空间的样本的覆盖率大于等于预定值 时。
[0022] 优选地,对每个公共数值属性的维度均划分出等数量区域单元个数具体包括:
[0023] 针对流记录,计算每个业务种类的公共数值属性特征能取到的最大值和最小值, 并将最大值和最小值作为公共数值属性的取值范围,并根据取值范围,对每个公共数值属 性的维度均划分出等数量区域单元个数,其中,每个区域单元等长。
[0024] 本发明还提供了一种流量数据分类装置,包括:
[0025] 采集设置模块,用于在网络汇聚端口进行数据包采集,将数据包按照五元组重组 为流,生成流量数据,并根据预先对流量数据中的一部分流量数据进行的业务类型标记,针 对每个业务种类,对应形成学习样本,并将流量数据中的剩余部分设置为待分类的流量数 据集合;
[0026] 抽取整理模块,用于抽取流量数据集合中每条流量数据的公共数值属性特征集 合,并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录;
[0027] 计算标记模块,用于根据学习样本,采用子空间聚类方式对流记录中每个业务种 类的公共数值属性特征集合进行计算,并根据计算得到的每个业务种类的公共数值属性特 征集合、以及流记录中流量数据的公共数值属性特征集合,对流量数据集合中的流量数据 进行业务类型标记。
[0028] 优选地,五元组包括:源网络协议IP地址、目的IP地址、源端口、目的端口、以及 传输层协议。
[0029] 优选地,计算标记模块具体包括:
[0030] 第一处理子模块,用于对每个公共数值属性的维度均划分出等数量区域单元个 数,对每个公共数值属性建立一个对应的一维空间,将每个区域单元按照其对某一业务种 类的学习样本的覆盖率进行排序,通过熵值计算模型,计算出区域单元对某一业务种类的 学习样本达到的最小覆盖率,将最小覆盖率作为区域单元的密度门限值;
[0031] 第二处理子模块,用于根据密度门限值,在λ维子空间集合中,删除λ维子空间 中覆盖率小于密度门限值的区域单元,将λ维子空间中剩余的区域单元对一业务种类的 学习样本的覆盖率进行相加,得到λ维子空间对一类学习样本的覆盖率,其中,λ > 1;
[0032] 第三处理子模块,用于对当前λ维子空间集合中的每个λ维子空间,按照它们对 一业务种类的学习样本的覆盖率进行排序,并采用最短编码长度计算模型,统计出当前λ 维子空间集合中,一个λ维子空间对一业务种类的学习样本至少达到的覆盖率,将该至少 达到的覆盖率作为λ维子空间的学习样本覆盖率门限值;
[0033] 第四处理子模块,用于在当前λ维子空间集合中,删除覆盖率小于学习样本覆盖 率门限值的子空间,针对当前λ维子空间集合中的每两个λ维子空间,只有当两者仅有一 个维度的属性不同才时进行λ+l维子空间的计算,此时先搜索它们各自包含的区域单元, 如果两个不同子空间的区域单元在所有相同的维度属性中的区域单元编号均相同,则对两 个区域单元包含的学习样本求交集,如果交集不为空则创建对应的λ+1维子空间的新单 元,不断循环计算λ+l维子空间的新单元,直到所有的λ维子空间两两均被处理过后停 止;
[0034] 第五处理子模块,用于根据获取的所有λ +1维子空间集合,调用第二处理子模块 到第四处理子模块,直到符合预定条件后停止,调用第六处理子模块;
[0035] 第六处理子模块,用于从维度数最大的子空间集合中,选择样本覆盖率最大的子 空间,通过最大区域计算模型,得到对应每个聚类的表达式,将所有聚类结果的表达式用析 取范式表示,获取每个业务种类的公共数值属性特征集合。
[0036] 优选地,预定条件为满足以下条件至少之一
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1