流量数据分类方法及装置的制造方法_2

文档序号：9710698阅读：来源：国知局

：
[0037] 当前维度为λ的子空间集合无法合成维度数目为λ+l的子空间；
[0038] 合成之后的新高维度子空间没有覆盖率大于或等于密度门限值的区域单元；
[0039] 当前子空间的维度数目为最大值；
[0040] 对于λ维子空间集合，当前不存在λ维子空间的样本的覆盖率大于等于预定值时。
[0041] 优选地，第一处理子模块具体用于：
[0042] 针对流记录，计算每个业务种类的公共数值属性特征能取到的最大值和最小值，并将最大值和最小值作为公共数值属性的取值范围，并根据取值范围，对每个公共数值属性的维度均划分出等数量区域单元个数，其中，每个区域单元等长。
[0043] 本发明有益效果如下：
[0044] 在少量已标识的流量数据作为学习样本的基础上，通过子空间聚类方法对流量数据进行分类，解决了现有技术中DPI流量分类技术不能够对网络中新的流量业务特征进行及时更新而导致的更新效率低和准确率易退化的问题，借助于本发明实施例的技术方案只需要人工标记较少样本数据的业务类型，就能够对其余未经人工识别的业务流量进行分类，能够为建立DPI特征库提供足够数量的有效样本，极大提升目前DPI特征自动提取与更新的效率，使其对网络环境具备更强大的自适应能力。
[0045] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的【具体实施方式】。
【附图说明】
[0046] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
[0047] 图1是本发明实施例的流量数据分类方法的流程图；
[0048] 图2是本发明实施例的DPI模式下流量数据分类方法的系统结构示意图；
[0049] 图3是本发明实施例的DPI模式下流量数据分类方法的详细处理的流程图；
[0050] 图4是本发明实施例的计算密度门限的处理流程图；
[0051] 图5是本发明实施例的计算覆盖率门限的处理流程图；
[0052] 图6是本发明实施例的获取最小化描述的析取范式的处理流程图；
[0053] 图7是本发明实施例的基于SDN安全的流量分类应用的示意图；
[0054] 图8是本发明实施例的基于传统DPI检测的流量分类应用的示意图；
[0055] 图9是本发明实施例的流量数据分类装置的结构示意图。
【具体实施方式】
[0056] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0057] 为了解决现有技术中DPI流量分类技术不能够对网络中新的流量业务特征进行及时更新而导致的更新效率低和准确率易退化的问题，本发明提供了提升DPI网络流量业务特征库更新效率的方法，即一种DPI模式下流量数据分类方法及装置。通过子空间聚类方法为基础的离线分类器，只需在少量已标识的流量样本基础上，能够快速、准确地分类所有未知业务类型的网络流样本，为自动提取DPI特征库信息的相关软件产品提供丰富的数据样本。本发明实施例对设备要求简单，业务流量分类精确率高，同时在应用中表现出良好的稳定性，是一种网络流量离线快速分类器。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。
[0058] 方法实施例
[0059] 根据本发明的实施例，提供了一种流量数据分类方法，图1是本发明实施例的流量数据分类方法的流程图，如图1所示，根据本发明实施例的流量数据分类方法包括如下处理：
[0060] 步骤101，在网络汇聚端口进行数据包采集，将数据包按照五元组重组为流，生成流量数据，并根据预先对流量数据中的一部分流量数据进行的业务类型标记，针对每个业务种类，对应形成学习样本，并将流量数据中的剩余部分设置为待分类的流量数据集合；
[0061] 在步骤101中，五元组包括：源网络协议IP地址、目的IP地址、源端口、目的端口、以及传输层协议。
[0062] 步骤102,抽取流量数据集合中每条流量数据的公共数值属性特征集合，并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录；
[0063] 步骤103,根据学习样本，采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算，并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录中流量数据的公共数值属性特征集合，对流量数据集合中的流量数据进行业务类型标记。
[0064] 在步骤103中，根据学习样本，采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算具体包括：
[0065] 步骤1，对每个公共数值属性的维度均划分出等数量区域单元个数，对每个公共数值属性建立一个对应的一维空间，将每个区域单元按照其对某一业务种类的学习样本的覆盖率进行排序，通过熵值计算模型，计算出区域单元对某一业务种类的学习样本达到的最小覆盖率，将最小覆盖率作为区域单元的密度门限值；
[0066] 在步骤1中，对每个公共数值属性的维度均划分出等数量区域单元个数具体包括：针对流记录，计算每个业务种类的公共数值属性特征能取到的最大值和最小值，并将最大值和最小值作为公共数值属性的取值范围，并根据取值范围，对每个公共数值属性的维度均划分出等数量区域单元个数，其中，每个区域单元等长。
[0067] 步骤2,根据密度门限值，在λ维子空间集合中，删除λ维子空间中覆盖率小于密度门限值的区域单元，将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖率进行相加，得到λ维子空间对一类学习样本的覆盖率，其中，λ > 1 ;
[0068] 步骤3,对当前λ维子空间集合中的每个λ维子空间，按照它们对一业务种类的学习样本的覆盖率进行排序，并采用最短编码长度计算模型，统计出当前λ维子空间集合中，一个λ维子空间对一业务种类的学习样本至少达到的覆盖率，将该至少达到的覆盖率作为λ维子空间的学习样本覆盖率门限值；
[0069] 步骤4,在当前λ维子空间集合中，删除覆盖率小于学习样本覆盖率门限值的子空间，针对当前λ维子空间集合中的每两个λ维子空间，只有当两者仅有一个维度的属性不同才时进行λ+l维子空间的计算，此时先搜索它们各自包含的区域单元，如果两个不同子空间的区域单元在所有相同的维度属性中的区域单元编号均相同，则对两个区域单元包含的学习样本求交集，如果交集不为空则创建对应的λ+1维子空间的新单元，不断循环计算λ+1维子空间的新单元，直到所有的λ维子空间两两均被处理过后停止；
[0070] 步骤5,根据获取的所有λ +1维子空间集合，重复步骤2到步骤4,直到符合预定条件后停止，执行步骤6 ;其中，上述预定条件为满足以下条件至少之一：
[0071] 1、当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间；
[0072] 2、合成之后的新高维度子空间没有覆盖率大于或等于密度门限值的区域单元；
[0073] 3、当前子空间的维度数目为最大值；
[0074] 4、对于λ维子空间集合，当前不存在λ维子空间的样本的覆盖率大于等于预定值时；
[0075] 步骤6,从维度数最大的子空间集合中，选择样本覆盖率最大的子空间，通过最大区域计算模型，得到对应每个聚类的表达式，将所有聚类结果的表达式用析取范式表示，获取每个业务种类的公共数值属性特征集合。
[0076] 在现有技术中，建立DPI特征库之前需要人工标记所有的流量样本数据的应用类型。这种方法的不足在于一是需要大量的人工，容易发生标记误差；二是无法及时更新特征库。本发明实施例通过使用熵模型，最短编码长度计算模型进行剪枝计算，提出子空间聚类方法，实现对流量样本数据的自动标记，可以有效降低人力成本，提高更新效率。
[0077]

完整全部详细技术资料下载

当前第2页1 2 3 4 5