流量数据分类方法及装置的制造方法_5

文档序号：9710698阅读：来源：国知局

先对所述流量数据中的一部分流量数据进行的业务类型标记，针对每个业务种类，对应形成学习样本，并将所述流量数据中的剩余部分设置为待分类的流量数据集合；抽取所述流量数据集合中每条流量数据的公共数值属性特征集合，并将所述流量数据集合中的流量数据整理成由所述公共数值属性特征集合构成的流记录；根据所述学习样本，采用子空间聚类方式对所述流记录中每个业务种类的公共数值属性特征集合进行计算，并根据计算得到的每个业务种类的公共数值属性特征集合、以及所述流记录中流量数据的公共数值属性特征集合，对所述流量数据集合中的流量数据进行业务类型标记。2. 如权利要求1所述的方法，其特征在于，所述五元组包括：源网络协议IP地址、目的 IP地址、源端口、目的端口、以及传输层协议。3. 如权利要求1所述的方法，其特征在于，根据所述学习样本，采用子空间聚类方式对所述流记录中每个业务种类的公共数值属性特征集合进行计算具体包括：步骤1，对每个公共数值属性的维度均划分出等数量区域单元个数，对每个公共数值属性建立一个对应的一维空间，将每个区域单元按照其对某一业务种类的学习样本的覆盖率进行排序，通过熵值计算模型，计算出区域单元对某一业务种类的学习样本达到的最小覆盖率，将所述最小覆盖率作为区域单元的密度门限值；步骤2,根据所述密度门限值，在λ维子空间集合中，删除λ维子空间中覆盖率小于所述密度门限值的区域单元，将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖率进行相加，得到λ维子空间对一类学习样本的覆盖率，其中，λ> 1 ; 步骤3,对当前λ维子空间集合中的每个λ维子空间，按照它们对一业务种类的学习样本的覆盖率进行排序，并采用最短编码长度计算模型，统计出当前λ维子空间集合中，一个λ维子空间对一业务种类的学习样本至少达到的覆盖率，将该至少达到的覆盖率作为λ维子空间的学习样本覆盖率门限值；步骤4,在当前λ维子空间集合中，删除覆盖率小于所述学习样本覆盖率门限值的子空间，针对当前λ维子空间集合中的每两个λ维子空间，只有当两者仅有一个维度的属性不同才时进行λ+l维子空间的计算，此时先搜索它们各自包含的区域单元，如果两个不同子空间的区域单元在所有相同的维度属性中的区域单元编号均相同，则对两个区域单元包含的学习样本求交集，如果交集不为空则创建对应的λ+1维子空间的新单元，不断循环计算λ+1维子空间的新单元，直到所有的λ维子空间两两均被处理过后停止；步骤5,根据获取的所有λ +1维子空间集合，重复步骤2到步骤4,直到符合预定条件后停止，执行步骤6; 步骤6,从维度数最大的子空间集合中，选择样本覆盖率最大的子空间，通过最大区域计算模型，得到对应每个聚类的表达式，将所有聚类结果的表达式用析取范式表示，获取每个业务种类的公共数值属性特征集合。4. 如权利要求3所述的方法，其特征在于，预定条件为满足以下条件至少之一：当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间；合成之后的新高维度子空间没有覆盖率大于或等于所述密度门限值的区域单元；当前子空间的维度数目为最大值；对于λ维子空间集合，当前不存在λ维子空间的样本的覆盖率大于等于预定值时。5. 如权利要求3所述的方法，其特征在于，对每个公共数值属性的维度均划分出等数量区域单元个数具体包括：针对所述流记录，计算每个业务种类的公共数值属性特征能取到的最大值和最小值，并将所述最大值和所述最小值作为公共数值属性的取值范围，并根据所述取值范围，对每个公共数值属性的维度均划分出等数量区域单元个数，其中，每个区域单元等长。6. -种流量数据分类装置，其特征在于，包括：采集设置模块，用于在网络汇聚端口进行数据包采集，将所述数据包按照五元组重组为流，生成流量数据，并根据预先对所述流量数据中的一部分流量数据进行的业务类型标记，针对每个业务种类，对应形成学习样本，并将所述流量数据中的剩余部分设置为待分类的流量数据集合；抽取整理模块，用于抽取所述流量数据集合中每条流量数据的公共数值属性特征集合，并将所述流量数据集合中的流量数据整理成由所述公共数值属性特征集合构成的流记录；计算标记模块，用于根据所述学习样本，采用子空间聚类方式对所述流记录中每个业务种类的公共数值属性特征集合进行计算，并根据计算得到的每个业务种类的公共数值属性特征集合、以及所述流记录中流量数据的公共数值属性特征集合，对所述流量数据集合中的流量数据进行业务类型标记。7. 如权利要求6所述的装置，其特征在于，所述五元组包括：源网络协议IP地址、目的 IP地址、源端口、目的端口、以及传输层协议。8. 如权利要求6所述的装置，其特征在于，所述计算标记模块具体包括：第一处理子模块，用于对每个公共数值属性的维度均划分出等数量区域单元个数，对每个公共数值属性建立一个对应的一维空间，将每个区域单元按照其对某一业务种类的学习样本的覆盖率进行排序，通过熵值计算模型，计算出区域单元对某一业务种类的学习样本达到的最小覆盖率，将所述最小覆盖率作为区域单元的密度门限值；第二处理子模块，用于根据所述密度门限值，在λ维子空间集合中，删除λ维子空间中覆盖率小于所述密度门限值的区域单元，将λ维子空间中剩余的区域单元对一业务种类的学习样本的覆盖率进行相加，得到λ维子空间对一类学习样本的覆盖率，其中， λ > 1 ; 第三处理子模块，用于对当前λ维子空间集合中的每个λ维子空间，按照它们对一业务种类的学习样本的覆盖率进行排序，并采用最短编码长度计算模型，统计出当前λ维子空间集合中，一个λ维子空间对一业务种类的学习样本至少达到的覆盖率，将该至少达到的覆盖率作为λ维子空间的学习样本覆盖率门限值；第四处理子模块，用于在当前λ维子空间集合中，删除覆盖率小于所述学习样本覆盖率门限值的子空间，针对当前λ维子空间集合中的每两个λ维子空间，只有当两者仅有一个维度的属性不同才时进行λ+l维子空间的计算，此时先搜索它们各自包含的区域单元，如果两个不同子空间的区域单元在所有相同的维度属性中的区域单元编号均相同，则对两个区域单元包含的学习样本求交集，如果交集不为空则创建对应的λ+1维子空间的新单元，不断循环计算λ+1维子空间的新单元，直到所有的λ维子空间两两均被处理过后停止；第五处理子模块，用于根据获取的所有λ+1维子空间集合，调用第二处理子模块到第四处理子模块，直到符合预定条件后停止，调用第六处理子模块；第六处理子模块，用于从维度数最大的子空间集合中，选择样本覆盖率最大的子空间，通过最大区域计算模型，得到对应每个聚类的表达式，将所有聚类结果的表达式用析取范式表示，获取每个业务种类的公共数值属性特征集合。9. 如权利要求8所述的装置，其特征在于，预定条件为满足以下条件至少之一：当前维度为λ的子空间集合无法合成维度数目为λ+1的子空间；合成之后的新高维度子空间没有覆盖率大于或等于所述密度门限值的区域单元；当前子空间的维度数目为最大值；对于λ维子空间集合，当前不存在λ维子空间的样本的覆盖率大于等于预定值时。10. 如权利要求8所述的装置，其特征在于，所述第一处理子模块具体用于：针对所述流记录，计算每个业务种类的公共数值属性特征能取到的最大值和最小值，并将所述最大值和所述最小值作为公共数值属性的取值范围，并根据所述取值范围，对每个公共数值属性的维度均划分出等数量区域单元个数，其中，每个区域单元等长。
【专利摘要】本发明公开了一种流量数据分类方法及装置。该方法包括：进行数据包采集，将数据包重组为流，生成流量数据，并根据预先对流量数据中的一部分流量数据进行的业务类型标记，针对每个业务种类，对应形成学习样本，并将流量数据中的剩余部分设置为待分类的流量数据集合；抽取流量数据集合中每条流量数据的公共数值属性特征集合，并将流量数据集合中的流量数据整理成由公共数值属性特征集合构成的流记录；根据学习样本，采用子空间聚类方式对流记录中每个业务种类的公共数值属性特征集合进行计算，并根据计算得到的每个业务种类的公共数值属性特征集合、以及流记录中流量数据的公共数值属性特征集合，对流量数据集合中的流量数据进行业务类型标记。
【IPC分类】H04L12/26, H04L12/801
【公开号】CN105471670
【申请号】CN201410462489
【发明人】吴少勇, 喻敬海, 王延松, 吴春明
【申请人】中兴通讯股份有限公司
【公开日】2016年4月6日
【申请日】2014年9月11日
【公告号】WO2015154484A1

完整全部详细技术资料下载

当前第5页1 2 3 4 5