基于多层聚类的网络视频流分类方法

文档序号:7812806阅读:269来源:国知局
基于多层聚类的网络视频流分类方法
【专利摘要】本发明公开了基于多层聚类的网络视频流分类方法,该方法包括如下步骤:步骤1:在开放的网络环境中获取所需的视频业务数据,对原始的视频数据流进行基本的流量统计特征计算;步骤2:对上述的基本流统计特征进行深入地统计分析,选取具有实际意义的QoS相关的统计特征;步骤3:将获得的特征进行适当的组合来标识原始的网络数据流,通过多层聚类分类器的多层聚类识别,得到最后的分类结果。本发明方法是一种基于视频流统计特征的业务流分类方法,采用分层聚类的方法,配合有效的特征组合,能取得较好的分类效果。
【专利说明】基于多层聚类的网络视频流分类方法

【技术领域】
[0001]本发明涉及一种基于多层聚类的网络视频流分类方法,属于模式识别与分类【技术领域】。

【背景技术】
[0002]随着因特网的迅速发展,网络被广泛地应用于人们生活的各个领域。网络中的视频业务的增长尤为迅速,与此同时,各种新的复杂应用和未知协议使得我们的网络环境日趋复杂,一系列的问题如有效的网管、不同业务的QoS保证等也随之产生。对于网络服务提供商(ISP)和网络环境监管者来说,快速准确地识别不同的网络业务流是一种行之有效的解决方法。
[0003]常用的识别和分类方法主要有基于端口的方法、基于深度包检测的和基于统计特征的方法。基于端口的识别方法是根据国际互联网代理成员管理局(IANA)建议的非强制端口号来区分不同的应用类型,随着P2P和被动FTP的新型网络应用的日益流行,数据传输中使用大量的随机端口,使得这种方法识别效率很低,分类准确度不高。为了突破基于端口的方法的限制,有大量文献尝试对应用层、载荷等进行深度包检测,该方法通过网络应用在传输过程中的特征来区分不同的应用。它需要解析数据包并获得特征字段,准确性很高,但随着应用负载加密和新型应用的不断涌现,该方法的有效性逐步下降。因此很多研究人员尝试借助业务流的统计特征识别业务流。该方法不需要获取分组的负载,仅通过流的统计特征就能够识别不同的网络业务。然而,如何找到确实有效的业务流统计特征,是一个巨大的挑战。
[0004]目前网络业务流分类研究主要集中在基于流统计特征的机器学习的方法。这种方法可以避免基于端口和基于负载检测的方法在应对动态端口、加密流和用户隐私方面的不足。通过深入的研究证明包到达时间间隔业务流分类过程中的重要作用。Mujtaba,G等利用各类业务流的包长分布,对加密通道中的的网络流量进行业务识别和区分,取得了良好的效果。Ibrahim H A H, Mohd Nor S,Ahmed A采用平均包大小和平均包到达时间间隔这两个特征识别在线游戏,同样取得了不错的效果。Erman等提出了一种半监督的方法,使用K均值方法分类业务流数据集,但只强调对方法的改进。上述的工作要么针对某种特定的业务类型,要么只强调对方法的改进而忽略问题的关键,即,如何从原始流的属性中提取有意义的特征组合来标识原始流,进而提高流量分类模型的分类有效性。而本发明能够很好地解决上面的问题。


【发明内容】

[0005]本发明目的在于针对网络视频业务进行识别分类的问题,提出一种多层聚类网络视频流分类方法,该方法基于网络视频流的统计特征,通过采用QoS相关的统计特征组合标识不同的原始视频业务流,在不同层次的聚类中采用不同的分类特征或分类特征组合标识业务流数据作为分类器的输入,经过多层聚类后,得到最终的聚类结果,将该方法用于分析非对称(如在线播放视频)标清、非对称高清、HTTP下载、QQ、Xunle1、Sopcast六种网络视频流应用,实验结果表明,与现有同类方法相比,本方法对上述六种应用能够获得更高的分类准确性。
[0006]本发明解决其技术问题所采取的技术方案是:本发明提出了一种基于多层聚类的网络视频流分类方法,该方法通过大量的特征计算和统计分析,找到了一些典型视频业务流的QoS相关统计特征,并验证了这些统计特征组合用于分类的有效性。在基本FCM聚类方法的基础上采用分层聚类的新思路,搭配有效的特征组合设计一种新的网络视频流分类方法。
[0007]方法流程:
[0008]步骤1:在开放的网络环境中获取所需的视频业务数据,对原始的视频数据流进行基本的流量统计特征计算,具体步骤为:
[0009]步骤1-1:在开放的网络环境中,通过WireShark网络分析工具抓取所需的网络视频数据流,然后将抓取的原始数据流保存成包含五列数据的标准文本格式,其中包括包到达时间(s)、源IP地址、目的IP地址、协议、包尺寸五列原始信息。
[0010]步骤1-2:对原始的视频数据流进行基本的流量统计特征计算,这些特征包括:包尺寸、包到达时间间隔、字节速率、分组速率、包大小的信息熵、包到达时间间隔的概率密度函数,包到达时间间隔的累积密度函数等。
[0011]步骤2:对上述的基本流统计特征进行深入地统计分析,选取具有实际意义的QoS相关的统计特征,具体步骤为:
[0012]步骤2-1:通过对基本的流统计特征进行大量的统计分析和实验验证,得出具有一定区分效果的QoS相关的统计特征;
[0013]步骤2-2:对于区分实际分析的网络视频流所选取的QoS相关特征有四个,其特征包括:
[0014]I)下上行字节数之比
[0015]下上行字节数之比即一条流中去除开销之后剩余的数据中下行字节数与上行字节数的比值。该特征能够有效地避免网络环境变化对识别结果的影响,具有较好的稳定性。在区分对称(如P2P流)和非对称业务时具有较好的区分效果,结合下面介绍的下行包大小的信息熵或下行子流片段数目能够有效地区分对称和非对称视频业务。
[0016]2)下行包大小的信息熵
[0017]下行包大小的信息熵可用来衡量一条流下行包大小的分布均匀程度。该值越大,说明某种业务的包大小分布越均匀。大量的实验证明该参数对于区分对称业务中的QQ、Xunlei和Sopcast具有较好的效果。下行子流片段数目连续的出现相同源IP的数据包称为子流片段,这些IP地址可以重复。研究表明对称业务中经常出现不同IP地址与本地IP交互的情况,因而对称业务流中的子流片段数目较多。
[0018]3)下行子流片段数目
[0019]连续的出现相同源IP的数据包称为子流片段,这些IP地址可以重复。研究表明对称业务中经常出现不同IP地址与本地IP交互的情况,因而对称业务流中的子流片段数目较多。
[0020]4)下行有效IP数目
[0021]在数据流抓取的过程中会出现不同的IP地址与本地IP信息交互的情况,由于在运行过程中避免不了会有一些后台应用,因而可能出现一些与该流无关的IP地址。在这种情况下,定义持续持续时间大于0.5秒的IP地址为有效IP地址。下行有效IP数目也就是指下行数据中总的持续时间大于0.5秒的源IP地址数目的总和。
[0022]步骤3:将获得的特征进行适当的组合来标识原始的网络数据流,通过多层聚类分类器(即FCM)的多层聚类识别,得到最后的分类结果,具体步骤为:
[0023]步骤3-1:经分析发现对称业务和非对称业务在下上行字节数之比和下行子流片段数目这两个特征上有很大的差异,因此选取该二维特征空间作为区分对称视频业务和非对称视频业务的特征组合;
[0024]步骤3-2:对称视频业务中的QQ、Xunlei和Sopcast这三种业务:QQ的下行包大小的信息熵较后两者明显偏大,而Sopcast的下行包大小的信息熵比其余两种都要小,Xunlei的下行包大小的信息熵跨度较大,但与其余两者也都有一定的区分度,并且在下行子流片段数目这维特征空间上QQ与Xunle1、Sopcast也有明显的区别。因此,选取下行包大小的信息熵和下行子流片段数目作为区分对称业务的有效特征组合;
[0025]步骤3-3:非对称标清、非对称高清和HTTP下载这三种业务:HTTP下载是一种传统的应用类型,它类似于FTP服务,只是两个IP之间的交互,因而该业务的有效IP数目必然较少。而对于非对称的高清和标清业务,虽然某一时刻也同样是两个IP之间的信息交互,但是本发明所要获取的资源不仅仅存在于一个视频服务器中,可能由于网络环境的影响,与当前连接的服务器断掉了,这样本地IP就要重新获取其他服务器上的资源,因而这两种业务的下行有效IP数目必然偏多。采用这个特征基本上能将HTTP下载和非对称的标清、高清区分开。对于非对称的标清和高清而言,从现有的特征空间看,只有下上行字节数之比能将他们近似分开。
[0026]步骤3-4:采用上面所述的特征组合表示原始的网络视频流,采用基于(线性和高斯)核函数的FCM进行多层聚类,多层聚类方法的步骤包括:
[0027]步骤1:将所有的原始数据流使用二维特征矢量(Ti,Tj)标识进行第一层聚类,得到两大类聚类结果Cl,C2;
[0028]步骤2:对一层聚类结果C1,C2的数据流分别使用特征矢量Vi,Vj进行标识,进行第三次聚类得到聚类结果C21,C22,...;
[0029]步骤3:对上层聚类结果采用同样的方法再次进行聚类,直到最终的聚类结果等于给定的类别数就停止;
[0030]步骤4:统计聚类输出结果。
[0031]有益效果:
[0032]1、本发明与现有的采用基本流统计特征的视频业务识别分类技术相比,采用的是具有较好区分度的特征组合标识原始视频数据,能够取得更高的分类准确性。
[0033]2、本发明是一种基于视频流统计特征的业务流分类方法,采用分层聚类的方法,配合有效的特征组合,能取得较好的分类效果。

【专利附图】

【附图说明】
[0034]图1为本发明视频业务特征分析与分类方法的流程框图。
[0035]图2为本发明所选特征组合有效性验证图。
[0036]标识说明:(a)表示三维特征组合(下上行字节数之比、下行子流片段数目和下行包大小的信息熵)的整体区分效果图;(b)表示二维特征组合(下上行字节数之比和下行包大小的信息熵)区分对称业务和非对称业务的效果图;(C)表示二维特征组合(下行包大小的信息熵和下行子流片段数目的对数)区分对称业务的效果图;(d)表示二维特征组合(下上行字节数之比和下行有效IP数目)区分非对称业务的效果图。
[0037]图3为本发明与现有技术F-measure性能上的对比效果图,现有技术采用基本的流统计特征(平均包大小和平均包到达时间间隔)。

【具体实施方式】
[0038]以下结合说明书附图对本发明创造作进一步的详细说明。
[0039]如图1所示,本发明提出的一种基于多层聚类的网络视频流分类方法,该方法包括:流量的获取及统计特征的计算、统计特征分析及选择、多层FCM聚类输出结果统计等。主要具体步骤为:
[0040]步骤1,流量的获取及统计特征的计算:通过网络分析工具WireShark在开放的网络环境中获取待分析的网络视频数据,其中包括非对称标清(以youku标清为例)、非对称高清(以youku高清为例)、HTTP下载、交互式视频通信类(以QQ为例)、P2P文件共享类(以Xunlei为例)、网络在线直播类(以Sopcast为例)六类视频应用。将获取的网络视频流数据保存成TXT文档格式(即为一条流),其中包含5列,从左至右依次是包到达时间、源IP地址、目的IP地址、协议、分组大小。流是指同种业务在30分钟时间内所抓取的数据包序列,在次称其为一条流,每种业务都抓取60条流来分析问题。然后,将原始的视频流输入到网络数据流处理平台,进行统计特征计算,最后得到一些列的网络视频流的QoS相关的统计特征。
[0041]步骤2,统计特征分析及选择:通过大量的统计实验和分析验证,发现采用下上行字节数之比、下行包大小的信息熵、下行子流片段数目和下行有效IP数目四个特征对所选取的典型网络视频流进行分类识别。
[0042]在实验中,本发明首先采用三维特征向量V = (Vi,Vj,Vk)来标识原始的网络视频流,其中Vi是下上行字节数之比,Vj是下行包大小的信息熵,Vk是下行子流片段数目。具体的区分效果如图2的(a)所示。从图中可以看出不同的网络视频流业务在上述三个统计特征上具有明显的差异。特别地,对于对称的QQ、Xunle1、Sopcast三种业务和非对称的高清、标清、HTTP三种业务在下上行字节数之比这一维度上有明显的区别。对称业务的下上行字节数之比较非对称业务明显偏少;而其中的QQ、Xunlei这两种业务的下行包大小的信息熵与非对称业务区别也相当明显,Sopcast应用在这一维度上却与非对称的几种业务区分并不明显。如图2的(b)所示,在二维空间上使用下行包大小的信息熵和下上行字节数之比可以将对称和非对称业务区分。而从任意单维特征都无法将两大类业务区分开,从这个意义上讲文中选取的这对特征组合是有效的。
[0043]接着从更细的角度划分两大类业务流,如图2的(C)所示,对于对称的三种视频业务,同样的从任何一个单维特征空间都无法将三种业务流分开,而在本发明的二维特征空间中就可以将三种业务基本分开,也可以看出QQ和Xunlei之间在包大小的信息熵上有交叠的情况。但从整体上看,这两个特征对于区分对称的三种业务也是有效的。强调一点,在本发明的实验过程中发现,采用下行子流片段数目的对数形式要比直接采用下行子流片段数目具有更佳的分类效果。
[0044]对于非对称业务而言,如图2的(d)所示,仅使用上述的三个统计特征无法将它们分开,因而,本发明又引入一维新的特征即下行有效IP数目。HTTP下载是一种传统的应用类型,它类似于FTP服务,只是两个IP之间的交互,因而该业务的有效IP数目必然较少。而对于非对称的高清和标清业务,虽然某一时刻也同样是两个IP之间的信息交互,但是,本发明所要获取的资源不仅仅存在于一个视频服务器中,可能由于网络环境的影响,与当前连接的服务器断掉了,这样本地IP就要重新获取其他服务器上的资源,因而这两种业务的下行有效IP数目必然偏多。采用这个特征基本上能将HTTP下载和另外两种业务区分开,但也不可避免的存在一些交叠的情况。
[0045]因此,可以选择上述三组二维特征矢量作为本发明的特征组合。
[0046]步骤3,多层FCM聚类输出结果统计,其实现方法为:采用上述的QoS相关统计特征组合,标识原始的网络视频业务流,实施多层FCM聚类分类方法。
[0047]本发明的多层聚类方法步骤包括:
[0048]步骤:将所有的原始数据流使用二维特征矢量(Ti,Tj)标识进行第一层聚类,得到两大类聚类结果Cl,C2;
[0049]步骤2:对一层聚类结果C1,C2的数据流分别使用特征矢量Vi,Vj进行标识,进行第三次聚类得到聚类结果C21,C22,...;
[0050]步骤3:对上层聚类结果采用同样的方法再次进行聚类,直到最终的聚类结果等于给定的类别数就停止;
[0051]步骤4:统计聚类输出结果。
[0052]本发明的实验结果:
[0053]为了进一步验证本发明选取的统计特征的有效性,本发明采用上述的特征组合标识六种网络视频流数据,利用本发明中提出的多层聚类方法进行聚类识别。主要从衡量网络流分类性能的综合指标F测度(F-measure)进行对比验证。
[0054]在图3中展示了两种方法对于六种网络视频业务的F-测度值。其中Original是采用平均包大小和平均包到达时间间隔两个特征进行网络流量分类的分类结果,Improved是采用本发明提出的统计特征组合利用基于径向基核函数的多层聚类方法的分类结果。从整体上观察,对于F-measure值来说,本方法对六种网络视频流的识别结果都有较明显的改善。
【权利要求】
1.基于多层聚类的网络视频流分类方法,其特征在于,所述方法步骤包括: 步骤1:在开放的网络环境中获取所需的视频业务数据,对原始的视频数据流进行基本的流量统计特征计算; 步骤2:对上述的基本流统计特征进行深入地统计分析,选取具有实际意义的QoS相关的统计特征; 步骤3:将获得的特征进行适当的组合来标识原始的网络数据流,通过多层聚类分类器的多层聚类识别,得到最后的分类结果。
2.根据权利要求1所述的基于多层聚类的网络视频流分类方法,其特征在于,所述方法的步骤I中包括如下步骤: 步骤1-1:在开放的网络环境中,通过WireShark网络分析工具抓取所需的网络视频数据流,然后将抓取的原始数据流保存成包含五列数据的标准文本格式,其中包括包到达时间、源IP地址、目的IP地址、协议、包尺寸五列原始信息; 步骤1-2:对原始的视频数据流进行基本的流量统计特征计算,这些特征包括:包尺寸、包到达时间间隔、字节速率、分组速率、包大小的信息熵、包到达时间间隔的概率密度函数,包到达时间间隔的累积密度函数。
3.根据权利要求1所述的基于多层FCM的视频业务特征分析与分类方法,其特征在于,所述方法的步骤2中包括如下步骤: 步骤2-1:通过对基本的流统计特征进行大量的统计分析和实验验证,得出具有一定区分效果的QoS相关的统计特征; 步骤2-2:对于区分实际分析的网络视频流所选取的QoS相关特征有四个。
4.根据权利要求3所述的基于多层FCM的视频业务特征分析与分类方法,其特征在于,上述步骤2-2中的QoS特征包括: 1)下上行字节数之比; 下上行字节数之比即一条流中去除开销之后剩余的数据中下行字节数与上行字节数的比值; 2)下行包大小的信息熵; 下行包大小的信息熵可用来衡量一条流下行包大小的分布均匀程度;该值越大,说明某种业务的包大小分布越均匀; 3)下行子流片段数目; 连续的出现相同源IP的数据包称为子流片段,这些IP地址能重复;对称业务流中的子流片段数目较多; 4)下行有效IP数目; 定义持续时间大于0.5秒的IP地址为有效IP地址;下行有效IP数目是指下行数据中总的持续时间大于0.5秒的源IP地址数目的总和。
5.根据权利要求1所述的基于多层聚类的网络视频流分类方法,其特征在于,所述方法的步骤3中包括如下步骤: 步骤3-1:经分析发现对称业务和非对称业务在下上行字节数之比和下行子流片段数目这两个特征上有很大的差异,因此选取该二维特征空间作为区分对称视频业务和非对称视频业务的特征组合; 步骤3-2:对称视频业务中的QQ、Xunlei和Sopcast这三种业务:QQ的下行包大小的信息熵较后两者明显偏大,而Sopcast的下行包大小的信息熵比其余两种都要小,Xunlei的下行包大小的信息熵跨度较大,但与其余两者也都有一定的区分度,并且在下行子流片段数目这维特征空间上QQ与Xunle1、Sopcast也有明显的区别;选取下行包大小的信息熵和下行子流片段数目作为区分对称业务的有效特征组合; 步骤3-3:非对称标清、非对称高清和HTTP下载这三种业务:HTTP下载是一种传统的应用类型,它类似于FTP服务,只是两个IP之间的交互,因而该业务的有效IP数目必然较少;而对于非对称的高清和标清业务,虽然某一时刻也同样是两个IP之间的信息交互,但是本发明所要获取的资源不仅仅存在于一个视频服务器中,可能由于网络环境的影响,与当前连接的服务器断掉了,这样本地IP就要重新获取其他服务器上的资源,因而这两种业务的下行有效IP数目必然偏多;采用这个特征基本上能将HTTP下载和非对称的标清、高清区分开;对于非对称的标清和高清而言,从现有的特征空间看,只有下上行字节数之比能将他们近似分开; 步骤3-4:采用所述的特征组合表示原始的网络视频流,采用核函数的FCM进行多层聚类。
6.根据权利要求5所述的基于多层聚类的网络视频流分类方法,其特征在于,上述步骤3-4中多层聚类的方法,包括如下步骤: 步骤1:将所有的原始数据流使用二维特征矢量(Ti,Tj)标识进行第一层聚类,得到两大类聚类结果Cl,C2; 步骤2:对一层聚类结果C1,C2的数据流分别使用特征矢量Vi,Vj进行标识,进行第三次聚类得到聚类结果C21,C22,...; 步骤3:对上层聚类结果采用同样的方法再次进行聚类,直到最终的聚类结果等于给定的类别数就停止; 步骤4:统计聚类输出结果。
【文档编号】H04N21/24GK104244035SQ201410432130
【公开日】2014年12月24日 申请日期:2014年8月27日 优先权日:2014年8月27日
【发明者】董育宁, 姚利涛 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1