网络流量增量统计、分析方法及系统与流程

文档序号:17922999发布日期:2019-06-15 00:14阅读:407来源:国知局
网络流量增量统计、分析方法及系统与流程

本发明涉及通信技术领域,具体涉及网络流量增量统计、分析方法及系统。



背景技术:

网络功能虚拟化技术指对组装成型的硬件资源进行虚拟化,通过构建计算、存储、网络三类虚拟资源池,来创建一系列虚拟机vm(virtualmachine)。

计算虚拟化技术包括全虚拟化和半虚拟化两类,其中全虚拟化技术fullvirtualization完全通过创建的虚拟机来实现客户机操作系统和服务器硬件的协同:受保护的计算机指令通过虚拟机管理程序hypervisor捕获并进行处理,操作系统通过hypervisor分享和共用底层的服务器硬件。半虚拟化技术para-virtualization使用虚拟机管理程序hypervisor分享存取底层的硬件,但是它的客户操作系统集成了虚拟化方面的软件代码.从而并不需重新编译或者触发陷阱,操作系统自身能够与虚拟进程进行非常好地协同与合作。基于这两种虚拟化技术能够根据网络扩容和缩容等需求动态生成或撤消虚拟机。

虚拟网络功能vnf(virtualizednetworkfunction)是一个软件包,运行于虚拟机vm之上,并与mano(managerandorchestration)交互,实现网络流量控制和转发。mano平台基于tosca(topologyandorchestrationspecificationforcloudapplication)模板实现对虚拟网络功能、虚拟部署单元、虚拟连接、网络连接点的描述,基于多向转发图fg(forwardinggraph)构建网络服务ns(networkservice)。多向转发图涵盖vnf、pnf(physicalnetworkfunction)、vl(virtuallink)、cp(connectionpoint),支持对虚拟网络功能转发路径的描述,支持对虚拟网络功能转发点的描述,实现虚拟网络功能结点到tosca模板结点的映射,以及到虚拟部署单元的分解,实现vdu(virtualdeploymentunit)到vm的映射。编排后的网络服务通过验证并交给虚拟网络功能管理器进行解析,根据描述文件对资源和能力的描述交给vim分配资源。

增量处理技术将网络流量按照时间维度进行形式化描述和表示,将数据切分为一系列的数据片段从而更好地研究虚拟网络流量数据片断的前后关系,借助一系列模型分析数据在时间维度上的变化的技术。而对于新增加的虚拟网络流量数据,其通过将其投影到历史流量数据来分析增量数据与历史数据的关系,借助增量数据在高维度空间各维度上的特征投影等进行建模。由于虚拟网络流量数据的马氏性很强且当前增量网络流量数据与历史数据关联很弱,可以直接在增量数据上进行推理并为网络功能虚拟化应用提供服务。另外可以利用增量奇异值分解等方法更新历史网络流量数据从而得到新的核心集合集,并针对核心集合进行快速处理,以提供及时和优质网络功能虚拟化服务。

虚拟网络功能是新一代网络中的重要组成部分,对虚拟网络功能中的网络流量进行实时采集和分析,有助于实现更智能化的部署、协同和调度。但是针对网络流量在时间维度上的动态变化特性,目前缺乏有效的方法进行分析能够首先实现网络功能虚拟化环境下的网络流量实时采集和增量式存储,构建关于这些数据的模型,并对虚拟网络中的网络流量进行统计以及分析,促使虚拟网络功能的部署、协同以及调度能够更加智能化。



技术实现要素:

针对现有技术中存在的缺陷,本发明的目的在于提供网络流量增量统计、分析方法及系统,能够实现网络功能虚拟化环境下的网络流量实时采集和增量式存储,构建高维度空间和转移空间模型,并通过增量方法进行统计或分析。

为达到以上目的,第一方面,本发明实施例提供一种网络流量增量统计方法,其包括以下步骤:

实时获取并保存虚拟化网络网络模型的各个层级的数据包,所述数据包设有多个特征项,所述特征项包括时间;

将所述数据包按照一个特征项对应一个维度的方式保存于高维度空间,并沿预设的模展开得到高阶矩阵;

去除所述高阶矩阵中的重复以及错误数据后,还原至高维度空间得到实时核心数据集合;

按时间顺序,沿着高维空间中的时间维度实时保存所述实时核心数据集合,得到高质量核心数据总集。

作为一个可选的实施方案,所述网络模型为tcp/ip四层参考模型,所述数据包采集自应用层、传输层、网络层以及网络接口层。

作为一个可选的实施方案,采集自所述应用层的数据包包括结构化数据、半结构化数据、非结构化数据。

作为一个可选的实施方案,所述特征项还包括:源mac地址、目标mac地址、源ip地址、目的ip地址、源端口、目标端口、虚拟网络功能标识符和虚拟网络流量数据内容。

作为一个可选的实施方案,其通过运行于虚拟机vm(virtualmachine)上的虚拟网络功能vnf(virtualizednetworkfunction)从虚拟网络环境中获取数据包。

作为一个可选的实施方案,通过hosvd(high-ordersingularvaluedecomposition,高阶奇异值分解)去除所述高阶矩阵中的重复以及错误数据。

第二方面,本发明实施例还提供一种基于第一方面所述统计方法的网络流量增量分析方法,在得到高质量核心数据总集后,还包括:

设置特征项与虚拟网络流量状态的对应关系;

获取当前时刻和前一时刻的实时核心数据集合的虚拟网络流量状态;

根据所述高质量核心数据总集中各个实时核心数据集合的虚拟网络流量状态,分析下一时刻的实时核心数据集合的虚拟网络流量状态及其概率。

第三方面,本发明实施例还提供一种基于第二方面所述的分析方法,其特征在于:

以nfvc、nfvp、nfvn为维度建立三维转移空间,其中,nfvc为当前时刻的实时核心数据集合的虚拟网络流量状态的集合,nfvp为前一时刻的实时核心数据集合的虚拟网络流量状态的集合,nfvn为下一时刻的实时核心数据集合的虚拟网络流量状态的集合;

设置当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,下一时刻的实时核心数据集合的虚拟网络流量状态为anx;

统计三维转移空间内,虚拟网络流量状态从apx变化至acx最后变化至各种anx的概率p;

将所述acx、apx和各个anx作为三维转移空间的坐标值,各个anx相应的p为acx、apx和各个anx在所述三维转移空间表示点的值,并表示于所述三维转移空间内,得到三维预测转移空间。

作为一个可选的实施方案,所述虚拟网络流量状态为所述高维度空间的至少一个区间。

作为一个可选的实施方案,所述虚拟网络流量状态为所述实时核心数据集合一个以上的特征项的数值/选项区间。

作为一个可选的实施方案,所述特征项还包括硬件使用参数,所述硬件使用参数包括cpu利用率、内存占用百分比,所述实时核心数据集合所表示的虚拟网络流量状态为当前硬件所处的状态。

举例来说,在进行预测cpu利用率、可用内存、可用硬盘等资源时,如果想预测cpu利用率,可以采集cpu使用率数据,构建状态空间。例如,将cpu使用率10%以下定义为状态1,cpu使用率11%至20%下定义为状态2,以此类推,cpu使用率91%以上定义为10,这样cpu使用率状态空间为{1,2,3,4,5,6,7,8,9,10}。

或者构建可用内存状态空间时可以对可用内存数据进行分段,例如,将10g以下可用内存定义为状态1,11g至20g可用内存定义为状态2,以此类推。因为数据中心服务器可用内存数量是有上限的,所以状态空间也是有限的,假设数据中心可用内存上限对应的状态为n,则状态空间集合为{1,2,3,4,5,6,…,n}。

作为一个可选的实施方案,将所述三维预测转移空间作为三维转移空间,进一步预测后续添加实时核心数据集合后所有可能达成虚拟网络流量状态的概率,并表示在所述网络转移空间内,得到三维预测转移概率空间。

第四方面,本发明实施例还提供一种网络流量增量统计系统,其包括:

采集模块,用于实时获取并保存虚拟化网络网络模型的各个层级的数据包,所述数据包设有多个特征项,所述特征项包括时间;

计算模块,用于将所述数据包按照一个特征项对应一个维度的方式保存于高维度空间,并沿预设的模展开得到高阶矩阵;

提取模块,用于去除所述高阶矩阵中的重复以及错误数据后,还原至高维度空间得到实时核心数据集合;

存储模块,用于按时间顺序,沿着高维空间中的时间维度实时保存所述实时核心数据集合,得到高质量核心数据总集。

作为一个可选的实施方案,所述网络模型为tcp/ip四层参考模型,所述数据包采集自应用层、传输层、网络层以及网络接口层。

作为一个可选的实施方案,采集自所述应用层的数据包包括结构化数据、半结构化数据、非结构化数据。

作为一个可选的实施方案,所述特征项还包括:源mac地址、目标mac地址、源ip地址、目的ip地址、源端口、目标端口、虚拟网络功能标识符和虚拟网络流量数据内容。

作为一个可选的实施方案,其通过运行于虚拟机vm(virtualmachine)上的虚拟网络功能vnf(virtualizednetworkfunction)从虚拟网络环境中获取数据包。

作为一个可选的实施方案,通过hosvd(high-ordersingularvaluedecomposition,高阶奇异值分解)去除所述高阶矩阵中的重复以及错误数据.

第五方面,本发明实施例还提供一种基于第四方面所述统计系统的网络流量增量分析系统其包括:

对应模块,用于设置特征项与虚拟网络流量状态的对应关系;

取样模块,用于获取当前时刻和前一时刻的实时核心数据集合的虚拟网络流量状态;

分析模块,用于根据所述高质量核心数据总集中各个实时核心数据集合的虚拟网络流量状态,分析下一时刻的实时核心数据集合的虚拟网络流量状态及其概率。

第六方面,本发明实施例还提供一种基于第五方面所述的分析系统,其特征在于:

创建模块,用于以nfvc、nfvp、nfvn为维度建立三维转移空间,其中,nfvc代表当前时刻的实时核心数据集合的虚拟网络流量状态,nfvp代表前一时刻的实时核心数据集合的虚拟网络流量状态,nfvn代表下一时刻的实时核心数据集合的虚拟网络流量状态;

设置模块,用于设置当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,下一时刻的实时核心数据集合的虚拟网络流量状态为anx;

统计模块,用于统计三维转移空间内,虚拟网络流量状态从apx变化至acx最后变化至各种anx的概率p;

预测模块,用于将所述acx、apx和各个anx作为三维转移空间的坐标值,各个anx相应的p为acx、apx和各个anx在所述三维转移空间表示点的值,并表示于所述三维转移空间内,得到三维预测转移空间。

作为一个可选的实施方案,所述虚拟网络流量状态为所述高维度空间的至少一个区间。

作为一个可选的实施方案,所述虚拟网络流量状态为所述实时核心数据集合一个以上的特征项的数值/选项区间。

作为一个可选的实施方案,所述特征项还包括硬件使用参数,所述硬件使用参数包括cpu利用率、内存占用百分比,所述实时核心数据集合所表示的虚拟网络流量状态为当前硬件所处的状态。

作为一个可选的实施方案,其特征在于:将所述三维预测转移空间作为三维转移空间,进一步预测后续添加实时核心数据集合后所有可能达成虚拟网络流量状态的概率,并表示在所述网络转移空间内,得到三维预测转移概率空间。

与现有技术相比,本发明的优点在于:

(1)本发明网络流量增量统计方法以及系统首先获取的是当前虚拟化网络的网络模型的各个层级中的数据包,由于网络模型可能有多种架构,其层级也各不相同,如果仅仅设定具体数量的层级进行设定,则可能获取的数据不全、或者出现冗余数据,导致统计以及分析不再准确。进一步的,获取得到当前虚拟化网络的网络模型的各个成绩的数据包后,为数据包设置了多个特征项,并按照一个特征项对应一个维度的方式保存到了高维度空间中,实现较为缺乏实感的数据信息到具有实际量纲的空间量的转化。在转化完成后,进一步将空间量展开得到矩阵模式的数据,在矩阵中,能够更加清晰的看出数据中不符合规则、异常的数据,因此能够通过转化为矩阵去除数据包中重复或者错误的数据,使得数据更加优质、准确。在完成数据的“提纯”后,本发明按照时间的顺序对数据包进行保存,由于本发明针对网络流量的统计和分析,主要针对的是网络流量增量,即网络流量在时间上的变化,因此,将数据以时间的顺序进行保存是的整个高质量核心数据总集是按照时间顺序扩展的,方便了后续整理、分析依照时间参数进行。

(2)本发明网络流量增量分析方法及系统首先对数据包的特征项进行分类,即设置特征项与虚拟网络流量状态的对应关系,如设置某个网络端口流量0-10m/s为“低速”状态,10-20m/s为“中速”状态,20-100m/s为“高速”状态。分析时候通过当前状态来分析,对于实质改变不大的数据不会出现不同的分析方案,如对1.01m/s和1.02m/s,均按照低速状态处理。而当需要进行细节处理时候,分类可以更加细致,直至满足需求,同时节省了计算资源。在知道高质量核心数据总集内的各个实时核心数据所表示的虚拟网络流量状态的已经发生的变化后,即可以分析历史趋势,并分析下一时刻的实时核心数据集合的虚拟网络流量状态及其概率。

附图说明

图1为实施例的步骤流程图;

图2为实施例中采集数据的结构示意图;

图3为实施例网络数据转化为高维空间数据的示意图;

图4为实施例沿着高维空间中的时间维度实时保存所述实时核心数据集合得到高质量核心数据总集的示意图;

图5为另一实施例的步骤流程图;

图6为另一实施例的步骤流程图;

图7为实施例建立三维转移空间的示意图;

图8为实施例的结构示意图;

图9为另一实施例的结构示意图;

图10为另一实施例的结构示意图;

图中:1-采集模块,2-计算模块,3-提取模块,4-存储模块,5-对应模块,6-取样模块,7-分析模块,8-创建模块,9-设置模块,10-统计模块,11-预测模块。

具体实施方式

以下结合附图对本发明的实施例作进一步详细说明。

本发明实施例提供一种网络流量增量统计、分析方法及系统,其能够实现网络功能虚拟化环境下的网络流量实时采集和增量式存储,构建高维度空间和转移空间模型,并通过增量方法进行分析。

为了更好的理解技术方案,下面结合具体实施方式进行详细的说明。

实施例一

如图1所示,本发明实施例提供一种网络流量增量统计方法,其包括:

s1:实时获取并保存虚拟化网络网络模型的各个层级的数据包,所述数据包设有多个特征项,所述特征项包括时间。

需要对虚拟化网络的网络流量分析,那么首先需要对虚拟化网络的各个数据进行采集,如果采集的各个要素不全,那么就相当于遗漏一部分的影响因子,在要素不全的情况下,进行数据分析是不客观且不准确的。因此,本发明首先以虚拟化网络的网络模型作为提取对象,网络的传输是离不开其网络模型的,计算机网络是指由通信线路互相连接的许多自主工作的计算机构成的集合体,而各个部件之间以何种规则进行通信,就是网络模型研究的问题。网络模型一般是指osi七层参考模型和tcp/ip四层参考模型。网络流量的建立和变化是离不开网络模型的,因此根据虚拟化网络中网络模型的层级来采集数据包是十分全面而没有遗失的。

此外,网络流量模型中包含有三个要素:一是表征系统组成元素的节点。二是体现各组成元素之间关系的箭线(有时是边)。三是在网络中流动的流量,它一方面反映了元素间的量化关系,同时也决定着网络模型优化的目标与方向。本发明针对网络流量增量进行统计分析时候,网络模型中的这三个要素也是必不可少的,因此针对网络模型进行数据包的采集能够更加获取更加全面的种类的数据。

作为一个优选的实施方案,其虚拟化网络网络模型为传统的tcp/ip四层参考模型,而数据包采集自应用层、传输层、网络层以及网络接口层。其中采集自所述应用层的数据包包括结构化数据、半结构化数据、非结构化数据。对于结构化数据存储在云平台或分布式计算环境中,并根据实际应用需求存储在数据库或者文件中。对于半结构化数据和非结构化数据。在云平台或分布式计算环境中以文件形式表示,并将关键检索信息进行提取分析,以便于后续快速灵活检索。本发明提供增量分析器,将增量采集到的网络流量数据包分配到各个对应的存储空间中,并与历史网络数据包进行合并,同时更新各类数据的检索并键数据。

作为一个可选的实施方案,如图2所示,实时获取并保存虚拟化网络网络模型的各个层级的数据包,是通过运行于虚拟机vm(virtualmachine)上的虚拟网络功能vnf(virtualizednetworkfunction)从虚拟网络环境中获取数据包。虚拟网络功能vnf(virtualizednetworkfunction)是一个软件包,运行于虚拟机vm之上,并与mano(managerandorchestration)交互,实现网络流量控制和转发。mano平台基于tosca(topologyandorchestrationspecificationforcloudapplication)模板实现对虚拟网络功能、虚拟部署单元、虚拟连接、网络连接点的描述,基于多向转发图fg(forwardinggraph)构建网络服务ns(networkservice)。多向转发图涵盖vnf、pnf(physicalnetworkfunction)、vl(virtuallink)、cp(connectionpoint),支持对虚拟网络功能转发路径的描述,支持对虚拟网络功能转发点的描述,实现虚拟网络功能结点到tosca模板结点的映射,以及到虚拟部署单元的分解,实现vdu(virtualdeploymentunit)到vm的映射。因此vnf能够很好采集数据包并上传。

在本实施方案中,在虚拟网络环境中,如现在较为流行的云环境中,设置采集管理器、vnf/存储系统以及增量分析器。采集管理器用于下发采集指令和参数,vnf在受到指令后按照参数进行实时采集数据,其存储系统存储vnf上传的虚拟网络流量数据,增量分析器则对新增及历史数据合成并存储。

s2:将所述数据包按照一个特征项对应一个维度的方式保存于高维度空间,并沿预设的模展开得到高阶矩阵。

如图3步骤①所示,设有特征项的数据包是趋向于数据的抽象的,直接进行分析则仅仅是通过一些算法对数据进行处理,这种处理是抽象的且可能是缺乏实际依据的。本发明则对数据进行建模,即将数据包按照一个特征项对应一个维度的方式保存在高维度空间,这样数据包不再仅仅是一系列堆积的数据,而是在高维空间中的各个坐标、区间。在完成数据包转化至高维空间的建模后,为了能够进一步处理,通过预设的模将该高维度空间进行展开得到高阶矩阵。

具体来说,以ascii形式将设有n个特征项的数据包表示在高维度空间中。定义的n维空间模型为其中i1,i2,i3,…,in表示n维空间的第一至第n阶。其中将n维空间沿着第p阶展开,得到的p模矩阵定义为其中p模矩阵的行数为ip,列数为(ip+1ip+2...i1i2...ip-1)。高维空间沿特定模展开得到的模展开矩阵,可以用于网络流量后续处理算法,例如分类、趋势预测、聚类算法等。

举例来说,一个9维空间定义为9维空间的9个阶分别表示为itim,ism,idm,isi,idi,isp,idp,ivi,icn代表时间time、源mac地址srcmac、目的mac地址dstmac、源ip地址srcip、目的ip地址dstip、源端口srcport、目的端口dstport、虚拟网络功能标识符vnfid、虚拟网络流量内容cnt。将这个9维空间沿第三阶展开得到的模3展开矩阵行数为i3,列数为i4i5i6i7i8i9i1i2。

s3:去除所述高阶矩阵中的重复以及错误数据后,还原至高维度空间得到实时核心数据集合。

如图3步骤②所示,在采样过程中,难免出现重复以及错误的数据,因此在当前的高阶矩阵中时存在不一致、重复、冗余的数据的,这些数据可能对分析工作造成不良影响甚至导致分析出错,因此,需要首先去除高阶矩阵中的重复以及错误数据后,才能够还原至高维度空间得到实时核心数据集合。进一步在高维空间上的核心集合上进行数据分析与挖掘,比直接在原始数据集上进行处理分析,效果更精确。

需要说明的是,高阶矩阵的去除重复不一致数据可以通过多种本领域技术人员已知的技术方案,如果对高阶矩阵使用hosvd(high-ordersingularvaluedecomposition高阶奇异值分解)高阶奇异值分解技术能够去除重复、冗余、不一致的低质量数据,得到高质量核心数据集。另外,卡尔曼滤波和回归方法可以消除噪音数据与不确定数据,实现时空数据清洗。基于概率统计方法,在一定置信度下删除异常数据或冗余数据,可以确保不会影响处理结果的有效性。模糊匹配技术通过设计相似度函数计算数据的近似程度,从而实现重复冗余数据的清洗。

s4:按时间顺序,沿着高维空间中的时间维度实时保存所述实时核心数据集合,得到高质量核心数据总集。

如图4所示,在对采集得到的实时数据处理得到高质量的实时核心数据集合,为了能够进行整体分析,需要逐个将实时核心数据集合存储到一起,供分析时候,作为整体使用。而虚拟网络流量数据的马氏性很强,即在时间维度联系是较大的,因此,将得到实时核心数据集合在高维空间中对应时间维度进行保存,得到高质量的核心数据总集。这样保存得到的高质量核心数据总集能够通过展开矩阵的最优基向量,并通过增量的方式利用新增虚拟网络流量数据不断更新左奇异向量空间,将新增非零元素投影到各个截断的单位正交基空间中,从而实现增量式网络流量优质数据提取与分析。

实施例二

如图5所示,本发明实施例提供一种网络流量增量分析方法,其基于实施例一种的网络流量统计方法,其在完成实施例一的统计方法后,进行如下步骤:

a1:设置特征项与虚拟网络流量状态的对应关系。

数据包的特征项可以是多个选项,也可以是一系列连续的数值,而虚拟网络的网络流量中的选项数值可能有十分多的选项,如果对每一个单一特征项的独特的数据进行分析,将需要巨量的计算资源。而实际分析可能并不需要如此高的精度,进而造成资源的浪费和成本的提升。

作为一个优选的实施方案,虚拟网络流量状态为所述高维度空间的至少一个区间。即高维度空间中部分特征项的某个区间进行组合形成一个虚拟网络流量状态,同一部分特征项的另一些区间组合形成另一个虚拟网络流量状态,并最终以多个虚拟网络流量状态划分上述的部分特征项。

本发明设置特征项与虚拟网络流量状态进行对应,设置某个网络端口流量0-10m/s为“低速”状态,10-20m/s为“中速”状态,20-100m/s为“高速”状态。在实际进行分析时候,数据5.01m/s、5.02m/s对后续的分析均为低速状态,分析时也只需要对三个状态量进行处理,十分方便快捷,而进行精细化分析,数据诸如5.01m/s、5.02m/s则作为不同的数据进行详细计算,对模糊分析并没有太大影响。而如果上述状态分类并不能满足要求时,还可以进一步详细的分类,直至达到分析的需求。这种对应提高了分析的效率以及计算成本。

进一步的,上述举例是对单个特征项的状态对应,如果涉及高维空间中的多个特征项的状态区分,传统的针对所有数据进行详细分析可能难以达成,而本发明则可以进一步的细分其他特征项状态,如除了流量特征项,还有端口特征项,对应状态时候可以:a端口以及b端口的流量0-10m/s,为“低速”状态,10-20m/s为“中速”状态,20-100m/s为“高速”状态,a端口流量0-10m/s,b端口流量10-20m/s为“低中速”状态等等。这样状态对应保证了不同特征项之间能够更加直观的联系,同时,在分析时候,状态的变更意味着多个特征项的变更,对状态的分析实际上就达成了对多个特征项的分析,而多个特征项作为一个状态进行统计是联系在一起的,分析的结果即可以表现当前虚拟网络流量状态的实际表示的内容,如对虚拟网络中各个硬件以特征项进行表述并对应不同的状态,在分析完毕后,即通过各个状态所表示的虚拟网络中硬件的负载、计算损耗大致变化,即可了解虚拟网络的硬件状态,更加效率,成本低,同时十分直观。除了硬件状态,还可以是网络流量、接口切换、报错等等虚拟网络的数据。

作为一个可选的实施方案,虚拟网络流量状态为实时核心数据集合一个以上的特征项的数值/选项区间。

除了数值区间外,特征项还有可能是选项,如端口a、b、c等等,只要是在高维度空间上一维度进行表征的区间即可。

a2:获取当前时刻和前一时刻的实时核心数据集合的虚拟网络流量状态。

对实时核心数据总集进行分析,即总结虚拟网络中前后的变化,在时间上,是存在先后的,因此,需要对实时核心数据中心行区分。将当前添加的实时核心数据集合作为当前时刻的实时核心数据集合,前一次添加的实时核心数据结合作为前一时刻的实时核心数据集合即可,其中的时刻的间隔既可以是1s、3min、6h、也可以是其他人为规定的时间,只需根据需要分析的变化时间间隔进行具体限定即可。

因此,在需要对当前虚拟网络流量状态进行预测时,首先需要获取预测时刻之前的关联较大的虚拟网络流量状态,即当前时刻、前一时刻的实时核心数据集合的虚拟网络流量状态。

a3:根据所述高质量核心数据总集中各个实时核心数据集合的虚拟网络流量状态,分析下一时刻的实时核心数据集合的虚拟网络流量状态及其概率。

在获取当前时刻、前一时刻的实时核心数据集合的虚拟网络流量状态,即知道了虚拟网络流量状态的初始条件,随后需要根据整个高质量核心数据总集中各个实时核心数据集合进行整体分析,得到状态的变化规律,并结合上述的初始条件,即可求取下一时刻网络流量的状态。如初始条件为虚拟网络的网络流量中硬件使用率状态为“高”“中”“低”,初始条件为,从“高”状态直接转化为“低”状态,经过对高质量核心数据总集的整体分析得出转化规律后,输入初始调节:其从高”状态直接转化为“低”状态后80%概率转化为“低”状态,15%状态转化为“中”状态,5%状态转化为“高”状态,即为下一时刻预测的预测结果。

下面以一个例子来进一步说明,以便于整体理解本方案。

当前网络流量处于9m/s至26m/s之间,设置特征项与网络流量状态的对应关系为:将9m/s至14m/s标识为状态10,15m/s至20m/s标识为状态17,21m/s至26m/s标识为状态23,因此当前虚拟网络流量状态空间包括10、17、23三个状态。

例如有一个虚拟网络流量状态序列,整个状态序列中出现以10为首三元序列的概率为2/9,也就是说出现(10,x,x)这种三元序列的概率为2/9,x取值为17、23;整个状态序列中出现以17为首三元序列的概率为3/9,也就是说出现(17,x,x)这种三元序列的概率为3/9,x取值为10、23;整个状态序列中出现以23为首三元序列的概率为4/9,也就是说出现(23,x,x)这种三元序列的概率为4/9,x取值为10、17。本实施例截取这个序列中间一段为(10,17,23,10,17,17,10,10,17,23,10,17,23,17,10,23,10,23,10,23,23),上边这个包含21个元素序列中,(10,x,x)这种三元序列有8个,分别为(10,17,23)、(10,17,17)、(10,10,17)、(10,17,23)、(10,17,23)、(10,23,10)、(10,23,10)、(10,23,23)。这8个三元序列中的第一个值10表示上一时刻状态为10,第二个值表示当前时刻状态,第三个值表示下一时刻状态。上述8个三元序列中,第二个值为10的只有第三个序列(10,10,17),表示上一时刻状态为10,当前时刻状态为10,下一时刻状态为17的概率为1。上述8个三元序列中,第二个值为17的有四个序列,分别为(10,17,23)、(10,17,17)、(10,17,23)、(10,17,23),表明上一时刻状态为10,当前时刻状态为17,下一时刻状态为17的概率为1/4。同理表明上一时刻状态为10,当前时刻状态为17,下一时刻状态为23的概率为3/4。根据上述8个三元序列,我们同样可以计算出上一时刻状态为10,当前时刻状态为23,下一时刻状态为10的概率为2/3。上一时刻状态为10,当前时刻状态为23,下一时刻状态为23的概率为1/3。

根据上述的方法,对整个虚拟网络流量状态序列进行统计,可以得到转移概率,为了便于阐述,本实施例假定转移概率如表1所示。表1最上边一行表示上一时刻三个状态,其中10(2/9)表示上一时刻状态10出现的概率为2/9,17(3/9)表示上一时刻状态17出现的概率为3/9,23(4/9)表示上一时刻状态23出现的概率为4/9。这个三状态的概率值之和为1。表1有12列,第1列、第5列、第9列表示当前状态。表1有5行,第2行表示下一状态。表1第3行第2、3、4列、第4行第2、3、4列、第5行第2、3、4列一共有9个状态转移概率,表示上一时刻状态为10时,当前时刻与下一时刻各状态值的转移概率。例如,表1第3行第3列的值为1,表示上一时刻状态为10,当前时刻状态为10,下一时刻状态为17的概率为1,同理,表1第4行第4列的值为3/4,表示上一时刻状态为10,当前时刻状态为17,下一时刻状态为23的概率为3/4。表1第3行第6、7、8列、第4行第6、7、8列、第5行第6、7、8列一共有9个状态转移概率,表示上一时刻状态为17时,当前时刻与下一时刻各状态值的转移概率。表1第3行第10、11、12列、第4行第10、11、12列、第5行第10、11、12列一共有9个状态转移概率,表示上一时刻状态为23时,当前时刻与下一时刻各状态值的转移概率。

表1

将表1第一行上一时刻状态值对应的概率与下边的转移概率值相乘,计算出三维空间转移概率值,如表2所示。表2中,第三行、第四行、第五行的转移概率之和都为1。例如,第三行转移概率为2/9,1/3,4/9,相加为1。

表2

而随着时间推移,初始的高质量核心数据总集中不断添加新的实时核心数据集合,各状态概率值发生改变。假设更新后状态10的概率从2/9减小为1/9,状态17的概率保持3/9不变,状态23的概率从4/9增大为5/9,当前状态和下一状态的状态转移概率保持不变(即沿用表1中3,4,5行的概率数据),则三维转移空间也同时增量更新。

表3为增量更新后的三维转移空间元素转移概率值:

表3

在统计出概率后,即可以对虚拟网络的流量状态进行预测:假如上一时刻网络流量状态为23,当前时刻网络流量状态为17,根据表4第4行第10、11、12列,可以得知,下一时刻网络流量状态为17的概率为5/36,为23的概率为15/36。因为概率大可能性就大,所以下一时该网络流量状态值最有可能为23,即网络流量在21m/s至26m/s之间。计算得出下一时刻网络流量状态后,可以接着计算下下时刻网络流量状态,根据表3第5行第6、7、8列,下下时刻网络流量最有可能为10,即网络流量在9m/s至14m/s之间。进一步的,对下下一时刻,可能的流量状态进行必要措施,以及灾害预防。

实施例三

如图6和图7所示,在实施例二的基础上,本发明实施例提供一种网络流量分析方法,其基于前述的网络流量分析方法,包括以下步骤:

b1:以nfvc、nfvp、nfvn为维度建立三维转移空间,其中,nfvc代表当前时刻的实时核心数据集合的虚拟网络流量状态,nfvp代表前一时刻的实时核心数据集合的虚拟网络流量状态,nfvn代表下一时刻的实时核心数据集合的虚拟网络流量状态。

为了更加直观的进行分析,建立三维转移空间,并以nfvc代表当前时刻的实时核心数据集合的虚拟网络流量状态,nfvp代表前一时刻的实时核心数据集合的虚拟网络流量状态,nfvn代表下一时刻的实时核心数据集合的虚拟网络流量状态。

高维度空间对于人来说,仍然过于抽象,而如果能将虚拟网络流量状态的变化通过三维空间进行表示,则将更加直观,同时低维度的数据将更加易于分析。使用当前时刻、前一时刻以及下一时刻的虚拟网络流量状态作为三维空间的的三个维度,其每一个维度均和时间是有关的,能够十分直观的表现虚拟网络的虚拟网络流量状态的变化。在进行分析时,对三个和时间有关的参数进行分析,能够更加体现实时核心数据集合随着时间的变化。

具体来说,特征项还包括硬件使用参数,所述硬件使用参数包括cpu利用率、内存占用百分比,所述实时核心数据集合所表示的虚拟网络流量状态为当前硬件所处的状态。

b2:设置当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,下一时刻的实时核心数据集合的虚拟网络流量状态为anx;

在预测下一虚拟网络流量状态时,首先获取当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,由于虚拟网络流量状态变化的多种多样,其下一时刻的实时核心数据集合的虚拟网络流量状态可能有多种均以anx来代表。

b3:统计三维转移空间内,虚拟网络流量状态从apx变化至acx最后变化至各种anx的概率p。

在创建三维转移空间后,高质量核心数据总集的所有实时核心数据集合的虚拟网络流量状态均表示于其中,其中包含有虚拟网络流量状态apx以及虚拟网络流量状态acx,此时可以统计下一时刻anx的种类以及变化次数,从而得到最后变化至各种anx的概率p。

b4:将所述acx、apx和各个anx作为三维转移空间的坐标值,各个anx相应的p为acx、apx和各个anx在所述三维转移空间表示点的值,并表示于所述三维转移空间内,得到三维预测转移空间。

在得到各种anx,acx、apx和各个anx也是可以表示到三维转移空间中的,但是该点并不是100%的实心点,而是所有点的概率加起来为100%的虚点,如果使用颜色的深浅来表示acx、apx和各个anx在三维转移空间的概率的话,那么则可以看到一块区域/线/至少两个点深浅不一,较为直观的体现了anx的可能概率,即下一时刻虚拟网络的虚拟网络流量状态的趋势,同时在将acx、apx和各个anx标识到三维转移空间后,其该三维空间中实际还包含预测的空间,即设为三维预测转移空间。

作为一个优选的实施方案,在得到各种anx的概率p,将概率p也作为高维空间中点所表示的值。

进一步的,将所述三维预测转移空间作为三维转移空间,进一步预测后续添加实时核心数据集合后所有可能达成虚拟网络流量状态的概率,并表示在所述网络转移空间内,得到三维预测转移概率空间。

在预测下一时刻,可能的虚拟网络状态以及概率后,进一步预测下下一时刻的可能的虚拟网络状态以及概率,能够更好的分析网络状态的变更,并提供虚拟网络状态预警,初始虚拟网络能够对应后续可能出现的较坏的状态进行合理的预防以及准备处理措施。

需要说明的是,上述网络转移空间除了三维转移空间,还包括四维转移空间、五维转移空间等。

三维转移空间包括三维预测转移空间;三维转移空间中的数据用于预测未来流量趋势,并在三维空间表示预测结果得到三维预测转移空间。三维转移空间中的数据用于统计分析历史流量特征,并在三维空间中表示统计结果得到三维统计转移空间。

三维预测转移空间包括三维预测转移概率空间。如果三维预测转移空间采用概率分析方法进行预测,并在三维空间中表示预测结果得到就是三维预测转移概率空间。三维预测转移空间也可以采用集合论中的逻辑推理方法进行预测,并在三维空间中表示预测结果得到三维预测转移推理空间。

实施例四

如图8所示,本发明实施例提供一种网络流量增量统计系统,其包括,采集模块1、计算模块2、提取模块3以及存储模块4:

采集模块1,用于实时获取并保存虚拟化网络网络模型的各个层级的数据包,所述数据包设有多个特征项,所述特征项包括时间。

采集模块1以虚拟化网络的网络模型作为提取对象,网络流量的建立和变化是离不开网络模型的,因此根据虚拟化网络中网络模型的层级来采集数据包是十分全面而没有遗失的。同时,网络流量模型中包含有三个要素:一是表征系统组成元素的节点。二是体现各组成元素之间关系的箭线(有时是边)。三是在网络中流动的流量,它一方面反映了元素间的量化关系,同时也决定着网络模型优化的目标与方向。因此针对网络模型进行数据包的采集能够更加获取更加全面的种类的数据。

作为一个优选的实施方案,虚拟化网络网络模型为传统的tcp/ip四层参考模型,而数据包采集自应用层、传输层、网络层以及网络接口层。其中采集自所述应用层的数据包包括结构化数据、半结构化数据、非结构化数据。对于结构化数据存储在云平台或分布式计算环境中,并根据实际应用需求存储在数据库或者文件中。对于半结构化数据和非结构化数据。在云平台或分布式计算环境中以文件形式表示,并将关键检索信息进行提取分析,以便于后续快速灵活检索。本发明提供增量分析器,将增量采集到的虚拟网络流量数据包分配到各个对应的存储空间中,并与历史网络数据包进行合并,同时更新各类数据的检索并键数据。

作为一个可选的实施方案,采集模块1通过运行于虚拟机vm(virtualmachine)上的虚拟网络功能vnf(virtualizednetworkfunction)从虚拟网络环境中获取数据包。虚拟网络功能vnf(virtualizednetworkfunction)是一个软件包,运行于虚拟机vm之上,并与mano(managerandorchestration)交互,实现网络流量控制和转发。mano平台基于tosca(topologyandorchestrationspecificationforcloudapplication)模板实现对虚拟网络功能、虚拟部署单元、虚拟连接、网络连接点的描述,基于多向转发图fg(forwardinggraph)构建网络服务ns(networkservice)。多向转发图涵盖vnf、pnf(physicalnetworkfunction)、vl(virtuallink)、cp(connectionpoint),支持对虚拟网络功能转发路径的描述,支持对虚拟网络功能转发点的描述,实现虚拟网络功能结点到tosca模板结点的映射,以及到虚拟部署单元的分解,实现vdu(virtualdeploymentunit)到vm的映射。因此vnf能够很好采集数据包并上传。

计算模块2,用于将所述数据包按照一个特征项对应一个维度的方式保存于高维度空间,并沿预设的模展开得到高阶矩阵。

计算模块2对获取的数据进行建模,即将数据包按照一个特征项对应一个维度的方式保存在高维度空间,这样数据包不在仅仅是一系列堆积的数据,而是在高维空间中的各个坐标、区间。在完成数据包转化至高维空间的建模后,为了能够进一步处理,通过预设的模将该高维度空间进行展开得到高阶矩阵。

具体来说,定义n维空间模型为其中i1,i2,i3,…,in表示n维空间的第一至第n阶。其中将n维空间沿着第p阶展开,得到的p模矩阵定义为其中p模矩阵的行数为ip,列数为(ip+1ip+2...i1i2...ip-1)。高维空间沿特定模展开得到的模展开矩阵,可以用于网络流量后续处理算法,例如分类、趋势预测、聚类算法等。

举例来说,一个9维空间定义为9维空间的9个阶分别表示为itim,ism,idm,isi,idi,isp,idp,ivi,icn代表时间time、源mac地址srcmac、目的mac地址dstmac、源ip地址srcip、目的ip地址dstip、源端口srcport、目的端口dstport、虚拟网络功能标识符vnfid、虚拟网络流量内容cnt。将这个9维空间沿第三阶展开得到的模3展开矩阵行数为i3,列数为i4i5i6i7i8i9i1i2。

提取模块3,用于去除所述高阶矩阵中的重复以及错误数据后,还原至高维度空间得到实时核心数据集合。

提取模块3去除高阶矩阵中的重复以及错误数据后,才能够还原至高维度空间得到实时核心数据集合。进一步在高维空间上的核心集合上进行数据分析与挖掘,比直接在原始数据集上进行处理分析,效果更精确。

需要说明的是,高阶矩阵的去除重复不一致数据可以通过多种本领域技术人员已知的技术方案,如果对高阶矩阵使用hosvd(high-ordersingularvaluedecomposition高阶奇异值分解)

存储模块4,用于按时间顺序,沿着高维空间中的时间维度实时保存所述实时核心数据集合,得到高质量核心数据总集。

在对采集得到的实时数据处理得到高质量的实时核心数据集合,为了能够进行整体分析,需要逐个将实时核心数据集合存储到一起,供分析时候,作为整体使用。而虚拟网络流量数据的马氏性很强,即在时间维度联系是较大的,因此,存储模块4将得到实时核心数据集合在高维空间中对应时间维度进行保存,得到高质量的核心数据总集。这样保存得到的高质量核心数据总集能够通过展开矩阵的最优基向量,并通过增量的方式利用新增虚拟网络流量数据不断更新左奇异向量空间,将新增非零元素投影到各个截断的单位正交基空间中,从而实现增量式网络流量优质数据提取与分析。

实施例五

如图9所示,本发明实施例提供一种基于实施例四的网络流量增量分析系统,其包括对应模块5、采集模块6以及分析模块7:

对应模块5,用于设置特征项与虚拟网络流量状态的对应关系。

对应模块5可以进一步的细分其他特征项的状态,如除了流量特征项,还有端口特征项,状态对应保证了不同特征项之间能够更加直观的联系,同时,在分析时候,状态的变更意味着多个特征项的变更,对状态的分析实际上就达成了对多个特征项的分析,而多个特征项作为一个状态进行统计是联系在一起的,分析的结果即可以表现当前虚拟网络流量状态的实际表示的内容,如对虚拟网络中各个硬件以特征项进行表述并对应不同的状态,在分析完毕后,即通过各个状态所表示的虚拟网络中硬件的负载、计算损耗大致变化,即可了解虚拟网络的硬件状态,更加效率,成本低,同时十分直观。除了硬件状态,还可以是网络流量、接口切换、报错等等虚拟网络的数据。

作为一个可选的实施方案,虚拟网络流量状态为实时核心数据集合一个以上的特征项的数值/选项区间。

除了数值区间外,特征项还有可能是选项,如端口a、b、c等等,只要是在高维度空间上一维度进行表征的区间即可。

取样模块6,用于获取当前时刻和前一时刻的实时核心数据集合的虚拟网络流量状态。

取样模块6首先需要获取预测时刻之前的关联较大的虚拟网络流量状态,即当前时刻、前一时刻的实时核心数据集合的虚拟网络流量状态。供后续步骤使用。

需要说明的是,对实时核心数据总集进行分析,即总结虚拟网络中前后的变化,在时间上,是存在先后的,因此,需要对实时核心数据中心进行区分。将当前添加的实时核心数据集合作为当前时刻的实时核心数据集合,前一次添加的实时核心数据结合作为前一时刻的实时核心数据集合即可,其中的时刻的间隔既可以是1s、3min、6h、也可以是其他人为规定的时间,只需根据需要分析的变化时间间隔进行具体限定即可。

分析模块7,用于根据所述高质量核心数据总集中各个实时核心数据集合的虚拟网络流量状态,分析下一时刻的实时核心数据集合的虚拟网络流量状态及其概率。

在获取当前时刻、前一时刻的实时核心数据集合的虚拟网络流量状态,即知道了虚拟网络流量状态的初始条件,分析模块7根据整个高质量核心数据总集中各个实时核心数据集合进行整体分析,得到状态的变化规律,并结合上述的初始条件,即可求取下一时刻网络流量的状态。

实施例六

如图10所示,本发明实施例提供一种基于实施例五的网络流量增量分析系统,其包括创建模块8、设置模块9、统计模块10以及分析模块11:

创建模块8,用于以nfvc、nfvp、nfvn为维度建立三维转移空间,其中,nfvc代表当前时刻的实时核心数据集合的虚拟网络流量状态,nfvp代表前一时刻的实时核心数据集合的虚拟网络流量状态,nfvn代表下一时刻的实时核心数据集合的虚拟网络流量状态。

创建模块8使用当前时刻、前一时刻以及下一时刻的虚拟网络流量状态作为三维空间的的三个维度,其每一个维度均和时间是有关的,能够十分直观的表现虚拟网络的虚拟网络流量状态的变化。在进行分析时,对三个和时间有关的参数进行分析,能够更加体现实时核心数据集合随着时间的变化。

具体来说,特征项还包括硬件使用参数,所述硬件使用参数包括cpu利用率、内存占用百分比,所述实时核心数据集合所表示的虚拟网络流量状态为当前硬件所处的状态。

设置模块9,用于设置当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,下一时刻的实时核心数据集合的虚拟网络流量状态为anx。

在预测下一虚拟网络流量状态时,设置模块9需要获取当前时刻的实时核心数据集合的虚拟网络流量状态为acx,前一时刻的实时核心数据集合的虚拟网络流量状态为apx,由于虚拟网络流量状态变化的多种多样,其下一时刻的实时核心数据集合的虚拟网络流量状态可能有多种均以anx来代表。

统计模块10,用于统计三维转移空间内,虚拟网络流量状态从apx变化至acx最后变化至各种anx的概率p。

在创建三维转移空间后,高质量核心数据总集的所有实时核心数据集合的虚拟网络流量状态均表示于其中,其中包含有虚拟网络流量状态apx以及虚拟网络流量状态acx,此时统计模块10可以统计下一时刻anx的种类以及变化次数,从而得到最后变化至各种anx的概率p。

预测模块11,用于将所述acx、apx和各个anx作为三维转移空间的坐标值,各个anx相应的p为acx、apx和各个anx在所述三维转移空间表示点的值,并表示于所述三维转移空间内,得到三维预测转移空间。

在得到各种anx,acx、apx和各个anx也是可以表示到三维转移空间中的,但是该点并不是100%的实心点,而是所有点的概率加起来为100%的虚点,如果使用颜色的深浅来表示acx、apx和各个anx在三维转移空间的概率的话,那么则可以看到一块区域/线/至少两个点深浅不一,较为直观的体现了anx的可能概率,即下一时刻虚拟网络的虚拟网络流量状态的趋势,同时在将acx、apx和各个anx标识到三维转移空间后,其该三维空间中实际还包含预测的空间,即设为三维预测转移空间。

作为一个优选的实施方案,在得到各种anx的概率p,将概率p也作为高维空间中点所表示的值。

进一步的,将所述三维预测转移空间作为三维转移空间,网络流量增量分析系统进一步预测后续添加实时核心数据集合后所有可能达成虚拟网络流量状态的概率,并表示在所述网络转移空间内,得到三维预测转移概率空间。

在预测下一时刻,可能的虚拟网络状态以及概率后,网络流量增量分析系统进一步预测下下一时刻的可能的虚拟网络状态以及概率,能够更好的分析网络状态的变更,并提供虚拟网络状态预警,初始虚拟网络能够对应后续可能出现的较坏的状态进行合理的预防以及准备处理措施。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。本发明不仅局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本发明相同或相近似的技术方案,均在其保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1