模型构建方法、装置、设备及存储介质与流程

文档序号:25361807发布日期:2021-06-08 15:43阅读:119来源:国知局
模型构建方法、装置、设备及存储介质与流程

1.本申请涉及网络流量预测领域,尤其涉及一种模型构建方法、装置、设备及存储介质。


背景技术:

2.网络流量预测可以为网络管理、设计等提供良好的支撑。传统的网络流量预测模型中,例如泊松模型等,只能表现出短相关性,导致理论与实际之间存在较大偏差。为减小偏差,相关技术中,采用自相似流量预测模型进行网络流量的预测,该自相似流量预测模型主要是以采集的网络流量序列为样本进行统计预测,但是,所构建的自相似流量预测模型可能并不符合所预测的网络流量序列的特点,导致不能对网络流量进行高精度的准确预测。


技术实现要素:

3.本申请的目的是提供一种模型构建方法、装置、设备及存储介质,以解决相关技术中不能对网络流量进行高精度的准确预测的问题。
4.本申请的目的是通过以下技术方案实现的:
5.第一方面,本申请实施例提供一种模型构建方法,包括:
6.获取采样得到的网络流量序列;
7.对网络流量序列进行特性分析,得到特性分析结果;
8.从多个模型类型中,确定与特性分析结果相匹配的目标模型类型;
9.基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流量预测模型。
10.在一种实施方式中,对网络流量序列进行特性分析,包括:
11.对网络流量序列进行自相关特性分析。
12.在一种实施方式中,对网络流量序列进行自相关特性分析,包括:
13.对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数p,计算滞后p阶的自相关系数,并分析当前计算出的自相关系数是否满足p阶截尾或者p阶拖尾,当分析出自相关系数满足p阶截尾或者p阶拖尾时,停止选择当前滞后的阶数;
14.对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数q,计算滞后q阶的偏相关系数,并分析当前计算出的偏相关系数是否满足q阶截尾或者q阶拖尾,当分析出偏相关系数满足q阶截尾或者q阶拖尾时,停止选择滞后的阶数;
15.其中,网络流量序列包括n个时刻的网络流量样本,p和q的取值为1至n中的正整数。
16.在一种实施方式中,多个模型类型包括自回归模型ar、移动平均ma和自回归移动平均模型arma;
17.从多个模型类型中,确定与特性分析结果相匹配的目标模型类型,包括:
18.若自相关系数满足p阶拖尾且偏相关系数满足q阶截尾,确定目标模型类型为ar;
19.若自相关系数满足p阶截尾且偏相关系数满足q阶拖尾,确定目标模型类型为ma;
20.若自相关系数满足p阶拖尾且偏相关系数满足q阶拖尾,确定目标模型类型为arma。
21.在一种实施方式中,基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流量预测模型,包括:
22.若目标模型类型为ar,将拖尾的阶数p作为初始阶数,构建初始模型ar(p),并针对ar(p),基于网络流量序列进行参数估计,得到网络流量预测模型;
23.若目标模型类型为ma,将拖尾的阶数q作为初始阶数,构建初始模型ma(q),并针对ma(q),基于网络流量序列进行参数估计,得到网络流量预测模型;
24.若目标模型类型为arma,将拖尾的阶数p和阶数q作为初始阶数,构建初始模型arma(p,q),并针对arma(p,q),基于网络流量序列进行参数估计,得到网络流量预测模型。
25.在一种实施方式中,进行参数估计的步骤至少包括如下阶数估计的步骤:
26.从初始阶数开始,逐渐增大阶数,基于当前阶数对应的子序列,得到预设准则函数的取值,直至基于已得到的预设准则函数的取值确定出准则函数的极小值;
27.将准则函数的极小值对应的阶数作为估计得到的阶数。
28.在一种实施方式中,还包括:
29.对网络流量预测模型进行检验,以基于检验结果,优化网络流量预测模型。
30.在一种实施方式中,还包括:
31.利用网络流量预测模型,进行网络流量预测。
32.第二方面,本申请实施例提供一种模型构建装置,包括:
33.获取模块,用于获取采样得到的网络流量序列;
34.分析模块,用于对网络流量序列进行特性分析,得到特性分析结果;
35.确定模块,用于从多个模型类型中,确定与特性分析结果相匹配的目标模型类型;
36.构建模块,用于基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流量预测模型。
37.在一种实施方式中,分析模块,具体用于:
38.对网络流量序列进行自相关特性分析。
39.在一种实施方式中,分析模块,具体用于:
40.对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数p,计算滞后p阶的自相关系数,并分析当前计算出的自相关系数是否满足p阶截尾或者p阶拖尾,当分析出自相关系数满足p阶截尾或者p阶拖尾时,停止选择当前滞后的阶数;
41.对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数q,计算滞后q阶的偏相关系数,并分析当前计算出的偏相关系数是否满足q阶截尾或者q阶拖尾,当分析出偏相关系数满足q阶截尾或者q阶拖尾时,停止选择滞后的阶数;
42.其中,网络流量序列包括n个时刻的网络流量样本,p和q的取值为1至n中的正整数。
43.在一种实施方式中,多个模型类型包括自回归模型ar、移动平均ma和自回归移动平均模型arma;
44.确定模块,具体用于:
45.若自相关系数满足p阶拖尾且偏相关系数满足q阶截尾,确定目标模型类型为ar;
46.若自相关系数满足p阶截尾且偏相关系数满足q阶拖尾,确定目标模型类型为ma;
47.若自相关系数满足p阶拖尾且偏相关系数满足q阶拖尾,确定目标模型类型为arma。
48.在一种实施方式中,构建模块,具体用于:
49.若目标模型类型为ar,将拖尾的阶数p作为初始阶数,构建初始模型ar(p),并针对ar(p),基于网络流量序列进行参数估计,得到网络流量预测模型;
50.若目标模型类型为ma,将拖尾的阶数q作为初始阶数,构建初始模型ma(q),并针对ma(q),基于网络流量序列进行参数估计,得到网络流量预测模型;
51.若目标模型类型为arma,将拖尾的阶数p和阶数q作为初始阶数,构建初始模型arma(p,q),并针对arma(p,q),基于网络流量序列进行参数估计,得到网络流量预测模型。
52.在一种实施方式中,构建模块,具体用于:
53.从初始阶数开始,逐渐增大阶数,基于当前阶数对应的子序列,得到预设准则函数的取值,直至基于已得到的预设准则函数的取值确定出准则函数的极小值;
54.将准则函数的极小值对应的阶数作为估计得到的阶数。
55.在一种实施方式中,还包括检验模块,用于:
56.对网络流量预测模型进行检验,以基于检验结果,优化网络流量预测模型。
57.在一种实施方式中,还包括预测模块,用于:
58.利用网络流量预测模型,进行网络流量预测。
59.第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,该处理器执行所述计算机程序时实现如第一方面任一的方法。
60.第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一的方法。
61.上述技术方案中的优点或有益效果至少包括:通过对采样的网络流量序列进行特性分析,从多个模型类型中确定与特性分析结果相匹配的目标模型类型,基于网络流量序列和特性分析结果,构建与该目标模型类型对应的网络流量预测模型,能够构建符合网络流量序列的特性的网络流量预测模型,构建的网络流量模型更准确,为高精度的准确预测网络流量奠定了基础。
62.上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
63.为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
64.图1是本申请实施例提供的一种模型构建方法的流程图;
65.图2是本申请实施例提供的一种模型构建方法的流程图;
66.图3是本申请实施例提供的一种模型构建方法的流程图;
67.图4是本申请实施例提供的一种模型构建装置的结构示意图;
68.图5是本申请实施例提供的一种模型构建装置的结构示意图;
69.图6是本申请实施例提供的一种模型构建装置的结构示意图;
70.图7是本申请实施例提供的用来实现模型构建方法的电子设备的结构示意图。
具体实施方式
71.下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
72.图1是本申请实施例提供的一种模型构建方法的流程图。如图1所示,该模型构建方法至少包括如下步骤:
73.步骤101、获取采样得到的网络流量序列。
74.网络流量序列是包括多个网络流量样本的时间序列。在构建网络流量预测模型前,可以对一定时间的网络流量进行采样,采集每个时刻的网络流量数据,并记录下来。之后,可以对每个时刻的网络流量数据的全部数据进行预处理得到网络流量序列。也可以对每个时刻的网络流量数据的设定数据进行预处理得到网络流量序列。这里,设定数据可以为请求数据或者回复数据等等。通过过滤得到设定数据,以形成网络流量序列,使得构建网络流量预测模型的基础更准确,为提高预测精度奠定了基础。
75.实际应用中,可以将网络流量速度作为网络流量样本。也即,网络流量序列为每个时刻的网络流量速度形成的序列。预处理时,具体的,可以利用每个时刻的网络流量数据的全部数据计算网络流量速度,基于每个时刻的网络流量速度形成网络流量序列。也可以对每个时刻的网络流量数据过滤(例如ip过滤、数据包过滤等等)得到设定数据,利用每个时刻的网络流量数据的设定数据计算网络流量速度,基于每个时刻的网络流量速度形成网络流量序列。
76.步骤102、对网络流量序列进行特性分析,得到特性分析结果。
77.本步骤中,主要对影响网络流量预测模型的预测精度的特性进行分析。
78.步骤103、从多个模型类型中,确定与特性分析结果相匹配的目标模型类型。
79.由于网络流量序列是时间序列,时间序列预测就是根据这个采集到的有限序列,去推断产生这个有限序列的原始序列的性质,要准确的找到原始的序列是比较困难的,因此,可以寻找一个与有限序列的各种特征基本上相符合的预测模型来替代原始序列。这个过程就是对预测模型进行模型识别和参数估计。模型识别也即对待构建的预测模型进行判断,可以用哪种模型来预测。通过本步骤中确定与特性分析结果相匹配的目标模型类型,可以准确的识别出符合的模型。
80.实际应用中,可以根据实际情况设置多个模型类型,以满足不同特性的匹配需求。
81.步骤104、基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流
量预测模型。
82.本方案中,通过对采样的网络流量序列进行特性分析,从多个模型类型中确定与特性分析结果相匹配的目标模型类型,基于网络流量序列和特性分析结果,构建与该目标模型类型对应的网络流量预测模型,能够构建符合网络流量序列的特性的网络流量预测模型,构建的网络流量模型更准确,为高精度的准确预测网络流量奠定了基础。
83.自相关特性是时间序列的一个重要特性。基于此,在一种实施方式中,步骤102中,对网络流量序列进行特性分析,具体实现方式可以包括:对网络流量序列进行自相关特性分析。相应的,以上特性分析结果包括自相关特性分析结果。确定与特性分析结果相匹配的目标模型类型时,可以确定出与自相关特性分析结果相匹配的目标模型类型。如此,能够构建符合网络流量序列的自相关特性的网络流量预测模型,进一步提高了构建模型的准确性。
84.自相关特性可以包括自相关系数的拖尾特性和截尾特性,以及偏相关系数的拖尾特性和截尾特性。自相关系数和偏相关系数都是统计概念,是可以反映变量之间相关程度的统计指标,但是两者表现的具体变量之间的关系不同。
85.自相关系数是当研究一个变量受另一个变量影响时,若同时考虑其它变量的影响,此时分析变量之间的相关程度称为自相关系数。自相关系数可以通过自相关函数(acf,autocorrelation function)来计算。自相关函数用来度量时间序列中两个不同时期的观测值之间的相关程度,也即时刻t与过去k个时间单位的时刻t

k的观测值之间的相关程度,但是也考虑二者之间的观测值的影响。其中,k称为滞后的阶数。acf的公式如下:
[0086][0087]
其中,acf(k)表示滞后k阶的自相关系数,z
t
表示时间序列t时刻的值,z
t

k
表示时间序列t

k时刻的值,表示时间序列的样本均值,n表示时间序列的序列长度。
[0088]
偏相关系数是当研究一个变量受另一个变量影响时,其它的影响变量要视作常数,即暂时不考虑其它因素影响,单独考虑这两个变量的相关程度,也即仅考虑时刻t与过去k个时间单位的时刻t

k的观测值之间的相关程度。偏相关系数可以通过偏相关函数(pacf,partial autocorrelation function)来计算。pacf的公式如下:
[0089][0090]
其中,pacf(k)表示滞后k阶的偏相关系数,z
t
表示时间序列t时刻的值,z
t

k
表示时间序列t

k时刻的值,e表示时间序列的期望值。期望值的计算方式可以参考相关技术,此处不做赘述。
[0091]
截尾是指时间序列的acf或pacf在某阶后均为0的性质,在大于某个常数k后快速趋于0,称为k阶截尾。而拖尾是acf或pacf并不在某阶后均为0的性质,始终有非0取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动),称为k阶拖尾。
[0092]
其中,截尾条件包括:
[0093]
第一条件:滞后k阶的自相关系数(或偏相关系数)大于第一阈值。该第一阈值可以是根据网络流量序列的标准差确定的。该第一阈值至少为2倍的网络流量序列的标准差。第
一阈值的具体值可以根据实际情况设置。因为截尾的情况下,在最初的p阶会明显比较大,所以满足这个条件,可能是截尾。
[0094]
第二条件:滞后1阶至k阶的自相关系数(或偏相关系数)中超过第一百分比的自相关系数(或偏相关系数)小于或者等于第一阈值。其中,第一百分比的取值范围可以为95%
±
3%。第一百分比的具体值可以根据实际情况设置。例如,当前滞后20阶,若滞后1阶到滞后20阶的20个自相关系数(或偏相关系数)中,有超过95%的自相关系数(或偏相关系数)小于或者等于第一阈值,则认为满足第二条件,有可能是截尾。
[0095]
第三条件:滞后k阶的自相关系数(或偏相关系数)与滞后k

1阶的自相关系数(或偏相关系数)的差值大于第一差值。第一差值的具体值可以根据实际情况设置。满足第三条件时,说明由非0自相关系数衰减为在0附近小值波动的过程非常突然,有可能是截尾。
[0096]
当滞后k阶的自相关系数(或偏相关系数)同时满足以上三个条件时,认为满足k阶截尾。
[0097]
其中,拖尾条件包括:
[0098]
第四条件:滞后1阶至k阶的自相关系数(或偏相关系数)中超过第二百分比的自相关系数(或偏相关系数)大于第一阈值。其中,第二百分比的取值范围可以为5%
±
3%。第二百分比的具体值可以根据实际情况设置。例如,如果有超过5%的自相关系数(或偏相关系数)都落入2倍标准差范围之外,说明满足第四条件,满足拖尾的特性。
[0099]
第五条件:滞后k阶的自相关系数(或偏相关系数)小于第二阈值,且滞后k阶的自相关系数(或偏相关系数)与滞后k

1阶的自相关系数(或偏相关系数)的差值小于第二差值。第二阈值和第二差值的具体值可以根据实际情况设置。若满足条件,此时,认为由显著非0的自相关系数(或偏相关系数)衰减为小值波动的过程比较缓慢或非常连续,满足拖尾的特性。
[0100]
只要滞后k阶的自相关系数(或偏相关系数)满足以上第四条件和第五条件的其中一个,就认为满足k阶截尾。
[0101]
基于此,在一种实施方式中,对网络流量序列进行自相关特性分析,如图2所示,具体实现方式可以包括:
[0102]
步骤201、对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数p,计算滞后p阶的自相关系数,并分析当前计算出的自相关系数是否满足p阶截尾或者p阶拖尾,当分析出自相关系数满足p阶截尾或者p阶拖尾时,停止选择当前滞后的阶数。
[0103]
其中,网络流量序列包括n个时刻的网络流量样本,p的取值为1至n中的正整数。
[0104]
本步骤中,针对选择的每个滞后的阶数p,首先,基于以上acf的公式(1),计算滞后p阶的自相关系数,其中,k的取值为p,之后,判断当前计算出的自相关系数是否满足以上截尾条件或者拖尾条件,若满足拖尾条件,则确定自相关系数满足p阶拖尾,若满足截尾条件,则确定自相关系数满足p阶截尾,若均不满足拖尾条件和截尾条件,则继续选择下一个滞后的阶数。
[0105]
举例来说,选择当前滞后的阶数为1阶,计算滞后1阶的自相关系数,并分析当前计算出的自相关系数是否满足1阶截尾或者1阶拖尾,如果满足1阶截尾或者1阶拖尾,停止选择当前滞后的阶数,如果不满足,继续选择当前滞后的阶数为2阶,计算滞后2阶的自相关系数,并分析当前计算出的自相关系数是否满足2阶截尾或者2阶拖尾,如果满足2阶截尾或者
2阶拖尾,停止选择滞后的阶数,如果不满足,继续选择当前滞后的阶数为3阶,如此循环。
[0106]
步骤202、对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数q,计算滞后q阶的偏相关系数,并分析当前计算出的偏相关系数是否满足q阶截尾或者q阶拖尾,当分析出偏相关系数满足q阶截尾或者q阶拖尾时,停止选择滞后的阶数。这里,q的取值为1至n中的正整数。
[0107]
本步骤中,针对选择的每个滞后的阶数q,首先,基于以上pacf的公式(2),计算滞后q阶的偏相关系数,其中,k的取值为q,之后,判断当前计算出的偏相关系数是否满足以上截尾条件或者拖尾条件,若满足拖尾条件,则确定偏相关系数满足q阶拖尾,若满足截尾条件,则确定偏相关系数满足q阶截尾,若均不满足拖尾条件和截尾条件,则继续选择下一个滞后的阶数。
[0108]
举例来说,选择当前滞后的阶数为1阶,计算滞后1阶的偏相关系数,并分析当前计算出的偏相关系数是否满足1阶截尾或者1阶拖尾,如果满足1阶截尾或者1阶拖尾,停止选择当前滞后的阶数,如果不满足,继续选择当前滞后的阶数为2阶,计算滞后2阶的偏相关系数,并分析当前计算出的偏相关系数是否满足2阶截尾或者2阶拖尾,如果满足2阶截尾或者2阶拖尾,停止选择滞后的阶数,如果不满足,继续选择当前滞后的阶数为3阶,如此循环。
[0109]
以上步骤201和步骤202的时序不做限定。
[0110]
本实施例中,可以对网络流量序列的拖尾特性和截尾特性进行准确的分析,以便后续准确匹配出相符合的模型。
[0111]
在一种实施方式中,多个模型类型包括自回归模型(ar,autoregressive model)、移动平均(ma,moving average)和自回归移动平均模型(arma,auto regressive moving average model)。
[0112]
ar模型,也是一种自相似模型,是统计上一种处理时间序列的方法,用同一变数的之前各期来预测本期的表现,并假设它们为一线性关系。因为这是从回归分析中的线性回归发展而来,是用自身的值来预测自身,所以叫做自回归,可以应用在经济学、信息学、自然现象的预测上。ar模型的特点是acf拖尾,pacf截尾。
[0113]
ma模型是利用移动平均法对既往数据进行采样分析,搭建的数据预测模型。移动平均法是用一组最近的实际数据值来预测未来一段时间内数据变化趋势的一种方法,可以用于即期预测等,能有效地消除预测中的随机波动。根据预测时使用的各数据值的权重不同,移动平均法可以分为简单移动平均和加权移动平均。ma模型的特点是acf截尾,pacf拖尾。
[0114]
arma模型是模型参量法高分辨率谱分析方法之一,是研究平稳随机过程有理谱的典型方法,适用于很多实际问题,比ar模型与ma模型有较精确的谱估计及较优良的谱分辨率性能,但其参数估计比较繁琐。arma模型的参数估计的方法很多。如果模型的输入序列与输出序列均能被测量时,则可以用最小二乘法进行参数估计,这种估计是线性估计,模型参数能以足够的精度估计出来。许多谱估计中,仅能得到模型的输出序列,这时,参数估计是非线性的,难以求得准确的参数。从理论上推出了一些arma模型的参数的最佳估计方法,但它们存在计算量大和不能保证收敛的缺点。为此,可以采用次最佳方法,即分别估计ar和ma的参数,而不像最佳参数估计中那样同时估计ar和ma的参数,从而使计算量大大减少。ar模型和ma模型也作为模型参量法高分辨率谱分析方法,是现代谱估计中常用的模型。基于此,
在arma谱估计中,大多数arma的参数估计包括:首先进行ar模型的参数估计,然后在估计的ar模型的参数基础上,再进行ma模型的参数估计,基于此,进行arma的参数估计。arma模型的特点是acf拖尾,pacf拖尾。
[0115]
以上三种模型都可以用于构建网络流量预测模型。基于此,从多个模型类型中,确定与特性分析结果相匹配的目标模型类型,其具体实现方式可以包括:若自相关系数满足p阶拖尾且偏相关系数满足q阶截尾,确定目标模型类型为ar。若自相关系数满足p阶截尾且偏相关系数满足q阶拖尾,确定目标模型类型为ma。若自相关系数满足p阶拖尾且偏相关系数满足q阶拖尾,确定目标模型类型为arma。
[0116]
由于ar模型的特点是acf拖尾,pacf截尾,所以,当分析出自相关系数满足p阶拖尾且偏相关系数满足q阶截尾时,说明网络流量序列的特性与ar模型的特点相符合,适合用ar模型来描述。由于ma模型的特点是acf截尾,pacf拖尾,所以,当分析出自相关系数满足p阶截尾且偏相关系数满足q阶拖尾时,说明网络流量序列的特性与ma模型的特点相符合,适合用ma模型来描述。由于arma模型的特点是acf拖尾,pacf拖尾,所以,当分析出自相关系数满足p阶拖尾且偏相关系数满足q阶拖尾时,说明网络流量序列的特性与arma模型的特点相符合,适合用arma模型来描述。如此,针对不同的网络流量序列的特性,都确定出与之相符合的模型的类型,利于构建准确的网络流量预测模型。
[0117]
在一种实施方式中,基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流量预测模型,其具体实现方式可以包括:若目标模型类型为ar,将拖尾的阶数p作为初始阶数,构建初始模型ar(p),并针对ar(p),基于网络流量序列进行参数估计,得到网络流量预测模型。若目标模型类型为ma,将拖尾的阶数q作为初始阶数,构建初始模型ma(q),并针对ma(q),基于网络流量序列进行参数估计,得到网络流量预测模型。若目标模型类型为arma,将拖尾的阶数p和阶数q作为初始阶数,构建初始模型arma(p,q),并针对arma(p,q),基于网络流量序列进行参数估计,得到网络流量预测模型。
[0118]
由于在对网络流量序列的自相关特性进行分析的过程中,已经分析出了拖尾的阶数或者截尾的阶数,相当于完成了模型阶数的初估计,可以直接将分析出的拖尾的阶数或者截尾的阶数作为模型的初始阶数,在此基础上,再对模型进行精确的参数估计,如此,可以快速完成模型的构建。
[0119]
其中,进行参数估计的步骤至少包括如下阶数估计的步骤:
[0120]
从初始阶数开始,逐渐增大阶数,基于当前阶数对应的子序列,得到预设准则函数的取值,直至基于已得到的预设准则函数的取值确定出准则函数的极小值;将准则函数的极小值对应的阶数作为估计得到的阶数。当前阶数对应的子序列也即当前滞后阶数对应的子序列,例如网络流量序列的序列长度为100,滞后7阶时,对应子序列为第93到第100个网络流量样本形成的序列。
[0121]
举例来说,初始阶数为7,可以针对滞后7阶、8阶、9阶、10阶时的子序列,分别计算准则函数的取值,假设得到a1、a2、a3、a4四个值,其中,a3是最小值,则认为9阶为估计得到的阶数。
[0122]
模型的阶数主要由准则函数进行判定,选取合适的阶数使得模型对原始数据拟合程度最高,即在此时准则函数达到极小值。实际应用中,模型的阶数通常都比较低,因此可以从低到高逐渐选取p值或q值,并判断每种取值情况下的准则函数值是否达到极小值,如
此,可以快速估计出精确的阶数。
[0123]
实施中,可以采用类内距离准则作为准则函数,将当前滞后阶数对应的子序列的网络流量样本分为c类。基于此,准则函数的公式如下:
[0124][0125]
其中,j
w
表示准则函数,j表示类别,表示类别j内的网络流量样本i。
[0126]
以上仅是列举了一种准则函数,也可以采用其它的准则函数。
[0127]
除了阶数估计之前,参数估计的步骤还包括其它参数的估计,可以参考相关技术实施,此处不再赘述。
[0128]
目标模型类别的匹配和参数估计的过程都是在根据采集到的有限序列去推断原始序列的某些性质,这种推断本身存在着一定的偏差,对于最终所确定的预测模型是否合适,还需要进行最后的模型检验。基于此,以上模型构建的方法还可以包括:对网络流量预测模型进行检验,以基于检验结果,优化网络流量预测模型。
[0129]
其中,模型检验的内容可以包括:
[0130]
(1)平稳可逆性检验。设arma(p,q)模型的方程为:
[0131][0132][0133]
θ(b)=1

θ1b

θ2b2‑…‑
θ
q
b
q
ꢀꢀ
(6)
[0134]
其中,b为延迟算子,表示p阶ar,θ(b)表示q阶ma,θ1、θ2、θ
q
均为模型参数。
[0135]
要求方程和θ(b)=0的根均位于单位圆外,即根的模值均大于1,则通过平稳可逆性检验。如果平稳可逆性检验未通过,可适当调整p、q阶数进行修正。
[0136]
(2)残差序列检验。具体的,通过检验残差的随机性,来判断网络流量预测模型是否合适。如果残差不具有随机性,则所构建的网络流量预测模型还需进一步的改善,也可以适当调整p、q阶数。
[0137]
(3)过拟合检验。如果出现过拟合,可以删除掉模型中多余的参数,另一方面尝试提高模型的阶数,通过考察残差的平方和有无明显减小,从而判断当前所构建的网络流量预测模型是否参数不足。
[0138]
以上检验的内容为适用性检验,其更具体检验方式可以参考相关技术,此处不再赘述。
[0139]
在网络流量预测模型的适用性检验通过后,还可以基于实际的网络流量序列进行检验,也即模型拟合真实数据。具体的,可以应用网络流量预测模型对观测数据进行预测,绘制出拟合值(也即预测值)的曲线,得到第一曲线,并绘制出实际的网络流量序列的曲线,得到第二曲线,生成第一曲线和第二曲线的比较图,对比第一曲线和第二曲线的差异,基于
该差异得到拟合精度。如果拟合精度不符合要求,可以通过多次调节网络流量预测模型的参数,以优化模型,使预测值基本拟合出原来网络流量序列的趋势,使得预测相对误差比较小。
[0140]
在构建好网络流量预测模型之后,就可以进行网络流量的预测了,基于此,以上模型构建的方法还可以包括:利用网络流量预测模型,进行网络流量预测。由于构建的网络流量预测模型符合网络流量序列的特性,因此,可以高精度的准确预测网络流量。
[0141]
实际应用中,如图3所示,网络流量预测模型的构建过程,可以概括如下:
[0142]
第一步、网络流量采样。
[0143]
第二步、数据预处理,得到网络流量序列。
[0144]
第一步和第二步具体可以参见步骤101的相关实施方式,此处不再赘述。
[0145]
第三步、模型识别。
[0146]
第三步具体可以参考步骤102~步骤103的相关实施方式,此处不再赘述。
[0147]
第四步、模型参数估计。
[0148]
第四步具体可以参考步骤104的相关实施方式,此处不再赘述。
[0149]
以上第三步和第四步整体上是基于预处理后的网络流量序列构建网络流量预测模型的过程。
[0150]
第五步、基于构建的网络流量预测模型,形成预测网络流量变化趋势。
[0151]
第六步、基于预处理的网络流量序列,形成实际网络流量变化趋势。
[0152]
第七步、对比预测网络流量变化趋势与实际网络流量变化趋势,得到二者差值,调整模型参数优化预测模型,使网络流量预测精度更高。
[0153]
第五步至第七步具体可以参见以上对网络流量模型检验的相关实施方式,此处不再赘述。
[0154]
图4是本申请实施例的模型构建装置的结构示意图。如图4所示,该模型构建装置包括:
[0155]
获取模块401,用于获取采样得到的网络流量序列;
[0156]
分析模块402,用于对网络流量序列进行特性分析,得到特性分析结果;
[0157]
确定模块403,用于从多个模型类型中,确定与特性分析结果相匹配的目标模型类型;
[0158]
构建模块404,用于基于网络流量序列和特性分析结果,构建与目标模型类型对应的网络流量预测模型。
[0159]
在一种实施方式中,分析模块402,具体用于:
[0160]
对网络流量序列进行自相关特性分析。
[0161]
在一种实施方式中,分析模块402,具体用于:
[0162]
对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数p,计算滞后p阶的自相关系数,并分析当前计算出的自相关系数是否满足p阶截尾或者p阶拖尾,当分析出自相关系数满足p阶截尾或者p阶拖尾时,停止选择当前滞后的阶数;
[0163]
对网络流量序列,按照时间序列的先后顺序,选择当前滞后的阶数q,计算滞后q阶的偏相关系数,并分析当前计算出的偏相关系数是否满足q阶截尾或者q阶拖尾,当分析出偏相关系数满足q阶截尾或者q阶拖尾时,停止选择滞后的阶数;
[0164]
其中,网络流量序列包括n个时刻的网络流量样本,p和q的取值为1至n中的正整数。
[0165]
在一种实施方式中,多个模型类型包括自回归模型ar、移动平均ma和自回归移动平均模型arma;
[0166]
确定模块403,具体用于:
[0167]
若自相关系数满足p阶拖尾且偏相关系数满足q阶截尾,确定目标模型类型为ar;
[0168]
若自相关系数满足p阶截尾且偏相关系数满足q阶拖尾,确定目标模型类型为ma;
[0169]
若自相关系数满足p阶拖尾且偏相关系数满足q阶拖尾,确定目标模型类型为arma。
[0170]
在一种实施方式中,构建模块404,具体用于:
[0171]
若目标模型类型为ar,将拖尾的阶数p作为初始阶数,构建初始模型ar(p),并针对ar(p),基于网络流量序列进行参数估计,得到网络流量预测模型;
[0172]
若目标模型类型为ma,将拖尾的阶数q作为初始阶数,构建初始模型ma(q),并针对ma(q),基于网络流量序列进行参数估计,得到网络流量预测模型;
[0173]
若目标模型类型为arma,将拖尾的阶数p和阶数q作为初始阶数,构建初始模型arma(p,q),并针对arma(p,q),基于网络流量序列进行参数估计,得到网络流量预测模型。
[0174]
在一种实施方式中,构建模块404,具体用于:
[0175]
从初始阶数开始,逐渐增大阶数,基于当前阶数对应的子序列,得到预设准则函数的取值,直至基于已得到的预设准则函数的取值确定出准则函数的极小值;
[0176]
将准则函数的极小值对应的阶数作为估计得到的阶数。
[0177]
在一种实施方式中,如图5所示,还包括检验模块405,用于:
[0178]
对网络流量预测模型进行检验,以基于检验结果,优化网络流量预测模型。
[0179]
在一种实施方式中,如图6所示,还包括预测模块406,用于:
[0180]
利用网络流量预测模型,进行网络流量预测。
[0181]
本申请实施例各装置中的各模块的功能可以参见上述模型构建方法实施例中的对应描述,在此不再赘述。
[0182]
本申请实施例还提供一种电子设备,如图7所示,该电子设备700包括存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序,该处理器702执行计算机程序时实现如以上任一实施例中的模型构建方法。
[0183]
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如以上任一实施例中的模型构建方法。
[0184]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
[0185]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0186]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0187]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
[0188]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0189]
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0190]
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
[0191]
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1