一种话务量预测方法和系统与流程

文档序号:32334693发布日期:2022-11-25 23:23阅读:49来源:国知局
一种话务量预测方法和系统与流程

1.本发明涉及通信技术领域,尤其涉及一种话务量预测方法和系统。


背景技术:

2.随着通信技术的迅猛发展,网络规模的迅速扩张,业务类型日益繁多,网络流量呈爆发式增长,对网络带宽有着更加严峻的挑战。网络结构日趋复杂,仅仅依赖传统的人工经验进行网络带宽配置和网络资源调优,已经无法满足快速增长的流量需求。
3.5g网络的发展,5g网络数据流量作为网络规划和建设的重要指标,如何准确预测未来数据流量成为一个新的课题。当前,应用大数据技术进行业务分析已越来越成熟,而应用大数据技术进行流量变化的趋势预测,是目前普遍采用的研究方法。
4.传统的做法是针对网格情况对一定范围的网络设备都进行扩容操作,这样会对资源造成极大的浪费,同时由于总体投资额有限,不可能做到各个站都能够进行扩容,就仍会造成拥塞从而用户不能正常通话。
5.因此,按照现有网格进行统计,不能够精准的进行人群话务量的预测。所以,会在造成资源极大浪费的同时,仍然会造成部分区域人员不能正常使用通信网络的问题存在,对运营商形象和用户体验都造成极大的影响。


技术实现要素:

6.鉴于上述的分析,本发明实施例旨在提供一种话务量预测方法和系统,用以解决现有方法会造成资源极大浪费的同时,仍然会造成部分区域人员不能正常使用通信网络的问题。
7.一方面,本发明实施例提供了一种话务量预测方法,包括:获取网元的历史话务量数据的时间序列作为样本序列;基于所述样本序列构建零均值时间序列;对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列,并且将所述平稳时间序列按照时间划分为第一平稳时间序列和第二平稳时间序列;基于所述第一平稳时间序列利用ndarima模型估计模型参数;以及将所述模型参数代入所述ndarima模型生成话务量预测模型并将所述第二平稳时间序列作为所述话务量预测模型的输入对未来话务量进行预测。
8.上述技术方案的有益效果如下:本实施例的话务量预测方法基于平稳时间序列估计ndarima预测模型的最优参数,以建立ndarima预测模型,从而通过大数据机器学习算法实现精准的话务量预测,解决目前运营商面临的困境。
9.基于上述方法的进一步改进,获取网元的历史话务量数据的时间序列作为样本序列进一步包括:从数据存储器获取由数据采集层采集计算出的指标样本集数据作为所述样本序列,其中,所述指标样本集数据包括不同时刻的视频播放成功率、日常通话和短信。
10.基于上述方法的进一步改进,基于所述样本序列构建零均值时间序列进一步包括:通过以下公式基于所述样本序列构建零均值时间序列:
11.y
t
=x
t-ex
t
,t=1,2,...n;
12.其中,所述样本序列为{x
t
},t=1,2,...n;所述样本序列的均值
13.基于上述方法的进一步改进,对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列进一步包括:利用假设检验法对所述零均值时间序列进行平稳化处理。
14.基于上述方法的进一步改进,利用假设检验法对所述零均值时间序列进行平稳化处理进一步包括:假设所述零均值时间序列为平稳的零均值时间序列;当所述假设成立时,所述零均值时间序列为所述平稳时间序列;当所述假设不成立时,所述零均值时间序列为非平稳时间序列,并对所述非平稳时间序列进行调整并利用调整后的非平稳时间序列更新所述零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到所述更新后的零均值时间序列为所述平稳时间序列为止。
15.基于上述方法的进一步改进,所述假设检验法进一步包括:对于所述零均值时间序列{y
t
},t=1,2,...n,首先假设平稳性条件成立:
16.计算若记为“+”,若记为
“‑”
,按照符合“+”和
“‑”
出现的顺序将所述零均值时间序列写成有“+”,
“‑”
号组成的序列;
17.un=n1+n2,其中,将连续出现的“+”或
“‑”
作为一个“游程”,n1表示“+”号出现的次数,n2表示
“‑”
号出现的次数,un表示游程的总数;
18.检验假设:h0:{y
t
,t=1,2,...n}为平稳随机序列;
19.对应显著水平α=0.05,当n1≤15,n2≤15时,给出游程总数的上限ru和下限r
l
,当un≤r
l
或un≥ru时,拒绝h0,否则接受h0;
20.当n1或n2超过15时,近似地服从正态分布n(μ,σ2),其中,记那么z近似服从n(0,1),取显著水平α=0.05,当|z|≤1.96时,接受原假设h0。
21.基于上述方法的进一步改进,基于所述第一平稳时间序列利用ndarima模型估计模型参数进一步包括:设平稳时间序列是一个ndarma(p,q)过程,利用以下ndarima模型估计所述模型参数p和q:
[0022][0023]
为预测的时刻t的话务量,为所述第一平稳时间序列中的已知的不同过去时刻的话务量,为自回归模型的系数;θk为移动平均模型的系数;为过去t-j时刻的预测值;为t-k时刻的白噪声。
[0024]
基于上述方法的进一步改进,话务量预测方法进一步包括:基于实际零均值时间序列与预测的未来话务量计算的预测误差:
[0025]
[0026]
其中,y
t
(t+l)代表的是时间t+1的实际值,代表的t时刻的预测值,代表的是零均值的白噪声序列,ε
t+l
,...,ε
t+1
代表的是不同时刻的白噪声;ψ0,...,ψ
l-1
代表的是不同时刻的白噪声系数。
[0027]
另一方面,本发明实施例提供了一种话务量预测系统,包括:获取模块,用于获取网元的历史话务量数据的时间序列作为样本序列;零均值模块,用于基于所述样本序列构建零均值时间序列;平稳化处理模块,用于对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列,并且将所述平稳时间序列按照时间划分为第一平稳时间序列和第二平稳时间序列;参数估计模块,用于基于所述第一平稳时间序列利用ndarima模型估计模型参数;以及预测模型,用于将所述模型参数代入所述ndarima模型生成话务量预测模型并将所述第二平稳时间序列作为所述话务量预测模型的输入对未来话务量进行预测。
[0028]
基于上述系统的进一步改进,所述零均值模块用于通过以下公式基于所述样本序列构建零均值时间序列:
[0029]yt
=x
t-ex
t
,t=1,2,...n;
[0030]
其中,所述样本序列为{x
t
},t=1,2,...n;所述样本序列的均值为所述平稳化处理模块用于利用假设检验法对所述零均值时间序列进行平稳化处理,其中,利用假设检验法对所述零均值时间序列进行平稳化处理进一步包括:假设所述零均值时间序列为平稳的零均值时间序列;当所述假设成立时,所述零均值时间序列为所述平稳时间序列;当所述假设不成立时,所述零均值时间序列为非平稳时间序列,并对所述非平稳时间序列进行调整并利用调整后的非平稳时间序列更新所述零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到所述更新后的零均值时间序列为所述平稳时间序列为止。
[0031]
与现有技术相比,本发明至少可实现如下有益效果之一:
[0032]
1、通过大数据机器学习算法实现精准的话务量预测,通过精确预测出未来话务量,能够根据扩容需要对一定范围内的网络设备进行扩容操作以解决目前运营商面临的困境。
[0033]
2、ndarima模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。
[0034]
3、利用假设检验法对零均值时间序列进行平稳化处理,其中,当假设不成立时,零均值时间序列为非平稳时间序列,并对非平稳时间序列进行调整并利用调整后的非平稳时间序列更新所述零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到更新后的零均值时间序列为平稳时间序列为止。
[0035]
4、参数p代表的是自回归的项数,自回归描述的是当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测,对阶数p的求值,即确定自回归的系数。参数q代表的是移动平均的项数,移动平均描述的是自回归模型中的误差项的累加,移动平均法能有效地消除预测中的随机波动,是为了使得预测模型更加的平滑。
[0036]
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本
发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
[0037]
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
[0038]
图1为根据本发明实施例的话务量预测方法的流程图。
[0039]
图2为根据本发明实施例针对每一个网元流量单独建模的流程图;
[0040]
图3为根据本发明实施例的ndarima预测模型建立的流程图;以及
[0041]
图4为根据本发明实施例的话务量预测系统的框图。
具体实施方式
[0042]
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本技术一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
[0043]
本发明的一个具体实施例,公开了一种话务量预测方法。参考图1,话务量预测方法包括:步骤s102,获取网元的历史话务量数据的时间序列作为样本序列;步骤s104,基于样本序列构建零均值时间序列;步骤s106,对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列,并且将平稳时间序列按照时间划分为第一平稳时间序列和第二平稳时间序列;步骤s108,基于第一平稳时间序列和对应的已知话务量利用ndarima模型估计模型参数;以及步骤s110,将模型参数代入ndarima模型生成话务量预测模型并将第二平稳时间序列作为话务量预测模型的输入对未来话务量进行预测。在可选实施例中,采用差分处理的方式,将非平稳时间序列转换为平稳时间序列,然后估计ndarima预测模型的参数,最后,根据已知参数ndarima预测模型来预测未来的话务量。
[0044]
与现有技术相比,本实施例提供的话务量预测方法基于平稳时间序列估计ndarima预测模型的最优参数,以建立ndarima预测模型,从而通过大数据机器学习算法实现精准的话务量预测,通过精确预测出未来话务量,能够根据扩容需要对一定范围内的网络设备进行扩容操作以解决目前运营商面临的困境。
[0045]
下文中,将参考图1和3,对话务量预测方法中的步骤s102至s110进行详细描述。
[0046]
步骤s102,获取网元的历史话务量数据的时间序列作为样本序列。具体地,获取网元的历史话务量数据的时间序列作为样本序列进一步包括:从数据存储器获取由数据采集层采集计算出指标样本集数据作为样本序列,其中,指标样本集数据包括不同时刻的视频播放成功率、日常通话和短信等的话务量,话务量数据主要由不同时刻的视频播放成功率确定。话务量指在一特定时间内呼叫次数与每次呼叫平均占用时间的乘积,具体地,话务量公式为:a=c
×
t,其中,a是话务量,单位为erl(爱尔兰),c是呼叫次数,单位是个,t是每次呼叫平均占用时长,单位是小时。例如,在移动电话系统中,话务量可分为流入话务量和完成话务量。流入话务量取决于单位时间内发生的平均呼叫次数与每次呼叫平均占用无线波道的时间,在系统流入的话务量中,完成接续的那部分话务量称作完成话务量。可选地,可以对基站小区的历史话务量数据的时间序列作为样本序列,其中,每个基站小区包括多个
网元。
[0047]
步骤s104,基于样本序列构建零均值时间序列。对样本序列进行零均值处理进一步包括:通过以下公式基于样本序列构建零均值时间序列:
[0048]yt
=x
t-ex
t
,t=1,2,...n;
[0049]
其中,样本序列为{x
t
},t=1,2,...n;样本序列的均值
[0050]
步骤s106,对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列,并且将平稳时间序列按照时间划分为第一平稳时间序列和第二平稳时间序列。具体地,对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列进一步包括:利用假设检验法对零均值时间序列进行平稳化处理。利用假设检验法对零均值时间序列进行平稳化处理进一步包括:假设零均值时间序列为平稳的零均值时间序列;当假设成立时,零均值时间序列为平稳时间序列;当假设不成立时,零均值时间序列为非平稳时间序列,并对非平稳时间序列进行调整并利用调整后的非平稳时间序列更新零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到更新后的零均值时间序列为平稳时间序列为止。假设检验法进一步包括:对于零均值时间序列{y
t
},t=1,2,...n,首先假设平稳性条件成立:计算若记为“+”,若记为
“‑”
,按照符合“+”和
“‑”
出现的顺序将零均值时间序列写成有“+”,
“‑”
号组成的序列;un=n1+n2,其中,将连续出现的“+”或
“‑”
作为一个“游程”,n1表示“+”号出现的次数,n2表示
“‑”
号出现的次数,un表示游程的总数;检验假设:h0:{y
t
,t=1,2,...n}为平稳随机序列;当游程太多时,被认为存在非随机趋势,当游程太少时,被认为序列有明显趋势性;对应显著水平α=0.05,当n1≤15,n2≤15时,给出了游程总数的上限ru和下限r
l
(游程总数的上限和下限的取值范围是一个动态的取值范围,按照显著水平α=0.05,当n1≤15,n2≤15时,可以计算出游程总数的上限ru=30和下限r
l
=0,也就是游程检验的临界值),当un≤r
l
或un≥ru时,拒绝h0,否则接受h0;当n1或n2超过15时,近似地服从正态分布n(μ,σ2),其中,记那么z近似服从n(0,1),取显著水平α=0.05,当|z|≤1.96时,接受原假设h0。在可选实施例中,具体地,将非平稳时间序列转换为平稳时间序列,并将该平稳时间序列划分为两部分,一部分为第一平稳时间序列,用于估计ndarima预测模型的参数,另一部分为第二平稳时间序列,用于预测未来话务量。在可选实施例中,利用采用差分处理的方式对零均值时间序列进行平稳化处理。
[0051]
步骤s108,基于第一平稳时间序列和第一平稳时间序列中的已知的不同过去时刻的话务量利用ndarima模型估计模型参数。具体地,基于第一平稳时间序列利用ndarima模型估计模型参数进一步包括:设平稳时间序列是一个ndarma(p,q)过程,利用以下ndarima模型估计模型参数p和q:
[0052]
[0053]
为预测的时刻t的话务量,为第一平稳时间序列中的已知的不同过去时刻的话务量,为自回归模型的系数;θk为移动平均模型的系数;为过去t-j时刻的预测值;为t-k时刻的白噪声。具体地,将第一平稳时间序列按照时间划分为第一时间的第三平稳时间序列和第二时间的第四平稳时间序列,其中,第一时间的第三平稳时间序列和第二时间的第四平稳时间序列为第一时间和第二时间的实际话务量。基于第一时间的第三平稳时间序列预测第二时间的预测值,然后将第二时间的第四平稳时间序列作为验证数据。最后将第二时间的预测值和验证数据作为已知数据,代入以上ndarima模型公式,就可以求解出待估计的参数p和q。
[0054]
在估计参数的时候,是根据已知的话务量进行参数估计后,将参数代入模型之后,模型变成已知的话务量预测模型,利用这个已知的话务量预测模型对未来话务量进行估计。例如,估计参数的过程包括:假设第一平稳时间序列为最近的360天的话务量,先根据前第1天至第180天的数据作为输入,预测出第181天至第360天的数据,然后,把实际的第181天至第360天的数据作为验证数据,把预测的后180天的数据和实际的后180天作为已知数据,代入公式,就可以求解出待估计的参数。
[0055]
步骤s110,将模型参数代入ndarima模型生成话务量预测模型并将第二平稳时间序列作为话务量预测模型的输入对未来话务量进行预测。具体地,将模型参数p和q代入以下ndarima模型公式可以生成参数已知的话务量预测模型,然后将第二平稳时间序列作为参数已知的话务量预测模型的输入,预测未来话务量
[0056][0057]
为预测的时刻t的话务量,为第一平稳时间序列中的已知的不同过去时刻的话务量,为自回归模型的系数;θk为移动平均模型的系数;为过去t-j时刻的预测值;为t-k时刻的白噪声。
[0058]
在预测出未来话务量之后,进行误差分析以进行重新估计,当误差在允许的范围内时,输出结果。当误差超出允许的范围时,对零均值时间序列进行调整,然后对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列。其中,进行误差分析进一步包括基于实际零均值时间序列与预测的未来话务量计算的预测误差:
[0059][0060]
其中,l代表的是l步线性最小方差预测方差,公式中的t代表的预测的时间的原点t,t+l代表预测的是t+l时间的值。y
t+l
代表的是时间t+1的实际值,代表的t时刻的预测值,代表的是零均值的白噪声序列,对预测结果是否准确的评判的准则是预测的最小方差越小越好。ε
t+l


,ε
t+1
代表的是不同时刻的白噪声;ψ0,

,ψ
l-1
代表的是不同时刻的白噪声系数。
[0061]
下文中,参考图2和图3以具体实例的方式对话务量预测方法进行详细描述。
[0062]
流量预测常见的做法是将其转化为时序预测模型进行求解,实践场景是预测网元下行最大瞬时流量,覆盖范围包括多个局点的网元流量数据。实际处理过程中,针对每一个
网元流量单独建模。整体思路如图2所示。
[0063]
1、模型参数识别的过程
[0064]
选择用来预测流量的方法是新型的时间序列分析法的模型:ndarima模型(new difference autoregressive integrated moving average model)即新型的基于差分的自回归移动平均模型。它属于统计模型的一种,用于进行时间序列的预测。整个算法的处理过程是,参考图3,先进行数据的零均值预处理处理,再进行差分平稳化处理。最后进行模型参数估计,输出预测模型的参数,然后根据生产的预测模型对话务量进行预测。
[0065]
(1)数据的零均值处理
[0066]
零均值处理:就是将原先均值不为零的样本序列转化为零均值时间序列。方法如下:{x
t
},t=1,2,...n,t代表的是不同的历史时刻,在对话务量进行预测的时候,我们按照天的维度,输入历史的每个网元的天维度的话务量,n代表的是输入最大的历史天数,具体意义是按照过去n天的此网元的话务量作为输入数据,进行预测此网元未来每天的话务量,例如t=1代表的是预测当天往前推1天,也就是1天前,t=2代表的是预测当天往前推2天。x
t
代表的是某网元的t天前的全天话务量的值。样本序列{x
t
}代表的是历史的输入数据,即历史时刻的话务量的数据值。
[0067]
构造零均值时间序列
[0068]yt
=x
t-ex
t
,t=1,2,...n,其中,
[0069]
(2)差分平稳化处理
[0070]
ndarima模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。针对时间序列平稳性检验的处理问题,arima模型采用的是自相关分析法进行时间序列平稳性的,该方法在实际时间序列的分析和预测中存在误差,所以,ndarima算法在平稳性处理上,采用假设检验法。算法表述如下:
[0071]
对于样本序列{y
t
},t=1,2,

,n,首先假设平稳性条件成立:
[0072]
a)计算考察的正负情况。若就记为“+”,若就记为
“‑”
。按照符合“+”和
“‑”
出现的顺序将原序列写成有“+”,
“‑”
号组成的序列。
[0073]
b)把连续出现的“+”或
“‑”
称为一个“游程”。记n1位“+”号出现的次数,n2位
“‑”
号出现的次数,n=n1+n2,用un表示游程的总数。
[0074]
c)检验假设:h0:{y
t
,t=1,2,

,n}为平稳随机序列。
[0075]
当游程太多时,被认为存在非随机趋势,当游程太少时,被认为序列有明显趋势性。对应显著水平α=0.05,当n1≤15,n2≤15时,给出了游程总数的上限ru和下限r
l
(即游程检验的临界值),当un≤r
l
或un≥ru时,拒绝h0,否则接受h0。例如,游程总数的上限和下限的取值范围是一个动态的取值范围,按照显著水平α=0.05,当n1≤15,n2≤15时,可以计算出游程总数的上限ru和下限r
l
,也就是游程检验的临界值。
[0076]
当n1或n2超过15时,理论上可证明,un近似地服从正态分布n(μ,σ2),其中
记那么z近似服从n(0,1)。取显著水平α=0.05,当|z|≤1.96时,接受原假设h0。
[0077]
(3)模型参数估计
[0078]
模型参数的估计采用递推最小二乘法进行,因为该类方法具有算法简单、估计精度高、收敛快、鲁棒性和便于在线应用的优点。
[0079]
对于新型时间序列分析模型,采用特定的预测算法进行预测分析,其分析步骤如下:设平稳时间序列是一个ndarma(p,q)过程,设其预测模型如下式:
[0080][0081]
为预测的时刻t的话务量,为第一平稳时间序列中的已知的不同过去时刻的话务量,为自回归模型的系数;θk为移动平均模型的系数;为过去t-j时刻的预测值;为t-k时刻的白噪声。
[0082]
在这个模型中,参数p代表的是自回归的项数,自回归描述的是当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测,对阶数p的求值,即确定自回归的系数。参数q代表的是移动平均的项数,移动平均描述的是自回归模型中的误差项的累加,移动平均法能有效地消除预测中的随机波动,是为了使得预测模型更加的平滑。在确定阶数p和q之后,还需要确定模型的参数和,其中参数是预测模型的前半部分自回归模型的系数,参数是预测模型的后半部分的移动平均模型的系数。上面的参数φ1,φ,


p
是预测模型的前半部分自回归模型的系数,自回归描述的是当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。参数θ1,θ2,

,θq是预测模型的后半部分的移动平均模型的系数,移动平均描述的是自回归模型中的误差项的累加,移动平均法能有效地消除预测中的随机波动,是为了使得预测模型更加的平滑。
[0083]
其中其中ε代表的是零均值的白噪声序列。t代表的是预测出的t时刻的值。e代表的是计算预测的方差值。
[0084]
预测误差为:其中l步线性最小方差预测的方差和预测步长l有关,而与预测的时间原点t无关。预测步长l越大,预测误差的方差也越大,因而预测的准确度就会降低。e
t
(l)代表的是不相关的零均值误差,其组成的分项式ε代表的是零均值的序列分式,对于第一个分式项ψ0ε
t+l
,其中ε
t+l
代表的是在t+l时刻的均值为零的白噪声序列,ψ0代表的是此时间序列的系数,系数ψ0的下角标0和ε
t+l
的下角标t+l的求和为t+l。第二个分式项ε
t+l-1
代表的是在t+l-1时刻的均值为零的白噪声序列,ψ1代表的是此时间序列的系数,其中ψ1的下角标1和ε
t+l-1
的下角标t+l-1的求和为t+l。依次类推,分式项ψ
l-1
ε
t+1
代表的是第l-1个均值为零的分项式,其中ψ
l-1
的下角标l-1和ε
t+1
的下角标t+1的求和为t+l。
[0085]
预测的置信区间,95%的置信区间:
[0086]
ndarima方法的预测部分采用基于线性最小方差预测原理的多步astrom递推预报
算法对以上的模型进行预测分析。
[0087]
2、话务量预测的过程
[0088]
完成预测模型的建模后,接下来介绍一下话务量预测的过程:首先以每个小区的历史话务量为基础,自动采集统计每个小区的话务量,采用数据建模分析方法,自动识别预测模型最优参数,以不同周期的小区的话务量的数据来预测未来时刻的话务量。
[0089]
利用大数据进行话务量误测的核心功能,包括存储平台、ai算法库、建模数据和指标建模应用。
[0090]
预测模型:采用ndarima模型,即新型基于差分的自回归移动平均模型,用于进行时间序列的预测。其原理在于:在将非平稳时间序列转化为平稳时间序列的过程中,将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归建立数据模型。
[0091]
数据存储平台:用于存储和分析由数据采集层采集计算出的话务量的指标样本集数据。系统使用hdfs存储分布式文件,hbase作为分布式数据库,并使用spark分布式计算框架作为底层平台,在平台上封闭了数据治理、用户资源管理等通用功能。
[0092]
ai算法库:用于给上层机器学习应用提供算法支撑。ai算法支持多种组件,包括基于python的轻量级机器学习组件,基于深度神经网络的tensorflow,时序预测算法ndarima和holt-winters模型等。
[0093]
建模数据:用于机器学习的建模分析,包括存储在大数据平台上的历史话务量的指标样本集数据。
[0094]
本技术提案的技术优点:
[0095]
相比于现有技术,采用大数据机器学习算法在进行话务量预测的时候更加客观,解决运营商的迫切问题。
[0096]
本发明的一个具体实施例,公开了一种话务量预测系统。参考图4,包括:获取模块402,用于获取网元的历史话务量数据的时间序列作为样本序列;零均值模块404,用于基于样本序列构建零均值时间序列;平稳化处理模块406,用于对零均值时间序列进行平稳化处理以将非平稳时间序列转换为平稳时间序列,并且将平稳时间序列按照时间划分为第一平稳时间序列和第二平稳时间序列;参数估计模块408,基于第一平稳时间序列利用ndarima模型估计模型参数;以及预测模型410,将模型参数代入ndarima模型生成话务量预测模型并将第二平稳时间序列作为话务量预测模型的输入对未来话务量进行预测。
[0097]
零均值模块404用于通过以下公式基于样本序列构建零均值时间序列:
[0098]yt
=x
t-ex
t
,t=1,2,...n;
[0099]
其中,样本序列为{x
t
},t=1,2,...n;样本序列的均值为
[0100]
平稳化处理模块406用于利用假设检验法对零均值时间序列进行平稳化处理,其中,利用假设检验法对零均值时间序列进行平稳化处理进一步包括:假设零均值时间序列为平稳的零均值时间序列;当假设成立时,零均值时间序列为平稳时间序列;当假设不成立时,零均值时间序列为非平稳时间序列,并对非平稳时间序列进行调整并利用调整后的非平稳时间序列更新零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到更新后的零均值时间序列为平稳时间序列为止。
[0101]
话务量预测系统与话务量预测方法相对应,因此话务量预测系统包括多个其他模
块,为了避免赘述,本文中省略了这些多个其他模块的描述。
[0102]
与现有技术相比,本发明至少可实现如下有益效果之一:
[0103]
1、通过大数据机器学习算法实现精准的话务量预测,通过精确预测出未来话务量,能够根据扩容需要对一定范围内的网络设备进行扩容操作以解决目前运营商面临的困境。
[0104]
2、ndarima模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去,即数据的均值、方差理论上不应有过大的变化。
[0105]
3、利用假设检验法对零均值时间序列进行平稳化处理,其中,当假设不成立时,零均值时间序列为非平稳时间序列,并对非平稳时间序列进行调整并利用调整后的非平稳时间序列更新所述零均值时间序列;对更新后的零均值时间序列进行差分平稳化处理直到更新后的零均值时间序列为平稳时间序列为止。
[0106]
4、参数p代表的是自回归的项数,自回归描述的是当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测,对阶数p的求值,即确定自回归的系数。参数q代表的是移动平均的项数,移动平均描述的是自回归模型中的误差项的累加,移动平均法能有效地消除预测中的随机波动,是为了使得预测模型更加的平滑。本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
[0107]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1