基于聚类和arima模型的话务量预测方法

文档序号:7767005阅读:781来源:国知局
专利名称:基于聚类和arima模型的话务量预测方法
技术领域
本发明涉及基于聚类和ARIMA模型的话务量预测方法,属于移动通信领域。
背景技术
ARMA模型是一种最常见的重要的时间序列模型,它被广泛应用到各种行业预测 中,比如股票、GDP增长等,同时它也是一种最为经典的时间序列预测方法。下面简单介绍 这两种模型的原理。ARMA系列模型的建模理论基础是利用历史数据序列的信息,根据统计获得的数 据序列中存在的相关关系找到序列值之间相关关系的规律,拟合出可以描述这种关系的模 型,进而利用模型对序列的未来走势进行预测。对一个线性系统,输入白噪声序列 ,输出一个平稳序列&,输入输出关系可以表 示为ARMA模型,将时间序列^表示为当前时间之前的序列值、白噪声的过去值以及当前值 的加权和的形式。Xt = Φ ιχη+ Φ 2xt_2+... + Φ pxt-p+at- θ -----θ qat_q (1)式(1)称为自回归滑动平均(Autoregressive-moving average)模型,记为 ARMA(p,q)。其中,ρ和q分别为自回归项和滑动平均项的阶数。针对一些数据序列中通常存在的趋势性和季节性的处理问题,Box和Jenkins提 出了差分运算处理和ARMA模型相结合的ARIMA模型和季节ARIMA模型,并在实际应用中取 得了良好的效果。为了阐述的方便,定义延迟算子B。xt-p= BpXt,/ρ>1(2)一阶差分的概念就是取序列中前后相邻两个值之间的差值。VXi=Xi-X^1=(I-S)Xi(3)依此类推,可以得到多阶差分。VdXt = Vd-lXt-Vd-lXt^=(I-B)dXt(4)与普通的差分运算不同的是,延迟差分取得的不是相邻序列值的差值,而是间隔 为S的序列值的差值。V^i =Xt- Xt_s =(I-Bs)Xt(5)对于某些时间序列,进行d阶差分后,符合ARMA模型。模型结构如下φ{Β)ψΧ = 6{B)at(6)其中φ (B) = Ι-Φ^-Φ^2-----ΦρΒρθ (B) = 1- θ θ 2Β2-----θ qBq (7)禾尔为求禾口自回归滑云J]平均(Autoregressive—Integrated moving average) HM 记为 ARIMA (p,d,q)。对于一些具有周期变化特点时间序列,进行以周期s为间隔的延迟差分处理后, 符合ARMA模型,这类模型称为季节ARIMA模型。模型结构如下,O(^)Vfxi(8)其中Φ (Bs)和θ (Bs)是Bs的P次和Q次多项式,形如式(7)。实际上,季节ARIMA 模型体现了以周期s为间隔的各个序列值之间的相关关系。而对于序列值之间存在更加复 杂关联性的情况,在考虑周期性的相关关系的基础上,应同时考虑非周期间隔的序列值之 间的相关关系。假定 满足ARIMA模型Φ(Β)ν"α( = 0(B)et(9)结合季节ARIMA模型,得到乘积季节ARIMA模型φ{Β)Φ{Β")Ψ^χ =θ{Β)Β{Β")β (10)记为ARIMA(p,d,q) X (P,D,Q)s。实际上,可以把乘积季节ARIMA模型看作为疏系 数 ARIMA(p+sP,d+sD, q+sQ)模型。应用ARIMA模型进行时间序列预测的过程主要包括模型识别——判断时间序列数据符合的模型类别;参数估计与检验——估计模型中的参数,建立模型并对模型进行检验,判断模型 是否适用;预测——基于建立的模型对时间序列的未来值进行预测。在移动通信领域采用ARIMA模型进行话务量预测时,首先要对话务小区进行分类 划分,其划分的主要方式是根据专家的历史经验,根据以往小区的特点以及小区的相似性 人为对话务小区进行划分,这种划分方法结合专家经验,在某些情况下可以较好的反映小 区特点,但是这种方式也会带有很大的主观性,不够科学,划分不准确。

发明内容
本发明的目的是解决进行话务量预测时,根据专家的历史经验对话务小区进行划 分的方式带有很大的主观性、划分不准确的问题,提供了基于聚类和ARIMA模型的话务量 预测方法。本发明方法包括以下步骤步骤一、按照先验知识将话务小区划分为四种类型,所述四种类型分别为交通主 干线、繁华商业区、高等院校和居民住宅区;步骤二、对每种类型中的每个话务小区的话务数据进行预处理,获取每个话务小 区的聚类特征,所述聚类特征包括相关系数、方差、最大值、中间值、平均值、最小值、出现频 率最高的值和标准差;步骤三、根据每个话务小区的聚类特征,并采用K-MEANS聚类算法依次对每种类 型中的话务小区进行聚类,将每种类型中的话务小区细化成多个具有相似聚类特征的类 别;步骤四、对每一个所述细化话务小区类别中话务小区采用ARIMA模型进行话务量 预测,同一类别的细化话务小区选择相同的建模参数。
本发明的优点结合先验知识,使用聚类算法对话务小区进行细化的准确度有了 很大的提高,能够清晰的将性质不同的小区分开,被细分为同一类的话务小区在预测模型 确定以及参数选取上具有相似性,使得预测效率高。


图1是本发明方法流程图,
图2是基于K-means方法对一组对象进行聚类的初始分布图, 图3是基于K-means方法对一组对象进行聚类根据平均值的再分布图, 图4是基于K-means方法对一组对象进行聚类的最终分布图。
具体实施例方式具体实施方式
一下面结合图1至图4说明本实施方式,本实施方式方法包括以下 步骤步骤一、按照先验知识将话务小区划分为四种类型,所述四种类型分别为交通主 干线、繁华商业区、高等院校和居民住宅区;步骤二、对每种类型中的每个话务小区的话务数据进行预处理,获取每个话务小 区的聚类特征,所述聚类特征包括相关系数、方差、最大值、中间值、平均值、最小值、出现频 率最高的值和标准差;步骤三、根据每个话务小区的聚类特征,并采用K-MEANS聚类算法依次对每种类型 中的话务小区进行聚类,将每种类型中的话务小区细化成多个具有相似聚类特征的类别;步骤四、对每一个所述细化话务小区类别中话务小区采用ARIMA模型进行话务量 预测,同一类别的细化话务小区选择相同的建模参数。ARIMA模型,即乘积季节求和自回归滑动平均模型。其中,步骤一将话务小区分为四种类型的方法为根据先验知识,人为对每个话务 小区所属类别进行标定。标定的方式采用模糊隶属函数方式给定。步骤四所述的建模参数包括p、q、P和Q,p、q、P和Q的取值在0、1和2中遍历,选 择最优者作为ARIMA模型的建模参数。聚类方法的职能是建立一种分类方法,与其它的分类方法不同,聚类分析是在有 了一批样本数据,但不知道它们的分类,甚至连分成几类也不知道的情况下,希望用某种方 法把样本进行合理的分类,使得同一类的样本比较接近,不同类的样本相差较多。聚类方法 完全根据样本数据特征对样本进行分类,由于没有有效利用样本数据的先验知识,虽然可 以对某些问题取得较好的效果,但是存在一定问题。目前,在移动通信领域,采用话务量数据特征,对小区的划分研究还相对较少。但 是,根据各个小区的不同特征对采取不同的管理以及调度措施,分配不同的通信信道在实 际中却有极大的实际意义。比如,可以根据不同特点的小区采取不同的管理机制。将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚 类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与 其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。通俗地讲,聚类就是对包含有多个属性的数据集进行分类的方法。目前在文献中存在大量的 聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。根据话务量数据的特点以 及对小区进行划分所要达到的目的,本实施方式选取最经典的K-MEANS聚类算法。下面对 K-MEANS算法简介如下给定一个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表 示一个聚簇,并且k < η。也就是说,它将数据划分为k个组,同时满足如下要求(i)每个组至少包含一个对象;(ii)每个对象必须属于且只属于一个组。给定要构建的划分数目k,划分方法首先创建一个初始划分。然后采用一种迭代的 重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的一般准则是在同一 类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同,还有 许多其它划分质量评判准则。为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分。实际上,绝大多 数应用采用了以下比较流行的启发式方法聚于质心的技术——K-MEANS算法。K-MEANS算法以k为参数,把η个对象分为k个簇,以使簇内具有较高的相似度,而 簇间的相似度较低。相似度的计算根据一个簇中对象的平均值来进行,所述平均值被看作 簇的中心。K-MEANS算法的处理流程如下首先,随机地选择k个对象,每个对象初始地代表
1个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的
簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常采用平
方误差准则,其定义如下 k
权利要求
1.基于聚类和ARIMA模型的话务量预测方法,其特征在于,该方法包括以下步骤 步骤一、按照先验知识将话务小区划分为四种类型,所述四种类型分别为交通主干线、繁华商业区、高等院校和居民住宅区;步骤二、对每种类型中的每个话务小区的话务数据进行预处理,获取每个话务小区的 聚类特征,所述聚类特征包括相关系数、方差、最大值、中间值、平均值、最小值、出现频率最 高的值和标准差;步骤三、根据每个话务小区的聚类特征,并采用K-MEANS聚类算法依次对每种类型中 的话务小区进行聚类,将每种类型中的话务小区细化成多个具有相似聚类特征的类别;步骤四、对每一个所述细化话务小区类别中话务小区采用ARIMA模型进行话务量预 测,同一类别的细化话务小区选择相同的建模参数。
2.根据权利要求1所述的基于聚类和ARIMA模型的话务量预测方法,其特征在于,步骤 一将话务小区分为四种类型的方法为根据先验知识,人为对每个话务小区所属类别进行 标定。
3.根据权利要求2所述的基于聚类和ARIMA模型的话务量预测方法,其特征在于,标定 的方式采用模糊隶属函数方式给定。
4.根据权利要求1所述的基于聚类和ARIMA模型的话务量预测方法,其特征在于,步骤 四所述的建模参数包括P、q、P和Q,P、q、P和Q的取值在0、1和2中遍历,选择最优者作为 ARIMA模型的建模参数。
全文摘要
基于聚类和ARIMA模型的话务量预测方法,属于移动通信领域,本发明是为了解决进行话务量预测时,根据专家的历史经验对话务小区进行划分的方式带有很大的主观性、划分不准确的问题。本发明方法包括一、按照先验知识将话务小区划分为四种类型交通主干线、繁华商业区、高等院校和居民住宅区;二、预处理,获取每个话务小区的聚类特征,所述聚类特征包括相关系数、方差、最大值、中间值、平均值、最小值、出现频率最高的值和标准差;三、根据每个话务小区的聚类特征,并采用K-MEANS聚类算法进行聚类,形成细化话务小区类型;四、采用ARIMA模型进行话务量预测,同一类型的细化话务小区选择相同的建模参数。
文档编号H04W16/22GK102088709SQ20101056647
公开日2011年6月8日 申请日期2010年11月30日 优先权日2010年11月30日
发明者于江, 刘大同, 彭宇, 戴毓丰, 郭嘉, 陈强, 雷苗 申请人:哈尔滨工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1