构建时间序列模型的系统与方法

文档序号:6480359阅读:276来源:国知局
专利名称:构建时间序列模型的系统与方法
技术领域
本发明涉及为时间序列指定模型的方法和计算机系统。
背景技术
人们迫切期望能够准确地建立模型并预测事件,特别是在当今的 商业环境中。准确建模将会帮助人们预测未来事件,从而做出更好的 决策以获得更好的成绩。因为与未来趋势相关的可靠信息是非常有价 值的,所以许多组织花费了大量的人力与财力资源,试图预测未来趋 势和分析这些趋势最终可能产生的结果。预测的一个基本目的在于降 低风险和不确定性。商业决策依赖于预测。因此,预测在许多计划过 程中是一个必不可少的工具。
人们使用两类模型来创建预测模型,即指数平滑模型和自回归求 和滑动平均(ARIMA)模型。指数平滑模型描述了随时间变化的一系 列值的变化过程,而它没有试图去理解这些值如此变化的原因。在现 有技术中,存在着几种不同的指数平滑模型。与之不同的是,ARIMA统 计模型允许建模者详细说明时间序列中过去值在预测该时间序列将 来值中所起的作用。ARIMA模型也允许建模者在模型中包含预测因 子,这些可能有助于解释正在被预测的时间序列的变化过程。为了有效地预测某一趋势或时间序列中的将来值,必须创建描述 该时间序列适合的模型。而创建能够最准确反映时间序列过去值的模 型是预测过程中最困难的方面。更好预测的关键在于从过去数据得出 更优模型。以前,为反映时间序列中数值而选择的模型要么相对简单、 直接,要么基本上全部需要由建模者本人进行长时间而又乏味的数学 分析才能得到结果。这样,这种模型要么相对简单而经常不能有效指 示时间序列的未来值,要么花费大量人力与财力也许与较简单模型相 比并没有更好的成功机会。最近,随着更好的电子计算机硬件的出现, 大量预测建模方面都可以由计算机快速地完成。然而,以前的计算机 软件预测解决方案受到了限制,因为用来评估历史数据的模型数量有 限,且一般来说阶数较低,虽然潜在地存在无数个可用以比较时间序 列的模型。
由于找到用来拟合数据序列的最优模型要求进行某种迭代数据 分析过程,所以建模进一步复杂化。为了保证有效性、精确性和可靠 性,统计模型被设计、测试和评估。根据这些评估得出的结论,模型 被不断地更新以反映评估过程的结果。过去,由于建模者自身的限制, 以及基于计算机的软件解决方案缺乏灵活性,所以这种迭代程序非常 繁琐、费力,效率通常也很低。
模型建立过程通常包括由以下三个阶段构成的迭代循环(1)模 型确定;(2)模型评估;(3)诊断检验。 一般情况下,模型确定是 建模过程中最困难的方面。这一阶段包括确定差分阶数、自回归(AR) 阶数以及滑动平均(MA)阶数。通常在确定AR和MA阶数之前要确 定差分阶数。 一种广泛地用来确定差分的经验方法是使用一种自相关 函数(ACF)曲线,采用这种方法时,如果ACF失效而衰减得很快, 则表明需要差分。存在若干个确定是否需要差分的规范检验方法,例 如,这些方法中最普遍使用的是Dickey-Fuller检验。然而,当需 要多次和季节差分时,这些规范的测试方法均不是很有效。本发明使
7用的是基于Tiao和Tsay的一种回归方法(1983) 。 Dickey-Fuller 检验是这种方法的一个特例。
序列经适当差分后,下一步任务就是要找出AR和MA的阶数。 在一元ARIMA模型识别中,有以下两类方法模式识别法和补偿函 数法。在各种模式识别法中,广泛采用的是ACF模式和部分自相关 函数(PACF)模式。PACF用于确定纯AR模型的AR阶数,而ACF用 于确定纯MA模型的MA阶数。对于同时出现AR和MA分量的ARIMA 模型,因为ACF和PACF中没有清除模式,所以ACF和PACF识别 法是失效的。其它的模式识别方法包括R和S阵列法(Gary等 人,1980)、隅角法(Begun等人,1980)、最小典型相关法(Tsay与 Tiao, 1985)以及广义自相关函数(EACF)法(Tsay与Tiao, 1984)。提出这些方法用以同时确定ARIMA模型的AR和MA阶数。 在模式确定方法中,最有效且最容易使用的方法是EACF。
补偿函数法为评估类型的确定过程。它们用于选取使补偿函数P (i, j, k,l)值最小化的ARMA (p, q) (P, Q)模型的阶数,其中0 《i《l,0《j《丄0《k《K, 0《1《L。有多种补偿 函数,如使用最广泛的AIC (Akaike信息准贝lj)和BIC (Bayesian信 息准则)。补偿函数法涉及拟合所有可能的(1+1) (J+l) (K+l) (L+l) 个模型,计算每一个模型的补偿函数,以及选出补偿函数值最小的模 型。选择的I, J, K禾n L的取值必须足够大以覆盖p, q, P和Q的 真值。即使必需的I=J=3禾B K=L=2也会产生出144种可能的模型 来拟合。这一过程可能非常耗时,而且I, J, K, L的值也有可能太 低而无法覆盖真值模型阶数。
虽然识别方法在运算上比补偿函数法快,但模式识别法不能很好 地确定季节AR和MA阶数。本发明中的方法使用的是模式识别法, 它通过使用ACF, PACF禾n EACF模式来确定非季节AR和MA阶数。季节AR和MA阶数被初始化为P=Q=1,而留到模型评估和诊断检验
阶段再修正它们。
因此,需要一种对具有单个用户的最少输入的数据序列精确拟合 统计模型的系统和方法。进一步还需要一种更灵活与复杂的模型构造 器,它使单个用户能够创建更优模型并能用于改善以前的模型。也需 要一种对创建的模型进行敏感性分析的系统和方法。

发明内容
根据本发明一方面,提供一种基于一元和多元时间序列构造统计 模型的计算机系统与方法。
通过不断复杂的ARIMA统计建模技术,本发明的系统和方法允 许根据过去值(一元建模)或观察的过去值的组合连同其它时间序列 (多元建模)来建立模型和预测。
在本申请中,Y (t)代表将要被预测的时间序列。 一元ARIMA模型数学上可以表示为如下形式 0(5)①(F )(l — (1 —万5 f FW = A + 6>08) (F )a0)
其中
自回归(AR)多项式为
非季节 0(5) = (1 — ^,5-----<^50,
季节 = —(D,W-----①pW),
滑动平均(MA)多项式为
一一季节 6 (5) = (1 —《5——《59),
季节 0(丑s卜(l-0i^——
为一个白噪声序列, S为季节长度,且
万为反向移动算子,其使得BY(t) = Y (t-l)。d与D为非季节和季节差分阶数,p和P为非季节和季节AR阶 数,q和Q为非季节和季节MA阶数。
该模型被表示为〃ARIMA (p, d, q) (P, D, Q)〃。按照ARIMA (p, d, q) (P, D, Q)模型,有时该模型为f (Y (t)),即对Y (t)的 适当变换而不是Y (t)本身。在本发明中,变换函数f (.)可以是 自然对数或是平方根。变换函数f (.)也称作"方差稳定"变换和 差分 〃水平稳定〃 变换。如果Y (t)遵循ARIMA (p, d, q) (P, D, Q)模型,那么对Y(t)进行d次非季节差分和D次季节差分后, 它就变成了一个平稳模型,表示为ARMA (p, q) (P, Q)。 一些简短 的符号表示法用于特定情况,例如,非季节模型记作ARIMA (p, d, q)、季节AR模型记作AR (p) (P),而非季节AR模型记作AR (p)。
在模型确定阶段,构造模型过程的第一阶段,选择适当的变换函 数f 、差分阶数d和D、 AR阶数p禾n P、 MA阶数q和Q。在
模型评估阶段,将己确定的模型与数据序列进行拟合,以便得出参数 y、W二、 W}L、掛化'的评估。评估结果可能建议一些参数
为零而应从该模型中删除。在诊断检验阶段,确定被选择的模型是否 与数据拟合;当该被选择的模型与数据不拟合时,建议如何修改模型 从而开始下一迭代循环。自从1976年Box与Jenkins合著的 〃时 间序列分析,预测与控制〃 一书发行出版后,ARIMA模型和三阶段模 型建立过程开始流行起来。
当其它序列(L(t), X2(t),..., XK(t))影响到要被预测的时间 序列Y (t)时,适合采用多元模型。本发明中考虑的多元ARIMA模 型实际上是Box与Jenkins合著的 〃时间序列分析,预测与控制〃 (1976)—书中的转换函数模型。这种模型在数学上能够表示为
(1 _ B" (1 — 5s)Dr(O = // + |>, (5)(1 — 5" (1 — 5s)D'义,(,)+ iV(,),
其中"'(収1-^'(1-W"是Xi(t)的转换函数。v (B)的形式为其中b称作延迟滞后,h为分子多项式的阶数,r为分母的阶数。
N (t)为遵循零均值一元ARMA (p, q) (P, Q)模型的干扰序列。 如同一元模型中的情况,Y (t)禾Q Xi (t)可以由各自经适当变换的 形式f (Y(t))和fi(Xi (t))取代。确定多元ARIMA模型包括找出 差分阶数d、 D; Y (t)的适当变换f (.); fi (.)以及转换函数,
包括找出延迟滞后、每个Xi(t)的分子和分母的阶数;以及干扰序
列N (t)的ARMA阶数。除了确定阶段和评估阶段之间的相互作用 更强以外,这里应用的是三阶段模型构建迭代循环。
对于多元ARIMA模型,Box和Jenkins (1976)提出了一种涉 及预白化技术的模型建立过程。他们的方法仅在有一个预测因子的情
况下才有效在有一个以上的预测因子的情况下,则这种预白化技术
是不适用的。针对这种情况,Liu和Hanssens (1982)提出了线性 转换函数(LTF)法。LTF法概括如下
1. 对于"充分"大的值m,拟合模型,其形式为 n^d +不K)+^5 +…fl^"义,(,)+竭,以及对于s = l,初始的N
(t)遵循模型AR (1);对于s > 1,初始N(t)遵循模型AR (1) (1)。
2. 检查被评估的干扰序列N (t)是否稳定。如果不稳,则差 分Y与X序列。为差分的序列拟合同一模型。
3. 利用每个预测因子序列的评估系数,指定试用的有理转换 函数,并为N (t)指定试用的ARIMA模型。
4. 拟合该模型,并检验合适性。如果不合适,则返回到第3步。
除一些细微差别外,本发明的方法在两个重要的方面不同于LTF 方法:首先,在初始模型前删除一些预测因子序列。这使以后模型评 估更容易、更精确。第二,通过一元ARIMA过程找到的Y (t)的AR和MA阶数被用于初始模型中的N (t)。这避免了 N (t)的模型识别, 并使参数评估更精确。
根据本发明,提供一种使用计算机确定时间序列的一元ARIMA 模型阶数的方法。该方法包括将包括分离数据值组成的该时间序列 输入到计算机;将该时间序列的季节循环长度输入到计算机;以及确 定该时间序列是否有任何丢失的数据值。如果有任何数据值丢失,将 至少一个(优选地是所有的)嵌入的丢失值估算到该时间序列中。
对于一时间序列,假定第一值和最后值均未丢失。如果用户有一 个第一值和/或最后值丢失的序列,则通过删除丢失的初值和末值来 縮短该序列。缩短序列不是部分专家建模器系统当数据序列首次输 入时,它在DecisionTimeTM中执行。这是一个惯例。在专家系统中, 接收到的序列是縮短的序列,其中对所有丢失值都进行了估算 (impute)。
确定时间序列的分离数据值以及任何估算数据值是否都是正数。 如果有必要,对由正值组成的时间序列进行变换。然后确定该时间序 列的差分阶数。此后,构造初始ARIMA模型用于时间序列,如果有 必要,根据迭代模型评估结果、诊断检验以及残差的ACF/PACF,修 正初始ARIMA模型,以生成修正的ARIMA模型。
根据本发明的另一方面,本发明也提供一种使用计算机确定时间 序列的多元ARIMA模型的阶数的方法。该方法包括将该时间序列 输入计算机;将该时间序列的季节长度输入计算机,以及将包括数值 表示的预测因子、干预以及事件中的至少一种类型输入到计算机。由 以上所描述的方法确定该时间序列的一元ARIMA阶数,以及确定这 些类型的输入中是否有一个或多个丢失值。删除具有一个或多个丢失 值的输入类型。通过使用与要预测的时间序列相同的变换和差分阶 数,对这些输入类型进行变换与差分。根据互相关函数(CCF),可 以对一些已输入的预测因子进行进一步差分或删除。根据为时间序列、干预和事件找出的一元ARIMA、以及剩余的预测因子,为该时间 序列构造初始ARIMA模型。此后,根据迭代模型评估结果、诊断检 验以及残差的ACF/PACF ,对初始ARIMA模型进行修正。
根据本发明,提供一种数据处理方法,用于在使用计算机预测未 来趋势的任务中减少用户输入交互数量,该方法包括
将时间序列的分离数据值和季节循环长度输入到所述计算机中 将包括由数字数据值表示的若干个预测因子、若干个干预和若干个事 件的至少一种类型输入到该计算机;
指示该计算机执行以下步骤a)确定该时间序列的ARIMA阶数; b)除去具有至少一个丢失值的预测因子;c)如果在步骤a)中的 该时间序列被变换并且所剩余的预测因子仅包括正的数据值,则采用 应用于步骤a)中的该时间序列的相同变换,对预测因子进行变换;
d) 如果在步骤a)中的该时间序列被差分,则采用应用于步骤a)中 的该时间序列的相同差分阶数,对所述的预测因子、干预和事件差分;
e) 根据该时间序列的ARIMA阶数、干扰和事件、以及剩余的预测因 子,构造该时间序列的初始多元ARIMA模型;以及f)根据迭代模 型评估结果、诊断检验以及残差的自相关函数/部分自相关函数,修 改该初始多元ARIMA模型;
通过计算机执行所述指示的步骤,创建该时间序列的多元ARIMA 模型,从而减少用户输入交互的数量;以及利用该计算机创建的多元 ARIMA模型来预测未来趋势。
根据本发明的又一方面,提供一种数据处理系统,用于进行模型 化以预测未来趋势,该系统包括
计算机处理器;
输入装置,用于将时间序列的数据以及包括由数字数据值表示的 若干个预测因子、若干个干预和若干个事件的至少一种类型接收到计 算机中;创建装置,用于创建该时间序列的多元ARIMA模型,包括 a)确定装置,用于确定该时间序列的ARIMA阶数;b)除去 装置,用于除去具有至少一个丢失值的预测因子;c) 构造装 置,用于根据为该时间序列得出的ARIMA阶数、干扰、事件、以 及剩余的预测因子,构造该时间序列的初始多元ARIMA模型;以 及d)修改装置,用于根据迭代模型评估结果、诊断检验以及残 差的自相关函数/部分自相关函数,修改该初始多元ARIMA模型;
预测装置,用于利用该多元ARIMA模型来预测未来趋势;以及
输出装置,用于提供预测的结果。
根据本发明的其他方面,本发明还提供包含实现前述方法的计算 机软件的一种计算机系统及非易失存贮介质。


图1为根据本发明的数据处理系统框图。 图2为根据本发明的一元ARIMA建模流程图。 图3为根据本发明的多元ARIMA建模流程图。 图4为本发明的一个实施例的时间序列曲线。 图5为本发明一个实施例的曲线。
图6A 、 6B为根据本发明的多元ARIMA模型应用的曲线图。
具体实施例方式
参见附图,特别是图1,其中公开了根据本发明的数据处理系统 10的框图。数据处理系统10具有由总线16连接的一个计算机处 理器12和存贮器14。存贮器14是一种相对高速的机器可读介质, 该存贮器14包括如DRAM、 SRAM的易失存贮器以及如只读存贮器 (ROM)、闪存(FLASH)、电可编程只读存贮器(EPR0M)、电可擦 只读存贮器(EEPR0M)和磁泡存贮器的非易失存贮器。与总线16相连的还有辅助存贮介质20、外存贮介质22、输出设备(如计算机显 示器24)、输入设备(例如键盘(带有鼠标)26)以及打印机28。 辅助存贮介质20包括机器可读介质,例如硬盘驱动器、磁鼓以及磁 泡存贮器。外部存贮介质22包括机器可读介质,如软盘、可移动硬 盘驱动器、磁带、CD-ROM,甚至也可能是通过通信线30连接的其它 计算机。图示辅助存贮介质20和外部存贮介质22的区别主要是为 了方便描述本发明。应该理解的是,这些部件之间实际上有功能上的 重叠。根据本发明的计算机软件和用户程序能够存贮在软件存贮介质 中,例如存贮器14、辅助存贮介质20和外部存贮介质22中。例 如,计算机软件32的可执行部分能够从非易失存贮器(例如,外部 存忙介质22, 二级存贮介质20或非易失存贮器)读出,然后直接 载入易失存贮器中执行,或者直接从非易失存贮器取出执行,或者在 载入易失存贮器之前存贮在辅助存贮介质20上。
参见图2,图中提供的流程图表示一种通过计算机用来从单个数 据元素的时间序列创建一元ARIMA模型的算法。 一元模型建立的算 法包括如下基本步骤
1. 找出合适的变换并对时间序列进行变换;
2. 确定时间序列(季节与非季节)的差分(I)阶数;
3. 确定时间序列的季节与非季节自回归(AR)阶数;以及
4. 确定时间序列的滑动平均(MA)季节与非季节阶数。 优选地,ARIMA模型的按照下述顺序构造。然而本领域所属专业
技术人员将意识到,统计建模的顺序不需要按照下面讨论的实施例中 所描述的严格的顺序。
在能够为时间序列创建ARIMA统计模型前,先将时间序列Y (t) 及其季节长度(或季节性周期)输入到利用该算法的计算机程序中。 下一步,检査时间序列用以确定已输入的时间序列是否有任何丢失值。如果时间序列有任何丢失值,则将未出现的值按如下方式估算到 时间序列中
A. 估算丢失值
根据序列是否具有季节模式,使用最近的邻近值或季节邻近值,
按照线性内插就能够估算出丢失值。丢失值的估算如下 确定是否有季节模式。
如果S = 1,则无季节模式。
If s 〉 1,计算序列的样本ACF。时间序列Y (t)滞后为k的 ACF计算如下
g,-F)(r(, + "-F)
爿C,)^——^-,
F)2
户i
其中n为序列长度,F为序列的均值。
如果对于所有前6个滞后,ACF具有的绝对t值均大于1.6, 则对时间序列进行非季节差分并计算差分序列的ACF。令m=max (ACF (l)至ACF (k)),其中当s《4时,k = s-l; 4 〈 s《9时, k= s—2;当s > 10时,k = 8。令m2 = max (ACF (s), ACF (2s))。 如果mi > m2,则认为没有显著的季节模式,否则具有季节模式。 季节模式的有无按如下方式进行考虑
无季节模式——使用最临近的未丢失邻近值,对丢失 值进行线性内插;及
存在季节模式——使用同一季节最临近的未丢失数据 对丢失值进行线性内插。 如果有丢失值,它们在本步骤中进行估算。因此,人们可以假设 从现在起在时间序列中没有丢失值。如果时间序列只包括正值,则时 间序列可按如下方式进行变换
B. 找出适合的变换优选地,按照如下步骤找出适合的变换。对于正序列Y,在Y 、 log (Y)和Y的平方根上通过一般最小二乘方法(0LS)拟合高阶AR (P)模型。比较每个模型的Y的对数似然函数。令I,为三种模型
的最大对数似然,以及ly为Y本身模型的对数似然。如果工,^ Iy,
且(1/n) Iy)与I (I隨-Iy)/Iyl均大于4%,则完成相应于L
的变换。否则,无需进行变换。
选择阶数p的规则如下当s《3时,则考虑AR (10);当4 《s《11时,则考虑AR (14);当s》12时,则考虑具有滞 后为1至6、 s至s+3、 2s至2s+2的高阶AR模型(如果样本大 小小于50,则丢掉大于等于2s的滞后)。
也要计算时间序列的差分阶数。差分阶数的确定分为两步,(a) 和(b)。步骤(a)初步确定差分阶数;步骤(b)进一步差分时间序 列。
C.找出差分阶数
优选地,按照如下步骤找出差分阶数。
步骤(a)
当s = 1时
通过一般最小二乘法拟合模型Y (t) = c + 0, Y (t-l) +0)2 Y (t-2) + a (t)。对照表1中定义的临界值,检査Oi与02。如果(A 〉 C (1, 1)且-02 〉 C (1,2)},则取差分(1-B)2Y(t)。否则,拟合模型
Y (t) = c + 0Y (t-l) + a(t)。如果{| t(c) I 〈 2且0) 〉 C (2, 1)} 或{| "c) I "且(0-l)/se ((D) > C (3,1)},则取差分(1-B)
Y (t)。否则无差分。
其中s >1:
利用一般最小二乘法,拟合模型Y (t) = c + A Y (t-1) +02
Y (t-s) +03 Y (t-s-1) + a(t)。表2中定义了临界值C (i, j)。 如果{0>! > C (1, 1)且02 > C (1,2)且-ct>3 > C(l, 1) C (1,2)},
17则取差分(1-B) (1-Bs) Y (t)。否则,如果A《02,拟合模型Y (t)=c + CD Y (t-s) + a (t)。如果{I t (c) I < 2且O 〉 C (2, 1)}或者{| t (c) I > 2且(O-l)/se (O) > C (3,1)},则取差分(l-B"Y(t)。
否则,如果0, 〉 02,拟合模型r &9 = c + 0 Y (t-1) + a (t)。如果{| t (c) I < 2且O 〉 C (4,1)}或{| t (c) I > 2且(0)-1)/se(cp) 〉C (5,1)},则取差分(1-B)rW。否则无差分。
步骤(b)
对于步骤(a)后的数据,现在这些数据表示为"Z (t)"。当s 二 1:
通过条件最小二乘(CLS)法,拟合ARMA (1, 1)模型(1-OB)Z(t)二 c + (1-6B) a (t)。 If 6 〉 0. 88且|0 - 6 I 〉 0. 12,则取差分(l-B)Z(t)。如果6 〈 0.88且与0.88相差得不太大(例如,如果0. 88 - O 〈 0.03),则应该检验Z的ACF。如果对于所有前6个滞后,ACF具有的绝对t值都大于1.6,则取差分(1-B) Z (t)。
当s > 1且未丢失Z的数量小于3s,则执行与s = 1的情况相同的处理。
当s > 1且未丢失Z的数量大于或等于3s时
通过CLS法,拟合A腿(l, 1) (1, 1)模型(HB) (1-02BS) Z(t)=c + (l- 6必(1- 0 2 Bs) a (t)。
如果a禾卩o2都大于o.88,且Ia - |> o. 12且|o2 - e2
I 〉0.12,则取差分(1-B) (1-BS) Z (t)。如果只有0》0.88,且lA- 6i |〉 0. 12,则取差分(1-B) Z (t)。如果0)! < 0. 88但与0. 88相差不是太大(例如,如果0. 88 - < 0. 03),则应该检验Z的ACF。如果对于所有前6个滞后,ACF的t的绝对值都大于1. 6,则取差分(l-B)Z(t)。如果只有02 〉0,88,而|02 - e2 I〉 0.12,则取差分(1-Bs) Z
(t)。
重复步骤(b),直至无需差分。
找出正确的差分阶数是一个活跃的研究领域。 一种广泛采用的经验法涉及使用ACF曲线找出序列是否需要差分。在这种方法中,如果序列的ACF显著且下降得很慢,则差分该序列。如果差分序列的ACF仍然显著且下降得很慢,则再次差分该序列,直到不需要差分为止。然而由于需要以太多的滞后计算ACF,所以此方法很难用于找出季节差分。
由于其理论的合理性,引发了人们对更规范测试的浓厚兴趣。例如,规范测试有增强Dickey-Fuller测试(1979), Dickey, Hasza与Fuller测试(1984), Phillips-Perron测试(1988),以及Dickey与Pantula测试(1987)。然而这些测试均不能处理多重差分和季节差分。
步骤(a)中使用的方法基于Tiao和Tsay (1983)提出的方法,他们证明了对于ARIMA (p, d, q)模型,AR (k)回归的一般最小二乘评估(其中k〉d)符合不稳定AR系数。根据有限的样本变化,步骤(a)从检验多重差分出发,并将其降至单差分。此步骤应该能捕获最常见的差分非季节序列的(1-B"和(1-B);季节序列的(1-B)(1-Bs), (l- Bs)禾口 (1-B)。
步骤(b)是如果步骤(a)错过所有必要的差分时的后备步骤。
对于s二l,如表1所示,以及对于s 〉 1,如表2所示,确定步骤(a)中使用的临界值。
表1
s = 1时,临界侑C (i, .i)的定义C(l, 1)与C(l,2)- 当真值模型为(1-B)2Y(t)=a(t)时,在拟合模型Y(thc+①,Y(t -1)+ 0>2Y(t-2)+a(t)中的和-o2的临界值。
C (2, 1) -- 当真值模型为(1-B) Y (t) = a (t)时,在拟合模型Y (t) = c +①Y (t-1) + a (t)中0)的
临界值。
C (3. 1) -- 当真值模型为(1-B) Y (t) = c。
+ a (t)时,c。#0,在拟合模型Y (t) = c + OY (t-1) +a (t)中(O-l)/se(0)的临界值。
s 〉 1时,临界信C (i, .0的定义
C (1, 1)禾口 C (1,2)以及C (1, 1) C (1,2)
—当真值模型为(1-B)(1-Bs) Y(t) = a(t)时,在拟合模型Y(t) = c+ O,Y(t -1) + 0>2Y(t -s) +03Y(t-s-1) +a(t)中0^、 02和-cD3的临界值。
C (2, 1)—当真值模型为(1_BS) Y (t) = a (t)时,在拟合模型Y (t) = c + 0>Y (t-s) + a (t)中CD的临界值。
C (3. 1)--当真值模型为(1-Bs) Y (t) = Co + a (t),c。 i 0,在拟合模型Y (t) = c + (t-s) + a (t)中(cD-l)/se(0))的临界值。
C (4. 1)—当真值模型为(1-B) Y (t) 二 a (t)时,在拟合模型Y (t) = c + (t-l) + a (t)中①的临界值。
C (5. 1)—当真值模型为(1-B)Y(t) = c。 + a (t),c。 # 0,在拟合模型Y (t) = c + OY (t-l) + a (t)中(0)-l)/se(cD)的临界值。注意
1. 临界值取决于样本大小n 。
令t(0.05, df)为具有自由度为df的5%的t-型分布。则在表1中,C (3, 1) = t (0. 05, n-3);表2中,C (3, 1) = t (0. 05, n—s—2)禾卩C (5, 1) = t (0. 05, n—3)。
*对于其它临界值,模拟n = 50、 100、 200和300的临界值。由于临界值近似线性依赖于1/n,这种近似关系被用于对于任意的n取得更优的临界值。
2. 临界值也取决于季节长度s。
仅模拟s = 1、 4和12的临界值。当s 〉 1且s不等于4和12时,根据1与s的接近,利用s = 4或s = 12时的临界值。
D.初始模型非季节AR阶数。和MA阶数q
在本步中,确定非季节AR和MA多项式的试用阶数,p和q 。如果时间序列中存在季节性,则季节AR与MA多项式的阶数取1。
使用ACF, PACF和EACF按如下方式识别p和q ,其中M和K (K《M)均为整数,其值依赖于季节长度。
ACF:
对于第一个m的acf,令匕为最小数,以便所有acf (k,+1)到ACF (M)均不显著(例如,统计的l t I 〈 2)。如果k,《K,则p 二 0且q =、。使用ACF的方法可能完全不识别模型。PACF :
对于第一个m的ACF,令k2为最小值,以便所有PACF (k2+1)到PACF (M)均不显著(即,统计的l t I < 2)。如果k2《K,则p = k2且q = 0。使用PACF方法也可能完全不识别模型。EACF:对于一个M X M的EACF矩阵,采用如下过程
i. 检查第一行,找出最大的阶数,其中一行的最大阶数表示高于该阶数的该行中所有的EACF均不显著。该模型表示为A腿(0, q。)。
ii. 检查第二行,找出最大的阶数。该模型表示为ARMA(l,q,)。对每一行均如此操作,并将第i行的模型表示为ARMA (i-l,q,》。
iii. 找出p和q值作为具有最小p+q的模型。如果由几个模型实现最小P + q,因为AR参数较易于拟合,选取q值较小的一个。
在由ACF、 PACF和EACF识别的模型中,选取p + q的值最小的模型。如果没有单个模型具有最小P + q,则执行如下步骤:如果此关系涉及EACF识别的模型,则选择该模型。如果此关系是由ACF和PACF识别的模型之间的一种双向关系,则选取由PACF识别的模型。
E.修改模型
在构造出ARIMA模型之后,优选地,通过利用至少三个阶段的修改来处理该模型,对该模型进行修改。图2中所示的流程图说明了模型修改中包括的阶段。
修改模型的第一步是根据条件最小二乘(CLS)拟合的结果删除不显著的参数。根据参数的t值,这一步在迭代步骤中完成。
修改模型的第二步是根据最大似然(ML)拟合的结果删除不显著的参数。(ML方法比CLS方法更精确,但比CLS方法慢。)
模型修改的最后阶段涉及执行诊断检验;如果模型没有通过诊断检验的话,则需向模型添加适当的项。
在诊断检验中,Ljimg-Box统计被用于执行拟合测试的缺少。假
设我们具有残差ACF ri到rk的前K个滞后。然后,将Ljung-Box统计Q CO定义为2(幻="("+ 2) A;),其中n为未丢失残
差的数目。Q (K)具有自由度为K-m的近似卡方分布,其中m为模
型中不是常数项的参数的数目。显著Q (K)表示模型不充分。要确定
Q 00是否显著,则要使用距卡方分布0.05水平的临界值。如果Q
(K)显著,则检验单个残差ACF (1)到ACF (M)。如果有足够大的
ACF ( I t I 〉 2.5),则模型需做如下修改。(K禾Q M的取值可以
是任何有理正整数,优选地是依赖于季节长度。在本发明中我们的选
择是,当s二l时,选择K二18; s 〉 1时,选择K二2s;而s二l时,
选择M=K ;而1 < s < 15时,选择M=s-1 ; s》15时,选择M二14。)
对于非季节部分,如果残差ACF (1)到ACF (M)具有 一个或多个显著滞后(t 〉 2.5),则向模型的非季节MA部 分加入这些滞后。否则,如果残差PACF (1)到PACF (M) 具有一个或两个显著滞后(it I 〉 2.5 ),则向模型的非季 节AR部分加入这些滞后。
对于季节部分,如果ACF (s)和ACF (2s)、或者PACF (s)和PACF (2s)均不显著,则无需修改。否则,如果PACF (s)显著而PACF (2s)不显著,则向将季节AR加入滞后1。 否则,如果ACF (s)显著而ACF (2s)不显著,则向季节MA 加入滞后1。否则,如果PACF (s)不显著而PACF (2s)显 著,则向季节AR加入滞后2。否则,如果ACF (s)不显著 而ACF (2s)显著,则向季节MA加入滞后2。否则,向季 节AR部分加入滞后1和2。 除ARIMA模型外,还有其它类型的模型;例如,指数平滑模型。 本发明是找出"最优" 一元ARIMA模型的一种方法。如果不知道使 用哪种类型的模型,可试图找出每种类型的"最优"模型,然后比较这些模型以找出"最优"的总模型。然而,比较不同类型模型的困难
之处在于 一些模型可能有变换与/或差分,而一些模型可能没有。
在这些情况下, 一些常用的准则不再适用,如贝叶斯(Bayesian)信
息准则(BIC)以及赤池弘次(Akaike)信息准则(AIC)。本发明使
用的是规范化的贝叶斯(Bayesian)信息准则(NBIC),它适用于比较
不同变换和不同差分阶数的模型。NBIC定义为
扁C = In (MS£) + k ,

其中,k为模型中参数的数目,m为未丢失残差的数目,而MSE 为平均二乘误差,定义为
m-k ,
其中,和为总的未丢失残差^)=^)-Aa, Y(t)为最初的未
变换和未差分序列,并且f^为单步前预测值。这里,NBIC中的MSE 是最初序列的MSE,而不是经变换或差分后的数据。当序列差分时,
得到的序列要比最初的序列短。因此,需要进行规范化。所以通过使
用最初序列的MSE以及有效序列长度的划分,不同变换和差分阶数
的模型就能够相互比较了。最初序列的最大似然函数可以用于替换
NBIC定义中的MSE,并且在某些场合中可能更加精确。然而,MSE
的计算更容易而且依我们的经验它也很有效。
现在参照图3,由计算机用于构建多元统计ARIMA模型的算法 被示为流程图,它也可称作转换函数或分布-滞后模型。多元ARIMA 模型构建过程包括
1. 找出Y (t)的适合变换及预测因子;
2. 找出干扰序列的ARIMA模型;以及
3. 找出每一个预测因子的转换函数。
24首先,该过程包括通过图2中描述的一元ARIMA模型构造过 程,首先找出Y (t)的一元ARIMA模型。将由一元过程找到的变换 应用于所有正的序列,其中包括要预测的序列以及预测因子。将一元 过程找出的ARIMA阶数用作干扰序列的初始模型。然后,执行一系 列操作以找出每一个预测因子的转换函数。细节说明如下
A. 找出Y (t)的一元ARIMA模型
使用一元ARIMA模型构造过程识别Y (t)的一个一元ARIMA 模型。在本步骤中,完成以下操作。
如果有任何丢失值的话,估算Y (t)的所有丢失值。
如果需要,对Y (t)进行变换。
找出差分阶数d和D,并对Y (t)做相应的差分。 找出AR与MA阶数。 当s > 1时,如果在找到的Y (t) —元ARIMA模型中没有季 节模式,则从现在起,将按s = 1处理此情况。
如果Y (t)经过变换,则对所有正预测因子进行相同的变换。 如果Y (t)经过差分,则对所有的预测因子、所有干预以及所有事 件进行相同的差分。
B. 删除与差分预测因子
对于每一个预测因子Xi (t),对k二O到12计算CCF(k) = Corr (Y (t), Xi (t-k))。如果对于某些Xi (t), CCF (0)至CCF (12)中 没有一个是显著的(|t|》2),则利用一元过程,找出序列Xi (t)的 非季节和季节的差分阶数,将其称为di, Di。将di与Di与0比较,
并执行如下操作
如果di = 0且Di 二 0,则丢掉模型中的Xi (t)。
如果山〉0且Di = 0,取差分(l-B"Xi(t)。
如果di = 0且Di 〉 0,取差分(l-B)Di Xi(t)。
如果di 〉 0且Di > 0,取差分(l-B)di(l-B)Di Xi(t)。如果在最后计算CCF之后对Xi (t)差分,则再次计算k = 0到12的CCF(k)。如果CCF (0)到CCF (12)中没有一个是显著的(| ti> 2),则丢掉模型中的Xi (t)。
每次差分Xi (t)时,均检验它是否变为不变序列。如果差分后序列不再变化,则从模型中删除它。
C. 构造初始模型
对于经适当变换和差分的序列Y、 XS和IS,初始模型为
" 、
m=c+s z — x, (o+1;从(o+外)
'u=。
」 *
其中Si是对所有预测因子序列求和,2k是对所有干预与事件序列求和,噪声序列N(t)的均值为0并遵循具有为Y (t)找出的一元ARIMA模型完全一样的AR与MA阶数的ARMA模型。m的取值可以选择为任意有理整数,其足够大而允许找出延迟的滞后和确定模式,而优选的是根据季节长度。在本发明中,值m的选取方式如下
对于s二l, m=8.
对于s 〉 1, m二s+3.(如果s+3 > 20,取m=20.)
当参数的总数大于样本大小的一半时,则降低阶数m的大小,以便参数的总数小于样本大小的一半。
N (t)称为干扰序列。为了在非干扰部分获得参数的可靠评估,需要N (t)的合理模型。因为认为Y (t)的模型涵盖了 N (t)的模型,所以本发明的方法使用为适当变换和差分的Y(t)而找到的一元ARMA模型作为N (t)的初始模型。因此,co's的参数评估值更好,从而能够用于做出更可信的决定。此外,同其它方法不同的是,N (t)的一般模型不需要进一步进行N (t)的模型识别。
D. 找出每个预测因子的延迟滞后、分子与分母
其实现过程如下。对于每一个预测因子Xi(t),执行下述操作 如果仅有一个或两个CJj项(例如,COij。和CJw)是显著的(ltl 》2),则不需要分母,而延迟滞后为j。,分子为气+ W-' 。
如果两个以上的Wi」项显著,假定Wij。是第一个显著项,则 延迟滞后为j。,分子为wVu + ,U+1)B + w,u+2)JB2,分母为
本发明的方法被实现在商用软件SPSS DecisionTime 专家建模 器中。图4到6A、 6B取自商用软件SPSS DecisionTime 。
示例1
构造国际航线乘客数据的一元ARIMA模型
在本例中,序列为从1949年1月到1960年12月期间旅行 的国际航线乘客的月度总数。如图4所示,其中y轴代表乘客数(单 位为千),x轴显示年和月份。
Box与Jenkins (1976)研究了该序列,并发现需要进行对数 变换。他们为该对数变换序列确定(O,l,l) (O,l,l)模型。因此,对 数变换序列的模型(O,l,l) (0,1,1)称作"航线"模型。将国际航 线乘客月度总数作为要预测的输入时间序列,而将"12"作为输入季 节循环,本发明的方法为这种序列找出了相同的模型。图5示出利 用所示的模型连同输入时间序列的预测值。图中显示了在1960年12 月(12/60)序列结束后为期一年的预测的未来值。可以看出该模型 对输入吋间序列拟合得很好。
示例2
构造服装销售的多元ARIMA模型
如图6A与6B所示,为预测男式和女式服装目录销售而构造 的一个多元ARIMA模型。数据集由模拟和原始数据组成,它包括从 1989年1月到1998年12月期间目录公司每月销售的男士与女士 服装情况。可能潜在地影响销售的预测因子有5个,包括 (1)邮寄的目录的数目,称为"邮件";(2) 目录中的页数,称为"页面",
(3) 用于订货的电话线路数目,称为"电话";
(4) 印刷广告所花费的金额,称为"印刷";以及
(5) 客户服务代表的数目,称为"服务"。 其它考虑因素还包括1995年6月发生的罢工("罢工")、1997
年9月的印刷事故("事故")以及分别于1989年3月、1991年6月、 1992年2月、1993年5月、1994年9月、1995年1月、1996 年4月和1998年8月举行的促销活动"促销"。促销被当作了事 件处理;罢工和事故可作为事件或干预来处理。
使用所有这5个预测因子和3个事件,从该数据集构造出了 两个模型——一个用于男士服装销售(图6A中表示为〃男")以及一 个用于女士服装的销售(图6B中表示为"女")。
男装的销售仅受邮件、电话、罢工、事故和促销影响。与之不同, 女装的销售受邮件、印刷、服务、罢工、事故和促销影响。
通过排除1998年7月到1998年12月的数据,并使用余下 的数据构造模型,然后使用新的模型预测最初被排除的数据,对模型 的有效性进行了测试。图6A, B显示排除数据的预测与实际数据匹 配得非常好。
虽然本发明针对特定优选实施例进行了描述,如同本领域技术 人员所意识到的那样,可以理解的是,本发明能够进行多种变化、修 改和重新调整。这些变化、修改和重新调整都在随后的权利要求范围 之内。
权利要求
1. 一种数据处理方法,用于在使用计算机预测未来趋势的任务中减少用户输入交互数量,该方法包括将时间序列的分离数据值和季节循环长度输入到所述计算机中将包括由数字数据值表示的若干个预测因子、若干个干预和若干个事件的至少一种类型输入到该计算机;指示该计算机执行以下步骤a)确定该时间序列的ARIMA阶数;b)除去具有至少一个丢失值的预测因子;c)如果在步骤a)中的该时间序列被变换并且所剩余的预测因子仅包括正的数据值,则采用应用于步骤a)中的该时间序列的相同变换,对预测因子进行变换;d)如果在步骤a)中的该时间序列被差分,则采用应用于步骤a)中的该时间序列的相同差分阶数,对所述的预测因子、干预和事件差分;e)根据该时间序列的ARIMA阶数、干扰和事件、以及剩余的预测因子,构造该时间序列的初始多元ARIMA模型;以及f)根据迭代模型评估结果、诊断检验以及残差的自相关函数/部分自相关函数,修改该初始多元ARIMA模型;通过计算机执行所述指示的步骤,创建该时间序列的多元ARIMA模型,从而减少用户输入交互的数量;以及利用该计算机创建的多元ARIMA模型来预测未来趋势。
2. 如权利要求1的方法,其中,所述确定ARIMA阶数进一步包括当从该时间序列丢失任何数据值时,估算至少一个丢失数据值;当该时间序列仅包括正的数据值时变换该时间序列;确定该时间序列的差分阶数;以及确定AR和MA的阶数。
3. 如权利要求2的方法,其中所述变换该时间序列进一步包括:利用一般最小二乘方法对该时间序歹U、该时间序列的对数以及该时间序列的平方根拟合高阶AR(p)模型。
4. 如权利要求1至3中任一项的方法,还包括:确定这些类型的输入的数字数据值的任一个是否是正值;使用与应用于输入的时间序列上之相同变换,对正的输入类型进行变换;使用与应用于输入的时间序列上之相同的差分阶数,对输入类型进行差分;如果有必要,对某些输入类型做进一步的差分。
5. 如权利要求4的方法,其中变换该时间序列包括方差稳定变换。
6. 如权利要求4的方法,其中变换该时间序列包括水平稳定变换。
7. 如权利要求4的方法,其中变换该时间序列包括方差稳定变换和水平稳定变换。
8. 如权利要求4的方法,其中,该对输入类型做进一步差分的步骤包括(a) 对于每一个所述预测因子,计算已差分预测因子以及已输入的差分时间序列之间的互相关函数;及(b) 找出进一步差分阶数,并对其中那些具有不显著互相关函数的预测因子的类型做进一步差分。
9. 如权利要求4的方法,进一步包括(a) 在构造该初始多元ARIMA模型前,删除适当差分的预测因子与输入的适当差分时间序列之间互相关函数不显著的任何预测因子;以及(b) 在构造该初始多元ARIMA模型后,删除具有全部不显著评估系数的预测因子,其中每个模型评估之后,所述的预测因子每次被删除一个。
10. 如权利要求4的方法,其中,该构造初始多元ARIMA模型的步骤包括指定带有AR和MA阶数的初始多元ARMA模型,所述AR和MA阶数是为输入干扰序列的时间序列而得出的。
11. 如权利要求4的方法,进一步包括将一些预测因子的转换函数变成具有非空分母的有理形式。
12. —种数据处理系统,用于进行模型化以预测未来趋势,该系统包括计算机处理器;输入装置,用于将时间序列的数据以及包括由数字数据值表示的若干个预测因子、若干个干预和若干个事件的至少一种类型接收到计算机中;创建装置,用于创建该时间序列的多元ARIMA模型,包括a) 确定装置,用于确定该时间序列的ARIMA阶数;b) 除去装置,用于除去具有至少一个丢失值的预测因子;c) 构造装置,用于根据为该时间序列得出的ARIMA阶数、 干扰、事件、以及剩余的预测因子,构造该时间序列的初始多 元ARIMA模型;以及d) 修改装置,用于根据迭代模型评估结果、诊断检验以及 残差的自相关函数/部分自相关函数,修改该初始多元ARIMA模 型;预测装置,用于利用该多元ARIMA模型来预测未来趋势;以及 输出装置,用于提供预测的结果。
13. 如权利要求12的数据处理系统,其中,该创建装置还包括 变换装置,用于如果在该确定装置中的该时间序列被变换并且所述预测因子仅包括正的数据值,则采用应用于该确定装置中的该时间 序列的相同变换,对所述预测因子进行变换。
14. 如权利要求12的数据处理系统,其中,该创建装置还包括 差分装置,用于如果在该确定装置中的该时间序列被差分,则采用应用于该确定装置中的该时间序列的相同差分阶数,对所述的预测 因子、干预和事件差分;
15. 如权利要求12、 13或14的数据处理系统,其中,该创建装 置还包括确定这些类型的输入的数字数据值的任一个是否是正值的装置;使用与应用于输入的时间序列上之相同变换,对正的输入类型进行变换的装置;以及如果有必要,对某些输入类型做进一步差分的装置。
全文摘要
本发明涉及一种数据处理方法和系统,用于在使用计算机预测未来趋势的任务中减少用户输入交互数量。该方法包括将时间序列的分离数据值和季节循环长度输入到计算机中将包括由数字数据值表示的预测因子、干预和事件的至少一种类型输入到计算机;以及确定时间序列的ARIMA阶数;除去具有至少一个丢失值的预测因子;根据时间序列的ARIMA阶数、干扰和事件、以及剩余的预测因子,构造时间序列的初始多元ARIMA模型;根据迭代模型评估结果、诊断检验以及残差的自相关函数/部分自相关函数,修改初始多元ARIMA模型;创建该时间序列的多元ARIMA模型,从而减少用户输入交互的数量;以及利用计算机创建的多元ARIMA模型来预测未来趋势。
文档编号G06F17/18GK101482944SQ200910003489
公开日2009年7月15日 申请日期2001年11月8日 优先权日2000年11月9日
发明者方东平, 瑞·S·蔡 申请人:Spss公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1