一种基于集成经验模态分解和1-范数支持向量机分位数回归的金融时间序列预测方法_2

文档序号:9598277阅读:来源:国知局
9个分位数的预测函数,共 9X(N+1)个。基于这些预测函数和各分解序列的历史值,可以得到各本征模态函数序列和 残差序列在T+1期的预测值,其预测函数如下:
(4) 最后对分解序列的预测结果集成。 最后,将各分位数的每个分量预测结果进行加和集成,得到所有分位数最终的预测结 果:
[0009] 相对于传统的时间序列预测方法,本发明的优点在将集成经验模态分解技术引入 非线性时间序列的分布预测中。首先对数据进行分解,得到可预测性更好的高频和低频的 分量;然将各分量分别进行1-范数支持向量机分位数回归预测,得到每个分量的分布预测 结果;最后,再按照分位数,将所有分量的预测结果进行集成,得到原始时间序列的分布预 测结果。
[0010] 本发明提供的预测方法能够预测了时间序列完整的概率分布的情况,并且有着较 高的预测精度,在金融风险管理和投资决策领域有广泛的应用价值。
【附图说明】 图1为本专利预测方法实施框架图 图2为上证指数2000年1月-2014年3月月度价格集成经验模态分解分量 图3为本发明对上证指数从2011年10月-2014年3月共30期,10%,20%,…,90% 分位数预测结果
【具体实施方式】
[0011] 本发明是基于集成经验模态分解和支持向量机分位数回归的金融时间序列分布 预测方法,其架构如图1所示。为了说明该方法的使用,以上证指数2000年1月到2014年 3月的月度收盘价格数据(共171期)为例测试模型的实际效果。其中,前141期数据用于 训练模型参数(已知时序,最大期T = 141),后30期用于测试实际的外推预测效果(测试 集数量 Ttest= 30)。
[0012] 具体步骤为: 第一步:给定原始时间序列xt将原始序列进行集成经验模态分解,具体实施如下。 由于白噪声是随机的,重复如下(1)-(6)的分解过程100次,每一次用k = 1,2, 3,…,100 表不。 (1) 在原始时间序列数据xt上加入一个标准差为0. 2的白噪声,得到xf ,并令r/ =彳; (2) 找到序列//中所有的局部最大值和局部最小值; (3) 通过这些局部最大值和最小值,分别用三次样条函数拟合其上包络线和下包络线
(4) 计算上下包络线的平均包络线
(5) 从序列#中分离树f ,得到。如果满足两个条件:极值点的数目与过零 点的数目相等或者相差为1 ;在任何点处,由局部极大值包络和局部极小值包络生成的平 均包络为0,则4成为新的模态序列,并令如果if不满足条件,则g = ef作为分 解的残差; (6) 重复(2)-(6)过程,直到找出所有的N个本征模态函数序列及残差,分解结果可以 表示为
(7)将100次得到的分解序列4和残差#分别求平均值,得到

。最终的集成经验模态分解结果表示为:
上证指数最后的分解结果如图2所示。 第二步:对使用1-范数支持向量机分位数回归模型对分解得到的N+1个序列,每个序 列建立9组分位数预测函数,即τ = 〇. 1,〇. 2,…,0. 9共9个分位数,共得到9X (N+1)个 预测函数。用f μ,(j = 1,2, . . .,Ν)表示分位数τ的第j个本征模态函数序列c],t的预 测函数,fu表示残差的预测函数。其具体实施方法如下: (1) 根据时间序列的自相关分析,通过Schwarz最小化原则(贝叶斯信息量)确定滞后 期 1 (1〈T)。 以原始时间序列xt为例,建立其Ρ阶自回归模型(AR(p)):
求得其极大似然函数值L,则该模型的贝叶斯信息量(BIC)为: BICP= - 21n (L) +ln (T-p) * (p+1) 为了确定最佳的滞后期1,首先建立Ρ = 1,2,…,20共20阶自回归模型,并计算其相应 的BICP值;然后,找出{BICdBIC^.^BICJ中值最小的一个,其阶数ρ作为最佳滞后期: 1 = arcmin {BIC^ BIC2,..., BIC20} 例如,在上证指数预测案例中,最佳的滞后期设定为6。 (2) 为了提高模型的训练速度,需要对训练样本归一化。对于分解得到的N+1个序列, 分别使用如下公式,使其归一化到[0,1]区间。
(3) 训练数据生成。 时间序列预测建模的本质是通过分析序列的历史值与其未来值的关系,建立函数关 系。在本例中,需要对N+1个分量,9个分位数建立9X (N+1)个预测函数。而对于同一分解 序列的不同分位数函数,其使用的训练集是相同的,故需要生成N+1组训练集。 下面以原始序列xt为例说明训练样本的生成方法:用y i表示第i个训练样本的因变 量x1+i,Xi表示第i个训练样本的自变量向量[X i, xi+1,...,xi+12, xi+1 i],则原始时间序列 {Xi, x2,. . .,χτ}可以形成一组样本数量为T-1 的训练集(Xi, y;),i = 1,2,. . .,T-1+1, T-1。对 于给定训练集(Xd 7丄(i = 1,2,. . .,T-l+1,T-l),使用1-范数支持向量机分位数回归模型 建立 Xi- yi在分位数 Τ,( τ e (〇, 1))的预测函数 f τ (Xi) = (Xi, Xi+1, . . .,Xi+1 2, Xi+1 i)。 在上证指数时间序列预测的案例中,前141期的数据用作训练数据,可以生成141-6 = 135个训练样本,如下:
(4)使用上述方法对各分解序列生成各自的训练集(共N+1个)和测试集(共N+l 个)后,使用1-范数非线性支持向量机分位数回归模型对各分解序列的各分位数建立 9X (N+1)个预测函数。下面以原始序列\为例说明预测函数的生成方法: 对于分位数τ e (〇, 1)和训练集(Xi,yi),i = 1,2, ·T-1+1,T-1,训练1-范数支持 向量机分位数回归模型的本质是通过优化参数a i, α广,(i = 1,2, . . .,T-1+1, T-1),其中, <^与α ^为当第i个样本点预测值小于实际值或大于实际值时对应约束条件的拉格朗日 因子。使如下目标函数最小化:
其中,虚拟变量ξ u <分别表示模型预测值
小于实际值yi和大于 实际值残差,b为待估截距,C为惩罚参数。Κ(·)为径向基核函数,对于任意一气
σ为径向基核函数的核宽度,ti,t2代表任意两个自变量的下标。在上证指数时间序列 预测的案例中,例如对于两个自变量17与11(),σ =1,其径向基核函数的值为:
模型中的参数(:与σ对预测效果有重要影响,不同的时间序列可能有不同的最佳参数 组合。最佳参数组合通过网格法选取:在给定范围C,σ e [1,2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ,40, 50, 60, 70, 80, 90, 100],共有19 X 19组参数。对每组参数,分别使用1-范数非线性支 持向量机分位数回归模型建立预测函数,并根据预测函数对训练集上的数据进行预测。计 算预测值与实际值之间的预测误差,选取预测误差最小的一组参数组合作为最终参数。其 中,对于分位数τ,其预测误差为:
此处,Τ-1代表训练样本个数,ξ litMin表示训练集第i个样本的实际值y i大于预测值
的残差,高_表示训练集第i个样本的实际值yi小于预测值=Λ(χ,)的残差:
举例说明,针对分位数τ =0.5,(:与〇的各个组合的最终的预测误差匕列在表1中 (针对原始上证指数序列xt的预测为例进行说明) 表1原始上证指数序列\在分位数τ =0.5下各参数组合在训练集上的预测误差值
其中,当参数C与σ为90和1时,取得最小预测误差,故对于分位数τ =0.5,取C = 90,σ = 1〇 该模型本质上是一个带线性约束
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1