一种基于rbf的城域数据网流量测算方法_3

文档序号:9754326阅读:来源:国知局
第j+Ι层的高频分量。
[0081] 采用公式(5)将上的信号函数S分解为其函数子空间%和^的投影,即分解为一 个低频分量和一个高频分量之和,采用公式(6)得到信号的重构算法,即由函数子空间%上 的一个低频分量和Wj上的一个高频分量重构出上的信号函数S,
[0082]
[0083]整个小波分解和重构的过程称为Mallat算法,通过小波分解的低频分量和高频分 量分别重构出原始输入信号的近似值和细节值;由小波分解的低频分量和高频分量可以重 构出原始信号。同样,可由低频分量和高频分量分别重构出信号的近似值或细节值,这时只 要低频分量或高频分量单独处理即可。
[0084]脉冲噪声多存在于高频分量,丢掉细枝末节可有效减少噪声,所以只对L分解后的 低频系数加窗处理,对数据起到增加作用。流量数据是典型的非平稳信号,它的均值函数随 时间而发生变化。但数据在短时过程中保持平稳,也就是说,在20~30ms内,流量的形状(物 理特征)保持不变。因此,预处理采用平稳过程的处理方法:先将连续的数据用窗函数序列 截取一些时间片段,然后对每一段(帧)进行处理。在取数据时,前一帧和后一帧的交叠部分 成为帧移,帧移与帧长的比值一般取为〇~0.5。为了避免分帧时产生截断效应,每帧都要经 过加窗处理,即用一定的窗函数E(r)与L的低频系数相乘,从而形成加窗信号。鉴于流量属 il ()<r< /V-l 于窄带信号,因此本发明选用矩形窗函数五(r) = ,使得能量集中在主瓣,然后 重构出L的近似值L'。
[0085] (3)建模。如图2所示,
[0086]训练网络模型共有三层结构,即输入层、隐含层和输出层,各层神经元数目依次是 m、p、mi输入样本向量为尤=,:输出样本向量为Γ = (^, j2,......?该模 型实现由,......到输出的映射,对于每个输出节点 >'、(./丨=1二…,"/丨'1.满足如下公式:
[0087]
[0088] 其中表示m个隐含层到第个输出层的权值矩阵,,R表示径向基函数的中心, g( ·)是一类非线性径向对称基函数,u · | |表示距中心的距离。高斯函数除了径向对称, 还拥有形式简单、解析性高、任意阶导数均存在的优点,则采用高斯函数的网络输出为:
[0089]
[0090] 那么,基函数的中心气和基函数宽度σ是RBF需要学习的参数。对于这两个参数,常 用的学习算法有四种:随机选取中心法,自组织选取中心法,正交最小二乘法和有监督选取 中心法,这里重点介绍自组织选取中心法。
[0091] 自组织选取中心法的目的是为隐含层的激活函数选取一个合适的中心位置,通常 采用Κ-均值聚类方法获取基函数中心,按照以下步骤进行:
[0092] 1)网络初始化。随机选取hi个训练样本作为聚类中心=U2,···,')。
[0093] 2)分配样本。按照X与中心S之间的欧式距离将X分配到输入样本的各个聚类集合 中,满足下列条件
[0094]
[0095] 3)调整聚类中心。计算各个聚类集合中训练样本的平均值,即新的聚类中心A。
[0096]
[0097] 4)重复步骤2)和步骤3),直到G,没有变化,得到最终的基函数中心。
[0098] 待确定中心以后,基函数的宽度选择类的半径或者类的半径的倍数。
[0099]
[0100] 式(11)中,dmax为所选取中心之间的最大聚类,I为隐层的单元个数。此外还需要学 习输出层和隐层的连接权。选定基函数中心和宽度,则权值用最小均方算法得出。
[0101] 假设输入样本为尤= ,……,第ji个隐含层节点的输出为:
[0102]
[0103]隐层输出矩阵如下:
[0104]
[0105]如果网络当前权值为b = [h,b2,…,bP]τ,则所有样本的网络输出为:
[0106] f^Ph (Η)
[0107] 令&为逼近误差,则如果已知网络输出7并确定了F ,将式(15)最小化:
[0108]
[0109] 求出网络的输出权值:
[0110] b = P y (16)
[0111] 式(16)中,声+为#的伪逆。
[0112] RBF网络的具体学习过程见图3,常见的参数和设置方法如下。
[0113] 1)网络结构复杂性
[0114] Moody准则指出:在使用正则化方法的网络中,有效参数个数并不等于神经网络中 自由参数的数目。这一准则证实了神经网络结构设计的最简原则:对达到给定训练精度的 神经网络,其有效参数越少泛化能力越好。
[0115] 2)样本的质量
[0116] 训练样本一般反映了样本总体分布的程度。实际过程中要注意选取适中的样本数 量,否则训练数据不完整或过多都会影响到学习的效果。有时候,网络的学习能力差,出现 过拟合现象,是因为学习了太多的细节特征,导致网络不能捕捉规律的本质,无法真正地解 决问题。但是,有时候训练数据含一定的噪声,反而能够提高RBF网络的泛化能力。
[0117] 3)网络权值的初始化
[0118] 由于神经网络传递函数的非线性,网络的初始权值对网络训练收敛快慢以及是否 容易陷入局部最小点都有很大关系。选择合适的初始化权值可以节省网络训练所需的时 间,一般将初始权值设为较小范围的随机数,如在(-1,1)区间内。
[0119] 4)训练次数
[0120] 训练次数并非越多越好,训练次数过多、时间太长可能会造成网络过学习现象。据 研究发现,随着训练误差的减小,泛化误差由最初逐步减小,达到最小值后,开始逐步增加, 即出现了过拟合现象。因此在网络训练的过程中,不能一味地追求训练次数增多或训练误 差减小,否则很可能导致网络的泛化能力下降。
[0121] 5)训练步长
[0122] 即学习速率,其大小对网络学习的过程影响较大。若学习速率太小,则网络训练自 适应的过程缓慢,训练次数增加;而在流量变化强烈的区域,步长过大会跨过较窄的边界 处,使训练出现振荡。为了加速收敛过程,较好的方法是自适应改变学习率,使其随着误差 和迭代次数的变化进行修正。
[0123] 从网络结构来看,RBF只有单隐层,最常用的径向基函数为高斯函数。只要有足够 的隐节点,网络能够逼近紧集上的任意连续函数。RBF隐含层的神经元数能够在训练阶段自 适应地调整,这样应用起来更加灵活。径向基函数属于局部响应函数,训练简洁,这种局部 调整连接权和阈值的特性能够加快速度,有效地避免"遗忘"数据的现象。
[0124] 如图5所示,绝大多数的样本分布在一个较小的范围内,有个别样本数值非常大, 超大样本代表了瞬时突发流量,但是概率很低。L和Η曲线走势类似,数值范围随时间的变化 而增长。如图6所示,预处理后的L'形状更光滑,和Η重合度较高,建立这两者之间的模型更 有利于找寻规律。将L'作为网络输入,Η作为输出,径向基函数采用Κ-均值聚类方法,反复学 习、多次修改后得到训练好的网络。本发明主要预测流量在未来时间段内的变化趋势,从训 练信息区得到学习所用的维数和误差,选择训练效果最佳的预测模型。在预测的时候,从预 测效果对比曲线中可以观察预测的准确率。
[0125] (4)对Η预处理得到Η',预处理的结果见图7(a)。将Η'输入步骤(3)的网络中,就可 以得到目标数据Τ,仿真实验结果见图7(b),可以看出,超大和超小数据所占比重相对很小, 普遍数据在短时间趋向于正态分布并且变化平稳。预测得出的数据Τ和实际该周期的数据S 对比曲线见图8,图8表示预测出的曲线保留了大部分信息,和实际曲线较吻合,存在一定的 误差。从流量的变化规律来看,预测出的带宽更能应对瞬时突发流量。根据图8所示,本发明 对带宽的需求最大为290Μ。
[0126] (5)为了进一步说明预测结果,和运营商常用的线性算法做对比,运营商用户模型 如表2所示:
[0127] 表2各用户业务模型
[0128]
[0129] 运营商测算用户流量=宽带用户数*忙时集中系数*(用户占比*在线用户忙时
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1