本发明涉及一种基于最小二乘支持向量机的脉动风速预测方法,基于采用B样条-径向基(B-RBF)组合核函数的最小二乘支持向量机(LSSVM)的机器学习方法来预测脉动风速时程方法。
背景技术:
:标准的支持向量机(SVM)对函数拟合采用的方法主要是将输入样本从低维输入空间通过非线性映射转换到一个高维特征空间,然后在此高维空间中使得损失函数最小从而获得线性的拟合函数。根据Mercer定理,对于支持向量机而言,函数回归拟合问题可以描述为求解一个有约束的二次规划问题,约束数目等于样本的容量,虽然用到了相关的核函数避免了显示的求解高维映射带来的“维数灾难”,但是每一步迭代都需要进行核函数的矩阵运算,因核函数矩阵占有的内存随着样本的数量呈平方增长,训练也会消耗很长的时间,尤其当样本的容量较大时会导致训练时间过长而难以接受。此外,由于迭代误差的积累,也会导致算法的精度无法满足要求。其次,SVM在二次寻优过程中也需要进行大量的矩阵运算,在很多情况下,寻优算法占用的时间往往占主要部分。最小二乘估计用估计的剩余平方和的最小的原则确定样本回归函数是一种有效的回归估计模型方法,它在数据估计中占有举足轻重的地位。Suykens注意到最小二乘法用于解决支持向量机问题的优势,首先提出了最小二乘支持向量机(LeastSquARMAesSupportVectorMachine,LSSVM),在标准的SVM目标函数中增加了误差平方和项,形成LSSVM模型,能有效地解决了SVM大规模运算的问题。LSSVM采用原始空间中的核函数计算通过非线性映射到高维特征空间中的内积运算,不管采用何种核函数,都会将该种核函数中的参数g带进回归函数的建立中。标准的SVM和LSSVM都用到了惩罚参数C,分别用来控制不敏感损失函数和误差,惩罚参数C可以折中模型的训练误差和复杂程度,即实现经验风险和置信风险的折中,C过大,虽然表面经验风险最小化,但是由于置信风险没有最小化的优势,因此无法实现结构风险最小化的原则。所以,通过核方法选择或者构造合适的核函数及其对应核参数g和惩罚参数C对所建立的预测模型的泛化能力有着举足轻重的作用。核方法是一系列先进非线性数据处理技术的总称。Mercer证明了Mercer定理;Aizermann,Bravermann,Rozoener通过关于势函数的研究把核函数用做特征空间中的内积这一思想引入了机器学习领域。核方法的共同特征是这些非线性数据的处理方法都应用了核映射。核方法首先采用非线性映射将原始数据由数据空间映射到特征空间,进而在特征空间进行对应的线性操作,由于运用了非线性映射,且这种非线性映射往往是非常复杂的,从而大大增强了非线性数据处理能力。从本质上讲,核方法实现了数据空间、特征空间和类别空间之间的非线性变换。核方法具有以下几个特点:1.核方法具有坚实的理论基础——核方法以统计学习理论为指导;2.核方法具有较好的推广能力——利用核方法所训练的学习机具有非常好的推广能力,因为它遵守了结构风险最小化原则;3.核方法比较稳健——核方法的抗干扰能力较强;4.核方法具有强大的非线性和高维处理能力——核方法利用核函数在高维空间中处理非线性问题时,很好地解决了高维空间中维数灾难问题。从以上几个方面可以看出,应用核方法在分类识别问题中将取得显著的效果。由于核映射的引入将样本空间的样本映射至高维特征空间,变换了观测样本数据的视角。这样许多在原样本空间用现行方法难以解决的问题,在高维特征空间中可以用线性方法轻而易举地完成,并且不必确知具体的映射函数。在目前引入的高维特征空间中,对一般学习问题仅作线性处理就足够了,因为一般高维特征空间的维数比样本数还要大。这种高维特征空间的线性处理被映射到输入空间时,却相当于非线性处理。实现核映射所能采用的核函数必须满足前文所述的Mercer定理,已有的如径向基(RBF)核函数就是一种普遍使用的核,它在模式识别和回归分析中都表现出了良好的性能。核方法的性能在很大程度上取决于核函数,因此核函数的选择和构造成为核函数方法研究的重点。然而,研究表明,若为特定分类问题随意选择核函数,将会导致该核函数模型的推广性能差,甚至不能正确进行分类,作为一种数据挖掘方法,核函数方法虽然不需要过程的先验知识,但是如果利用领域的先验知识选择核函数,即针对具体的数据特性选择合适的核函数必然能提高核函数方法的性能,这一点在神经网络等数据挖掘方法中已经得到证明。目前对于核函数的研究主要集中在核函数的选择方法上,但是它绝对不是核函数研究的最终目标,因为即使我们找到了一种非常好的方法,能够保证每次都可以从一些函数集中找到某个最佳的核函数,它也只是相对所给函数集中的最佳,未必是对所要解决问题的最有效核函数,所以核函数研究的最终目标是针对具体的问题确定最佳的核函数。B样条函数的理论由Schoenberg在1946年提出,但论文直到1967年才得以发表。1972年deBoor与Cox分别独立的给出了关于样条计算的标准算法。由于B样条方法保留了多项式的简单性和逼近的可行性又克服了其他方法由于整体表示带来的不具备局部性质的缺点,因此无论在理论上还是在应用上都有着十分重要的意义。国内外许多学者对根据核函数性质构造组合核函数研究的主要贡献有:Shawe等指出,根据核函数闭包性质,通过核函数的简单运算可以构造新的实用的核函数。Smits等最早提出了局部核和全局核的概念,同时结合两者的优点构造了组合核函数。Liu等又根据核函数闭包性质构造核函数乘积形式的组合核,利用多项式核函数和径向基核函数乘积形式的组合核函数对基准数据进行支持向量回归(SVR),并且与单独使用多项式核函数或RBF核函数进行了比较,结果显示利用组合核的SVR较单核SVR具有较优的稳定性与推广性。将全局核函数B样条核和局部核函数RBF核线性组合构成的B-RBF组合核在以上理论基础上应用于脉动风速的预测并具有很好的预测性能。技术实现要素:本发明的目的在于提供一种基于最小二乘支持向量机的脉动风速预测方法,解决传统的支持向量机在风速预测上模拟精度不高、耗时等问题。而且把传统的数值模拟与新型的机器学习方法LSSVM结合起来,通过数值模拟为脉动风速的数据挖掘模拟提供样本数据,再通过机器学习方法模拟预测所需空间上的脉动风速,从而形成一整套能为抗风设计提供所需的风速时程曲线的模拟预测方法,不仅减少了实测成本,而且节约了大量的时间成本。为达到上述目的,本发明采用下述技术方案:一种基于数据挖掘的脉动风速预测方法,基于采用B-RBF组合核函数并采用粒子群法PSO优化的最小二乘支持向量机的机器学习方法,来预测脉动风速时程方法,通过已知的高度脉动风速样本数据的内插学习和训练,预测待模拟高度脉动风速时程;具体步骤如下:1)选择超高层建筑,确定数值模拟脉动风速所需要的参数:模拟的建筑高度和模拟风速点的各高度、该处10米高度的平均风速、表面粗糙度系数、地面粗糙度指数、模拟相关函数;2)通过ARMA法数值模拟生成的设定数量沿高度均匀分布的脉动风速时程,作为有限的原始脉动风速样本数据;并对风速功率谱密度、自相关函数及互相关函数的模拟值与相应目标值的吻合程度进行检验,以验证基于ARMA模型模拟超高层建筑风速时程的可行性;3)将B-RBF组合核函数替代径向基核函数RBF加入LSSVM数据挖掘方法中,通过对已知高度区域内的脉动风速样本数据进行学习和训练,建立基于B-RBF组合核函数的LSSVM脉动风速预测模型;4)通过输入间隔两层的样本数据到预测模型中,输出中间层相应时间的脉动风速,并采用平均绝对误差、均方根误差、相关系数作为评价指标,对结果进行分析,评估基于B-RBF组合核函数的LSSVM的精确性。上述步骤2)中的ARMA模型用下式表示:v(t)=-Σk=1pψk·v(t-kΔt)+N(t)---(1)]]>式中:v(t)、v(t-kΔt)分别为空间M个点在t时刻和t-kΔt时刻的脉动风速时程向量;p为ARMA模型的阶数;Δt为模拟风速的时间步长;ψk是ARMA模型自回归系数矩阵,为M×M阶方阵;N(t)=L·n(t),L为下三角矩阵,n(t)是M维均值为0方差为1相互独立的白噪声向量。Suykens等人提出了LSSVM算法。它是标准SVM的一个变形。它将SVM求解二次规划问题转换成求解线性方程组。避免了不敏感损失函数,大大降低了计算的复杂性。LSSVM的训练只需要求解一个线性方程组,不仅易于实现,而且极大地提高了训练效率,在模式识别和回归建模等问题中被广泛地应用。LSSVM的函数估计问题可描述为求解如下问题。设给定的样本数据集T={(xi,yi),…,(xl,yl)},其中:xi∈Rn,yi∈R,i=1,2,3,…,l。同样考虑用函数f(x)=ω·ψ(x)+b,对样本数据进行拟合,并使得拟合值与实际值误差最小,其中非线性映射ψ(x)将输入样本映射到高维特征空间中。LSSVM的回归问题可以表示为以下形式:min[12||ω||2+12CΣi=1lei2]---(2)]]>s.t.[yi-(ω·ψ(xi)+b)=ei],i=1,2,3,…,l式中:ei∈R为误差,e∈Rl×l为误差向量;与SVM一样,C为惩罚参数,但在此处用以控制对误差的惩罚程度,如果训练数据有较大的噪声,则应该适当选择较小的C;ψ(x)为非线性映射,将输入样本映射到高维特征空间:权值向量偏置b∈R。为解式(2)的优化问题,可以引入Lagrange乘子,定义其Lagrange函数为如下形式:L(ω,b,e,α)=12||ω||2+12CΣi=1lei2-Σi=1lαi(ω·ψ(xi)+b+ei-yi)---(3)]]>由KKT条件,对上式求导得:∂L∂ω=0→ω=Σi=1lαiψ(xi)∂L∂b=0→Σi=1lαi=0∂L∂ei=0→αi=Cei∂L∂αi=0→ω·ψ(xi)+b+ei-yi=0,i=1,2,...,l---(4)]]>公式(4)的这些条件和标准的SVM的优化条件相似,只是αi=Cei,使得每个样本数据点对回归估计函数都做出了贡献,而不只是支持向量。联立方程组,消去ω和ei,令:α=[α1,α2,…αl]T,Q=[1,1,…1]T,Y=[y1,y2,…yl]T,I为单位矩阵,则公式(4)所得的解为:0Y=0QTQK+C-1Ibα---(5)]]>式中:K表示核函数:K(x,x')=ψ(x)·ψ(x'),通过求解线性方程组公式(5)可以求得αi和b,因此获得LSSVM的回归预测模型:f(x)=Σi=1lαiK(x,xi)+b---(6)]]>在不同的应用领域中,给定不同的计算方法和多种类型的数据,把核函数定义在这些数据上,显然,只要考虑到按照现有问题专门定制嵌入映射并把它精炼化即可,核方法的这种特性决定了核函数种类的多种多样性。LSSVM与SVM一样,主要有1.多项式核函数:K(x,x')=tanh[b(x·x')+c]、2.径向基核函数(RBF):K(x,x')=(x·x'+1)d、3.Sigmoid核函数:K(x,x')=exp[-(x-x')2/(σ2)]等。B-样条核主要有两种,即有限个节点的B-样条核和无穷个节点的B-样条核。(1)有限个节点的B-样条核有限个节点的n维p阶(p是非负整数)B-样条核是定义在Rn×Rn上的这样一个函数,它是由R×R上的一维p阶样条核扩展而来的。事实上,设给定一维空间上的节点集合则相应的一维p阶(p是非负整数)样条核为:K(x,x′;t1,...,tm)=Σi=1m(x-ti)+p(x′-ti)+p,∀x,x′∈R---(7)]]>其中,现在由一维样条核K1定义n维样条核。设给定n维空间上的节点集合并记t1={t11,…,t1n}T,…,tm={tm1,…,tmn}T,x=([x]1,…[x]n)T,x'=([x']1,…[x']n)T,则n维p阶样条核定义为:K(x,x′)=K(x,x′;t1,...,tm)=Πi=1nK1{[x]i,[x′]i;t1i,...,tmi}---(9)]]>(2)无穷个节点的B-样条核与有限个节点情形类似,我们也先定义无穷个节点的一维p阶样条核。该样条核是基于0次标准样条核函数B0(x)B0(x)=0,|x|>1212,|x|=121,|x|<12---(10)]]>给出的。事实上,定义一维p阶样条核为K(x,x′)=B2p+1(x-x′),∀x,x′∈R---(11)]]>其中B2p+1(x)是2p+1阶B-样条函数,这里使卷积运算,即而是对2p+2个B0进行2p+1次卷积运算得到的。即由此可定义n维样条核。记x=([x]1,…[x]n)T,x'=([x']1,…[x']n)T,则n维p阶样条核为K(x,x′)=Πi=1nK1([x]i,[x′]i)=Πi=1nB2p+1([x]i,[x′]i)---(12)]]>核函数方法是一种模块化的方法,它可分为核函数设计和算法设计两个部分,核方法的具体步骤如下:(1)收集和整理样本,并进行标准化;(2)选择或构造核函数;(3)用核函数将输入样本变换成为核函数矩阵,也就是将输入数据通过非线性函数映射到高维Hilbert特征空间;(4)在高维Hilbert特征空间对核函数矩阵实施各种线性算法;(5)得到输入空间中的非线性模型。由上述步骤可知,将样本数据核转化为核矩阵是核函数方法中的关键步骤。由于输入空间到特征空间的非线性映射φ(x)是隐形的映射,无法确定该映射φ(x)的具体表达式,唯一能考察的是核矩阵K(x,x')。以这种方式,核矩阵为输入样本和学习算法之间提供了一个平台。只有通过核矩阵,学习算法才能接收到关于特征空间核输入数据的信息,因此核矩阵在核函数学习中具有核心地位。关于组合核的有效性,有定理如下:给定训练集X=(x1,…,xp)和核函数K(x,x'),定义核内元素K(xu,xv),其中u,v=1,…,p的矩阵为核矩阵或Gram矩阵,如果对于所有的训练集X它的核矩阵是对称且半正定的,则函数K是有效核。RBF核函数的表达式为:K(x,x′)=exp(-(x-x′)2σ2)---(13)]]>因此它的核矩阵可以根据表达式构造为:K(xu,xv)=exp(-||xu-xv||2σ2)→0,xu=xvexp(-||xu-xv||2σ2),xu≠xv---(14)]]>且从上式可知,核矩阵K(xu,xv)具有以下性质:K(xu,xv)=0,xu=xvk(xu,xv)=k(xv,xu),xu≠xv---(15)]]>B样条核函数的表达式为:K(x,x′;t1,...,tm)=Σi=1m(x-ti)+p(x′-ti)+p---(16)]]>因此它的核矩阵可以根据表达式构造为:K(xu,xv;t1,...,tm)=Σi=1m(xu-ti)+2p---(17)]]>则其核矩阵K(xu,xv)具有如下性质:K(xu,xv;ti,...,tm)=Σi=1m(xu-ti)+2p,xu=xvk(xu,xv)=k(xv,xu),xu≠xv---(18)]]>由以上的两个核矩阵可知组合核函数核矩阵为:K(xu,xv;t1,...,tm)=α·exp(-(xu-xv)σ2)+(1-α)·Σi=1m(xu-ti)+p(xv-ti)+p---(19)]]>其中,α为调节两种核函数对组合核函数影响的权重系数。为保证B-RBF组合核函数不改变原映射空间的合理可行,B样条核与RBF核的权重和为1,此时K(xu,xv;t1,…,tm)为B样条核与RBF核的凸组合。当α=1时,组合核函数退化为RBF核函数;α=0时,组合核函数退化为B样条核函数。通过调节α的值,可使组合核函数适应不同的数据分布。组合核函数核矩阵K(xu,xv)具有如下性质:K(xu,xv)=(1-α)Σi=1m(xu-ti)+2p,xu=xvk(xu,xv)=k(xv,xu),xu≠xv---(20)]]>B-RBF组合核函数为既具有解析函数的性质,又具有数值函数的性质,并融合了RBF的局部性能较好的有点。组合核中,B-样条核函数的节点序列、阶数和数目;RBF核函数的核宽度σ;以及组合权重系数α的选取至关重要。B-RBF组合核满足Mercer定理的正定条件。本发明将B-RBF组合核函数应用到脉动风速预测中。所述步骤3)中的基于B-RBF组合核函数的LSSVM脉动风速预测模型的具体建立步骤如下:a)选择合适的核函数:采用B样条核函数和RBF核函数进行线性组合构造的B-RBF组合核函数作为LSSVM的核函数进行模型训练;b)根据B样条函数的性质,确定核参数p即B样条核函数次数为3,而惩罚参数C、RBF核的核宽度σ以及组合权重系数α的最优取值均通过PSO算法得到;c)PSO算法参数的确定:确定种群的规模和进化次数,设定c1和c2、wmax和wmin的值,随机产生r1和r2;根据步骤2)中交叉验证获得的模型参数的初步范围,确定搜索空间限定在[-Xmax,Xmax],包括[-Xmax,Xmax]和[-gmax,gmax];d)PSO种群初始化:根据步骤c)设定的PSO算法参数,产生粒子的初始位置X和初始速度V;e)建立LSSVM预测回归模型:输入检验样本的输入值,计算适应度值;在回归问题中,LSSVM的适应度值为样本均方根误差;f)根据适应度值更新粒子的位置和速度;g)判断进化是否满足终止条件,一般以误差是否达到要求为终止条件:若不满足,则返回步骤e)重新建立预测模型计算粒子适应度值并逐步更新;若满足终止条件,则停止迭代,将全局最佳位置作为模型的最佳参数输出;h)通过模型最佳参数建立LSSVM预测模型,即基于B-RBF组合核函数的LSSVM模型。与现有技术相比,本发明具有如下突出的实质性特点和显著的优点:一方面,LSSVM的优势使其能充分地逼近任意复杂的非线性关系,能学习和适应不确定系统的动态特征,极具方便的“黑匣子”建模功能和解决非线性预测方面的能力,是一种性能优秀的机器学习方法之一,能在很多领域内发挥它的独到之处。但是如何选择模型参数国际上还没有出现一个公认的通用方法,而模型参数对模型的性能起着至关重要的作用。另一方面,B-RBF组合核协调了B样条核和RBF核两者的泛化能力和学习能力,在脉动风速预测方法中拓展了一种新的思路。综上所述,将B-RBF组合核函数运用到LSSVM脉动风速预测模型中来,作为一种机器学习方法的一种创新,极具可行性。附图说明图1为基于B-RBF组合核函数LSSVM的脉动风速预测流程图。图2为PSO-B-RBF-LSSVM法预测的脉动风速与PSO-RBF-LSSVM、B-LSSVM方法的预测风速以及目标值的风速幅值对比。图3为PSO-B-RBF-LSSVM法预测的脉动风速与PSO-RBF-LSSVM、B-LSSVM方法的预测风速以及目标值的自相关对比。图4、图5为PSO-B-RBF-LSSVM法预测的脉动风速与PSO-RBF-LSSVM、B-LSSVM方法的预测风速以及目标值的互相关对比。其中,图4为内插较低高度(30m)与目标值高度(40m)的对比,图5为内插较高高度(50m)与目标值高度(40m)的对比。具体实施方式以下结合附图对本发明的实施进一步详细说明。实施例一:参见图1,一种基于最小二乘支持向量机的脉动风速预测方法,具体步骤如下:1)选择超高层建筑,确定数值模拟脉动风速所需要的参数:模拟的建筑高度和模拟风速点的各高度、该处10米高度的平均风速、表面粗糙度系数、地面粗糙度指数、模拟相关函数,通过ARMA法数值模拟生成的设定数量沿高度均匀分布的脉动风速时程,作为有限的原始脉动风速样本数据;2)采用PSO算法进行参数的确定。确定种群的规模和进化次数,设定c1和c2、wmax和wmin的值,随机产生r1和r2;根据步骤2)中交叉验证获得的模型参数的初步范围,确定搜索空间限定在[-Xmax,Xmax],包括[-Xmax,Xmax]和[-gmax,gmax]。设定的PSO算法参数,就可以产生粒子的初始位置X和初始速度V;3)建立B-RBF组合核函数的核矩阵,通过对已知高度区域内的脉动风速样本数据进行学习和训练,以此建立基于B-RBF组合核函数的LSSVM脉动风速预测模型;4)通过输入间隔两层的样本数据到预测模型中,输出中间层相应时间的脉动风速,并采用平均绝对误差、均方根误差、相关系数作为评价指标,对结果进行分析,评估基于B-RBF组合核函数的LSSVM的精确性。实施例二:本基于采用B-RBF组合核函数的LSSVM模型的脉动风速预测方法,具体步骤如下:第一步,选择某市中心高度为150米的超高层建筑,沿高度方向取每隔10米的点作为各模拟风速点。其他相关参数见表1:表1相关模拟参数表示10m高度处的平均风速。第二步,通过ARMA法数值模拟生成的一定数量沿高度均匀分布的脉动风速时程,作为有限的原始脉动风速样本数据。为了验证基于机器学习方法预测的有效性,需要将一部分样本数据组用于机器学习,另一部分样本数据组用于预测验证机器学习方法模拟的脉动风速。本发明将ARMA模型生成的样本数据分成两部分:取前500s脉动风速值作为学习样本,后面的500s风速值作为验证样本。第三步,将B-RBF组合核函数加入LSSVM数据挖掘方法中,通过对某些高度区域内的脉动风速样本数据进行学习和训练,建立基于B-RBF组合核函数的LSSVM脉动风速预测模型。内插机器学习是:取几组相隔两层高度区的脉动风速学习样本作为输入,中间层高度的风速学习样本作为输出,进行训练,从而建立预测模型,例如:10m和30m、30m和50m、50m和70m、70和90m、90m和110m、110m和130m以及130m和150m处的脉动风速时程样本作为输入,20m、40m、60m、80m、100m、120m以及140m处的脉动风速时程作为输出,进行学习训练并预测检验。这一步的具体步骤如下:1)选择合适的核函数。本发明将采用B样条核函数和RBF核函数进行线性组合构造的B-RBF组合核函数作为LSSVM的核函数进行模型训练。2)根据B样条函数的性质,确定核参数p即本发明的B样条核函数次数为3,而惩罚参数C、RBF核的核宽度σ以及组合权重系数α的最优取值均通过PSO算法得到。3)PSO算法参数的确定。确定种群的规模和进化次数,设定c1和c2、wmax和wmin的值,随机产生r1和r2;根据步骤2)中交叉验证获得的模型参数的初步范围,确定搜索空间限定在[-Xmax,Xmax],包括[-Xmax,Xmax]和[-gmax,gmax]。4)PSO种群初始化:根据步骤3)设定的PSO算法参数,就可以产生粒子的初始位置X和初始速度V;5)建立LSSVM预测回归模型:输入检验样本的输入值,计算适应度值;在回归问题中,LSSVM的适应度值为样本均方根误差;6)根据适应度值更新粒子的位置和速度;7)判断进化是否满足终止条件,一般以误差是否达到要求为终止条件:若不满足,则返回步骤5)重新建立预测模型计算粒子适应度值并逐步更新;若满足终止条件,则停止迭代,将全局最佳位置作为模型的最佳参数输出;8)通过模型最佳参数建立LSSVM预测模型,即基于B-RBF组合核函数的LSSVM模型。第四步,通过输入间隔两层的验证样本到基于B-RBF组合核函数的LSSVM预测模型中,输出中间层相应时间的脉动风速,并采用平均绝对误差MAE、均方根误差RMSE、相关系数R作为评价指标,对结果进行分析,评估基于B-RBF组合核函数的LSSVM的精确性。为直观体现出本发明的优越性,采用了B样条(包括1次B样条、3次B样条、以及5次B样条)核函数以及径向基(RBF)核函数的LSSVM机器学习方法做了相同预测工作,作为对比。表2两种核方法模拟的评价指标从图2可以看出基于B-RBF组合核函数的LSSVM预测脉动风速幅值变化与目标值基本一致,从图3和图4又可以看出其预测值的自相关函数与目标值能很好地吻合。由表2也可以看出,与采用单一B样条核和PSO-RBF核函数的LSSVM预测相比,利用PSO优化并采用B-RBF组合核函数的LSSVM模型的平均绝对误差和均方根误差都更小,而相关系数也更大。因此,可以得到结论:(PSO-B-RBF-LSSVM模型)采用PSO优化的基于B-RBF组合核函数的LSSVM的脉动风速预测更具优势。当前第1页1 2 3