一种CEEMD和随机森林的短期风功率预测方法与流程

文档序号:13005868阅读:6673来源:国知局
一种CEEMD和随机森林的短期风功率预测方法与流程

本发明涉及一种电力系统短期风功率预测方法,对电力系统风功率进行短期预测,属于电力系统技术领域。



背景技术:

风能作为一种重要的清洁能源,由于储量丰富、发电成本低,在可持续能源发展战略中受到广泛关注。随着风能装机比例的逐年提升,急需解决风功率随机不确定性和波动性对电网安全稳定运行带来的不利影响。准确的风功率预测是保障电网供需平衡的重要手段,也是电网实时安全分析、自动发电控制、安排系统备用的重要参考。因此,提高短期风功率预测精度能够有效降低风能不确定性和间歇性对电网造成的不利影响。

现有的风功率预测主要有物理模型和统计分析两类方法。物理模型主要采用微观气象学等理论建立物理模型,通过综合考虑数值天气预报、地形等因素对风电场的风速和风能进行预测。统计分析方法通过发掘实测风功率数据间存在的内在规律性,采用线性或非线性数学方法表征待预测时刻风功率与历史时刻风功率间的映射关系,再根据已有数据进行外推预测。常用方法主要包括时间序列分析(timeseriesanalysis,tsa)、卡尔曼滤波(kalmanfilter,kf)、人工神经网络(artificialneuralnetworks,ann)、支持向量机(supportvectormachines,svm)、相关向量机(relevancevectormachine,rvm)等。同时,为增强模型预测性能,相关学者采用智能优化方法,如遗传算法、粒子群算法、人工蜂群算法等对模型进行改进与优化,从而提高了预测精度。

由于风功率序列的随机性、波动性、复杂非线性特点,仅仅采用单一模型难以取得精确的预测结果。为进一步提高短期风功率预测水平,国内外学者提出了组合预测模型。组合预测模型主要有两种思路:1)将不同原理的预测模型通过权重进行集成,相对于单一的预测模型,集成学习可以发挥各个模型优势,达到优势互补的目的。2)采用数据预处理技术将原始风功率序列进行分解处理,对分解得到的序列分别建立预测模型。采用信号分解技术可以把握风功率局部变化规律,从而达到提高预测精度的目的。常用的数据预处理技术主要有经验模态分解(empiricalmodedecomposition,emd)、集合经验模态分解(ensembleempiricalmodedecomposition,eemd)等方法。eemd方法利用高斯白噪声频率均匀分布这一统计特性,使得原始信号在加入高斯白噪声后,在不同尺度上都具有连续性,有效地解决了emd方法存在的模态混叠问题,改善信号的分析效果。eemd通过多次实验结果取平均值抵消白噪声对最终分解结果的影响,增加计算任务量,同时有限次平均导致了分解结果不具完备性。完备总体经验模态分解(completeensembleempiricalmodedecomposition,ceemd)通过添加幅值相同、相位相反的正负白噪声对到原始信号,然后进行emd处理,通过求取平均值获得最终的分解结果。在避免模态混叠的同时,有效解决eemd方法分解不完备问题。因此,本发明采用ceemd对原始风功率序列进行分解处理。比较eemd与ceemd重构误差,可以发现eemd重构误差较大,影响原始信号分解的完整性,同时也增大了风功率预测误差。

bp神经网络预测精度受模型结构与参数设置影响较大,在学习过程中易陷入局部最优解也限制了其广泛应用。svm采用结构风险最小化原则代替传统神经网络的经验风险最小化原则,增强了模型泛化能力。但svm在估计模型参数过程中,存在参数初值难以选取,运算效率低的缺点,难以满足高维、大样本数据的分析处理。随机森林(randomforest,rf)作为一种非参数统计方法,通过集成多颗弱回归决策树,从而构建鲁棒性能更好的回归模型。同时,rf具有更好的噪声容忍度,且不容易出现过拟合问题。学习训练过程计算量也较少,并且适合处理高维数据场景,在分类、回归预测分析中获得了广泛应用。本发明采用rf进行风功率预测仿真,对比bp神经网络和svm模型,验证了rf具有更好的预测性能。

综上所述,本发明结合ceemd与rf算法的优点,建立了ceemd-rf短期风功率预测模型。首先采用ceemd方法将原始风功率序列分解为一系列特征互异的本征模态函数。为降低任务量,计算各本征模态函数近似熵并将近似熵值相近的模态函数合并为新的分量,对每一新分量分别建立rf预测模型。同时,采用偏自相关函数选取输入变量,并通过算例验证本文模型的有效性。



技术实现要素:

发明目的:本发明针对现有电力系统短期风功率预测技术中存在的问题,如预测方法运行效率低,难以处理高维、复杂、非线性回归任务,提供一种基于ceemd和随机森林的短期风功率预测方法。首先,采用ceemd技术将原始风功率序列分解为一系列特征互异的本征模态函数,计算各模态函数近似熵值,并将近似熵值相近的模态函数合并为新的分量,分别为随机分量、细节分量和趋势分量。对每一分量采用偏自相关函数确定输入变量集合,并构建基于随机森林算法的预测模型,将各分量预测结果叠加获得最终的短期风功率预测值。通过算例分析验证本发明方法的有效性。

技术方案:一种基于ceemd和随机森林的短期风功率预测方法,包括以下步骤:

1)获取实测风电场功率数据,并对原始数据进行异常值检测与修正;

2)采用ceemd技术将原始风功率序列分解为一系列特征互异的本征模态函数;

3)采用近似熵计算各本征模态函数复杂度,将近似熵值相近的模态函数合并为新的分量,分别为随机分量、细节分量和趋势分量;

4)对不同分量数据分别进行零均值化预处理;

5)采用偏自相关函数对不同分量确定输入变量集合;

6)对每个新分量分别构建随机森林预测模型,将各分量预测结果叠加获得最终的短期风功率预测值,并通过算例验证本发明方法的有效性。

进一步地,步骤(2)采用ceemd技术将原始风功率序列分解为一系列特征互异的本征模态函数,包括通过添加幅值相同、相位相反的正负白噪声对到原始信号,然后进行emd处理,通过求取平均值获得最终的分解结果;所述emd方法具体计算过程为:

2.1找出原始信号y(t)中的所有极大值,采用插值法拟合其包络线为u(t);识别y(t)中所有极小值,同样采用插值法拟合其包络线为v(t);由此计算上下包络线的平均值m1(t)为

2.2将原始信号y(t)与m1(t)相减得到h1(t)

h1(t)=y(t)-m1(t)

判断h1(t)是否满足imf分量条件,若不满足,则将h1(t)视为新的信号y(t),重复步骤2.1,直到h1(t)满足imf条件;若满足,则第1个imf分量可表示为:

c1(t)=h1(t)

2.3从原始信号y(t)中分离出分量c1(t),相应的剩余分量可表示为

r1(t)=y(t)-c1(t)

2.4将剩余分量r1(t)作为新的原始信号,重复步骤2.1至步骤2.3,从而可得到其它imf分量和1个余量;

2.5采用emd方法将原始信号y(t)分解为n个imf分量ci(t)和一个剩余分量rn(t);由此原始信号y(t)可由imf分量和剩余分量表示为:

进一步地,步骤(2)采用ceemd技术将原始风功率序列分解为一系列特征互异的本征模态函数,在emd方法基础上,所述ceemd方法具体计算过程为:

3.1在原始风功率序列中加入正高斯白噪声信号n1(t),并对产生的合成信号采用emd方法进行分解,产生一对imf分量c1i,r1;

3.2在原始风功率序列中加入负高斯白噪声信号-n1(t),同样将产生的新序列采用emd方法进行分解,产生另一对imf分量c-1i,r-1;

3.3不断重复执行上述步骤,共得到n组cni,rn,c-ni,r-n;

3.4计算分解结果的平均值,即得到最终的imf分量ci和余量rn:

进一步地,步骤(3)采用近似熵计算各模态函数复杂度,将近似熵值相近的模态函数合并为新序列,形成随机分量、细节分量和趋势分量,并对每个分量进行特征分析;所述近似熵计算过程为:

4.1给定时间序列{x(i),i=1,2,l,n},将序列{x(i)}按顺序组成m维矢量,即x={x(i),x(i+1),l,x(i+m-1)},其中i=1,2,l,n-m+1;

4.2定义两者x(i)与x(j)之间的距离dm[x(i),x(j)]为两者对应元素差值最大的一个,即对每一个i值计算x(i)与其余矢量x(j)(j=1,2,l,n-m+1,且j≠i)间的dm[x(i),x(j)];

4.3给定相似容限r(r>0),对每一个i值统计dm[x(i),x(j)]<r数目,计算其与距离总数n-m+1的比值,记为

式中:i,j=1,2,l,n-m+1,i≠j,num为数目;

4.4将比值取对数,求其对所有i的平均值φm(r)为增加维数为m+1,重复4.1-4.4,求得与φm(r);

4.5近似熵apen(m,r)定义为当n取有限值时,可得近似熵估计值为apen(m,r,n)=φm(r)-φm+1(r)。

进一步地,步骤(4)对不同分量数据分别进行零均值化预处理,所述零均值化处理公式为:

式中:x(t)为原始分量时间序列,为序列x(t)的平均值。

进一步地,步骤(5)采用偏自相关函数对不同分量确定输入变量集合,所述偏自相关函数计算过程为:

6.1假设xi是输出变量,当滞后阶数为k时,偏自相关系数值在95%置信区间外,则xi-k可以作为其中一个输入向量;如果所有偏自相关系数值在95%置信区间内,则认为xi-1是输入变量;

6.2对于时间序列{x1,x2,l,xn},滞后阶数为k时的协方差定义为γk,k=0时,γ为方差,计算公式如下:

式中:k=0,1,2,l,m,是时间序列的均值;m=n/4是最大滞后阶数;

6.3滞后阶数为k的自相关函数定义为ρk:

式中:为滞后阶数k=0时的协方差;

则滞后阶数为k时的pacf定义为αkk:

式中:k=1,2,l,m。

进一步地,步骤(6)对每个新分量分别构建基于随机森林的预测模型,将各分量预测结果叠加获得最终的短期风功率预测值,并通过算例验证本发明方法的有效性;所述随机森林计算过程为:

7.1假定训练样本集(x,y)含n个观测值,输入变量维数为m,首先利用bootstrap方法有放回的从原始训练样本集合中重复抽取b个子样本集,每个子集样本数为n,从而构建b颗回归决策树;

7.2抽取第i个子集时,未被选择的观测值构成袋外数据;构造第i颗决策树时,从m维输入变量中随机选取固定数量为mtry,可取mtry=m/3,的输入变量集作为该颗决策树的特征空间;对于回归问题,分裂过程采用方差最小作为分支优度准则来选取分裂变量,即

式中,n为训练样本数,xk为变量k的样本值,为变量k的样本均值,i即为此次最优分裂变量;

7.3每棵决策树采用无剪枝策略从根节点自顶向下递归分支,设定叶节点最小尺寸作为决策树生长终止条件;b颗决策树生长完成后,即可构建完整的rf回归模型;

7.4对于测试样本x*,利用每颗决策树进行预测,得到对应b颗决策树预测结果;取b颗决策树结果平均值,则可得到测试样本x*对应的最终预测结果y*为

其中,hi(x*)为第i个决策树预测结果;

7.5通过袋外数据预测准确度评价模型的预测性能,即

式中,noob为袋外数据样本数量,yi为真实值,为rf模型预测结果。

有益效果:本发明的电力系统短期风功率预测方法利用ceemd将原始风功率序列分解为一系列特征互异的模态函数,相对于eemd方法具有更小的重构误差,从而提高了短期风功率预测精度。同时,建立的随机森林预测模型能够有效的处理高维、复杂、非线性回归任务,且具有较好的预测精度。本发明的方法提高了短期风功率预测精度,具有一定的工程应用意义。

附图说明

图1为随机森林结构模型;

图2为原始风功率序列及ceemd分解结果

图3为本征模态函数近似熵值;

图4为原始风功率序列及重构结果;

图5为不同分量偏自相关函数图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明的思路是将ceemd用于电力系统短期风功率预测建模数据预处理过程中,利用ceemd技术将原始风功率序列分解为一系列特征互异的本征模态函数,对各本征模态函数计算近似熵值并将近似熵值相近的模态函数合并为新的分量。然后,采用偏自相关函数确定每一新分量的输入变量集合,建立随机森林预测模型,将各分量预测结果叠加得到最终的短期风功率预测值。

现有的eemd方法通过添加高斯白噪声抑制了emd方法存在的模态混叠现象,但降低了运算效率,同时分解结果不具完备性,在进行预测建模时引入了误差。ceemd在emd技术基础上,通过在原始信号中加入正负成对形式的辅助噪声信号,综合考虑emd算法和eemd算法的优点,有效避免了模态混叠现象,同时具有重构误差小、运算效率高的优点。

emd是一种将原始复杂序列分解为若干简单固有模态函数的信号处理方法。分解产生的独立imf分量必须满足两个必要条件:1)序列中极值点个数等于过零点个数,或最多相差一个;2)在任一点上,分量的局部最大值对应的包络线与局部最小值对应的包络线均值为零。

采用emd进行信号分解步骤为:

1)找出原始信号y(t)中的所有极大值,采用插值法拟合其包络线为u(t);识别y(t)中所有极小值,同样采用插值法拟合其包络线为v(t);由此计算上下包络线的平均值m1(t)为

2)将原始信号y(t)与m1(t)相减得到h1(t)

h1(t)=y(t)-m1(t)(2)

判断h1(t)是否满足imf分量条件,若不满足,则将h1(t)视为新的信号y(t),重复步骤1),直到h1(t)满足imf条件。若满足,则第1个imf分量可表示为:

c1(t)=h1(t)(3)

3)从原始信号y(t)中分离出分量c1(t),相应的剩余分量可表示为

r1(t)=y(t)-c1(t)(4)

4)将剩余分量r1(t)作为新的原始信号,重复步骤1)至步骤3),从而可得到其它imf分量和1个余量。

5)采用emd方法将原始信号y(t)分解为n个imf分量ci(t)和一个剩余分量rn(t)。

由此原始信号y(t)可由imf分量和剩余分量表示为:

在emd方法基础上,对原始风功率序列进行ceemd分解,其具体实现步骤为:

1)在原始风功率序列中加入正高斯白噪声信号n1(t),并对产生的合成信号采用emd方法进行分解,产生一对imf分量c1i,r1;

2)在原始风功率序列中加入负高斯白噪声信号-n1(t),同样将产生的新序列采用emd方法进行分解,产生另一对imf分量c-1i,r-1;

3)不断重复执行上述步骤,共得到n组cni,rn,c-ni,r-n;

4)计算分解结果的平均值,即得到最终的imf分量ci和余量rn

本发明采用随机森林算法对ceemd分解的分量建立预测模型,图1所示为rf结构模型。

假定训练样本集(x,y)含n个观测值,输入变量维数为m,首先利用bootstrap方法有放回的从原始训练样本集合中重复抽取b个子样本集,每个子集样本数为n,从而构建b颗回归决策树;抽取第i个子集时,未被选择的观测值构成袋外数据(out-of-bag,oob);构造第i颗决策树时,从m维输入变量中随机选取固定数量为mtry(可取mtry=m/3)的输入变量集作为该颗决策树的特征空间。对于回归问题,分裂过程采用方差最小作为分支优度准则来选取分裂变量,即

式中,n为训练样本数,xk为变量k的样本值,为变量k的样本均值,i即为此次最优分裂变量。

每棵决策树采用无剪枝策略从根节点自顶向下递归分支,设定叶节点最小尺寸作为决策树生长终止条件。b颗决策树生长完成后,即可构建完整的rf回归模型。

对于测试样本x*,利用每颗决策树进行预测,得到对应b颗决策树预测结果。取b颗决策树结果平均值,则可得到测试样本x*对应的最终预测结果y*为

其中,hi(x*)为第i个决策树预测结果。

最后,通过袋外数据预测准确度评价模型的预测性能,即

式中,noob为袋外数据样本数量,yi为真实值,为rf模型预测结果。

本发明采用江苏某风电场实测风功率数据作为研究对象,数据采样时间间隔为30min。采用ceemd对原始风功率时间序列进行分解,选取部分结果如图2所示。ceemd方法参数设置为:高斯白噪声标准差为0.1,迭代次数500次。计算其重构误差最大值为9.60×10-14mw,采用eemd方法重构误差最大值为0.2063mw。由此可见,ceemd方法具有更好的分解效果,避免了重构误差对预测模型带来的不利影响。

若直接对分解的imf分量及剩余分量进行建模,则建模任务量大且繁琐。本发明采用近似熵计算imf和res序列复杂度,将近似熵值相近的序列合并为新的分量。图3为近似熵值计算结果,从图中可以看出,imf1、imf2和imf3近似熵值相近,因此合并为随机分量。该分量具有强波动性与随机性,反映了风功率序列的随机特征;同理,将imf4和imf5合并为细节分量,该分量波动较小,表征风功率序列的局部变化趋势;将imf6、imf7、imf8、imf9和res合并为趋势分量,该分量波动较平缓,反映风功率序列总体变化趋势。图4为重构后形成的新分量序列。

利用偏自相关函数选择输入变量过程中,需要对原始序列进行零均值化处理,计算公式为

式中:x(t)为原始分量时间序列,为序列x(t)的平均值。

输入变量的选取对模型预测性能具有直接影响,本发明采用偏自相关函数度量变量间的相关性。给定时间序列,偏自相关函数衡量了xt与xt-τ间的相关关系,能够有效的确定输入变量集合。其中,τ为滞后阶数。

假设xt是输出变量,当滞后阶数为τ时,偏自相关函数值在95%置信区间外,则xt-τ可以作为其中一个输入变量。式中:n为时间序列长度。如果所有偏自相关函数值在95%置信区间内,则认为xt-1是输入变量。

图5为不同分量序列的偏自相关函数图,表1为不同分量选取的输入变量集合。

表1不同分量输入变量选择结果

本文选择平均绝对百分比误差(meanabsolutepercentageerror,mape)和均方根误差(rootmeansquareerror,rmse)作为模型预测效果评价指标,计算公式分别为:

式中:n为预测点个数,yi为第i个预测点风功率真实值,为第i个预测点模型预测值。

采用江苏某风电场实测风功率数据验证本发明方法的有效性,利用分解数据建立随机森林预测模型,对风功率进行提前30min预测。

随机森林参数设置为:决策树数目为1000,节点最小尺寸为5。同时,本发明建立了bp、svm、rf三种单一预测模型,eemd-bp、eemd-svm、eemd-rf、ceemd-bp、ceemd-svm和ceemd-rf六种组合预测模型,并分析比较各模型预测性能。表2为预测模型定量评价指标结果,其中平均运行时间为完成风功率预测所有任务占用的时间,包括数据预处理及训练模型过程。从表中可以看出,本发明的ceemd-rf能够更好的对风功率进行预测。从运行时间角度考虑,svm模型运行时间较长,不利于电力大数据环境条件下的短期风功率预测。rf模型在具有最好预测精度前提下,满足实际工程应用运行时间需求。同时,单一预测模型偏差较大,采用eemd及ceemd进行风功率数据预处理后,提高了预测精度。此外,ceemd预测精度要高于eemd方法,这是由于ceemd相对eemd方法具有更小的重构误差。rf相对于bp神经网络和svm模型,预测效果更好。

表2短期风功率预测结果

综上所述,本发明基于ceemd和随机森林的短期风功率预测方法具有如下优势:1)采用ceemd对原始风功率序列进行预处理,将其分解为一系列特征互异的模态函数。ceemd方法具有更小的重构误差,相对于eemd方法,mape和rmse指标都有不同程度提高;2)采用偏自相关函数度量变量间的相关性,从而选取有效的输入变量集合,避免人工经验选取输入变量的不足;3)对重构的不同分量序列,分别建立了随机森林预测模型,将各分量预测结果叠加获得最终的短期风功率预测值。相对于bp神经网络和svm预测模型,随机森林具有最好的预测效果。同时,从运行效率方面,随机森林模型也具有一定效率优势。

本发明方法对电力系统安排风功率发电计划及保证电网安全稳定运行具有一定的参考价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1