基于波尔兹曼机的光伏超短期功率预测方法与流程

文档序号:15888684发布日期:2018-11-09 19:53阅读:377来源:国知局
基于波尔兹曼机的光伏超短期功率预测方法与流程

本发明涉及光伏发电功率预测、深度学习技术领域,具体讲,涉及基于波尔兹曼机的光伏超短期功率预测方法。

背景技术

太阳能已被公认为是未来最具竞争力能源之一,具有取之不尽、用之不竭绿色环保等特点。目前,光伏发电(photovoltaicpowergeneration)是利用太阳能的有效方式之一,分布式光伏并网发电系统与大规模集中式光伏并网系统是国内光伏利用的两种重要的方式。在环境和能源等压力下,分布式光伏发电是未来重点的发展方向。由于太阳能受各种气象因素的影响,使用光伏系统进行发电的功率是不稳定的,会造成对电力系统的不利影响。光伏功率短期预测的时间尺度一般为1~3天,超短期预测的时间一般为0~4小时,短期和超短期功率预测对电网实时调度和稳定等具有重要的决定作用。

针对于光伏发电功率的预测,国内外学者做了大量的研究。目前所有短期太阳能光伏发电预测方法都是基于相同的思路,即:首先利用数学和物理学理论及相关数据建立预测公式或模型,再通过求得的预测公式或模型对光伏电站发电量进行预测。

限制波尔兹曼机(restrictedboltzmannmachine,rbm)是一种基于能量的模型,是hinton于1986年提出的波尔兹曼机(boltzmannmachine,bm)的一种改进,当其仅有显元的分布为高斯分布时称为高斯波尔兹曼机(gaussian-bernoullirbm,gbrbm)。同样rbm也是深度学习(deeplearning,dl)中的一个重要的模型dbn的基本单元。rbm可以看作一种自动编码器(autoencoder),可利用其强大的无监督学习的能力,将输入的数据进行重构,将数据从原始空间变换到其他维数的空间,易于发现其内部之间隐含的关系,从而便于构建后续的机器学习模型。



技术实现要素:

为克服现有技术的不足,本发明旨在提出一种基于深度学习中的限制波尔兹曼机模型对光伏功率进行预测的方法。为精确预测光伏功率提供有力支持。为此,本发明采用的技术方案是,基于波尔兹曼机的光伏超短期功率预测方法,利用影响光伏的因素,通过dbns模型对数据之间进行训练以及拟合,获取其与光伏功率之间的相关性,从而对光伏超短期功率进行预测。

具体步骤细化如下:

步骤1:原始数据的获取

首先获取原始的光伏数据,数据包括影响光伏的12个相关因素:具体有总柱液态水tclw、总柱冰状水tciw、表面压力sp、1000毫巴相对湿度rh、总云量tcc、10米高风的u分量10u、10米高风的v分量10v、2米处温度2t、表面太阳辐射累积量ssrd、表面热辐射累积量strd、大气顶部太阳辐射累积量tsr、总降水tp,以及相对应的光伏发电数据;

步骤2:数据集的划分

剔除每天9时~20时夜间光伏发电为0的情况,分析其中剩余光伏发电不为0的情况,并将数据集分为a和b两个部分,b数据集包括某个月数据,a数据集包括其余数据,并且利用rbm将数据集a进行了重构得到数据集a';

步骤3:模型的构建

训练模型是由波尔兹曼机bm为基础单元构建的,通过波尔兹曼机的组合,构成训练的网络模型,通过各个bm的显元与隐元之间参数的训练对其传递的权值进行调整,并通过选择合适的决策模型获取最优的预测。

在步骤(3)模型的构建过程中可以对波尔兹曼机进行优选,改进方式如下:

采用限制玻尔兹曼机rbm;或者,采用高斯玻尔兹曼机gbrbm,对于一个有n个显元,m个隐元的rbm,v代表显元的状态,h代表隐元的状态,那么rbm的概率分布p(v,h)满足boltzmann分布;高斯rbm,其能量函数如式(1)所示:

其中:vi表示二值显元的取值;hj表示隐元的取值;ai,bj表示偏置(bias);wij表示第i个显元和第j个隐元间的权重;σi表示显元的标准差;

全概率分布p(v,h)如式(2)所示:

其中:z为配分函数,表达式为式(3):

表示v和h的所有可能的组合;

根据公式(2)得到高斯rbm关于v的分布p(v),即p(v,h)的边缘分布,定义p(v)为高斯rbm的似然函数,表达式为:

由于高斯rbm各隐元之间的激活条件是独立的,所以第j个隐元的激活概率如式(5)所示:

同理,第i个显元的激活概率如式(6)所示:

其中:是罗杰斯特函数(logisticssigmoidfunction)。

训练rbm的任务就是确定rbm的参数的值,即θ={wij,ai,bj},参数θ可以通过最大化rbm在含有t个样本训练集上的对数似然函数学习得到,描述式如式(7)所示:

rbm参数计算方法有随机梯度上升法和对比散度法;

1)随机梯度上升法

利用随机梯度上升法可以获取最优的参数θ*,即求出:

对于模型参数的偏导数计算如式(9)~(11)所示:

其中:v0表示输入样本;<·>p表示关于分布p的数学期望;p(h|v0,θ)表示显元状态为已知输入样本v0时隐层的概率分布;采用对比散度法cd(contrastivedivergence)算法获取其近似值;

2)对比散度法cd-k(contrastivedivergence)

在cd-k算法开始时,设定该训练样本为显元的状态,利用式(5)计算隐元的状态;然后根据式(6)再重新计算显元的状态,即显元取值为1的概率,这样就产生了显层的一个重构(reconstruction),k的取值即为重构的次数;

式(9)~(11)的近似计算结果,如式(12)~(14)表示:

此时,rbm参数的增量为:

ε表示学习率;

3)假设在利用训练集样本训练rbm前的参数为θ,训练之后rbm的参数为θ*,rbm参数的增量为δθ,则对应有:

θ*=θ+δθ(17)

由步骤1)~3)计算,最终可得在已知训练集上所构建的rbm的参数。

本发明的特点及有益效果是:

本发明基于gefcom2014所给出的光伏出力的相关数据,在构建的训练集与测试集的基础上,针对gbrbm重构前的数据集a构建了线性回归lr模型和svr模型,并在重构后的数据集a'的基础上构建了lr模型,称其为gbrbm-lr模型,然后对三种模型在未参与训练的数据集b上进行了测试,对发电功率取得了较好的预测效果。

附图说明:

图1rbm和bm结构。

图中,(a)bm结构(b)rbm结构。

图2cd-k算法示意。

图32014年5月该块光伏面板发电功率。

图4gbrbm-lr模型预测结果。

图5lr模型预测结果。

图6svr模型预测结果。

具体实施方式

基于波尔兹曼机对光伏进行超短期预测需要进行以下的步骤:

步骤1:原始数据的获取

首先获取原始的光伏数据,数据来源于theglobalenergyforecastingcompetition2014(gefcom2014),是从2012年4月1日至2014年6月1日对某块光伏面板的相关影响因素进行逐小时采集得到的。数据包括12个相关因素,包括总柱液态水(tclw)、总柱冰状水(tciw)、表面压力(sp)、1000毫巴相对湿度(rh)、总云量(tcc)、10米高风的u分量(10u)、10米高风的v分量(10v)、2米处温度(2t)、表面太阳辐射累积量(ssrd)、表面热辐射累积量(strd)、大气顶部太阳辐射累积量(tsr)、总降水(tp),涉及风速、气温、气压、辐照、降水等,以及相对应的光伏发电数据。

步骤2:数据集的划分

影响光伏发电功率预测的影响因素有很多关系也相当复杂,剔除每天9时~20时(世界时)夜间光伏发电为0的情况,分析其中剩余光伏发电不为0的情况,并将数据集分为a和b两个部分,b数据集包括2014年5月份数据,a数据集包括其余数据,并且利用rbm将数据集a进行了重构得到数据集a'。

为了实现模型的预测效果,在训练模型时,输入的影响因素的标签为未来1小时的光伏发电数据。在这种情况下,训练得到的模型输入的是当前12个相关影响因素,输出的是未来1小时光伏的发电功率,从而实现了对光伏面板超短期(1小时)发电功率预测。

步骤3:模型的构建

训练模型是由波尔兹曼机bm为基础单元构建的,通过波尔兹曼机的组合,构成了训练的网络模型。通过各个bm的显元与隐元之间参数的训练对其传递的权值进行调整,并通过选择合适的决策模型获取最优的预测。

2014年5月该块光伏面板发电功共计372条数据,作为模型的测试集b。将2012年4月-2014年4月共计9120条数据作为训练集a,利用rbm将数据集a进行了重构得到数据集a',然后分别训练了gbrbm-lr模型,lr模型和svr模型。最后在测试集上对光伏面板发电功率进行了测试。

将模型预测输出得到的结果(generatedvalue)用蓝色交叉点所示,三种模型在测试集上得到的结果如图4~图6所示,其中横坐标代表时间(年-月-日),纵坐标代表光伏发电状况(标幺值)。mas、mse、ev、r2结果如表1所示利用平均绝对误差mae(meanabsoluteerror)、平均平方误差mse(meansquarederror)、解释变异(explainedvariance,ev)以及决定系数(coefficientofdetermination,又称r2分数)来分别评价三个光伏面板超短期发电功率预测模型的表现。

表1三种模型评价指标

在步骤(3)模型的构建过程中可以对波尔兹曼机进行优选。改进方式如下:

1.rbm(限制玻尔兹曼机)

rbm是bm的一种改进,bm具有强大的无监督学习能力,rbm在继承了bm强大的无监督学习能力的前提下对其进行了改进,限制了bm显层和隐层的连接。bm各层单元之间是相互连接的,而rbm各层单元之间并不存在相互连接的关系。

相对于bm,可以通过建立rbm来较好地重构原始数据,发现数据间隐含存在的关系,并且避免训练时间过长,从而可以便于后续机器学习模型的建立。

2.gbrbm(高斯玻尔兹曼机)

对于一个有n个显元,m个隐元的rbm,v代表显元(visibleunits)的状态,h代表隐元(hiddenunits)的状态,那么rbm的概率分布p(v,h)满足boltzmann分布。

实际的数据往往近似满足高斯分布,此时假设显元具有独立高斯噪音的线性单元,隐元为随机二值神经元,此时rbm即高斯-伯努利rbm,简称高斯rbm,其能量函数如式(1)所示:

其中:vi表示二值显元的取值;hj表示隐元的取值;ai,bj表示偏置(bias);wij表示第i个显元和第j个隐元间的权重(weight);σi表示显元的标准差。

全概率分布p(v,h)如式(2)所示:

其中:z为配分函数(partitionfunction),表达式为式(3):

表示v和h的所有可能的组合。

根据公式(2)可以得到高斯rbm关于v的分布p(v),即p(v,h)的边缘分布。定义p(v)为高斯rbm的似然函数(likelihood),表达式为:

由于高斯rbm各隐元之间的激活条件是独立的,所以第j个隐元的激活概率如式(5)所示:

同理,第i个显元的激活概率如式(6)所示:

其中:是罗杰斯特函数(logisticssigmoidfunction)。

3.参数确定

训练rbm的任务就是确定rbm的参数的值,即θ={wij,ai,bj}。参数θ可以通过最大化rbm在含有t个样本训练集上的对数似然函数学习得到,描述式如式(7)所示:

下面具体描述rbm参数计算方法。

4)随机梯度上升法(stochasticgradientascent)

利用随机梯度上升法可以获取最优的参数θ*,即求出:

一般情况下,rbm的初始参数是随机初始化而得到的,此时只需要在训练集上计算出rbm模型各个参数(即wij,ai,bj)的增量即能得到最终的rbm参数。因此计算logp(vt|θ)对模型的各个参数偏导数对于求得参数θ的增量至关重要。

对于模型参数(wij或ai或bj)的偏导数计算如式(9)~(11)所示:

其中:v0表示输入样本;<·>p表示关于分布p的数学期望;p(h|v0,θ)表示显元状态为已知输入样本v0时隐层的概率分布。

由于z的存在(计算z至少需要2n+m次计算),p(v,h|θ)难以计算,因此本文采用对比散度法(contrastivedivergence,cd)算法获取其近似值。

5)对比散度法(contrastivedivergence,cd-k)

为了避免rbm训练时间过长,hinton提出rbm的一个快速学习算法——cd-k算法。cd-k算法流程如图2所示。

在cd-k算法开始时,设定该训练样本为显元的状态,利用式(5)计算隐元的状态;然后根据式(6)再重新计算显元的状态,即显元取值为1的概率,这样就产生了显层的一个重构(reconstruction)。k的取值即为重构的次数。

hinton发现,k=1时就能取得较好的效果。同时在利用cd-1算法训练rbm时,若用“data”来简记p(h|v0,θ),“recon”来简记p(v,h|θ),cd-1算法就可以得出式(9)~(11)的近似计算结果,如式(12)~(14)表示:

此时,rbm参数的增量为:

ε表示学习率。

6)假设在利用训练集样本训练rbm前的参数为θ,训练之后rbm的参数为θ*,rbm参数的增量为δθ,则对应有:

θ*=θ+δθ(17)

由步骤1)~3)计算,最终可得在已知训练集上所构建的rbm的参数。

4.gbrbm-lr训练模型

gbrbm有着强大的无监督学习的能力,当一个样本经过训练好的rbm,输出就是对应的重构后的数据。能够发现数据内在的结构,也即特征提取和选择的过程。本文在重构后的数据a′上构建lr模型,即为gbrbm-lr模型。这相当于gbrbm-lr模型输入的是当前12个相关影响因素,输出的是未来1小时光伏的发电功率。

本发明基于gefcom2014所给出的光伏出力的相关数据,在构建的训练集与测试集的基础上,针对gbrbm重构前的数据集a构建了线性回归lr模型和svr模型,并在重构后的数据集a'的基础上构建了lr模型,称其为gbrbm-lr模型,然后对三种模型在未参与训练的数据集b上进行了测试。

由图4~6可以看出:gbrbm-lr模型的拟合效果远远优于lr模型的拟合效果,与svr模型的拟合效果相当。说明gbrbm对lr模型的拟合能力有着极大的提高作用,达到甚至优于svr模型的拟合能力,从而在测试集上,gbrbm-lr模型对光伏面板超短期(1小时)发电功率有着较好的预测效果。

从表1所示模型评价指标比较可得,gbrbm-lr模型的mae和mse的值小于lr模型和svr模型的值,说明gbrbm-lr输出的预测值与真实值更加接近;ev的值较大说明gbrbm-lr输出的预测值的分布与真实值的分布更加相似。

从表1还可知:gbrbm-lr模型的r2的值更接近于1,说明其对数据的拟合程度更高,同样也说明了rbm重构之后的数据(自变量),应用于lr模型上,比在原始数据上直接应用lr模型,对光伏发电数据(因变量)的解释程度更高,即rbm对数据所进行的重构,克服了数据在低维空间内难以构造良好的线性模型的问题,但是在相应的高维空间中构建线性模型就可以取得良好的拟合效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1