基于无限混合高斯和样条回归的风电功率曲线拟合方法与流程

文档序号:14555241阅读:336来源:国知局
基于无限混合高斯和样条回归的风电功率曲线拟合方法与流程

本发明涉及新能源领域和机器学习领域,特别涉及一种基于无限混合高斯和样条回归的风电功率曲线拟合方法。



背景技术:

当前,随着全球的能源危机的出现以及使用传统能源如煤,石油等带来的日趋严峻的环境问题,找到替代原有的传统能源的任务越来越紧迫。风电作为一种清洁、可再生的能源受到了越来越多的关注。大规模的风电并网将会在一定程度上缓解能源危机,并且能带来经济效益和减少缓解污染。然而,由于风电本身的随机性和间歇性,从而导致在大规模风电并网后对整个电力系统的完全性和稳定性产生巨大影响。因此,从风电并网的角度来说,准确的功率预报是很有必要的,此外还可以减少电力系统的运行成本。

由于风速和功率之间的关系可以用功率曲线来表示。因此风电预报常用两步法,第一步先得到风速的预报值,第二步是利用功率曲线得到功率的预报。通常情况下,功率曲线是由风机的生产厂商提供的。然而,该功率曲线是一条理论的功率曲线,没有考虑环境等因素(如气温和湿度等)的影响。在实际中,随着地理环境和气候的不同,实际功率曲线会产生变化。因此,直接利用理论功率曲线来实现功率预报会带来额外的预报误差。因此,很多学者也研究如何去得到一个准确的实际功率曲线来进一步提高风电预报的精度。除此以外,准确的功率曲线还能够在线监测风机的运行状态和减少风机的运行和维护成本等。

目前,可以将风电功率曲线建模技术分成两大类:参数模型和非参数模型。一般地,参数模型主要由带有几个参数的数学表达式构成,主要包括线性分割法、多项式功率曲线、理想功率曲线、概率模型、动态功率曲线、4参数、5参数logistics模型以及修正的双曲正切模型等。对于多项式模型而言,常用三次功率曲线、二次功率曲线、6阶以及9阶多项式模型来拟合功率曲线。参数模型的缺点是在描述功率曲线的动态特性上其性能有限。与参数模型不同,非参数模型不需要利用一些数学表达式也不需要对功率曲线的形状有先验知识,仅仅利用历史的功率以及风速数据就可以拟合出各种各样的功率曲线。非参数模型主要包括样条回归,人工神经网络法,模糊法和一些数据挖掘的方法如支持向量机,随机森林和k近邻等。尽管非参数模型比参数模型灵活,但是其计算量也相对较大。

除了功率曲线的建模方法外,另一个影响我们获得一个精确的功率曲线的因素是数据的质量。然而,在实际中,获得的风速与功率的数据中经常会存在很多不一致的样本。造成以上现象的原因包括传感器误差、停机维护、弃风限电以及环境因素如结冰等。不一致样本的特性是在给定一个风速,真实的功率数据远离功率曲线。为了提高数据的质量,通常用提前去除这些不一致样本,然后再利用处理后的数据构建功率曲线模型。然而,此类方法的缺陷在于我们无法保证所有的不一致样本都能被检测到。

在数据中存在一些非一致样本时,由于实际功率与功率曲线上的功率距离较远,因此此处的误差较大,误差分布呈现出非高斯特性,具有长尾现象。此种情况下高斯分布很难描述以上特性的误差分布。然而,当前的一些模型如样条回归、多项式模型等都假设误差服从高斯分布,在训练数据中存在一些非一致样本时,真实的误差分布特性与假设的误差分布之间并不一致。因次,在存在非一致样本的情况下,假设误差服从高斯分布的功率曲线模型并不合适。



技术实现要素:

本发明的目的是解决现有风电功率曲线的精度较低误差较大的技术问题,本发明提供一种基于无限混合高斯和样条回归的风电功率曲线拟合方法。

本发明解决技术问题采用如下技术方案:

一种基于无限混合高斯和样条回归的风电功率曲线拟合方法,包括以下步骤:

1)数据预处理:

根据实际的风速和功率数据画出经验功率曲线,然后将明显的异常数据去除,处理后的样本表示为所述的xi,yi分别表示风速和功率值,n表示训练样本的长度;

2)构造鲁棒的样条回归模型:

构造鲁棒样条回归模型yi=zi(xi)β+ei,所述的zi(xi)表示根据样条基计算出的输入向量,β表示回归系数,ei表示服从无限混合高斯模型的回归误差:

所述的表示第k个高斯分布的方差;所述的回归系数β服从一个高斯分布;所述的πk表示第k个高斯分布的权值,且πk是关于的一个函数,表示为

所述的参数是一个变量,满足一个参数为v的beta分布超参数v为满足参数为e0、f0的gamma分布,v=gamma(v|e0,f0),所述的e0、f0的初始值设置为0.0001并根据变分贝叶斯得到的参数的后验分布来更新e0、f0的值;

3)利用变分贝叶斯优化鲁棒的样条回归模型:

根据步骤2)中对鲁棒样条回归模型中各个参数的先验分布,构造最终的似然函数:p(r,β,w,ρ,τ,v|y,z)=p(y|r,z,β,τ)p(τ)p(r|w)p(β|ρ)p(ρ)p(w|v)p(v),所述p(.)是变量的概率分布;

令θ={r,β,w,ρ,τ,v},根据变分贝叶斯的原理,求出鲁棒样条回归模型中的所有参数的后验分布,

所述的<·>是期望运算;

4)得出功率曲线以及概率功率曲线:

根据步骤3)得到的参数的后验分布,给定一个新样本(x*,y*),所述x*、y*分别表示未知风速值和待预测的真实功率,通过下式来推断y*的概率分布:

所述μβ,σβ分别表示参数β的后验分布中的期望和方差,z*表示的是根据样条基计算的与风速x*相对应的输入向量,y*的预测分布是混合高斯模型,所述的z*μβ是y*的点预测值;

根据y=z(x)μβ得到预测的功率曲线;

根据每个预测值所相应的概率分布,求出相应的概率功率曲线。

本发明具有如下有益效果:本发明的风电功率曲线拟合方法由于采用了无限混合高斯分布,理论上能拟合任意复杂的分布,因此能够容忍训练数据中存在一些非一致样本,而无需采用一些其他的算法将非一致样本全部去除;采用变分贝叶斯的优化方法,不仅能得到确定的功率曲线,也可以得到概率功率曲线,进而可以利用概率功率曲线去识别出数据中的非一致样本;本发明的风电功率曲线拟合方法只需要设置一些初始化参数即可,没有任何待优化的参数,方法简单、精度高、误差小,可进一步提高风电预报的精度。

附图说明

图1为本发明基于无限混合高斯和样条回归的风电功率曲线拟合方法的流程图;

图2为本发明实施例中的原始的风速与功率数据;

图3为本发明实施例中不同模型得到的数据集c的功率曲线图;

图4为本发明实施例中不同数据集的概率功率曲线。

具体实施方式

下面结合实施方式和实施例对本发明的技术方案作进一步阐述。

具体实施方式:本实施方式是一种基于无限混合高斯和样条回归的风电功率曲线拟合方法,如图1所示,具体步骤如下:

1)数据预处理:

根据实际的风速和功率数据画出经验功率曲线,然后将明显的异常数据去除,处理后的样本表示为所述的xi,yi分别表示风速和功率值,n表示训练样本的长度;

2)构造鲁棒的样条回归模型:

构造鲁棒样条回归模型yi=zi(xi)β+ei,所述的zi(xi)表示根据样条基计算出的输入向量,β表示回归系数,ei表示服从无限混合高斯模型的回归误差:

所述的表示第k个高斯分布的方差;所述的回归系数β服从一个高斯分布;所述的πk表示第k个高斯分布的权值,且πk是关于的一个函数,表示为

所述的参数是一个变量,满足一个参数为v的beta分布超参数v为满足参数为e0、f0的gamma分布,v=gamma(v|e0,f0),所述的e0、f0的初始值设置为0.0001并根据变分贝叶斯得到的参数的后验分布来更新e0、f0的值;

3)利用变分贝叶斯优化鲁棒的样条回归模型:

根据步骤2)中对鲁棒样条回归模型中各个参数的先验分布,构造最终的似然函数:p(r,β,w,ρ,τ,v|y,z)=p(y|r,z,β,τ)p(τ)p(r|w)p(β|ρ)p(ρ)p(w|v)p(v),所述p(.)是变量的概率分布;

令θ={r,β,w,ρ,τ,v},根据变分贝叶斯的原理,求出鲁棒样条回归模型中的所有参数的后验分布,

所述的<·>是期望运算;

4)得出功率曲线以及概率功率曲线:

根据步骤3)得到的参数的后验分布,给定一个新样本(x*,y*),所述x*、y*分别表示未知风速值和待预测的真实功率,通过下式来推断y*的概率分布:

所述μβ,σβ分别表示参数β的后验分布中的期望和方差,z*表示的是根据样条基计算的与风速x*相对应的输入向量,y*的预测分布是混合高斯模型,所述的z*μβ是y*的点预测值;

根据y=z(x)μβ得到预测的功率曲线;

根据每个预测值所相应的概率分布,求出相应的概率功率曲线。

下面通过具体实施例,对本发明做进一步详细说明,应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

实施例采用以下三个数据集:数据集a来自于宁夏风电场,其中包含10000对样本(风速s和相应的风功率p)。在进行实验之前,我们将数据集分成2部分,前8000个样本作为训练样本,剩余的2000个样本作为测试样本。另外两个数据集(b和c)是来自同一风电场的两个不同风机上的数据。数据集b中包含6000对样本,其中前5000作为训练样本,剩余的1000样本作为测试样本。数据集c中包含7500对样本,前6000作为训练样本,剩余的1500样本作为测试样本。以上三个数据集的的样本采样频率为10min,原始风速和功率数据如图2所示。

在实际中,为了降低非一致样本对功率曲线建模的影响,通常情况下需要将这些非一致样本点剔除。然而,由于当前用于识别非一致样本的算法能力限制,我们并不能确保所有的非一致样本点都能剔除。为了模拟此种情况,我们首先采用简单的方法剔除原始数据中的非一致样本点。

在数据集a中,风速大于10m/s且功率小于14000kw时的样本被认为是非一致样本,且直接去除。在数据集b中,当风速大于6m/s且功率小于50kw的样本,风速大于13m/s功率小于700kw的样本,都被视为非一致样本且被去除。在数据集c中,风速大于6m/s功率小于50,风速大于12m/s功率小于600kw中的样本被去除。上述简单的方法只能去除较为明显的非一致样本,因此处理后的数据中仍然存在一些异常点。

为了说明本发明所提出的方法的有效性,我们对比以下功率曲线拟合方法常用的模型:四种参数模型(4参数logistic模型、5参数logistic模型、6阶和9阶多项式回归模型),一个非参数模型(样条回归模型)和两个基于学习的模型(神经网络法和支持向量机)。为了表述方便,上述对比模型分别简写为4-plm、5-plm、6-prm、9-prm、srm、ann和svm。本发明采用的模型简写为rsrm。为了定量的刻画各个模型的性能,一般采用以下两个指标,即平均绝对误差(mae)和均方根误差(rmse),计算公式为

其中yi,分别表示为真实的功率和预测的功率。

本发明所提出的基于鲁棒回归模型的功率曲线拟合方法能容忍一些非一致样本点在样本中。不同模型的功率曲线拟合方法的拟合结果如表1所示,利用不同模型的功率曲线方法得到的数据集c的功率曲线如图3所示。

表1基于各种模型的功率曲线拟合方法的性能对比

从表1可以看出,四个参数模型的性能较为有限,两个基于学习的模型(mlp和svm)的性能大体上要优于参数模型。本发明所提出的方法rsrm在数据中存在非一致样本时得到的功率曲线要好于参数模型和基于学习的模型。从图3也可以看到rsrm的功率曲线能够更好的拟合原始的功率数据。

本发明提出的方法不仅能提供确定性的功率曲线,也能够提供概率功率曲线。我们可以利用概率功率曲线去识别原始数据中的非一致样本点。用前面所述的简单方法从数据集a、b和c中识别出的非一致样本点分别为144、309和931个。在95%的置信度下,用本发明提出的方法能从数据集a、b和c中识别出445、401和1102个非一致样本,如图4中不同数据集的概率功率曲线所示。从上述结果可以看出,本发明提出的方法能够识别出更多的非一致样本。

最后应说明的是:以上实施方式和实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式和实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施方式和实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施方式和实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1