一种风电机组限功率运行的异常数据处理方法与流程

文档序号:15579111发布日期:2018-09-29 06:23

本发明属于风电场技术领域,特别涉及一种风电机组限功率运行的异常数据处理方法。



背景技术:

风能是可再生能源中发展最快且最具有开发价值的清洁能源之一,而风力发电是风能开发利用的主要形式。近年来我国风电产业发展迅速,风电场积累了大量的风电机组运行数据。风电场的历史运行数据尤其是风速和风电功率数据对风电场的运行管理和电力系统的运行调度都具有重要意义;风电机组运行数据是进行风电机组健康状态评估和风电功率预测不可或缺的数据,也是电力系统调度部门制定风电场调度计划的重要参考。

上述的几方面的应用对运行数据的质量都有较高的要求,然而,实际机组的运行数据质量较差,原始运行数据通常难以达到直接应用的要求。影响运行数据质量的因素有很多,比如传感器自身的误差,恶劣的运行环境导致仪器测量精度下降,数据存储和传输故障以及风电场弃风限电等。在应用中,为达到数据质量要求,必须要经过数据处理;数据处理一般包括四个部分:缺失数据处理、重复数据处理、异常数据处理以及不一致数据处理,其中对于风电机组运行状态评估以及风电功率预测的精度来说,异常数据的识别和处理是数据预处理的重要方面,而异常数据出现的最主要原因是风电场弃风限电,从而如何准确快速识别由限功率运行造成的数据异常是重要的研究方向。

现有的异常数据处理方式存在着实用性差、通用性不强、识别率较低、速度慢等问题,而且在筛选过程中难以避免人的主观因素影响,难以适用于运行数据量日益增加的风电场。基于以上问题,本发明提出了一种风电机组限功率运行数据清洗方法,在风电数据中掺杂了大量不同程度的限功率数据的情况下,可以准确快速的进行识别筛选,使风电数据达到较高的质量水平。

风电机组原始运行数据中通常掺杂有大量异常数据,这些异常数据由多种原因导致,而现存的数据清洗方法较难针对多种运行工况下产生的复杂运行数据进行有效的数据清洗。针对以上问题,本发明提出的一种风电机组限功率运行数据清洗方法,该方法把异常运行数据分为由限电导致的限功率数据和由其他原因产生的离群数据,可以解决如下技术问题:可以快速高效辨识运行数据中存在的限功率程度类别,区分正常运行数据和不同程度的限功率数据,并且剔除每一类数据中的离群数据,实现风电机组原始运行数据的数据处理工作,提高风电机组运行数据质量。



技术实现要素:

本发明的目的是提出一种风电机组限功率运行的异常数据处理方法,其特征在于,该方法包括以下步骤:

步骤1:引入风电机组限功率程度和限功率出力假设,设随机变量x,y,z分别代表风电机组输出功率、机舱风速以及限功率程度,其中,x为连续型随机变量,y,z为离散型随机变量。

限功率程度假设即机组的限功率程度可以用有限的限功率状态来表示。假设风电机组限功率程度z可取K个不同的值,分别对应机组正常运行状态和K-1种不同限电程度的限功率运行状态。

限功率出力假设即风电机组限功率出力等于理论功率输出与对应的限功率系数相乘。假设在某一限功率程度下,风电机组限功率运行曲线可表示为x=αkf(y),其中,f(y)为风电机组理论功率曲线函数,αk为第k个限功率状态对应的限功率系数,其取值范围为αk∈[0,1],αk取值越小,则代表机组的限功率程度越大,αk取值越接近于1,则表示机组状态越趋近于正常发电状态。

步骤2:建立混合概率分布模型,将风速y离散化,把风速分布范围均匀划分成J个风速区间,以各风速区间中值代表区间风速值。假设在风速和限功率程度给定的情况下,机组输出功率服从高斯分布,且分布均值等于限功率输出,即x|y=j,z=k~N(μjk,σjk),并且μjk=αkf(y(i)),mkj、sjk分别表示在给定风速区间j和限功率程度k的高斯分布均值和标准差;假设风速服从多项式分布,即y~Multimomial(y),其中向量y是多项式分布的分布参数,向量y第j个元素满足yj30,且p(y=j)=yj;不同于风速和功率,机组限功率程度z无法直接观测,为隐含随机变量,假设限功率程度也服从多项式分布,即z~Multimomial(f),其中向量f的第k个元素满足fk30,且p(z=k)=fk;此外,风速y和限功率程度z相互独立,因此p(y|z)=p(y)。根据边缘概率分布p(z)和条件概率分布p(y|z)和p(x|y,z)计算联合概率分布p(x,y,z)=p(x|y,z)p(y|z)p(z),机组输出功率的概率分布模型可通过求联合概率分布的边缘概率得到,即:

式中,p(x)表示机组输出功率x的边缘概率分布,p(y=j)表示风速值y落入第j个风速区间的概率;p(z=k)表示限功率程度取k时的概率值;p(y=j|z=k)表示在限功率程度取k的条件下风速落入第j个风速区间的条件概率;p(x|y=j,z=k)表示在限功率程度为k、风速取值落入第j个风速区间的条件下,机组输出功率的条件概率。根据上述概率分布假设,若得到分布函数参数,则可以求出式(1)中各项的概率值;

步骤3:初始化混合概率模型参数;

步骤4:用EM算法寻找步骤3中建立的混合概率分布模型参数的最大似然估计;

步骤5:根据步骤4得到混合概率分布模型参数,计算给定观测风速和功率样本下的不同限功率程度下的后验概率,根据最大后验概率将运行数据划分到不同限功率程度对应的类别中;具体包括:

步骤51:计算p(z=k|x=x(i),y=y(i))即为样本点(x(i),y(i))属于限功率程度k的后验概率值,样本i的限功率程度即风速和功率在不同限功率程度下的最大后验概率作为其所属的限功率程度类别;

步骤52:根据预先确定的概率决策阈值q,剔除后验概率小于等于该决策阈值的离群异常数据点,保留剩余样本数据。经过数据清洗后的不同程度的限功率数据集合为:

实现不同限功率程度的运行数据的区分,并剔除离群数据。

所述步骤3包括:

步骤31:采用线性插值方法,根据理论功率散点数据得出理论功率曲线函数x=f(y);

步骤32:随机初始化a=[a1,K,aK],y=[y1,K,yJ],f=[f1,K,fK],mjk和

步骤33:采集机组观测样本集{(x(1),y(1)),...,(x(m),y(m))},其中,x(i)表示机组出力样本,y(i)表示对应的风速样本;对每个样本i,计算(x(i),y(i))到理论限功率运行功率曲线的距离找出样本到各条限功率运行曲线的距离最小的一条曲线对应的限功率程度作为样本(x(i),y(i))的限功率程度,记为样本i距离对应限功率运行曲线的距离记为

步骤34:对同一限功率程度的样本集合{(x(i),y(i))|c(i)=k},用最小二乘拟合限功率运行曲线x(i)=αkf(y(i)),并更新对应的限功率系数ak;

步骤35:不断重复交替进行步骤33和步骤34的过程直到收敛。

步骤36:令K依次取2-8,重复步骤32到步骤35若干次,计算所有样本的平均损失值取各次的损失的平均值,以该均值作为纵轴,K值作为横轴作肘形曲线,取平均损失函数值下降幅度最大的位置对应的K值作为最佳的聚类数。

步骤37:初始化参数y,f,m,s,其中

其中指示函数I{c(i)=k,y(i)=j}取值为1,如果其大括号内的参数为真,否则取值为0。

所述步骤4包括:

步骤41:计算

其中,表示给定机组出力为x(i)的条件下风速落入风速区间j,限功率程度取k的条件概率值;p(y(i)=j)表示样本i的风速处于风速区间j的概率;p(z(i)=k)表示样本i属于限功率程度k的概率;p(x(i)|y(i)=j,z(i)=k)表示在给定风速属于区间j,限功率程度属于k的条件下,功率取值为x(i)的条件概率值。

步骤42:更新

更新

更新

更新mjk=akf(y(i)=j) (11);

更新

步骤43:不断重复交替进行步骤41和步骤42的过程直到收敛。

本发明的有益效果是本发明通过引入风电机组限电运行状态下的合理假设,将风电机组限功率运行下的数据处理问题转化为混合概率分布模型,应用K-Means聚类算法初始化模型参数,然后根据期望值最大化(EM)算法,推导参数更新表达式,通过迭代的方式最大化对数似然函数,得到最优模型参数,以实现限功率运行状态下风电机组异常运行数据的进行处理;因此本发明具有如下优点:

(1)该方法可以找出运行数据中含有几种不同程度的限功率运行状态。

(2)该方法可以剔除离群异常数据点,并能区分不同限功率程度的运行数据。

(3)应用K-Means算法初始化模型参数可以有效避免因随机初始化导致的收敛到不同的局部最优点的情况,可以得到快速稳定的数据处理效果。

附图说明

图1为风电机组限功率运行数据处理流程图。

图2为混合概率分布模型示意图。

图3为未经过处理的风速、功率散点示意图。

图4为肘部曲线。

图5为不同限功率程度下的数据处理结果示意图,其中(a)风速、功率散点图,(b)正常运行状态,(c)限功率程度1,(d)限功率程度2。

具体实施方式

本发明提出一种风电机组限功率运行的异常数据处理方法,下面结合附图和实施例对本发明作详细说明。

如图1所示为风电机组限功率运行的异常数据处理流程图。包括以下步骤:

步骤1:引入风电机组限功率程度和限功率出力假设,设随机变量x,y,z分别代表风电机组输出功率、机舱风速以及限功率程度,其中,x为连续型随机变量,y,z为离散型随机变量。

限功率程度假设即机组的限功率程度可以用有限的限功率状态来表示。假设风电机组限功率程度z可取K个不同的值,分别对应机组正常运行状态和K-1种不同限电程度的限功率运行状态。

限功率出力假设即风电机组限功率出力等于理论功率输出与对应的限功率系数相乘。假设在某一限功率程度下,风电机组限功率运行曲线可表示为x=αkf(y),其中,f(y)为风电机组理论功率曲线函数,αk为第k个限功率状态对应的限功率系数,其取值范围为αk∈[0,1],αk取值越小,则代表机组的限功率程度越大,αk取值越接近于1,则表示机组状态越趋近于正常发电状态。

步骤2:建立混合概率分布模型,将风速y离散化,把风速分布范围均匀划分成J个风速区间,以各风速区间中值代表区间风速值。假设在风速和限功率程度给定的情况下,机组输出功率服从高斯分布,且分布均值等于限功率输出,即x|y=j,z=k~N(μjk,σjk),并且μjk=αkf(y(i)),mkj、sjk分别表示在给定风速区间j和限功率程度k的高斯分布均值和标准差;假设风速服从多项式分布,即y~Multimomial(y),其中向量y是多项式分布的分布参数,向量y第j个元素满足yj30,且p(y=j)=yj;不同于风速和功率,机组限功率程度z无法直接观测,为隐含随机变量,假设限功率程度也服从多项式分布,即z~Multimomial(f),其中向量f的第k个元素满足fk30,且p(z=k)=fk;此外,风速y和限功率程度z相互独立,因此p(y|z)=p(y)。根据边缘概率分布p(z)和条件概率分布p(y|z)和p(x|y,z)计算联合概率分布p(x,y,z)=p(x|y,z)p(y|z)p(z),机组输出功率的概率分布模型可通过求联合概率分布的边缘概率得到,即:

式中,p(x)表示机组输出功率x的边缘概率分布,p(y=j)表示风速值y落入第j个风速区间的概率;p(z=k)表示限功率程度取k时的概率值;p(y=j|z=k)表示在限功率程度取k的条件下风速落入第j个风速区间的条件概率;p(x|y=j,z=k)表示在限功率程度为k、风速取值落入第j个风速区间的条件下,机组输出功率的条件概率。根据上述概率分布假设,若得到分布函数参数,则可以求出式(1)中各项的概率值;

步骤3:初始化混合概率模型参数,该模型包含的参数为:聚类数K;离散化风速区间数量J;理论功率曲线函数x=f(y);限功率系数a=[a1,K,aK],限功率程度分布参数f=[f1,K,fK],离散化风速概率分布参数y=[y1,K,yJ]和高斯分布的均值参数mjk和方差参数首先给定聚类数K和离散化风速区间数量J;其余参数初始化包括以下步骤:

步骤31:采用线性插值方法,根据理论功率散点数据得出理论功率曲线函数x=f(y);

步骤32:随机初始化a=[a1,K,aK],y=[y1,K,yJ],f=[f1,K,fK],mjk和

步骤33:采集机组观测样本集{(x(1),y(1)),...,(x(m),y(m))},其中,x(i)表示机组出力样本,y(i)表示对应的风速样本;对每个样本i,计算(x(i),y(i))到理论限功率运行功率曲线的距离找出样本到各条限功率运行曲线的距离最小的一条曲线对应的限功率程度作为样本(x(i),y(i))的限功率程度,记为样本i距离对应限功率运行曲线的距离记为

步骤34:对处于同一限功率程度的样本集合{(x(i),y(i))|c(i)=k},用最小二乘拟合限功率运行曲线x(i)=αkf(y(i)),并更新对应的限功率系数ak;

步骤35:不断重复交替进行步骤33和步骤34的过程直到收敛。

步骤36:令K依次取2-8,重复步骤32到步骤35若干次,计算所有样本的平均损失值取各次的损失的平均值,以该均值作为纵轴,K值作为横轴作肘形曲线,取平均损失函数值下降幅度最大的位置对应的K值作为最佳的聚类数。

步骤37:初始化参数y,f,m,s,其中

其中指示函数I{c(i)=k,y(i)=j}取值为1,如果其大括号内的参数为真,否则取值为0。

步骤4:以步骤3中得到的参数作为初始值,用EM算法最大化混合概率分布模型的似然函数,得出概率分布参数;该步骤包括:

步骤41:计算

其中,表示给定机组出力为x(i)的条件下风速落入风速区间j,限功率程度取k的条件概率值;p(y(i)=j)表示样本i的风速处于风速区间j的概率;p(z(i)=k)表示样本i属于限功率程度k的概率;p(x(i)|y(i)=j,z(i)=k)表示在给定风速属于区间j,限功率程度属于k的条件下,功率取值为x(i)的条件概率值。

步骤42:更新

更新

更新

更新mjk=akf(y(i)=j) (11);

更新

步骤43:不断重复交替进行步骤41和步骤42的过程直到收敛。

该步骤的推导过程如下:

由于混合概率模型中含有无法观测的隐含随机变量z,直接求对数似然函数的最大值比较困难,根据EM算法,我们转而去求似然函数的下界(E-step),然后最大化这个下界(M-step),通过不断重复E-setp和M-step来优化模型参数。

首先求似然函数的下界。根据Jenson不等式,可得到下面的不等式:

其中,l(a,f,s)为混合概率模型对数似然函数;Qi代表某个分布,不等式取等号的条件是为常数,根据可得:

步骤41中的即为Qi(y(i)=j,z(i)=k);另L(a,f,s)等于式(13)不等号右边项,Qi(y(i),z(i))取式(14)所示,则对数似然函数的下界表示为:

得到对数似然函数的下界,我们求其对参数a,f,s的最大值。求L对aq的偏导:

另上式等于零可求出:

得到aq可以求得mpq:

mpq=aqf(y(i)=p) (18)

求L对spq的偏导:

另上式等于零得:

由用拉格朗日乘数法,求对fk和l的偏导:

另上两式等于零,联立求解得:

同理可解得:

算法的收敛性的由EM算法保证,这里省略证明。但是,EM算法只能收敛到局部最优,因此受初值影响较大,步骤3中的初始化可以帮助算法收敛到较好局部最优点上。

实施例1

以中国西北地区某风电场2.5MW变桨距变速型风电机组的SCADA数据验证本发明。中国西北地区风电场弃风限电现象非常严重,适于研究限功率条件下的数据处理方法;包括以下步骤:

步骤1:确定概率决策阈值q和风速区间数量J。在本实施例中,原始未经处理的含有大量限功率运行数据的风速、功率散点图如图3所示;这里,设置J=50,q=0.8;

步骤2:根据理论功率曲线散点,通过线性插值方法确定理论功率曲线函数x=f(y);

步骤3:建立混合概率分布模型(如图2所示),并初始化参数;

步骤4:根据肘部曲线,确定最佳的聚类数K,在本实施例中,肘部曲线如图4所示,可以得到最佳的聚类数K为3,即可以得出,在这组运行数据中含有1种正常运行状态和2种不同程度的限功率运行状态;

步骤5:用EM算法通过迭代求解混合概率模型参数的最大似然估计;

步骤6:计算后验概率p(z(i)=k|x(i),y(i)),取最大后验概率对应的类别根据概率决策阈值q,剔除离群异常数据点;如图5所示的经过数据处理后的不同程度的限功率数据,其中(a)风速、功率散点图,(b)正常运行状态,(c)限功率程度1,(d)限功率程度2。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1