一种风电机组风功率数据清洗方法与流程

文档序号:15184131发布日期:2018-08-17 11:52阅读:713来源:国知局
本发明涉及风力发电大数据
技术领域
,尤其是涉及一种风电机组风功率数据清洗方法。
背景技术
:风力发电是一种清洁、可再生的能源,正迅速成为可持续发展和能源战略的重要组成部分。但是风力发电过程中随机变化的风速风向使得风电功率具有波动性、间歇性和随机性等特征,对电力系统运行的稳定性和可靠性造成不利影响。消除这些不利影响的一种重要手段就是通过风电机组运行数据的挖掘提高风力发电的可预见性。通过实测风速和功率得到的风功率曲线可用于评估风电机组的性能和运行状况,对判断风机故障有重要价值,同时时序功率数据也是研究风电功率预测以及评估风功率对电网影响的基础。因此,准确获得风电机组实际运行的风速和功率数据,能够为风电场的经济安全运行和优化控制策略提供根本的数据支撑。但是在风电场运行过程中,由于机组停机、减载、通信噪声和设备故障等因素,会产生大量异常数据。目前风电机组运行数据的收集、管理、分析和挖掘方法仍存在诸多不足,不能准确的辨识收集数据的质量差异,进而有效支撑粗糙数据的正确筛选和合理化优化,造成数据质量得不到保障。如果这些数据不经处理直接使用,得到的风力发电统计特性会发生畸变,会影响风电机组的运行状态和运行特性的分析结果。为了提高数据质量,数据清洗已成为数据挖掘过程中不可或缺的环节。传统的数据清洗方法在遇到大量堆积型异常数据时往往会失效,数据清洗是数据挖掘的基础,直接影响着后续分析和应用的可靠性。技术实现要素:本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种风电机组风功率数据清洗方法。本发明的目的可以通过以下技术方案来实现:一种风电机组风功率数据清洗方法,该方法包括如下步骤:(1)根据风速大小将待清洗的风功率数据划分为若干个数据区间;(2)对于每个数据区间分别采用变点分组-四分位法进行数据清洗,剔除异常数据;(3)将清洗后的数据区间进行组合得到清洗后的风功率数据。步骤(2)具体为:(21)采用变点分组法识别风速-功率数据曲线底部堆积型异常数据、中部堆积型异常数据和部分曲线周围分散型异常数据,并将上述异常数据剔除得到中间数据集;(22)对中间数据集中的数据采用四分位法识别曲线上部堆积型异常数据和剩余的曲线周围分散型异常数据,进而将上述异常数据删除得到正常数据集。步骤(21)具体为:(211)将风速-功率数据按照功率降序排列得到功率降序数据集,求取功率降序数据集中各数据点方差变化率;(212)获取方差变化率的变点位置;(213)功率降序数据集中变点位置前的数据确定为中间数据集,变点位置后的数据为异常数据并剔除。步骤(22)具体为:(221)采用四分位法求取中间数据集中数据的异常值内限;(222)将中间数据集中位于异常值内限范围内的数据确定为正常数据,其他为异常数据并剔除。步骤(211)中方差变化率具体通过如下方式得到:(211a)获取功率降序数据集w:w={(v1,p1),(v2,p2),…,(vn,pn)},其中,vi表示第i个数据点的风速,pi表示第i个数据点的功率,i=1,2,……n,n为数据区间中风速-功率数据点总个数,且当i=1,2,……n-1时,pi>pi+1;(211b)获取第i个数据点的方差si:其中,pj为第j个数据点的功率,表示第1个数据点到第i个数据点的功率的平均值;(211c)获取方差变化率:k(i)=|si-si-1|,i=2,3…n。步骤(212)对方差变化率进行变点识别得到变点位置的具体方法包括bayes方法、最小二乘法、极大似然法、局部比较法和小波分析法。步骤(221)具体为:(221a)将中间数据集中数据风速-功率数据按照功率升序排列得到功率升序中间数据集;(221b)采用四分位法求取用于将功率升序中间数据集平均划分成四部分的处于三个分割点位置的功率数值,分别记作q1,q2和q3;(221c)获取四分位距iqr:iqr=q3-q1;(221d)获取异常值内限[fl,fu],fl为下限值,fu为上限值:[fl,fu]=[q1-1.5iqr,q3+1.5iqr]。步骤(221b)中q1,q2和q3具体通过如下方式获得:(b1)对于功率升序中间数据集:x={x1,x2,…,xm},计算中位数q2:(b2)计算q1和q3:若m=2k,k为自然数,则从q2处将数据样本x分为两部分,q2不包含在两部分数据之内,分别对两部分数据采用(b1)方法求取中位数q′2和q″2,q′2<q″2,则:q1=q′2,q3=q″2;若m=4k+1,k为自然数,则:若m=4k+3,k为自然数,则:与现有技术相比,本发明具有如下优点:(1)本发明提出的变点分组-四分位法将变点分组法和四分法相结合,流程合理,清洗效果好,效率高,并具有较强的通用性;(2)本发明变点分组法实现底部堆积型异常数据、中部堆积型异常数据和部分曲线周围分散型异常数据的清洗,四分位法实现上部堆积型异常数据和剩余的曲线周围分散型异常数据的清洗,因此两者有效结构能够实现四种异常数据的可靠有效清洗,避免了传统的数据清洗方法在遇到大量堆积型异常数据时会失效的问题,清洗效果好。附图说明图1为本发明各类异常数据的分布图;图2为本发明风电机组风功率数据清洗方法的流程框图;图3为本实施例中8.5m/s至9m/s风速段功率数据的方差变化率曲线图;图4为本实施例中变点分组法对8.5m/s至9m/s风速段数据中异常数据的识别效果图;图5为图4中剩余的异常数据清洗效果图;图6为本实施例待清洗的风功率数据图;图7为本实施例采用本发明方法进行数据清理后的效果图;图8为本实施例采用传统lof算法进行数据清理后的效果图。具体实施方式下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。实施例风功率曲线是描述风速与机组输出功率之间的关系曲线。它不仅是设计风电机组控制系统的重要依据,还是考核风电机组发电性能和风电场运行状况的重要指标。从风电场采集到的数据中通常包含大量异常数据点。导致数据异常的原因有很多,包括计划外停机、弃风限电、风速传感器失灵、通信设备故障、电磁干扰、风机脱网、极端天气情况、风机叶片污垢或受损等因素。不同原因产生的异常数据,在风功率曲线上的分布特征也不相同。按照数据点在风功率曲线上的分布特征,异常数据可分为四类,包括曲线底部、中部、上部堆积型异常数据和曲线周围分散型异常数据。各类异常数据的分布如图1所示。具体地:(1)曲线底部堆积型异常数据曲线底部堆积型异常数据在风功率曲线中表现为一条横向密集数据带(图1中①所指数据)。此类异常数据产生的原因包括机组故障、通信设备或测量终端故障、计划外停机检修等情况。在这些情况下,风力发电机组的理论输出功率均为零。若风机叶片不转动,而风机的测控系统需要电力驱动,则数据中也可能出现风电功率为负值的情况。因此,曲线底部异常数据会在功率零值附近波动,表现为数据堆积。(2)曲线中部堆积型异常数据曲线中部堆积型异常数据在风功率曲线中表现为一条或多条位于概率功率曲线下界之外的横向密集数据带(图1中②所指数据)。此类异常数据产生的原因是弃风限电或通讯故障。弃风限电是指限制风电机组的输出功率,使其低于正常出力的控制措施。在风电场的实际运行过程中,由于目前电力系统的调峰调频能力和输电能力不足,强制弃风已成为常态,这就使得原始记录数据中会存在大量的异常数据。在实际运行中,由于许多数据集没有记录弃风措施的信息,因此将弃风限电作为异常数据的来源之一。在这种情况下,风速数据记录的是实际变化情况,而风电机组的输出功率长期维持在一个较低的水平保持不变,即使风速超过额定风速,输出功率也长期低于满发状态,限定在某一个值。因此,曲线中部异常数据会在较大风速范围内维持在低于满发的状态保持不变,表现为数据堆积。(3)曲线上部堆积型异常数据曲线上部堆积型异常数据在风功率曲线中表现为一条或多条位于概率功率曲线上界之外的横向密集数据带(图1中③所指数据)。此类异常数据产生的原因通常是通信错误或风速传感器失灵。风速传感器是监测风速的重要仪表,安装在发电机组机舱尾部,难以时常清洗和维护,常出现故障或卡滞现象,导致测量的风速数据不符合实际情况。曲线上部堆积型异常数据会在低风速调度时段内保持功率不变,表现为数据堆积。(4)曲线周围分散型异常数据曲线周围分散型异常数据在风功率曲线中表现为功率曲线附近密度较低的无规律散点(图1中④所指数据)。此类异常数据是由信号传播噪声、传感器失灵、极端天气情况等随机影响因素造成的。随机因素造成的异常数据会在正常值附近随机波动,波动程度的大小也是随机的。因此,曲线周围分散型异常数据会在概率功率曲线边界之外随机分散分布。如图2所示,一种风电机组风功率数据清洗方法,该方法包括如下步骤:(1)根据风速大小将待清洗的风功率数据划分为若干个数据区间;(2)对于每个数据区间分别采用变点分组-四分位法进行数据清洗,剔除异常数据;(3)将清洗后的数据区间进行组合得到清洗后的风功率数据。步骤(2)具体为:(21)采用变点分组法识别风速-功率数据曲线底部堆积型异常数据、中部堆积型异常数据和部分曲线周围分散型异常数据,并将上述异常数据剔除得到中间数据集;(22)对中间数据集中的数据采用四分位法识别曲线上部堆积型异常数据和剩余的曲线周围分散型异常数据,进而将上述异常数据删除得到正常数据集。步骤(21)具体为:(211)将风速-功率数据按照功率降序排列得到功率降序数据集,求取功率降序数据集中各数据点方差变化率;(212)获取方差变化率的变点位置;(213)功率降序数据集中变点位置前的数据确定为中间数据集,变点位置后的数据为异常数据并剔除。步骤(211)中方差变化率具体通过如下方式得到:(211a)获取功率降序数据集w:w={(v1,p1),(v2,p2),…,(vn,pn)},(1)其中,vi表示第i个数据点的风速,pi表示第i个数据点的功率,i=1,2,……n,n为数据区间中风速-功率数据点总个数,且当i=1,2,……n-1时,pi>pi+1;(211b)获取第i个数据点的方差si:其中,pj为第j个数据点的功率,表示第1个数据点到第i个数据点的功率的平均值;(211c)获取方差变化率:k(i)=|si-si-1|,i=2,3…n。(3)步骤(212)对方差变化率进行变点识别得到变点位置的具体方法包括bayes方法、最小二乘法、极大似然法、局部比较法和小波分析法,本实施例采用最小二乘法对方差变化率k(i)进行变点识别,具体地:设有自变量x1,…,xr和因变量k均为变量i的函数,记为xq(i),q=1,…,r和k(i)。xq(i)是i的完全已知非随机函数,k(i)为随机变量,分为前后两段,两段各服从一线性模型,回归系数在i=j处发生突变:式中的系数列向量和不相等,则j为回归变点。由于k(i)是连续的,因此有约束条件:β1'x(i)=β2'x(i),(5)根据最小二乘法的原理,此数据样本模型的加权目标函数为:其中,各项的权wi与样本k(i)的误差方差成反比。求在约束(6)之下式(7)的极小值,以确定变点j的估计:进而步骤(213)在获得变点位置j后,功率降序数据集w可以划分为正常数据和异常数据两部分,即:式中,wn为功率降序数据集w中的正常数据集,wo为功率降序数据集w中的异常数据集。以某台风电机组的实测运行数据中选取8.5m/s至9m/s风速段数据为例展示方差变化率变点分组工作过程。原始数据统计发现该风速区间共有1837个数据点。按照功率值对数据进行降序排列,根据式(2)依次计算1837组数据功率的方差si,然后求出各点的方差变化率ki,如图3所示。由图3可知,在第1500~1600个点之间,方差变化率出现了显著变化。通过最小二乘法变点识别可以求出,序列的变点j=1562,即在第1562个点,曲线模型发生了突变。方差变化率的突变,必定是由于原始数据中存在大量离散程度高的异常数据所致,因此可以判定第1562个点之后的数据为异常数据。根据变点j将正常数据和异常数据分离,得到正常数据集wn和异常数据wo。图4是变点分组法对8.5m/s至9m/s风速段数据中异常数据的识别效果图。由图4可知,变点分组法准确识别出了风速-功率曲线下方的第一、二类堆积型异常数据和部分分散型异常数据,但是对风功率曲线上界的第三类堆积型异常数据和部分第四类分散型异常数据无法有效识别。四分位数及其上下边界可以衡量数据的整体分布情况,反映数据分布的中心位置和散布范围,理论上利用四分位法中的异常值截断点可有效识别剩余的异常数据。将正常数据集wn作为中间数据集便可进行步骤(22)数据采用四分位法识别曲线上部堆积型异常数据和剩余的曲线周围分散型异常数据,进而将上述异常数据删除得到正常数据集。步骤(22)具体为:(221)采用四分位法求取中间数据集中数据的异常值内限;(222)将中间数据集中位于异常值内限范围内的数据确定为正常数据,其他为异常数据并剔除。步骤(221)具体为:(221a)将中间数据集中数据风速-功率数据按照功率升序排列得到功率升序中间数据集;(221b)采用四分位法求取用于将功率升序中间数据集平均划分成四部分的处于三个分割点位置的功率数值,分别记作q1,q2和q3;(221c)获取四分位距iqr:iqr=q3-q1;(221d)获取异常值内限[fl,fu],fl为下限值,fu为上限值:[fl,fu]=[q1-1.5iqr,q3+1.5iqr]。步骤(221b)中q1,q2和q3具体通过如下方式获得:(b1)对于功率升序中间数据集:x={x1,x2,…,xm},计算中位数q2:(b2)计算q1和q3:若m=2k,k为自然数,则从q2处将数据样本x分为两部分,q2不包含在两部分数据之内,分别对两部分数据采用(b1)方法求取中位数q′2和q″2,q′2<q″2,则:q1=q′2,q3=q″2;若m=4k+1,k为自然数,则:若m=4k+3,k为自然数,则:四分位法对图4中剩余的异常数据清洗效果如图5所示,变点分组法无法识别的第三类堆积型异常数据和部分分散型异常数据通过四分位法实现有效识别清洗,可见,联合变点分组法和四分位法可较好的识别四类典型异常数据。为了验证所提数据清洗方法及流程的有效性,选取国内某风电场风电机组的运行数据进行实例验证,该风电场风电机组的基本参数如下:额定功率2000kw,风轮直径95.9m,切入风速3m/s,额定风速11m/s,切出风速(10min平均值)25m/s。这里选取异常数据分布比较典型的7号机组的运行数据来说明联合算法对数据的清洗效果。7号机组连续12个月的原始数据如图6所示。由图6可知,7号机组含有所有类型异常数据。采用本发明方法进行清洗的效果图如图7所示,图中可见所有类型异常数据都能被有效识别,且图中被判定为正常数据的部分接近理想状态的风功率曲线,说明本文提出的变点分组-四分位法对风电机组风速-功率异常运行数据的识别清洗是可行的,且清洗效果不受堆积型异常数据的影响。表1中记录了变点分组-四分位法对7号机组的数据删除率和清洗效率。此方法对异常数据的删除率在20%左右,这与异常数据的多少有关。机组12个月的运行数据清洗耗时在40s左右,清洗效率较高。为了说明变点分组-四分位法这一数据清洗流程的合理性和有效性,利用7号机组的原始运行数据从清洗效果、清洗效率以及数据删除率等维度对比分析了本发明提出的方法与传统的局部离群因子(lof)数据清洗方法。表1从数据删除率和清洗效率两个角度对两种方法对比结果。其中,清洗效率均是在相同的运行环境下得到的,因此具有一定的可比性。表1不同算法数据清洗效果清洗方法原始数据量剩余数据量数据删除率清洗时间变点分组-四分位法525284147521.04%39.59s局部离群因子算法525284147521.04%15min27s使用lof算法清洗7号机组运行数据的效果如图8所示。lof算法是一种典型的聚类算法,通过比较每个点和其邻域点的密度来判断该点是否为异常点,本实施例中选择的邻域点的个数为20。lof算法中,异常数据所占的比例需要提前设定,为了便于和变点分组-四分位法进行比较,将所有数据点中前21.04%个局部离群因子最高的点判定为异常值,使之与变点分组-四分位法识别的异常数据量相同。对比图7和图8可以看出,当两种方法识别的异常数据量相同时,lof算法对堆积型异常数据的识别效果不佳。上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1