基于加权kNN距离的风电场异常数据辨识方法与流程

文档序号:13941702阅读:159来源:国知局

本发明涉及新能源发电技术领域,具体涉及一种基于加权knn距离的风电场异常数据辨识方法。



背景技术:

随着风电并网量的增加,风电的间歇性和不确定性给电网的运营带来了挑战,要提高风电渗透率和减少风电弃风率,最直接的方法就是提高风电的预测精确度。

由于风电场地形和风资源的复杂性,很难利用物理方法对风电场功率预测进行精确建模,所以,基于风电场历史运行数据的数据驱动型方法得到了广泛使用;而风电场历史运行数据的有效性和准确性将会影响功率预测结果,因此,对风电场历史运行数据进行异常数据辨识将变得尤为重要。

目前对风电场异常数据辨识的研究方法主要分两类,第一类是越限判断方法,通过判断风速和功率值的是否超过正常范围值,这类方法比较依赖于人工经验,不能对处于正常值范围内的异常数据进行辨识;第二类是人工智能算法,此类方法可克服越限判断方法依赖人工经验的不足,但该类方法的辨识精度依赖于大量正确数据,实际情况下通常很难得到大量正确分类的数据样本。



技术实现要素:

针对现有技术的不足,本发明提出了一种用加权knn距离定义每个数据点的离群程度,再通过数据点的离群程度对数据中的异常数据进行辨识的方法,从而提高风电场输出功率的预测精确度。

本发明的技术方案为:

一种基于加权knn距离的风电场异常数据辨识方法,其关键在于按以下步骤进行:

步骤1:对风电场历史运行数据进行丢失数据与停运数据辨识,删除丢失数据与停运数据,得到数据集w_s;

步骤2:计算步骤1中数据集w_s的分布标准差;

步骤3:建立带未知参数k、离群点数量参数n的基于加权knn的离群点辨识模型;

步骤4:采用基于灵敏度分析的参数确定方法,计算基于加权knn的离群点辨识模型的未知参数k、n,得到基于加权knn的离群点辨识模型;

步骤5:对风电场历史运行数据进行异常数据辨识并从剔除,得到风电场历史正常运行数据,并将该风电场历史正常运行数据输入到风电场功率预估系统,对下一时段风电场功率进行预估,实现输出功率平稳控制。

上述方案中,knn距离算法为:邻近距离算法。

所述步骤1中对风电场历史运行数据进行丢失数据与停运数据的辨识方法按如下步骤进行:

步骤1.1:输入风电场历史运行数据集w[(v1,p1),(v2,p2),…,(vm,pm)],其中vi和pi(i=1,2,…,m)表示第i时刻的风速与风电功率值;

步骤1.2:遍历数据集中的点,通过判别风速和功率是否为数值的方法对丢失数据进行过滤,判断数据点功率值是否为无效值,如果是,则删除该数据;

步骤1.3:遍历数据集中的点,判断数据点风速在切入和切出风速间的功率值是否为0,如果是,则删除该数据;

停运数据辨识后的风电场数据集为w_s。

所述步骤2中数据分布标准差的计算方法如下:

步骤2.1:将风电场w_s数据按照风速大小,由大到小排序,把风速[0,vmax]以0.1m/s为间隔划分成z(z=vmax×10)个区间,即:{[0,0.1],(0.1,0.2]…(vmax-0.1,vmax]};

步骤2.2:对每个区间中点的风电功率值求取标准差,公式如下:

其中,n为第i个风速区间内点的数量,pj为风速区间内点的功率值,为区间内所有点的功率的平均值,σi为当前第i区间的标准差;

步骤2.3:重复z次步骤2.2,得到每个区间数据的离散程度,最后将所有部分的标准差进行求和,便得到风电场v-p数据的分布标准差,公式如下:

其中z为划分的区间数,σtotal为求得的分布标准差。

所述步骤4中确定辨识模型中k、n的取值方法按如下步骤:

步骤4.1:在同一数据集和离群点数量参数n的情况下,改变参数k的取值,观察分布标准差,即观察辨识效果的变化情况,从而确定参数k的取值;

步骤4.2:确定参数k值后,得到过滤数据百分比与分布标准差的关系图,图中分布标准差随着过滤数据百分比的增加先快速下降后缓慢下降,找出下降趋势的拐点,确定出离群点数量参数n的值;

步骤4.3:验证参数模型的正确性;取所述拐点对应的过滤数据百分比值,作出分布标准差与参数k值的关系图,观察图中分布标准差稳定的区间的k值,对比步骤3.1中所取的k值是否在该区间内,在该区间内则说明该参数模型正确。

所述步骤5中辨识模型的辨识方法步骤如下:

步骤5.1:输入经丢失数据与停运数据辨识后的数据集w_s,最邻近点数量参数k和离群点数量参数n;

步骤5.2:对风电场数据w_s采用离差标准化处理,消除数据中功率和风速的量纲,消除数据中数值范围存在的差异;

步骤5.3:计算数据集w_s中每个点的权值;

步骤5.4:计算数据集w_s中每个点的加权knn距离;

步骤5.5:对数据集w_s中的点按照加权knn距离值由到小进行排序,加权knn距离最大的x个点为筛选出的离群点。

所述步骤5.2中风速数据离差标准化处理的公式为:

其中,vi为风速数据集合v中的值,vmin为风速数据集合v中的最小值,vmax为v中的最大值,vi′为离差标准化处理后的数据值,vi′值的取值范围在[0,1]之间;

所述功率数据离差标准化处理公式如下:

其中,pi为功率数据集合p中的值,pmin为风速数据集合p中的最小值,pmax为p中的最大值,pi′为离差标准化处理后的数据值,pi′值的取值范围在[0,1]之间。

所述步骤5.3中权值的计算方法如下:

在数据集{(v1,p1),(v2,p2),...,(vm,pm)}中,对于数据点(vi,pi),i∈m,权重值dik为数据点(vi,pi)到其第k个最邻近点的距离;

权重值dik的计算公式如下:

其中(vk,pk)表示离(vi,pi)第k个最邻近的点。

所述步骤5.4中加权knn距离的计算方法如下:

在数据集{(v1,p1),(v2,p2),...,(vm,pm)}中,对于数据点(vi,pi),i∈m,其加权knn距离为:

其中,j∈k,j表示到点(vi,pi)距离最近的k个点,k为最邻近点的个数,dj,k为点(vj,pj)的权重值。

有益效果:本发明提出了一种基于灵敏度分析的模型参数最优确定方法,该方法不需要预先利用正常数据样本进行训练,可以对处于正常值范围内的异常数据进行辨识,从而提高风电场输出功率的预测精确度,缩短预测时间,实现风电场输出功率的可靠控制。

附图说明

图1为本发明实施例使用的风电场历史运行数据的v-p散点图;

图2为不同辨识比例下分布标准差与模型参数k的取值关系图;

图3为过滤数据百分比与分布标准差的关系图;

图4为pct=4.2%时分布标准差与模型中参数k的取值关系图;

图5为模型辨识后的风电场数据散点图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述:

一种基于加权knn距离的风电场异常数据辨识方法,其关键在于按以下步骤进行:

步骤1:如图1所示,对风电场历史运行数据进行丢失数据与停运数据辨识;本实施例中,使用某风电场2014.01.01至2014.12.31间每小时运行数据,共8760组数据作为风电场历史运行数据读入。数据集为w[(v1,p1),(v2,p2),…,(v8760,p8760)],其中vi和pi(i=1,2,…,8760)表示第i时刻的风速与风电功率值;共辨识得到的异常数据131个,辨识后的数据集为w_s。

步骤2:利用公式计算风电场w_s数据分布标准差;

步骤2.1:将风电场w_s数据按照风速大小,由大到小排序,把风速[0,vmax]以0.1m/s为间隔划分成z(z=vmax×10)个区间,即:{[0,0.1],(0.1,0.2]…(vmax-0.1,vmax]};

步骤2.2:对每个区间中点的风电功率值求取标准差,公式如下:

其中,n为第i个风速区间内点的数量,pj为风速区间内点的功率值,为区间内所有点的功率的平均值,σi为当前第i区间的标准差;

步骤2.3:重复z次步骤2.2,得到每个区间数据的离散程度,最后将所有部分的标准差进行求和,便得到风电场v-p数据的分布标准差,公式如下:

其中z为划分的区间数,σtotal为求得的分布标准差。

步骤3:建立带未知参数k、离群点数量参数n的基于加权knn的离群点辨识模型;

步骤4:采用基于灵敏度分析的参数确定方法,计算基于加权knn的离群点辨识模型的未知参数k、n,得到基于加权knn的离群点辨识模型;

步骤4.1:辨识模型中参数k的确定;本实施例中,为了参数设置的方便,这里使用辨识比例pct来代替离群点数量参数n,离群比例pct为离群点数量参数n与总数据数量的比值。在不知道原始数据离群点数量的情况下,本实例对pct取3%-30%之间的四组值进行统计分析;

从图2可以看出,随着参数k取值的增大,四组值的分布标准差均表现出先随k取值的增大而逐渐减小、最终趋向于稳定的趋势,这表明当参数k增大到一定值后,对模型辨识结果影响将变得很小;此时分析图2可得到,在过滤数据百分比为3%、5%、10%和30%时,k取值大于等于9时,分布标准差便趋于稳定,本实例使用的风电场数据,模型参数k取值15。

步骤4.2:辨识模型中离群点数量参数n的确定;

当模型参数k值取15时,得到过滤数据百分比与分布标准差的关系图,如附图3;从图3中可以看出,分布标准差随着过滤数据百分比的增加先快速下降后缓慢下降;分布标准差快速下降的过程,正是整个风速-功率数据中的异常数据被过滤的过程,缓慢下降表明异常数据被过滤掉后,开始过滤到了正常数据;因此,分布标准差开始缓慢下降就表明异常数据基本被辨识过滤掉,只需找到下降趋势的拐点就能确定离群点数量参数n的值。从图3可以看出,拐点对应的过滤数据百分比pct=4.2%,也就是离群点数量参数n=368。

步骤4.3:为了验证参数k取值的正确性,取过滤数据百分比pct=4.2%,得到分布标准差与k取值的关系图,如附图4;从图4中可以看出,在pct=4.2%的条件下,当k取值大于等于10时,便对辨识结果基本没有影响了,而本实例在确定过滤数量参数时k的取值为15,此时取得的最优离群点数量参数n和参数k的值是正确有效的。

步骤5:输入经丢失数据与停运数据辨识后的数据集w_s,同时输入最邻近点数量参数k=15和离群点数量参数n=368,对数据集w_s进行离差标准化处理,建立基于加权knn的离群点辨识模型,再计算数据集w_s中每个点的加权knn距离,对数据及w_s中的点按照加权knn距离值由大到小进行排序,加权knn距离最大的x个点为筛选出的离群点,此时x的值为图5中异常数据“×”的数量,从图5可以看出,即原始数据中的异常数据得到了辨识。

参照风电功率预测模型,分别使用辨识前后的风电场历史运行数据对风电功率进行预测,两种数据的风电功率预测均方根误差如下表:

可以看出使用进行过异常数据过滤的数据进行风电功率预测的均方根误差比使用原始数据预测的均方根误差要小。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1