一种面向风电机组功率曲线数据的离群点判别方法与流程

文档序号:17643594发布日期:2019-05-11 00:50阅读:204来源:国知局
一种面向风电机组功率曲线数据的离群点判别方法与流程
本发明涉及一种数据离群点判别方法,特别涉及一种面向风电机组功率曲线数据的离群点判别方法。
背景技术
:在传统化石能源储量日益匮乏和环境恶化加剧的现代社会,风能作为一种新能源替代选择之一而因其环境友好、储量丰富以及可再生的优异特性而广泛为大众所关注,我国风电设备的总装机量以及装机量增速也逐渐跃居为全球排名前三甲。在我国,随着大数据技术在工业领域的逐渐普及,近十年内风力发电行业从选址、布局、建设,到风电机组优化、调度、控制,再到后续的评估、运维、管理等方面均有着长足的进步,但在我国风电行业飞速发展的同时,居高不下的运维费用仍然是阻碍风力发电行业广泛部署的主要因素。由于风电机组的能量来源——风本身具有间歇性与高度不确定性的随机特点,且由于现有传感器的测量问题而导致相关数据在测量过程中会出现数值偏移等异常问题,致使风电机组在运行过程中测量得到的数据中包含很多的异常信息及噪声信息,从而对判断风电机组的运行状况、量化风电机组发电性能以及判断风电机组故障情况产生十分严重的负面影响,进一步造成巨额的运维支出。因此,如何判断风电机组数据的异常问题,是利用智能大数据分析技术解决风力发电领域中行业痛点问题与降低风力发电行业运维管理成本的重中之重。考虑到风电机组的功率曲线数据在评估风电机组发电性能方面十分重要,因此对于风电机组功率曲线数据的准确获取是进一步进行详细分析的首要基础。而对于风电机组的功率曲线数据而言,如何将包含异常数据以及噪声数据在内的数据集信息处理为统一的、准确的数据信息则是研究的重点内容。然而,目前现有的功率曲线数据在对其异常点、离群点检测的方法中主要存在着以下不足之处:(1)大部分异常点、离群点相关研究将不同工况下的数据整体进行异常情况检测,忽略不同工况的差异带来的影响;(2)传统的功率曲线数据离群点、异常点判别方法往往仅采用单一算法进行检测,效果大幅受限于少量参数的主观选取约束。因此,现有的功率曲线数据在异常点、离群点检测方面无法从数据集中处理出准确率较高的风电机组功率曲线数据信息,需要综合功率曲线数据特征的相关算法加以改进。技术实现要素:本发明目的在于对现有研究和技术存在的不足之处加以完善与规范化,提出一种面向风电机组功率曲线数据的离群点判别方法。该方法考虑不同运行工况对风电机组功率曲线数据设计更为规范、准确的异常点、离群点检测及判别流程,可以提高最终获取到的功率曲线数据的准确性与可靠性,更具有实用价值;进一步考虑了不同离群点检测与判别算法对风电机组功率曲线数据的适合程度,从而获取更为客观的离群点判别结果,方法的普适性与扩展性更高。本发明的目的通过以下的技术方案实现:一种面向风电机组功率曲线数据的离群点判别方法,该方法包括以下步骤:1)根据待评估风电机组功率曲线获取需求,读取相应需求周期内总计n条待评估风电机组的scada系统中测量得到的风电机组运行数据信息,该信息包含风速{vi}、有功功率{pi}、桨距角{βi}、风电机组运行状态{condi}、环境气压{bi}以及环境温度{ti},将信息数据集记为其中i=1,2,3,…,n;2)将步骤1)中的信息数据集进行数据预处理操作,剔除机组异常运行状态并修正空气密度的影响,保留余下的n′条运行数据作为预处理后的风电机组正常数据集{xi},其中i=1,2,3,…,n′;3)将步骤2)得到的正常数据集{xi}中的风速信息以及功率信息{pi}合成为功率曲线散点数据集{pci},即其中i=1,2,3,…,n′;4)对步骤3)得到的功率曲线散点数据集{pci}中的风速信息以及功率信息{pi}分别进行归一化,得到归一化功率曲线散点数据集{pcnorm,i},其中i=1,2,3,…,n′;5)分别按照一定的风速间隔(ws)和功率间隔(ap)将步骤4)中的归一化功率曲线散点数据集{pcnorm,i}各划分为m个区间,并分别记第j个区间中的数据个数为mseg,j、归一化功率曲线散点数据集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j;6)利用均值距离判别(avdc)离群点检测算法分别对步骤5)中的2m个区间进行疑似离群点检测,并分别记第j个区间的疑似离群点个数为归一化功率曲线疑似离群点集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j;所述均值距离判别(avdc)离群点检测算法具体为:对于数据个数mseg,j小于给定最小阈值δm的区间,认为该区间归一化功率曲线疑似离群点集为否则对于第j个风速区间或第j个功率区间,首先计算区间内归一化功率曲线数据集中各数据点的判别距离进一步设定疑似离群点的占比并确定第j个区间中疑似离群点个数通过由大到小对判别距离进行排序的方式确定前个数据构成第j个区间的归一化功率曲线疑似离群点集所述判别距离的计算方式具体如下:其中分别为第j个风速区间内归一化功率曲线数据集的功率平均值和第j个功率区间内归一化功率曲线数据集的风速平均值,l=1,2,3,…,mseg,j;7)分别利用局部异常因子(lof)以及考虑噪声的基于密度的聚类(dbscan)这两种离群点检测算法对步骤5)中的2m个区间进行判别离群点检测,并分别记第j个区间的判别离群点个数为归一化功率曲线判别离群点集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j,method={lof,dbscan};8)基于真实离群点判别准则,从步骤6)的功率曲线疑似离群点集和步骤7)的功率曲线判别离群点集中获取真实离群点集其中seg={ws,ap},j=1,2,3,…,m,method={lof,dbscan};所述真实离群点判别准则定义为:对于第j个区间的归一化功率曲线数据集中的任一数据点q,若其属于疑似离群点集并且属于lof判别离群点集或dbscan判别离群点集之一,则点q为第j个区间的真实离群点;9)基于步骤8)中得到的各风速区间真实离群点集以及各功率区间真实离群点集利用最终离群点判断准则获得功率曲线散点数据集{pci}的最终离群点判别结果集{outlier},作为最终离群点判别结果;所述最终离群点判断准则定义为:对于功率曲线散点数据集{pci}中的任一数据点q′,若其在归一化功率曲线散点数据集{pcnorm,i}中对应的数据点q是某风速区间的真实离群点或某功率区间的真实离群点,则点q′为功率曲线散点数据集{pci}的最终离群点。作为更进一步描述,所述方法步骤2)中,信息数据集进行的数据预处理操作流程如下:2-a)基于信息数据集记为中的风电机组运行状态{condi}信息进行异常运行状况检测并剔除异常点,记剔除异常点后的风电机组运行数据集为2-b)利用步骤2-a)中的风电机组运行数据集为计算得出相应时刻的空气密度集{ρi},并将风电机组运行数据集中的风速{vi}修正替换为参考空气密度ρ0下的修正风速并记新数据集为风电机组正常数据集{xi}。作为更进一步描述,所述方法步骤2-a)中,利用信息数据集记为中的信息进行异常运行状况检测,具体检测判据如下:表1风电机组异常运行状况检测判据其中condnormal为风电机组正常运行状态,condls为风电机组低风速正常运行状态,condhs为风电机组高风速正常运行状态,prated为风电机组额定有功功率,pthres为有功功率阈值,βthres为桨距角阈值。作为更进一步描述,所述方法步骤2-b)中,空气密度ρi以及修正风速的计算公式如下:2-b-a)空气密度ρi:其中r0为干燥空气的比气体常数;rw为水蒸气的比气体常数;pw为水蒸气的气压;bi为环境气压,通过scada系统获取,或者通过估计,其中b0为标准海平面大气压强,e为自然常数,g为重力加速度,z为风电机组轮毂处海拔高度,r为空气的比气体常数;为相对环境湿度,通过scada系统获取,或者设置2-b-b)修正风速其中ρ0为参考空气密度。作为更进一步描述,所述方法步骤4)中,利用最大值最小值标准化方法对数据进行归一化,具体流程如下:4-a)确定功率曲线散点数据集{pci}中风速信息以及功率信息{pi}的最大值与最小值,记风速信息的最大值为vmax,最小值为vmin;功率信息{pi}的最大值为pmax,最小值为pmin;4-b)利用如下公式计算标准化后的风速信息以及标准化后的功率信息{pnorm,i}:4-c)将标准化风速信息以及标准化功率信息{pnorm,i}合成为归一化功率曲线散点数据集{pcnorm,i},即作为更进一步描述,所述方法步骤5)中,归一化功率曲线散点数据集{pcnorm,i}的划分方法具体如下:5-a)确定归一化功率曲线散点数据集{pcnorm,i}的区间划分个数m;5-b)以为划分间隔,将数据集{pcnorm,i}按照风速进行均匀划分,则第j个风速区间的归一化功率曲线数据集定义为其中mws,j为第j个风速区间归一化功率曲线数据集中的数据个数;5-c)以为划分间隔,将数据集{pcnorm,i}按照功率进行均匀划分,则第j个功率区间的归一化功率曲线数据集定义为其中map,j为第j个功率区间归一化功率曲线数据集中的数据个数。作为更进一步描述,所述方法步骤6)中,利用均值距离判别(avdc)离群点检测算法进行中各区间内疑似离群点检测,算法具体流程如下:6-a)设定初始离群点检测区间j=1;6-b)若第j个区间对应归一化功率曲线数据集中的数据个数mseg,j小于给定最小阈值δm,则认为第j个区间的疑似离群点个数为0、归一化功率曲线疑似离群点集为并跳至步骤6-g)继续执行;反之则继续执行步骤6-c);6-c)设定疑似离群点在第j个区间归一化功率曲线数据集中的占比并计算第j个区间中疑似离群点个数计算公式定义为其中函数为向上取整函数;6-d)计算第j个风速区间归一化功率曲线数据集中各数据点的风速判别距离计算公式如下其中为第j个风速区间内归一化功率曲线数据集的功率平均值;6-e)计算第j个功率区间归一化功率曲线数据集中各数据点的功率判别距离计算公式如下其中为第j个功率区间内归一化功率曲线数据集的风速平均值;6-f)将第j个区间的判别距离数据集分别由大到小进行排序,并分别选取排序后的判别距离数据集中的前个数据,构成第j个区间的归一化功率曲线疑似离群点集其中l=1,2,3,…,mseg,j;6-g)设置检测区间j=j+1,并重复进行步骤6-b)至步骤6-f),直到j>m为止。作为更进一步描述,所述方法步骤7)中,利用局部异常因子(lof)离群点检测算法进行中各区间内lof判别离群点检测,算法具体流程如下:7-1a)设定初始离群点检测区间j=1;7-1b)若第j个区间对应归一化功率曲线数据集中的数据个数mseg,j小于给定最小阈值δm,则认为第j个区间的lof判别离群点个数为0、归一化功率曲线lof判别离群点集为并跳至步骤7-1j)继续执行;反之则继续执行步骤7-1c);7-1c)设定lof判别离群点在第j个区间归一化功率曲线数据集中的占比并计算第j个区间中判别离群点个数计算公式如下其中函数为向上取整函数,同时设定第j个区间归一化功率曲线数据集中各数据点的邻域参数k;7-1d)计算第j个区间归一化功率曲线数据集中各数据点之间的欧式距离d(p,q),计算公式如下其中与满足p≠q且7-1e)基于步骤7-1d)中的距离数据确定第j个区间归一化功率曲线数据集中各数据点的k距离distk(p)以及k邻域确定方法如下distk(p)=d(p,p′)其中p′满足如下条件:(i)存在至多k-1个点满足d(p,q)<d(p,p′);(ii)存在至少k个点满足d(p,q)≤d(p,p′);7-1f)计算第j个区间归一化功率曲线数据集中各数据点与其k邻域内各数据点之间的可达距离rdistk(p,q),计算公式如下rdistk(p,q)=max{distk(q),d(p,q)}其中7-1g)计算第j个区间归一化功率曲线数据集中各数据点的局部可达密度lrdk(p),计算公式如下其中表示数据点的k邻域中除p以外的其他数据点个数;7-1h)计算第j个区间归一化功率曲线数据集中各数据点的局部离群因子lofk(p),计算公式如下7-1i)将第j个区间归一化功率曲线数据集中各数据点的局部离群因子lofk(p)由大到小进行排序,并分别选取其中前个数据,构成第j个区间的归一化功率曲线lof判别离群点集7-1j)设置检测区间j=j+1,并重复进行步骤7-1b)至步骤7-1i),直到j>m为止。作为更进一步描述,所述方法步骤7)中,利用考虑噪声的基于密度的聚类(dbscan)离群点检测算法进行和各区间内dbscan判别离群点检测,算法具体流程如下:7-2a)设定初始离群点检测区间j=1;7-2b)若第j个区间对应归一化功率曲线数据集中的数据个数mseg,j小于给定最小阈值δm,则认为第j个区间的dbscan判别离群点个数为0、归一化功率曲线dbscan判别离群点集为并跳至步骤7-2m)继续执行,反之则继续执行步骤7-2c);7-2c)计算第j个区间归一化功率曲线数据集中各数据点之间的欧式距离d(p,q),计算公式如下其中与满足并设定第j个区间归一化功率曲线数据集中的ε邻域判别半径eps以及核心点判别参数minpts;7-2d)确定第j个区间归一化功率曲线数据集中各数据点的ε邻域确定公式如下其中与满足7-2e)将第j个区间归一化功率曲线数据集中的所有数据点际记为“未处理”状态,并设定初始簇编号c=0;7-2f)设定初始分析点l=1;7-2g)若第j个区间归一化功率曲线数据集中的第l个数据点已经被标记为“已处理”状态,则跳转至步骤7-2k)继续执行,反之则继续执行7-2h);7-2h)标记第l个数据点为“已处理”状态,并判断数据点pl的初始类型,判断方法如下:若则标记数据点pl为“核心点”,并继续执行步骤7-2i);若则标记数据点pl为“噪声点”,并跳转至步骤7-2k)继续执行;7-2i)设置簇编号c=c+1,将数据点pl添加至簇c中,并设置数据点pl的初始密度可达数据集7-2j)对数据点pl的初始密度可达数据集中的所有数据点q按照步骤7-2j-a)至7-2j-c)流程进行处理,直到所有数据点均处于“已处理”状态为止:7-2j-a)若q已被标记为“噪声点”,则重新将q标记为“边界点”,并将数据点q添加至簇c中;7-2j-b)若q已处于“已处理”状态,则跳过步骤7-2j-c)直接对其他数据点进行处理;7-2j-c)若q仍处于“未处理”状态,则首先标记q为“已处理”状态,并将q添加至簇c中,进一步判断数据点q的ε邻域中的数据个数与minpts的关系,若则标记数据点q为“核心点”,并将中的所有数据点插入至密度可达数据集中,反之不进行操作;7-2k)设置分析数据点l=l+1,并重复进行步骤7-2g)至步骤7-2j),直到l>mseg,j为止;7-2l)提取第j个区间归一化功率曲线数据集中被标记为“噪声点”的数据点,构成第j个区间归一化功率曲线dbscan判别离群点集为并记集合中离群点元素个数为7-2m)设置检测区间j=j+1,并重复进行步骤7-2b)至步骤7-2l),直到j>m为止。与现有技术相比,本发明具有以下创新优势及显著效果:1)针对现有风电机组功率曲线异常点、离群点检测及判别算法中未考虑不同工况给判别流程带来的影响这一问题,通过风速及功率区间划分的方式来约束运行工况的方式来进行分段研究,保证功率曲线数据在风电机组运行工况方面一定程度的统一,使离群点检测结果更准确;2)针对单一异常点、离群点检测及判别算法主观确定的参数在功率曲线数据集上的应用效果存在限制这一问题,通过结合不同离群点检测判别算法的分析结果的方式确定最终的真实离群点,确保离群点检测结果的客观性与可靠性。附图说明图1是本发明所面向风电机组功率曲线数据的离群点判别方法整体流程图;图2是本发明实施例中的原始数据集功率曲线散点图;图3是本发明实施例步骤2)中功率曲线数据集的异常运行状态检测结果图;图4是本发明实施例步骤4)归一化&空气密度修正及步骤5)基于风速和功率划分数据集的相关结果图;图5是本发明实施例步骤6)在风速划分数据下的avdc疑似离群点检测结果图;图6是本发明实施例步骤6)在功率划分数据下的avdc疑似离群点检测结果图;图7是本发明实施例步骤7)在风速划分数据下的lof判别离群点检测结果图;图8是本发明实施例步骤7)在风速划分数据下的dbscan判别离群点检测结果图;图9是本发明实施例步骤7)在功率划分数据下的lof判别离群点检测结果图;图10是本发明实施例步骤7)在功率划分数据下的dbscan判别离群点检测结果图;图11是本发明实施例步骤8)在风速划分数据下的真实离群点检测结果图;图12是本发明实施例步骤8)在功率划分数据下的真实离群点检测结果图;图13是本发明实施例步骤9)在功率曲线数据集下的最终离群点检测结果图。具体实施方式以下结合附图对本发明的具体实施方法与工作原理作如下详述:实施例本实施例对某风电场的某台风电机组的scada系统在2013年9月至2015年10月期间内采集到的数据进行风电机组功率曲线数据离群点检测,其中风电机组scada系统的数据采样间隔为10min,时间范围为2013.09.02-17:30:00至2015.10.04-16:00:00,数据条目数共计105978条。数据集包括的具体变量以及相关数据信息如表2、表3所示:表2风电机组scada仿真数据集变量信息变量名称变量含义变量单位时间戳数据采集时间年-月-日时:分:秒风速v当前风电机组机舱风速m/s有功功率p当前风电机组有功功率kw桨距角β当前风电机组桨叶桨距角°运行状态cond当前风电机组运行状态无量纲环境温度t风电机组运行环境温度℃环境气压b风电机组运行环境气压pa表3风电机组scada仿真数据集部分数据数据序号时间戳风速有功功率桨距角运行状态环境温度环境气压……………………118013788216002.350.0485.59723.89100463118113788222002.110.0485.59723.99100461118213788228001.960.0485.59724.04100461……………………80183142794960011.221328.174.7217.8310041480184142795020011.571405.714.9217.910041380185142795080010.861218.094.717.98100411……………………本实施例中默认将6个月的功率曲线数据集进行离群点判别,方法结果为基于流程判别出的该数据集对应的最终真实离群点集{outlier},其详细实施步骤具体如下:1)根据待评估风电机组功率曲线获取需求,读取相应需求周期内总计n条待评估风电机组的scada系统中测量得到的风电机组运行数据信息,该信息包含风速{vi}、有功功率{pi}、桨距角{βi}、风电机组运行状态{condi}、环境气压{bi}以及环境温度{ti},将信息数据集记为其中i=1,2,3,…,n;根据表2以及表3所列出的数据集变量信息,本实施例中的数据集包括了本步骤中的所有必要信息,图2所示的结果为本步骤中风电机组功率曲线原始数据散点图;2)将步骤1)中的信息数据集进行数据预处理操作,剔除机组异常运行状态并修正空气密度的影响,保留余下的n′条运行数据作为预处理后的风电机组正常数据集{xi},其中i=1,2,3,…,n′;首先基于表4中的风电机组异常运行状况检测判据对机组的异常运行运行状态进行检测:表4风电机组异常运行状况检测判据其中condnormal为风电机组正常运行状态,在本实施例中为0或1;condls为风电机组低风速正常运行状态,在本实施例中为0;condhs为风电机组高风速正常运行状态,在本实施例中为1;prated为风电机组额定有功功率,在本实施例中为1500kw;pthres为有功功率阈值,在本实施例中取20kw;βthres为桨距角阈值,在本实施例中取3°。图3所示的结果为本步骤中的异常运行状态检测结果,其中不同异常类型由不同形状的数据散点表示。之后将将实施例中风电机组运行数据集中的风速{vi}修正替换为参考空气密度ρ0下的修正风速在本实施例中参考空气密度ρ0取1.225kg/m3。3)将步骤2)得到的正常数据集{xi}中的风速信息以及功率信息{pi}合成为功率曲线散点数据集{pci},即其中i=1,2,3,…,n′;4)对步骤3)得到的功率曲线散点数据集{pci}中的风速信息以及功率信息{pi}分别进行归一化,得到归一化功率曲线散点数据集{pcnorm,i},其中i=1,2,3,…,n′;归一化的主要目的是消除风速和功率的不同量纲与取值范围的影响,剔除异常点与风速修正后的功率曲线散点图如图4黑色实心圆点所示。5)分别按照一定的风速间隔(ws)和功率间隔(ap)将步骤4)中的归一化功率曲线散点数据集{pcnorm,i}各划分为m个区间,并分别记第j个区间中的数据个数为mseg,j、归一化功率曲线散点数据集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j;采用的一种优选划分方法具体如下,但不限于此:5-a)确定归一化功率曲线散点数据集{pcnorm,i}的区间划分个数m;5-b)以为划分间隔,将数据集{pcnorm,i}按照风速进行均匀划分,则第j个风速区间的归一化功率曲线数据集定义为其中mws,j为第j个风速区间归一化功率曲线数据集中的数据个数;5-c)以为划分间隔,将数据集{pcnorm,i}按照功率进行均匀划分,则第j个功率区间的归一化功率曲线数据集定义为其中map,j为第j个功率区间归一化功率曲线数据集中的数据个数。在本实施例中m取40,对应风速间隔(ws)和功率间隔(ap)划分结果如图4中虚线和点虚线所示。6)利用均值距离判别(avdc)离群点检测算法分别对步骤5)中的2m个区间进行疑似离群点检测,并分别记第j个区间的疑似离群点个数为归一化功率曲线疑似离群点集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j;均值距离判别(avdc)离群点检测算法的详细步骤为:6-a)设定初始离群点检测区间j=1;6-b)若第j个区间对应归一化功率曲线数据集中的数据个数mseg,j小于给定最小阈值δm,则认为第j个区间的疑似离群点个数为0、归一化功率曲线疑似离群点集为并跳至步骤6-g)继续执行;反之则继续执行步骤6-c);6-c)设定疑似离群点在第j个区间归一化功率曲线数据集中的占比并计算第j个区间中疑似离群点个数计算公式定义为其中函数为向上取整函数;6-d)计算第j个风速区间归一化功率曲线数据集中各数据点的风速判别距离计算公式如下其中为第j个风速区间内归一化功率曲线数据集的功率平均值;6-e)计算第j个功率区间归一化功率曲线数据集中各数据点的功率判别距离计算公式如下其中为第j个功率区间内归一化功率曲线数据集的风速平均值;6-f)将第j个区间的判别距离数据集分别由大到小进行排序,并分别选取排序后的判别距离数据集中的前个数据,构成第j个区间的归一化功率曲线疑似离群点集其中l=1,2,3,…,mseg,j;6-g)设置检测区间j=j+1,并重复进行步骤6-b)至步骤6-f),直到j>m为止。由于篇幅限制,本实施例中有关离群点的相关分析均略去各过程参数的计算过程及结果,相关重要参数取值如下:给定最小阈值δm取10,疑似离群点占比均取0.02。最终基于风速间隔(ws)和功率间隔(ap)的归一化功率曲线疑似离群点检测结果分别如图5、图6中的“×”符号所示,其余正常数据点以“·”符号表示。7)分别利用局部异常因子(lof)以及考虑噪声的基于密度的聚类(dbscan)这两种离群点检测算法对步骤5)中的2m个区间进行判别离群点检测,并分别记第j个区间的判别离群点个数为归一化功率曲线判别离群点集为其中seg={ws,ap},j=1,2,3,…,m,l=1,2,3,…,mseg,j,method={lof,dbscan};本实施例中,有关lof判别离群点检测的相关重要参数取值如下:给定最小阈值δm取10,lof判别离群点占比均取0.02,k距离计算中的邻域参数k取10;有关dbscan判别离群点检测的相关重要参数取值如下:给定最小阈值δm取10,ε邻域判别半径eps取0.02,核心点判别参数minpts取10。最终基于风速间隔(ws)和功率间隔(ap)的归一化功率曲线lof及dbscan判别离群点检测结果分别如图7、图8、图9和图10中的“×”符号所示,其余正常数据点均以“·”符号表示。8)基于真实离群点判别准则,从步骤6)的功率曲线疑似离群点集和步骤7)的功率曲线判别离群点集中获取真实离群点集其中seg={ws,ap},j=1,2,3,…,m,method={lof,dbscan};所述真实离群点判别准则定义为:对于第j个区间的归一化功率曲线数据集中的任一数据点q,若其属于疑似离群点集并且属于lof判别离群点集或dbscan判别离群点集之一,则点q为第j个区间的真实离群点。即第j个区间的真实离群点集可表示为针对本实施例,基于真实离群点判断准则判断出的风速间隔(ws)和功率间隔(ap)下归一化功率曲线真实离群点检测结果分别如图11和图12中的“×”符号所示,其余正常数据点均以“·”符号表示。9)基于步骤8)中得到的各风速区间真实离群点集以及各功率区间真实离群点集利用最终离群点判断准则获得功率曲线散点数据集{pci}的最终离群点判别结果集{outlier},作为最终离群点判别结果;所述最终离群点判断准则定义为:对于功率曲线散点数据集{pci}中的任一数据点q′,若其在归一化功率曲线散点数据集{pcnorm,i}中对应的数据点q是某风速区间的真实离群点或某功率区间的真实离群点,则点q′为功率曲线散点数据集{pci}的最终离群点;即功率曲线散点数据集的最终离群点集{outlier}可表示为其中j1∈{1,2,3,…,m},j2∈{1,2,3,…,m},为{pcnorm,i}到{pci}的数据映射函数。针对本实施例,基于最终离群点判断准则判断出归一化功率曲线真实离群点检测结果,即{outlier}数据集结果如图13中的“×”符号所示,最终的正常数据点均以“·”符号表示。至此,面向风电机组功率曲线数据的离群点判别方法检测结果{outlier}已成功获得。本发明面向风电机组功率曲线数据的离群点判别方法,主要包括功率曲线异常数据监测、空气密度修正、风速及功率数据区间划分、均值距离判别avdc疑似离群点检测、局部离群因子lof及考虑噪声的基于密度的聚类dbscan判别离群点检测、真实离群点及最终离群点判别等环节组成。图1为面向风电机组功率曲线数据的离群点判别方法实施与应用的具体流程。整个实施例按照图1中所示的流程,对风电机组功率曲线数据进行分析并最终获取到功率曲线数据中的离群点,图2-图13分别为使用本发明面向风电机组功率曲线数据的离群点判别方法进行最终功率曲线离群点判别的各个环节相关结果。对风电机组功率曲线数据进行离群点判别有助于反映风电机组在正常运行状况下的真实运行性能,从而使得有关功率曲线的拟合与后续分析可以得到更加符合实际、更加精确的结果,从而为后续针对风电机组的性能分析与性能提升方案的制定奠定准确的研究基础。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1