光伏出力数据异常值的剔除方法

文档序号:25038528发布日期:2021-05-11 17:11阅读:337来源:国知局
光伏出力数据异常值的剔除方法

本发明涉及光伏实证技术领域,尤其涉及一种光伏出力数据异常值的剔除方法。



背景技术:

在实际工程应用中,由于设备故障、人为限电、通信故障以及光伏组件功率削减等多种原因,导致光伏功率数据存在异常数据比例较高的问题,极大地阻碍了科研人员对该类数据所蕴含信息的挖掘与深入分析,对电能质量、系统稳定性和可靠性都有负面影响。

因此,光伏发电出力数据异常值的剔除显得尤为关键。目前,针对此方面的研究尚未成熟,没有较为系统的分析方法,多数情况下要依靠人力手段对数据进行针对性的逐一排查,费时费力。



技术实现要素:

本发明目的在于针对现有技术的不足,提出一种基于出力数据和关键影响因素的一致性理论的光伏出力数据异常值剔除的分析方法。

本发明的目的是通过以下技术方案来实现的:一种光伏出力数据异常值的剔除方法,该方法步骤如下:

(1)筛选光伏出力关键性影响指标。对于不同地区,通过绘制单一指标与光伏出力的二维散点图并计算单一指标与光伏出力的相关系数,筛选出光伏出力的关键性影响指标。

(2)估计关键性指标和光伏出力的联合分布。基于核密度估计理论获取光伏出力和步骤(1)筛选出的关键性影响指标的联合概率密度,并计算光伏出力的条件概率密度。

(3)确定光伏出力的置信区间。根据光伏出力的条件概率密度计算光伏出力的置信区间,并采用区间最小原则对光伏出力置信区间做出限制,得到跨度最小的光伏出力在关键性影响指标下的置信区间;

(4)根据步骤(3)得到的光伏出力在关键性影响指标下的置信区间,将区间之外的数据点视作异常数据对其进行剔除。

进一步地,步骤(1)中,二维散点图的判断通过回归曲线表示,回归曲线及其参数定义如下:

其中,x表示单一指标,n是样本总量,xi是第i个数据样本关键性指标的值,是数据样本关键性指标的平均値,yi是第i个数据样本的光伏出力值,是数据样本光伏出力的平均値,是第i个样本通过拟合的回归曲线计算得到光伏出力的估计值,其中r称为拟合优度,其值越接近1,二者线性相关性越好。

进一步地,步骤(1)中,回归曲线仅能表示指标和光伏出力的一阶线性相关程度,因此通过计算二者的相关系数对二者的内在关联做进一步描述,相关系数的计算公式如下:

其中ρxy表示单一指标x与光伏出力y的相关系数,cov(x,y)为单一指标与光伏出力的协方差,var(x)为x的方差,var(y)为y的方差。筛选相关系数大于阈值t的指标作为关键性影响指标。相关系数的阈值t可以根据当地实际情况选择。

进一步地,步骤(2)中,基于核密度估计计算联合概率密度公式如下:

分别表示针对关键性指标以及关键性指标与光伏出力联合估计得到的联合概率密度,,其中是筛选得到的关键性指标,xn表示第n个关键性指标,y代表光伏出力。表示第i个数据样本的关键性指标值,d表示关键性指标的维数。φd()代表d维标准正太分布。n是样本总量。h表示窗口宽度,其值由下述公式确定。

h=1.05σn-1/5

其中,σ是样本的标准差。

光伏出力的条件概率密度由如下公式确定:

进一步地,步骤(3)中,跨度最小的光伏出力的置信区间由如下公式确认得到:

其中y1,y2是置信区间的上下限,1-α代表置信度,其值根据需要选取。

本发明的有益效果:本发明通过获取样本内所有点光伏出力的置信区间,将区间外的数据视作异常数据进行排查。基于此,研究人员不必逐一排查异常数据,且可以快速定位到异常数据出现的地方,对异常数据类型做出进一步判断,从而达到节省人力和时间的目的。

附图说明

图1为本申请提供的异常数据的分析方法的具体流程图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示,本发明提供的一种一种光伏出力数据异常值剔除的分析方法;

首先,根据所获取的原始光伏出力数据,筛选对影响光伏出力具有关键性影响的指标。原始光伏出力数据来自光伏电站的日常记录,依据光伏电站自身的能力,数据记录的时间尺度可以精确到时、分,记录的指标应包含总辐射度、组件温度、风速和风向、空气湿度和温度、降雨量等基本气象量。

结合相关系数的计算方法和表示意义,总结筛选决定性影响指标步骤如下:

(1)绘制基本指标和光伏出力的二维散点图,初步观测指标和光伏出力的相关性。

不同地区,影响光伏出力的主要影响存在一定差异,例如沿海地区和西北干旱地区光伏出力会受到风力条件和沙尘的影响。因此,针对不同地区的具体情况,需要筛选不同的关键性影响指标。针对不同地区筛选不同光伏出力的关键性指标可以是本发明剔除方法具有很好的地区适应性,且移植方法简单。

对于不同地区,针对单一指标对光伏出力的影响,对指标进行逐一筛选。单一指标的影响可以通过绘制其与光伏出力的二维散点图并绘制回归曲线做初步判断。回归曲线及其参数定义如下:

其中,x表示单一指标,n是样本总量,xi是第i个数据样本关键性指标的值,是数据样本关键性指标的平均値,yi是第i个数据样本的光伏出力值,是数据样本光伏出力的平均値,是第i个样本通过拟合的回归曲线计算得到光伏出力的估计值,其中r称为拟合优度,其值越接近1,二者线性相关性越好。

(2)回归曲线仅能表示指标和光伏出力的一阶线性相关程度。因此通过计算二者的相关系数对二者的内在关联做进一步描述。相关系数越接近1,越能说明该指标的关键性。根据如下公式计算指标和光伏出力两个统计量的相关系数。

其中ρxy表示单一指标x与光伏出力y的相关系数,cov(x,y)为单一指标与光伏出力的协方差,var(x)为x的方差,var(y)为y的方差。筛选相关系数大于阈值t的指标作为关键性影响指标。相关系数的阈值t可以根据当地实际情况选择。

(3)筛选相关系数大于0.9的指标作为关键性影响指标。相关系数的阈值可以根据当地实际情况作出相应调整。为使该统计指标具有统计意义,两个统计量的数据量应尽可能多。

根据筛选的关键性指标,计算针对多变量影响条件下光伏出力数据的置信区间,置信区间确定方法如下:

(1)在确定了关键性影响指标后,为了剔除异常的光伏出力值,需要计算光伏出力的条件概率密度。因为数据点是离散的,所以直接带来计算,不能得到光伏出力的条件概率密度或者所得的结果不准确。本发明使用核密度估计理论能够较为准确用连续的联合分布密度去刻画离散的样本,且可以容易的拓展适用多变量的情况。根据如下公式对离散的统计量进行核密度估计,获取其概率密度分布。

表示估计得到的概率密度,其中x表示该统计量,xi是该统计量某一统计结果,n是样本总量。φ()代表标准正太分布。h表示窗口宽度,其值由下述公式确定。

h=1.05σ·n-1/5

σ是样本的标准差。

(2)同理,根据如下公式可以计算关键性指标的联合概率密度,关键性指标和光伏出力的联合概率密度,

分别表示针对关键性指标以及关键性指标与光伏出力联合估计得到的联合概率密度,其中是筛选得到的关键性指标,xn表示第n个关键性指标,y代表光伏出力。表示第i个数据样本的关键性指标值,d表示关键性指标的维数。φd()代表d维标准正太分布。

(3)根据如下公式,计算光伏出力在这些关键性指标影响下的条件概率密度分布。

本发明方法通过核密度估计理论,利用连续的概率密度分布来近似刻画离散的样本,解决了离散样本无法获取条件概率分布的难题。

(4)在没有限制的条件下,可以得到多组光伏出力的置信区间。本发明方法结合区间最小原则,对光伏出力置信区间做出限制,计算光伏出力在这些关键性指标确定的情况下的置信区间,得到的置信区间的跨度将是最小的。根据如下公式,可以计算得到光伏出力的置信区间。

其中y1,y2是置信区间的上下限。1-α代表置信度,通常情况下其值为0.95,可以根据光伏电站的具体情况作出相应调整。使用区间最小原则获取的置信区间上下限插值最小,更符合实际情况。

上述步骤后,可以得到光伏出力在确定关键性指标下的置信区间,将区间之外的数据点视作异常数据对其进行剔除。本发明可以确定异常数据产生位置,分析异常数据产生原因的方法节省人力物力,所得结果可以有效的服务光伏电站后续研究。

由上述方案可知,本申请提供了一种基于光伏出力和关键性影响指标一致性原理的光伏出力异常数据的剔除方法。通过分析光伏电站提供的原始光伏出力数据,计算各指标与光伏出力的相关系数,筛选选影响光伏出力的关键性指标。然后根据这些指标和光伏出力的数据样本,分布计算其概率密度分布,联合概率密度分布,和光伏出力的联合概率密度分布。结合区间最小原则,获得在某一置信度下的光伏出力的置信区间,将区间外的数据视作异常数据进行排查。基于此,研究人员不必逐一排查异常数据,且可以快速定位到异常数据出现的地方,对异常数据类型做出进一步判断,从而达到节省时间的目的。该方法可以根据光伏电站所在的地理位置做出相应调整,使得该方法适用性得到增强。

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1