基于风力曲线图像的异常数据检测与清洗方法与流程

文档序号:20781073发布日期:2020-05-19 21:14阅读:232来源:国知局

本发明涉及现代工业中风能行业风力涡轮机的运营与维护技术领域,具体为基于风力曲线图像的异常数据检测与清洗方法。



背景技术:

风力涡轮机设计技术与建造的成熟化使其在世界范围内被广泛安装使用。风电场的运营与维护也愈发受到重视。数据监测与采集系统(scada)的风力涡轮机数据能体现涡轮机的运行状况,常被用于进行风力涡轮机的状态检测、风力预测等。但由于风力涡轮机故障、弃风、极端天气等原因,会使其出现偏航系统故障、发电机刷磨损等故障。不同的故障使scada采集的数据包含多种异常点。风力曲线(wpc)上的异常点将会影响风力涡轮机的状态检测,进而影响风电场的运营与维护。因此异常数据的诊断与清洗对wpc的应用至关重要。

现在对风力曲线图像异常数据诊断与清洗的研究主要分为两类。

第一类利用异常数据与正常数据在统计特性上的不同,例如用数据点密度、距离、方差等指标进行清洗。例如先将数据分类,再用局部异常因子(lof)检测不合理数据;通过使用加权距离、平方欧式距离、city-block距离的k最近邻法估计离群值的界限;通过分位数发现离散的异常值,再用基于密度的空间聚类清除堆叠的异常值等方法。

第二类是利用大量的正常数据对风力曲线建模来诊断异常点。例如基于copula条件分位数方法对风力曲线构建概率模型;基于混合高斯模型与copula函数结合的方法拟合风力曲线等。

上述现有的诊断风力曲线异常点方法存在以下不足:

(1)基于数据密度或数据间距离的检测方法适用于发现离散的异常值,而堆叠的异常值不能被有效过滤,尤其当数据量较大时;

(2)为了训练出可靠的风力曲线模型,需要大量的正常数据。而当故障出现时大部分数据为异常数据;

(3)模型参数的设定依赖于具体数据,模型的泛化能力受到限制。

基于此,本发明设计了基于风力曲线图像的异常数据检测与清洗方法,以解决上述提到的问题。



技术实现要素:

本发明的目的在于提供基于风力曲线图像的异常数据检测与清洗方法,以解决上述背景技术中提出的问题。

由于现有的风力曲线异常数据诊断技术存在一定的缺陷,本发明提出了一种基于图像的算法,通过wpc图像检测并清洗异常数据。其中wpc图像由scada系统采集的数据生成,图像的横坐标为风速,单位m/s;纵坐标为风力,单位为kw。

为实现上述目的,本发明提供如下技术方案:基于风力曲线图像的异常数据检测与清洗方法,将异常点分为3类,负值异常点、离散异常点与堆叠异常点,其中负值异常点指风速大于接通速度且风力小于零的点。产生原因主要包括计划外的维护、风力涡轮机故障和弃风;离散异常点指随机分布在正常点构成的风力曲线周围的点,常服从无规则分布。产生原因包括传感器故障、传感器噪声及一些不可控的随机因素;堆叠异常点经常在一个连续的时间段内出现,堆叠在风力值的某一条线上。当数据量大时常被误认为正常数据。产生原因包括弃风与通信故障等。

本发明技术共分为3步,数据预清洗、正常数据提取和数据标记,具体包括如下步骤:

s1:数据预清理:过滤并删除第一类负值异常点,满足v=vcut-in且p<0,其中vcut-in是接通速度;

s2:用预清洗后的剩余数据生成wpc二值图像,用mmo方法使用多种不同尺寸的结构元提取wpc二值图像的主要部分,计算提取主要部分的hu矩与参考wpc图像,然后使用hu矩计算提取的主要部分与理想风力曲线间的差异性确定结构元的最优尺寸,这样提取出的主要部分就代表了正常数据部分;

再用数学形态学mmo算法提取。最优mmo模型的参数利用hu矩法,通过最小化提取数据的主要部分与参考wpc之间的差异确定;

s3:识别wpc图像的边缘,将边缘外的数据点识别为第二类离散异常点,并将第二类离散异常点过滤掉,再过滤正常数据点,将剩余数据点识别为第三类堆叠异常点,建立wpc图像点与二值图像像素点间的映射关系,基于这个映射关系,标记出正常数据点与三类异常数据点。

优选的,所述用预清洗后的剩余数据生成wpc二值图像的具体步骤为:将预处理后的剩余数据点转换为wpc图像,基于图像中像素点灰度值的不同,将风力曲线灰度图进一步转化为二值图像。

优选的,所述步骤s2还包括对wpc二值图像进行边缘检测、噪声消除、图像增强和图像分割操作。

优选的,所述参考wpc图像由正常风力涡轮机数据生成,具体为:正常风力涡轮机数据先经人工操作去除异常点,再用剩余数据生成参考wpc图像。

优选的,所述不同尺寸的结构元提取wpc二值图像的主要部分采用运开算进行,所述开运算由腐蚀运算和膨胀运算结合而成,即输入的二值图像a与结构元b,分别用于减小对象的尺寸,滤除散射噪声与图像外的部分和增加对象的尺寸,滤除图像的内部噪声,

其中,开运算定位为:

腐蚀运算表示方法为:

膨胀运算表示方法为:

其中,⊙、分别代表腐蚀运算与膨胀运算。b代表图像b的像素点。

优选的,所述使用hu矩计算提取的主要部分与理想风力曲线间的差异性方法如下:设风力曲线二值图像f(x,y)的尺寸为m×n像素,图像的p+q阶中心距为:

其中,

为消除图像放缩造成的影响,将中心矩标准化:

ηpq=μpq/μγ00,γ=1+(p+q)/2,p+q=2,3…,

二阶和三阶标准化中心矩组成7个不变矩i1,……,i7称为hu矩。在计算图片间的非相似性上,hu矩进一步写为:

mi=sign(ii)·log(ii),i=1,…,7

其中ma,i、mb,i分别表示图像a与图像b被第i个hu矩作用的转换参数,图像a与图像b非相似性d(a,b)的计算方式为:

优选的,所述提取的主要部分用最大轮廓代替,hu矩用来代表二值图像与参考图像的最大轮廓,所述结构元最佳尺寸的计算方法为:

其中ne为结构元的最大尺寸。

优选的,所述步骤s3中,wpc图像点与二值图像像素点间的映射关系建立方法如下:

设wpc二值图像f(x,y)的像素点为(x,y),x=1,…,m,y=1,…,n。第i个风力图像点为(vi,pi),图像尺度参数为(δx,δy),

δx的计算公式为:δx=(xmax-xmin)/(vmax-vmin)

δy的计算公式为:δx=(ymax-ymin)/(pmax-pmin)

其中xmax=max(x丨f(x,y)=1),xmin=min(x丨f(x,y)=1),

ymax=max(y丨f(x,y)=1),xmin=min(y丨f(x,y)=1),

vmax、vmin分别是风速的最大值与最小值,pmax、pmin分别是风力的最大值与最小值,风力图像点(vi,pi)与像素点(xi,yi)的对应关系为:

xi=xmin+(vi-vmin)×δx

yi=ymax+(pi-pmin)×δy

基于数据映射算法,完成了scada采集数据中正常数据与异常数据的标记。

与现有技术相比,本发明的有益效果是:

(1)与用传统的统计学方法或数据挖掘方法相比,基于wpc图像的异常点检测更加直观。

(2)本发明技术能使用到的统计特征不受大量堆叠异常数据的影响。

(3)经过实施例可验证,本发明技术在异常数据检测与清洗上是有效、高效以及广泛适用的。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供一种技术方案:基于风力曲线图像的异常数据检测与清洗方法,将异常点分为3类,负值异常点、离散异常点与堆叠异常点,具体包括如下步骤:

s1:数据预清理:过滤并删除第一类负值异常点,满足v=vcut-in且p<0,其中vcut-in是接通速度;

s2:用预清洗后的剩余数据生成wpc二值图像,用mmo方法使用多种不同尺寸的结构元提取wpc二值图像的主要部分,计算提取主要部分的hu矩与参考wpc图像,然后使用hu矩计算提取的主要部分与理想风力曲线间的差异性确定结构元的最优尺寸,这样提取出的主要部分就代表了正常数据部分;

用预清洗后的剩余数据生成wpc二值图像的具体步骤为:将预处理后的剩余数据点转换为wpc图像,基于图像中像素点灰度值的不同,将风力曲线灰度图进一步转化为二值图像。接着使用mmo方法与hu矩提取wpc图像的主要部分。其中hu矩在数学形态学上主要用来决定最优结构元尺寸。还包括对wpc二值图像进行边缘检测、噪声消除、图像增强和图像分割操作。参考wpc图像由正常风力涡轮机数据生成,具体为:正常风力涡轮机数据先经人工操作去除异常点,再用剩余数据生成参考wpc图像。

不同尺寸的结构元提取wpc二值图像的主要部分采用运开算进行,所述开运算由腐蚀运算和膨胀运算结合而成,即输入的二值图像a与结构元b,分别用于减小对象的尺寸,滤除散射噪声与图像外的部分和增加对象的尺寸,滤除图像的内部噪声,

其中,开运算定位为:

腐蚀运算表示方法为:

膨胀运算表示方法为:

其中,⊙、分别代表腐蚀运算与膨胀运算。b代表图像b的像素点。

由于结构元b的尺寸会影响图像主要部分的提取结果,因此在本发明中使用hu矩计算提取的主要部分与理想风力曲线间的差异性,通过最小化差异性得到理想的提取结果。hu矩属于图像不变矩,它不受图像旋转、翻转、按比例缩放等操作的影响。

使用hu矩计算提取的主要部分与理想风力曲线间的差异性方法如下:设风力曲线二值图像f(x,y)的尺寸为m×n像素,图像的p+q阶中心距为:

其中,

为消除图像放缩造成的影响,将中心矩标准化:

ηpq=μpq/μγ00,γ=1+(p+q)/2,p+q=2,3…,

二阶和三阶标准化中心矩组成7个不变矩i1,……,i7称为hu矩。在计算图片间的非相似性上,hu矩进一步写为:

mi=sign(ii)·log(ii),i=1,…,7

其中ma,i、mb,i分别表示图像a与图像b被第i个hu矩作用的转换参数,图像a与图像b非相似性d(a,b)的计算方式为:

为节省计算量,本发明中提取的主要部分用最大轮廓代替,hu矩用来代表二值图像与参考图像的最大轮廓,所述结构元最佳尺寸的计算方法为:

其中ne为结构元的最大尺寸。

s3:识别wpc图像的边缘,将边缘外的数据点识别为第二类离散异常点,并将第二类离散异常点过滤掉,再过滤正常数据点,将剩余数据点识别为第三类堆叠异常点,建立wpc图像点与二值图像像素点间的映射关系,基于这个映射关系,标记出正常数据点与三类异常数据点。

为了基于wpc图像的检测结果标记实际风力涡轮机数据,wpc图像点与二值图像像素点间的映射关系建立方法如下:

设wpc二值图像f(x,y)的像素点为(x,y),x=1,…,m,y=1,…,n。第i个风力图像点为(vi,pi),图像尺度参数为(δx,δy),

δx的计算公式为:δx=(xmax-xmin)/(vmax-vmin)

δy的计算公式为:δx=(ymax-ymin)/(pmax-pmin)

其中xmax=max(x丨f(x,y)=1),xmin=min(x丨f(x,y)=1),

ymax=max(y丨f(x,y)=1),xmin=min(y丨f(x,y)=1),

vmax、vmin分别是风速的最大值与最小值,pmax、pmin分别是风力的最大值与最小值,风力图像点(vi,pi)与像素点(xi,yi)的对应关系为:

xi=xmin+(vi-vmin)×δx

yi=ymax+(pi-pmin)×δy

基于数据映射算法,完成了scada采集数据中正常数据与异常数据的标记。

实施例1、

为验证本发明提出的基于风力曲线图像的异常数据检测与清洗技术的有效性与泛化能力,选取江苏马塘风电场与山西高家沟风电场的scada数据。其中,江苏马塘风电场收集从2016年1月1日至8月31日每10分钟的scada数据,山西高家沟风电场收集从2015年4月1日至2016年12月31日每10分钟的scada数据。

在本发明的较佳实施例中,设置风力涡轮机wpc图像的分辨率为288×432ppi,每个点都由2×2ppi表示。在参考wpc图中,曲线部分的最小宽度约为12ppi。因此,结构元的大小将从2×2至9×9中选择。选取马塘风电场m-09号风力涡轮机作为示例详细展示本发明提出算法的性能。

结果显示弃风能显著影响风电曲线的形状,但本发明提出的算法能有效检测并清除异常点。在本发明的实施例中,发现随着结构元尺寸n的增大,提取的正常点区域在缩小,且最大轮廓与参考wpc图像的差异性先下降后上升。这说明提取的正常点部分所含的信息过多或过少都会影响两者的差异性。

在本发明的较佳实施例中,选择异常数据删除率r(%)与计算时间t(s)作为检验指标。且为验证所提算法的泛化能力,两个风电场所有风力涡轮机的算法参数设置与参考wpc图像均与马塘风电场的m-09一致。结果显示,数据预清洗与主要部分提取步骤的计算时间几乎不受数据量的影响,而数据标记时间随着数据量的增加而增大。基于数据预清洗的异常数据删除率,发现马塘风电场的弃风现象比高家沟风电场更频繁。

为验证本发明提出算法的有效性,选择四分位数(ca)算法、局部异常因子(lof)算法和k均值聚类算法与本发明提出的算法作对比。其中lof算法是一种典型的聚类算法,常用于过滤异常点。lof算法通过计算每个点最近的k个点的加权距离计算得分,评价隔离级别,将得分与阈值比较来识别异常点。根据另外3种算法的性能,设定k=300,lof算法的阈值为10%。ca算法首先通过检测方差变化率的变化点清除部分异常数据,再从剩余数据中提取正常数据。根据惯例,参数风速间隔设置为0.5m/s。k均值聚类算法是典型的数据驱动方法,根据参考文献,本发明实施例中设定k=13。

在本发明的一个较佳实施例中,结果显示lof算法的异常点清除效果最差。lof算法的阈值直接影响到算法效果,阈值选取的困难使lof算法的灵活性降低。ca算法与本发明提出算法的r值会因情况而异,说明它们比lof算法有更好的泛化能力。k均值聚类算法的r值在两个风电场间的差异很大。由于该算法性能取决于数据,为取得最佳效果,应根据具体情况设定k值。此外,由于ca算法需计算每个风速间隔的方差变化率,ca算法花费的时间最多,而本发明提出的算法花费的时间最少。

本发明实施例显示,本发明提出的基于图像的算法对异常点的数量及分布更稳健。由于本发明提出的算法可以检测到更多风速过小或弃风产生的异常数据,因此比另外3种算法的平均r值更高。

本发明实施例结果进一步显示,本发明提出算法明显优于lof算法、ca算法及k均值聚类算法,尤其在堆叠大量异常数据的情况下。m-06,m-09和m-10号风力涡轮机的弃风现象严重,由于受lof得分与方差变化率的影响,lof算法和ca算法不能完全滤除异常点。由于本发明基于图像而不是实际数据来削减异常数据密度的影响,因此当异常数据量较大时仍有很好的性能。此外,基于图像的算法还能清楚地提供异常数据的类别信息。

总之,本发明技术与lof算法、ca算法及k均值聚类算法相比,具有以下优势:由于基于图像的算法直接作用在图像上,因此更加直观。且该算法在相同的参数设置下对不同的风力涡轮机都能得到较好的结果,说明具有更好的泛化能力。该方法的计算时间也明显短于另外3种算法,尤其当数据量较大时。此外,该算法可以为风电场运营商提供有价值的异常数据的类别信息。综上所述,基于其泛化能力、计算效率及有效性,本发明提出的算法的实际应用潜力远大于lof算法、ca算法及k均值聚类算法。

在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1