数据清洗方法、装置及服务器与流程

文档序号:17721604发布日期:2019-05-22 02:12阅读:221来源:国知局
数据清洗方法、装置及服务器与流程

本发明涉及风电场数据处理的技术领域,尤其是涉及一种数据清洗方法、装置及服务器。



背景技术:

对于风电场的scada(supervisorycontrolanddataacquisition,数据采集与监视控制系统)系统运行数据而言,异常数据广泛存在。从异常数据的形成原因及规模上来看,主要分为堆积型异常数据和稀疏型异常数据。前者通常是由长时间的异常运行产生,如长期限功率运行、突发或缓变故障、性能劣化等。后者通常是由环境干扰、测量噪声和运行控制等原因产生,如传输信号干扰、风机机械振动、风机控制器切换等。此外,scada系统数据记录失真同样会形成部分异常数据。因而,从异常数据规模上来看,堆积型异常数据量通常较大,较易识别,但识别精度通常不高;稀疏型异常数量通常较小,易与有效数据混淆故识别难度大,需要高精度的识别算法。

异常数据对所有数据驱动的应用场景,如风功率曲线建模、风电理论功率计算、风机或风电场运行性能评价、风机或风电场运行状态监测及故障诊断等均有较大影响。因而,一般情况下,在根据聚类算法、先验知识等剔除较易识别的堆积型异常数据后,要视应用场景的需求,进一步精细化剔除稀疏型异常数据。而目前,风电异常数据的识别大多针对堆积型异常数据进行,对稀疏型异常数据的识别算法却很少,导致难以对稀疏型异常数据进行处理。



技术实现要素:

有鉴于此,本发明的目的在于提供一种数据清洗方法、装置及服务器,以缓解对于稀疏型异常数据难以处理的技术问题。

第一方面,本发明实施例提供了一种数据清洗方法,包括:获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;在copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;将联合概率分布的取值范围均匀划分成多个概率区间;分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述在copula空间中建立风速和功率的联合概率分布的步骤包括:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验copula分布,以得到风速数据和功率数据在copula空间的概率散点分布。

结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述方法还包括:在copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。

结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述数据清洗的算法为四分位法;上述分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗的步骤包括:对于每一个概率区间,分别定义概率区间内的分位点q1、q2和q3,其中q2为中分位点;其中,基于分位点,四分位法的四分位距表示为:liq=q3-q1;基于四分位距计算数据清洗的清洗区间,根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗。

结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述清洗区间表示为:[llow,lupp]=[q1-αliq,q3+αliq];其中,llow为有效数据下限、lupp为有效数据上限;α为缩放系统;根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗的步骤包括:定义风速和功率在copula空间维度u、v;在每个空间维度上定义相应的划分间隔和缩放系数;基于划分间隔和缩放系数在每个概率区间内执行四分位法数据清洗的过程。

结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述方法还包括:获取划分间隔和缩放系数,将划分间隔和缩放系数标记为待优化参数;按照预先设置的约减规则将待优化参数进行约减;以及,设置迭代跳出条件,对约减后的待优化参数进行迭代优化。

第二方面,本发明实施例还提供一种数据清洗装置,包括:获取模块,用于获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;建立模块,用于在copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;划分模块,用于将联合概率分布的取值范围均匀划分成多个概率区间;清洗模块,用于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。

结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上述建立模块用于:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验copula分布,以得到风速数据和功率数据在copula空间的概率散点分布。

结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上述装置还包括:评价模块,用于在copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。

第三方面,本发明实施例还提供一种服务器,该服务器包括处理器和存储器;其中,所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现第一方面所述的方法步骤。

第四方面,本发明实施例还提供了一种计算机存储介质,用于存储计算机程序指令,当计算机执行所述计算机程序指令时,执行如第一方面所述的方法。

本发明实施例带来了以下有益效果:

本发明实施例提供的数据清洗方法、装置及服务器,能够在获取到实测数据样本后,在copula空间中建立风速和功率的联合概率分布,并将联合概率分布的取值范围均匀划分成多个概率区间,以便于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗,上述在copula空间建立联合概率分布的过程,能够基于概率空间对实测样本数据进行清洗,得到较为精细的数据清洗结果,同时,也有助于保证剩余数据的有效性及数据量,为后续数据分析奠定了坚实基础。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据清洗方法的流程图;

图2为本发明实施例提供的一种清洗前后数据分布示意图;

图3为本发明实施例提供的一种数据清洗装置的结构示意图;

图4为本发明实施例提供的另一种数据清洗装置的结构示意图;

图5为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,风电异常数据的识别大多针对堆积型异常数据进行,尚未有研究明确提出针对稀疏型异常数据的识别算法。此外,现有的算法多基于监测变量时域记录值的散点图进行数据清洗,同时,由于输入、输出数据之间的非线性,难以制定合理的清洗效果评价指标,使得清洗过程难以优化和自动执行。基于此,本发明实施例提供的一种数据清洗方法、装置及服务器,可以有效缓解上述技术问题。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据清洗方法进行详细介绍。

实施例一:

本发明实施例提供了一种数据清洗方法,该方法可以应用于计算服务器,对风电场的稀疏型数据进行数据清洗。如图1所示的一种数据清洗方法的流程图,该方法包括以下步骤:

步骤s102,获取实测数据样本,其中,该实测数据样本为风电场中风机的风速和功率的实测运行数据;

考虑到本发明实施例提供的数据清洗方法主要是对于稀疏型数据进行数据清洗,因此,上述获取的实测数据样本通常是无显著堆积型异常数据的风速、功率数据。

步骤s104,在copula空间中建立风速和功率的联合概率分布;

其中,上述联合概率分布的取值范围为[0,1]区间;

在实际使用时,上述copula空间也可以称为联合概率空间,上述联合概率分布主要是指两个及以上随机变量组成的随机变量的概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示。

步骤s106,将上述联合概率分布的取值范围均匀划分成多个概率区间;

在实际使用时,通常是将风速、功率的边缘概率分布取值范围[0,1]均匀划分为若干概率区间。

步骤s108,分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。

本发明实施例提供的数据清洗方法、装置及服务器,能够在获取到实测数据样本后,在copula空间中建立风速和功率的联合概率分布,并将联合概率分布的取值范围均匀划分成多个概率区间,以便于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗,上述在copula空间建立联合概率分布的过程,能够基于概率空间对实测样本数据进行清洗,得到较为精细的数据清洗结果,同时,也有助于保证剩余数据的有效性及数据量,为后续数据分析奠定了坚实基础。

在实际使用时,上述在copula空间中建立风速和功率的联合概率分布的过程,可以基于sklar定理及经验copula建模理论进行,并且,风速和功率可以作为copula空间中的单维变量,这些单维变量的边缘概率分布取值范围为[0,1]。由于含稀疏型异常数据的运行数据中,有效数据占据主导地位,因而,风速、功率的有效数据在联合概率空间中将主要沿经过(0,0)和(1,1)的对称直线分布。如果数据在联合概率空间中沿对称直线的分布越集中,则表明原数据中有效数据越多。

进一步,上述步骤s104记载的在copula空间中建立风速和功率的联合概率分布的步骤包括:采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据该边缘概率分布建立风速和功率的经验copula分布,以得到风速数据和功率数据在copula空间的概率散点分布。

为了便于理解,以某台风机在2017年1-4月的实测运行数据为例进行说明,在实际使用时,该实测运行数据是经筛查后的风速、功率数据,不包含或已剔除堆积型异常数据。采用核密度估计法分别建立风速数据v、功率数据p的边缘概率分布fv(v)、fp(p),建立其经验copula分布,从而得到数据在copula空间的概率散点分布,假设copula空间的维度为u、v则可以定义u=fv(v),v=fp(p),进而可以得风速数据和功率数据在copula空间的概率散点分布。

进一步,考虑到风速、功率的有效数据在联合概率空间中将主要沿经过(0,0)和(1,1)的直线对称分布。因此,如果数据在联合概率空间中沿对称直线的分布越集中,则表明原数据中有效数据越多。因而,在联合概率空间中,可以对概率散点分布包括的多个概率散点的集中程度进行评价,因此,上述方法还包括:在copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。

具体地,上述评价系数可以是pearson相关系数或r2系数,因此,可以采用pearson相关系数或r2系数来评价概率散点关于对称直线的集中程度,进而可表征时域值散点数据中有效数据的多少,从而可以用来评价稀疏型异常数据的识别性能和剔除效果。如果在联合概率空间的分布越集中于对称直线,那么在时域值散点数据中的有效数据占比就越高。

以pearson相关系数作为评价系数为例进行说明,该相关系数可以表示为:其中,x、y代表任意两个随机变量,如上述copula空间的维度为u、v;ρx,y代表pearson相关系数;cov(·)代表协方差;σ代表标准差。图2示出了一种清洗前后数据分布示意图,如图2所示,其中,图2是基于风速数据v和功率数据p的边缘概率分布fv(v)、fp(p)的示意图,由图2可以看出,经过清洗后的数据的集中程度较高。

在实际使用时,上述数据清洗的算法为四分位法;基于该四分位算法,上述图1中步骤s108提供的清洗的步骤包括:

(1)对于每一个概率区间,分别定义该概率区间内的分位点q1、q2和q3,其中q2为中分位点;其中,基于上述分位点,该四分位法的四分位距表示为:liq=q3-q1;

(2)基于上述四分位距计算数据清洗的清洗区间,根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗。

具体地,清洗区间表示为:[llow,lupp]=[q1-αliq,q3+αliq];其中,llow为有效数据下限、lupp为有效数据上限;α为缩放系统;

上述根据清洗区间在每个概率区间内对实测数据样本进行四分位法数据清洗的步骤包括:定义上述风速和功率在copula空间维度u、v;在每个空间维度上定义相应的划分间隔和缩放系数;如,沿u方向,定义划分间隔iu和缩放系数αu。沿v方向,定义划分间隔iv和缩放系数αv。基于上述划分间隔和缩放系数在每个概率区间内执行四分位法数据清洗的过程。

进一步,对于上述数据清洗过程,上述方法还包括对清洗过程中各个参数的优化过程,具体的优化过程包括获取上述划分间隔和缩放系数,将划分间隔和缩放系数标记为待优化参数;按照预先设置的约减规则将待优化参数进行约减;以及,设置迭代跳出条件,对约减后的待优化参数进行迭代优化。

具体地,可以将沿u、v方向的划分间隔iu、iv和缩放系数αu、αv作为待优化参数,结合这些参数的取值范围、数据清洗后剩余数据量作为约束条件,选择合理的优化算法,并制定相应的优化问题执行步骤,例如,可以首先先分析待优化参数的构成并进行参数个数的合理约减,如将分别沿u、v方向的划分间隔iu、iv合并为参数iu=iv=i,通过合理的参数约减合理降低优化计算复杂度。其次,为了保证优化精度和计算效率,可以采用多段分步优化策略,即设定优化时间、迭代次数限制或迭代收敛精度要求等作为迭代跳出条件,从待优化参数的初始论域开始,达到迭代跳出条件后,即将前一步的优化结果作为下一步优化的初始论域,如此反复优化。通过合理设定单次优化的迭代跳出条件,可以保证优化精度和优化效率。

在实际使用时,上述针对稀疏型异常数据识别及其优化计算执行流程,可以通过分布式硬件计算架构实现,具体地,该分布式硬件计算架构该,主要包含数据存取模块,主要用于被处理数据的存储、读取;高速数据缓存模块,用于中间数据的存储和读取;统计模块,用于风速、功率的联合概率空间统计建模;计算模块,用于执行双向四分位法数据清洗;优化模块,用于数据清洗性能评价、优化算法执行等;数据可视化模块,用于中间或最终处理结果的可视化展示。对于计算服务器,上述每个模块都可以是该服务器集成的几部分,进一步,上述每个模块还可以是单独的一个小型服务器,多个小型服务器集成到一起形成服务器集群,也可以执行本发明实施例中提供的数据清洗方法,具体以实际使用为准,本发明实施例对此不进行限制。

(1)本发明实施例提供的数据清洗方法,是针对风速、功率运行数据中存在的稀疏型异常数据的清洗方法,能够基于联合概率空间精细化的剔除异常数据,通过合理评价、优化保证剩余有效数据占比及有效数据量。

(2)通过在联合copula概率空间中的数据聚集情况判断实际风速、功率运行数据在时域值散点的分布情况,从而在联合概率分布空间形成合理的评价指标和优化策略,结合四分位算法在风速-功率联合概率空间中完成数据的精细化清洗,并可将其还原为时域空间数据,大大提高了数据清洗的质量和效率。

(3)稀疏型异常数据清洗效果的评价、优化及其分布式硬件实现,大大促进了稀疏型异常数据的自动化识别精度和执行效率,十分有利于高精度的数据驱动应用场景。

实施例二:

在上述实施例的基础上,本发明实施例还提供了一种数据清洗装置,如图3所示的一种数据清洗装置的结构示意图,该装置包括:

获取模块30,用于获取实测数据样本,其中,实测数据样本为风电场中风机的风速和功率的实测运行数据;

建立模块32,用于在copula空间中建立风速和功率的联合概率分布,其中,联合概率分布的取值范围为[0,1]区间;

划分模块34,用于将联合概率分布的取值范围均匀划分成多个概率区间;

清洗模块36,用于分别沿风速和功率所在的维度,在每个概率区间内对实测数据样本进行数据清洗。

进一步,上述建立模块用于:

采用核密度估计法分别建立风速数据和功率数据的边缘概率分布;根据边缘概率分布建立风速和功率的经验copula分布,以得到风速数据和功率数据在copula空间的概率散点分布。

在图3的基础上,图4示出了另一种数据清洗装置的结构示意图除图3所示的结构外,上述装置还包括:

评价模块38,用于在copula空间中,计算概率散点分布对应的评价系数,以对概率散点分布包括的多个概率散点的集中程度进行评价。

本发明实施例提供的数据清洗装置,与上述实施例提供的数据清洗方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

本发明实施例还提供了一种服务器,该服务器包括处理器和存储器;其中,存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现图1所示的方法步骤。

本发明实施例还提供一种计算机存储介质,用于存储计算机程序指令,当计算机执行所述计算机程序指令时,执行如图1所示的方法。

参见图5,本发明实施例还提供了一种服务器的结构示意图,包括:处理器500,存储器501,总线502和通信接口503,处理器500、通信接口503和存储器501通过总线502连接;处理器500用于执行存储器501中存储的可执行模块,例如计算机程序。其中,存储器501可能包含高速随机存取存储器(ram,randomaccessmemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口503(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线502可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器501用于存储程序,处理器500在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的数据清洗装置所执行的方法可以应用于处理器500中,或者由处理器500实现。处理器500可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器500中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器500可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(digitalsignalprocessing,简称dsp)、专用集成电路(applicationspecificintegratedcircuit,简称asic)、现成可编程门阵列(field-programmablegatearray,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501,处理器500读取存储器501中的信息,结合其硬件完成上述方法的步骤。

本发明实施例所提供的数据清洗方法、装置及服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1