一种大规模过电压数据智能自清洗方法与流程

文档序号:16880542发布日期:2019-02-15 22:05阅读:140来源:国知局
一种大规模过电压数据智能自清洗方法与流程
本发明涉及数据清洗与处理
技术领域
,尤其涉及一种大规模过电压数据智能自清洗方法。
背景技术
:智能电网及其更高组织形式的能源互联网是未来电网发展方向。能源互联网的发展对电力系统安全可靠运行的要求极高,而电力系统的开关操作、外部雷击所产生的电磁暂态,也称电力系统过电压,会在发变电站通过各种耦合方式在弱电系统内产生相应的干扰电压。在特殊情况下会损坏设备,导致电气设备损坏、供电中断、大面积停电等严重后果,造成巨大的经济损失。由此可见,过电压对于电力系统的稳定、可靠运行有着巨大威胁。为了能够精确了解过电压产生与传播特性,从源头减少由于过电压而导致的事故危险,对电网过电压进行在线监控,时刻观察其波形的产生、变化情况意义重大。随着数据采集、存储和传输技术的发展,过电压在线监测系统的构建已较为成熟,且已形成国际标准,国内外机构已研发了各种过电压在线监测系统,并在实际变电站中得到应用。虽然这些在线监测数据均捕获到了一些变电站的过电压数据,但由于数据传输链路上影响因素众多,数据库中可能存在噪声和较多异常、错误数据,导致整体的过电压波形数据库数据质量降低,难以满足后续和分析研究需求,因此对过电压数据库进行有效的数据清洗以提高数据质量达到可实现挖掘水平是海量过电压数据研究的关键之一。目前国内外学者针对数据清洗已开展了大量的研究,在电网输变电设备状态数据方面亦有诸多研究和应用,主要集中在缺失数据搜索、噪声数据分离与处理、损坏数据检测以及基于聚类的数据清洗方法。但是,在电网过电压实测数据领域却暂时止步不前,其原因不仅是由于过电压高频暂态波形采集困难,更重要的是相较于传统数据清洗方法所处理的数据,过电压数据是海量高维的数据序列波形,清洗难度更大,复杂程度更高,这些因素都严重的阻碍着过电压数据挖掘的进程。受错误波形掺入过电压波形数据库导致其数据质量降低的影响,只能人工筛选出数据库中少量高质量过电压波形进行识别、诊断等研究。但这不仅仅会因为人的主观性导致判断错误,过电压数据巨大导致耗时耗力,而且会由于捕捉信息片面丢失甚至错误判断数据价值,导致数据丰富,但信息贫乏,失去应用意义。因此,迫切的需要一种高效实测的过电压数据清洗方法技术实现要素:本发明的目的在于提供一种大规模过电压数据智能自清洗方法,以解决上述
背景技术
中提出的问题。本发明是通过以下技术方案实现的:一种大规模过电压数据智能自清洗方法,通过稀疏自编码方法提取高维过电压波形的关键特征后,通过cfsfdp法实现特征聚类,用以实现过电压数据清洗,其步骤如下:s1、获取某地区供电站的原始过电压波形数据;s2、搭建基于主成分分析法的稀疏自编码网络,对所述原始过电压波形数据进行特征提取,获得过电压数据的二维特征量集合;s3、采用cfsfdp法对所述二维过电压特征量进行聚类分析,获得若干类聚类簇;s4、监测每一类聚类簇所表达的波形,进行过电压数据完全清洗和分类。优选的,所述原始过电压波形数据包括内部过电压波形数据与外部过电压波形数据,所述外部过电压波形数据为雷电过电压波形数据,所述内部过电压包括暂时过电压与操作过电压,所述暂时过电压分为谐振过电压和工频电压升高,工频电压升高的类型有空载长线路的电容效应、不对称接地和突然甩负荷,谐振过电压包括线性谐振,参数谐振和非线性谐振,所述操作过电压包括投切变压器、投切线路、间隙电弧接地过电压。优选的,步骤s2中,建立包括输入层,隐含层与输出层在内的稀疏自编码神经网络,每层网络有对应的编码器和对应的权重函数,同时构造一个惩罚函数,通过惩罚函数的最小化获得自编码网络中各个参数的值。优选的,在所建立的稀疏自编码神经网络中,从输入层到隐藏层是编码过程,所述编码过程的表达式为:a(k)=f(w(k,1)*x(k-1)+b(k,1))从隐藏层到输出层是解码过程,所述解码过程的表达式为:y(k)=f(w(k,2)*a(k)+b(k,2))式中,w(k,1)、w(k,2)表示第k个自编码器对应的权重,、b(k,1)、b(k,2)表示第k个自编码器对应的biss参数,f(k)为激活函数。优选的,在建立稀疏自编码神经网络时,所采用的激活函数f(k)的表达式为:式中,exp表示以e为底的指数函数。优选的,在建立稀疏自编码神经网络时,所构造的惩罚函数为:式中,m为样本个数,β控制权重大小,j(w,b)为均方差项。优选的,步骤s3中,采用cfsfdp法对所述二维过电压特征量进行聚类分析时,主要分为以下步骤进行:s31、计算数据点之间的距离;s32、计算每个数据点的局部密度ρi;s33、计算各个数据点的高密度距离δi;s34、根据局部密度ρi和高密度距离δi作出决策图,获得二维过电压特征量的聚类簇,并从聚类簇中找到聚类中心。优选的,所述局部密度ρi的计算方法为:式中,dc代表截止距离,采用相邻数据点平均百分数p进行代替,所述相邻数据点平均百分数p的计算方法为:第n个数据点*p/100,p的取值范围为(0,100),dij代表相邻数据点的距离。优选的,所述高密度距离δi表示数据点的与其局部密度更高点的数据点的距离最小值,δi被定义为:式中,j取1,2,3,…,m,且j≠i。优选的,在根据局部密度ρi和高密度距离δi作出决策图前,还根据ρi对数据进行预清洗,当ρi<0.01时,该局部密度ρi所代表的数据为错误数据,不进行聚类。与现有技术相比,本发明达到的有益效果如下:本发明提供的一种大规模过电压数据智能自清洗方法,适用于大规模海量实测过电压的分类与识别,通过基于主成分分析法的稀疏自编码网络从高维过电压波形中提取关键特征,并通过cfsfdp法对关键特征完成聚类,通过聚类后的相似波形特性清除错误数据,其清洗效率高,通过对数据深度处理,能够较为快速,准确对不同类型过电压进行分类自动识别,从而对实测进一步实测过电压的研究提供技术支持。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明提供的一种大规模过电压数据智能自清洗方法的流程图;图2为本发明实施例提供的稀疏自编码网络结构图;图3为本发明实施例提供的真实过电压波形特征;图4为本发明实施例提供的错误过电压波形;图5为本发明实施例提供的数据聚类分析结构图。具体实施方式为了更好理解本发明技术内容,下面提供具体实施例,并结合附图对本发明做进一步的说明。参见图1,一种大规模过电压数据智能自清洗方法,通过稀疏自编码方法提取高维过电压波形的关键特征后,通过cfsfdp法实现特征聚类,用以实现过电压数据清洗,其步骤如下:s1、获取某地区供电站的原始过电压波形数据;s2、搭建基于主成分分析法的稀疏自编码网络,对所述原始过电压波形数据进行特征提取,获得过电压数据的二维特征量集合;s3、采用cfsfdp法对所述二维过电压特征量进行聚类分析,获得若干类聚类簇;s4、监测每一类聚类簇所表达的波形,进行过电压数据完全清洗。具体的,采用重庆某220kv变电站10kv系统采集的过电压波形构建原始过电压波形数据库,所述原始过电压波形数据库内包含内部过电压波形数据与外部过电压波形数据,以及一定的错误波形数据,所述外部过电压波形数据为雷电过电压波形数据,所述内部过电压包括暂时过电压与操作过电压,所述暂时过电压分为谐振过电压和工频电压升高,工频电压升高的类型有空载长线路的电容效应、不对称接地和突然甩负荷,谐振过电压包括线性谐振,参数谐振和非线性谐振,所述操作过电压包括投切变压器、投切线路、间隙电弧接地过电压。对该波形数据库进行统计分析:总共有3107条真实过电压波形,743条错误波形。具体如图3、图4所示。特别的,在该数据库中,‘一条波形’仅表示一个相位的过电压波形,换句话说三相过电压包括三条波形,对于错误波形,虽然三相同时为错误波形的概率是存在的,但是单相或者两相错误波形占据绝大多数情况,例如图4中的c相波形发生错误,a、b两相均与真实过电压波形。具体的,步骤s2中,建立如图2所示的包括输入层,隐含层与输出层在内的稀疏自编码神经网络,每层网络还均有对应的编码器和对应的权重函数,同时构造一个惩罚函数,通过惩罚函数的最小化获得稀疏自编码神经网络中各个参数的值,优选的,其中隐含层节点数目为50。特别的,在所构建的稀疏自编码神经网络中,从输入层到隐藏层是编码过程,“编码”过程能够将高维向量转变为低维代码,所述编码过程的表达式为:a(k)=f(w(k,1)*x(k-1)+b(k,1))从隐藏层到输出层是解码过程,“解码”过程尽可能的从这些低维编码中恢复原始向量,所述解码过程的表达式为:y(k)=f(w(k,2)*a(k)+b(k,2))式中,w(k,1)、w(k,2)表示第k个自编码器对应的权重,、b(k,1)、b(k,2)表示第k个自编码器对应的biss参数,f(k)为激活函数,所采用的激活函数具体的表达式为:式中,exp表示以e为底的指数函数。在建立稀疏自编码神经网络时,所构造的惩罚函数为:式中,m为样本个数,β控制权重大小,j(w,b)为均方差项。经过稀疏自编码神经网络处理过后的原始过电压波形数据由2000维向量降至50维向量,再通过基于主成分分析法抓取50维特征信息中最重要的二维综合性信息,最终使2000维向量降至2维向量。具体的,在步骤s3中,当稀疏自编码神经网络处理过电压波形数据获得二维过电压特征向量后,继续采用cfsfdp法对所述二维过电压特征向量进行聚类分析时,主要分为以下步骤进行:s31、计算过电压波形二维数据点之间的距离,首先根据所获得的二维过电压特征向量建立关于二维过电压特征向量的集合{s1,s2,s3,…,sm},通过下式计算相邻数据点的距离dij:式中,i与j分别为第i个数据与第j个数据。s32、计算每个数据点的局部密度ρi,所述局部密度ρi的计算方法为:式中,dc代表截止距离,需要在聚类发生之前人为设定,但由于dij因为数据库的变化各有不同,所以将截止距离dc采用相邻数据点平均百分数p进行代替,具体来讲,将数二维过电压特征向量的集合中的数据点按升序排列,总数为n,所述相邻数据点平均百分数p的计算方法为:第n个数据点*p/100,p的取值范围为(0,100);s33、计算各个数据点的高密度距离δi,所述高密度距离δi表示数据点的与其局部密度ρi更高点的数据点的距离最小值,δi被定义为:式中,j取1,2,3,…,m,且j≠i;s34、根据局部密度ρi和高密度距离δi作出如图5所示的决策图,获特征向量的聚类簇,并从聚类簇中找到聚类中心,由图5可知,每个数据点中的ρi与δi间的关系被呈现,被阴影区域所包围的几个数据点,局部浓度ρi较高,δi较大。并且这几个点分别对应聚类完成后各聚类簇的聚类中心,而集合中的剩余的数据点则是依据自身ρi与δi的值,被划分到最近的聚类族或者成为交叠点。前者是聚类中真正的核元素,后者则是几个聚类簇之间截断距离交叠的部分,不属于任何聚类簇;s35、监测每一类聚类簇所表达的波形,进行过电压数据完全清洗。对于每个聚类簇,检测各聚类中心所表达的过电压波形特征,如果某聚类中心所表达的波形被证明是错误、无效波形,则必须对该聚类簇中所有核元素所对应的实测波形实施隔离,从而完成对数据的完全清洗。特别的,在根据局部密度ρi和高密度距离δi作出决策图前,还根据ρi对数据进行预清洗,当ρi<0.01时,该局部密度ρi所代表的数据为错误数据,不进行聚类。在本发明的一个实施例中,设置p=2,可获得如表1所示的聚类结果:表1表1中,聚类7的聚类中心为错误波形,结合聚类相似性,判定聚类7中所有特征表达点所代表的波形都为错误波形,清洗该类聚类簇所代表的所有波形则能有效而显著的提高过电压波形数据库的数据质量。在本发明的另一个实施例中,设置p=1,缩短截止距离能消除聚类簇2、7与其他聚类簇间的交叠点,可获得如表2所示的聚类结果:表2聚类总数目核元素交叠点17257250252252203389389045445440558958906310310077267260与表1类似,聚类7中心为错误波形,应当对该聚类结果中聚类7所代表的所有波形予以清洗。当相邻点平均百分数p为1时,正确清洗较高,达到96.50%,但其中损失的正确波形也同样较高,约为8.08%。如果相邻点平均百分数p为2,虽然几乎没有对正确波形进行误判,错误清洗率非常低约为0.40%,但错误的识别效率也相应降低了6%,为90.71%。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1