一种异常线损影响因素的分析方法及装置与流程

文档序号:16932280发布日期:2019-02-22 20:22阅读:236来源:国知局
一种异常线损影响因素的分析方法及装置与流程

本发明涉及电力技术领域,特别是涉及一种异常线损影响因素的分析方法及装置。



背景技术:

线损是电能在电力网传输过程中,由于电阻作用、磁场作用及管理方面的原因造成的电能损失。线损能够综合体现电网规划设计、反映电力网运行状态的好坏及电网管理运营水平的高低。管理不到位、技术等原因均能导致线损率异常,造成能源的浪费,故必须开展线损管理工作,有效提高线损的管理水平和电网运营管理的精细化水准。在线损管理工作中,对异常线损进行分析占据非常重要的位置。该项工作可以对异常线损进行有效分类,通过线损分析,可以深入了解本单位线损的起因、性质、各组成部分所占比例等因素,找出影响损失的主要因素,并有针对性地采取相应的措施,以较少的投入取得较大的降损效果和经济效益。

传统的线损管理办法是通过多系统的专业协同与数据资源融合,将配网进行分区、分压、分元件、分台区,对各个部分的在线监测,然后逐个排除因素,这些方法依赖于业务人员的经验,主观性大,替代性小,而且耗时比较长,由于缺乏科学的分析方法理论,使得因素的判断缺乏科学性,影响了判断的准确性。



技术实现要素:

为解决上述技术问题,本发明实施例提供了一种异常线损影响因素的分析方法及装置,技术方案如下:

一种异常线损影响因素的分析方法,包括:

获取多个线路和电力设备的统计线损率;

从所述统计线损率中确定异常统计线损率;

提取所述异常统计线损率的特征指标;

对所述特征指标进行聚类,以得到所述特征指标的分群;

依据分群所对应的分析方法,确定每个分群中的主要影响因素;

对所述主要因素进行显著性排序。

优选地,从所述统计线损率中确定异常统计线损率,包括:

采用鲁棒异常点检测的数据挖掘分析方法从所述统计线损率中确定异常统计线损率。

优选地,对所述特征指标进行聚类,以得到所述特征指标的分群,包括:

确定所述特征指标为运行属性指标还是固有属性指标;

当所述特征指标为所述运行属性指标时,采用em聚类算法对所述运行属性指标进行聚类;

当所述特征指标为所述固有属性指标时,采用二阶聚类算法对所述固有属性指标进行聚类。

优选地,所述分析方法包括:

分布图、单因素方差分析和单因素协方差分析。

优选地,对所述主要因素进行显著性排序,包括:

采用偏相关性分析法对所述主要因素进行显著性排序。

一种异常线损影响因素的分析装置,包括:

获取单元,用于获取多个线路和电力设备的统计线损率;

第一确定单元,用于从所述统计线损率中确定异常统计线损率;

提取单元,用于提取所述异常统计线损率的特征指标;

聚类单元,用于对所述特征指标进行聚类,以得到所述特征指标的分群;

第二确定单元,用于依据分群所对应的分析方法,确定每个分群中的主要影响因素;

排序单元,用于对所述主要因素进行显著性排序。

优选地,第一确定单元,包括:

第一确定子单元,用于采用鲁棒异常点检测的数据挖掘分析方法从所述统计线损率中确定异常统计线损率。

优选地,所述聚类单元,包括:

判断单元,用于确定所述特征指标为运行属性指标还是固有属性指标;

第一聚类子单元,用于当所述特征指标为所述运行属性指标时,采用em聚类算法对所述运行属性指标进行聚类;

第二聚类子单元,用于当所述特征指标为所述固有属性指标时,采用二阶聚类算法对所述固有属性指标进行聚类。

优选地,所述分析方法包括:

分布图、单因素方差分析和单因素协方差分析。

优选地,所述排序单元,包括:

排序子单元,采用偏相关性分析法对所述主要因素进行显著性排序。

本发明实施例提供的技术方案,将异常点检测算法、聚类算法、因素分析法进行有效融合,提出了一种异常线损影响的分析方法。该方法首先对线损进行检测,筛选出异常统计线损率,然后根据提取出的异常统计线损率,确定其特征指标,并对不同的属性特征指标进行聚类。最后根据分类结果,分群分析出导致线损异常的主要因素,并按各个特征的显著程度排序。相对于现有技术,本发明是实现了对异常统计线损率的客观、全面的综合分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种异常线损影响因素的分析方法的一种流程示意图;

图2为本发明实施例所提供的高斯混合密度的示意图;

图3为本发明实施例所提供的cf-tree的流程图;

图4为本发明实施例所提供的一种异常线损影响因素的分析装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1为本发明实施例提供的一种异常线损影响因素的分析方法的一种实现流程图,该方法包括:

步骤s101、获取多个线路和电力设备的统计线损率。

步骤s102、从统计线损率中确定异常统计线损率。

具体地,可以采用鲁棒异常点检测的数据挖掘分析方法从统计线损率中确定异常统计线损率。

步骤s103、提取异常统计线损率的特征指标。

根据异常线损记录对应的异常统计线损率。可以将异常线损率的特征指标分为两类,分别是固有属性指标和运行属性指标。

其中,固有属性指标包括:代表线路属性的配电型号、线路长度,配变短路损耗,变压器类型,三相不平衡,电能质量等;分类型变量。

运行属性指标包括:供电量、售电量、线路负载率、变压器负载率、功率因数等。连续性变量。

步骤s104、对特征指标进行聚类,以得到特征指标的分群。

采用聚类算法对不同的异常线损的特征指标进行分群,由于不同的特征指标下的数据类型不同,所以采用的聚类方式也有所不同。对于运行属性指标,数据类型为连续性变量,所以采用em聚类算法进行分群;对于固有属性指标来说,数据类型为分类型变量,所以采用二阶聚类算法进行分群。

步骤s105、依据分群所对应的分析方法,确定每个分群中的主要影响因素。

针对不同特征指标下的不同的分群,对导致线损率异常的因素进行分析,在进行分群分析主要影响因素的过程中,衡量因素的形式可基本分为两大类:一类是二分类因素,另一类是多分类因素。例如,对于二分类因素,取值为n:不是节假日,y:是节假日。这种情况下,可以通过分布图的形式来直观的表现节假日是否是导致线损异常的主要因素;对于多分类因素,若针对一个因素指标下含有多个分类水平,可以用单因素方差分析法来判断该因素指标是否是导致线损异常的主要因素;由于现有的线损数据,是在多个因素指标同时存在的情况下所采集到的,为了在探究主要因素对线损的影响下,同时考虑其他因素的影响,可以通过单因素协方差分析法来探究导致线损异常的主要因素。

步骤s106、对主要因素进行显著性排序。

偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。在探究出来得导致线损异常的主要因素中,有些因素之间可能存在一定的相关关系,为了探究影响因素的主次要,可以将偏相关性分析和对线损影响的趋势判断相结合,在业务的基础上,将主要影响因素中各个特征按显著程度排序。

本发明实施例提供的技术方案,将异常点检测算法、聚类算法、因素分析法进行有效融合,提出了一种异常线损影响的分析方法。该方法首先对线损进行检测,筛选出异常统计线损率,然后根据提取出的异常统计线损率,确定其特征指标,并对不同的属性特征指标进行聚类。最后根据分类结果,分群分析出导致线损异常的主要因素,并按各个特征的显著程度排序。相对于现有技术,本发明是实现了对异常统计线损率的客观、全面的综合分析。

以下简单介绍本发明中用到的各种算法:

鲁棒异常点检测算法

高斯混合模型(gaussianmixturemodel,gmm)可以看作是由多个高斯分布以不同的权重组合而成。一个gmm表示如下:上述的gmm由m个高斯成分组成,表示第j个高斯成分的权重,均值和协方差。d维特征向量的高斯混合密度如图2所示。

d维特征向量的似然概率为,

这里,是第j个高斯成分的概率,可以用下式表示,

基于gmm对任意数据的模拟能力,本方法利用gmm对统计线损进行拟合,然后利用3σ准则对异常点进行检测。

3σ准则是建立在正态分布的等精度重复测量基础上,而造成奇异数据的干扰或噪声难以满足正态分布。如果一组测量数据中某个测量值的残余误差的绝对值大于3σ,则该测量值为坏值,应剔除。将等于±3σ的误差作为极限误差,对于正态分布的随机误差,落在±3σ以外的概率只有0.27%,它在有限次测量中发生的可能性很小,即可以剔除。

异常点检测算法如下:

为避免异常数据对检测的影响,首先对统计线损率进行中心化和标准化处理,方法如下:

其中,xi,yi分别为中心化和标准化前后的统计线损率。xm为中心化和标准化前统计线损率{xi}的中值,sm为{xi}中值偏差绝对值的中值,计算方法为:sm=1.4826median{|xi-xm|},常数1.4826是为了使sm成为正态分布数据标准差的无偏估计。

使用em算法将中心化和标准化后的统计线损率{yi}拟合成gmm,得到包含m个高斯成分的高斯混合模型

计算其中μj,sj分别为高斯混合模型中第j个高斯成分的均值和方差。若使得|di|≥3,则xi为异常点;任意高斯成分下,|di|均小于3,则xi为正常点。

em聚类算法:

em算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(e),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(m),最大化在e步上求得的最大似然值来更新模型参数的值,求解过程为对每个参数求偏导。m步上找到的参数估计值被用于下一个e步计算中,这个过程不断交替进行。

设观测数据为x,其维数为n,样本数为m,首先将节点分配到k个簇中,然后计算每个样本在k个簇中出现的概率,重复计算期望和最大化,直至收敛。估计出k个簇的参数后,计算样本分配给k个聚簇的概率,从k个数值中选取最大的,即为该样本所属的簇。

假定每个簇满足正态分布,则em算法的实现过程如下:

初始化参数θ0={w0,μ0,∑0},可以使用kmeans得到初始gmm参数

e步得到辅助函数

m步,通过最大化辅助函数来更新参数θ={ωj,μj,σj},j=1,2,...,k,即分别求偏导,具体过程如下:

a、得到均值的更新公式,对μ求偏导

整理得到,

以上即为第l个高斯分量μl在m步的更新公式。

b、得到协方差矩阵σ的更新公式

考虑到并且将以上结果带入原式整理得

等价于

又因为σl是对称阵,所以有

最后整理得

以上是第l个高斯分量的协方差矩阵σl在m步的更新公式。

c、得到权重的更新公式

对于每个高斯分量的权重ωl,根据条件利用拉格朗日乘子法得,

解得,

结合联立两式可得

以上是第l个高斯分量的权重ωl在m步的更新公式。

二阶聚类算法(twostepclustering,twostepclueter):

在二阶聚类算法中分为前后两步进行,这也是“二阶”的意义所在。在算法上是使用的分层聚类中针对大样本聚类产生的birch(balancediterativereducingandclusteringusinghierachies)算法。

birch算法通过聚类特征(cf)对簇的信息进行汇总描述,然后对簇进行聚类。

在第二步中进行具体的聚类分析。具体的方法是:仍然采用对数似然函数作为距离的测量公式利用前一步的结果对每一个样本进行聚类,常用的算法就是hierarchicalcluster。

单因素方差分析及单因素协方差分析:

单因素方差分析:

单因素方差分析主要根据完全随机设计的多个样本均数之间的比较,单因素方差分析的统计推断旨在根据各个样本所具有的各个总体均数是否相同。

在方差分析中,我们将要考察的对象的某种特征称为试验指标,影响试验指标的条件称为因素,因素可分为两类,一类是人们可以控制的(如原材料、设备、学历、专业等因素);另一类人们无法控制的(如员工素质与机遇等因素)。下面所讨论的因素都是指可控制因素。每个因素又有若干个状态可供选择,因素可供选择的每个状态称为该因素的水平。如果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称为多因素试验。

单因素协方差分析:

协方差分析又称带有协变量的方差分析,是将回归分析与方差分析结合起来使用的一种分析方法。其目的是把与因变量y值呈线性关系的自变量x值化成相等后,用于检验多个修正均数间有无差异的方法。在实际方差分析问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响,如果忽略这些因素的影响,则有可能得到不正确的结论。

关于协方差分析的检验方法,大都是采用对因变量y进行较正,剔除协变量x的影响后再对y做方差分析。该发明将从回归分析的角度,通过引入虚拟变量的方式建立了单因素协方差分析的回归模型。

设在一项试验中考察的指标或因变量用y表示,影响指标的一个可控因素为a,它取k个水平,除此还有p个不可控但可观测的变量x1,x2,...,xp可能对指标也有影响,x1,x2,...,xp称为协变量,为了从回归分析的角度检验各租不同水平下因变量y的均值是否有显著差异,现引入虚拟变量

显然有d1+d2+...+dk=1,故单因素协方差模型的可表示为:

y=β0+β1x1+...+βpxp+γ1d1+γ2d2+...+γk-1dk-1+ε,ε~nn(0,σ2in)(16)

若已知在ar水平下独立重复观察nr次(n1+n2+...+nk=n),记水平下第j个协变量指标的第i次观测值;水平下因变量y的第i次观测值;

则模型(16)的样本表达为:

i=(1,1,...,1)'d=(i,d1,d2,...,dk-1)β=(β1,β2,...,βp)'

则模型(17)的矩阵表达为:

y=xβ+dγ+ε,ε~nn(0,σ2in)(18)

从未检验各组不同水平下因变量y的均值是否有显著差异,等价于对此回归模型做局部检验:

h0:γ=0即h0:γ1=γ2=...=γk-1=0

偏相关性分析:

简单相关分析是对两个变量间的相关性进行分析,数据分析过程相对简单。简单相关分析主要应用的分析方法有图表法和计算法。应用计算法进行相关关系分析时,多采用皮尔逊积差相关法(又称积差相关法)计算两个变量的相关系数。积差相关系数用字母r表示,其基本公式如公式(19)

其中:n为两变量数据的对数;分别表示变量x与y的平均数。

公式(19)需要求出变量x,y的平均数因此在计算过程中要产生估计值,计算结果不够精确。为了精确计算相关系数,将公式(19)中两个变量x,y的平均数进行替换,得到公式(20)

公式(20)经过变换化简得

公式(21)中只有变量x,y与变量个数n参与计算,保证了相关系数计算结果的精确性。相关系数r的数值变化为-1≤r≤1;相关系数r的符号表示两个变量的相关方向,即正相关与负相关;数值的大小表示两个变量的相关程度,即数值越大相关程度越强。

简单相关分析是对两个变量进行相关性分析的方法。在实际数据分析应用过程中,研究对象的特征值往往多于两个,即研究对象的变量个数在两个以上。在多变量相关性分析过程中,由于各个变量间的影响是相互的,仅任选两个变量进行简单相关性分析,将无法真实地反映变量间相关关系情况。在分析两个变量间相关关系时,必须考虑其他变量因素的影响,这就需要利用偏相关关系进行变量间的相关性分析。偏相关分析也称为净相关分析,是指当被分析的两个变量同时与其他影响变量相关时,控制其他变量影响的条件下,仅分析两个之间相关程度的过程,分析所得相关量的偏相关系数(或净相关系数)。控制变量个数为n时,相关系数称为n阶偏相关系数,控制变量个数为零个时,相关系数就是简单相关系数。偏相关系数可以利用简单相关系数进行表示,简单相关系数可以用公式(21)计算而得。

n阶偏相关系数计算通式为

一阶偏相关系数计算公式为即在控制第三个变量和第四个变量的情况下,分析第一个变量和第二个变量的相关关系。

二阶偏相关系数计算公式为即在控制第三个变量和第四个变量的情况下,分析第一个变量和第二个变量的相关关系。

一阶偏相关系数可以利用三个变量间两两简单相关系数进行计算,即一阶偏相关系数可以利用零阶偏相关系数进行计算;二阶偏相关系数可以利用四个变量的一阶偏相关系数进行计算。不失一般性,根据n阶偏相关系数计算通式可以看出,任何n阶偏相关系数都可以通过n-1阶偏相关系数进行计算而得。不难推断出,对于n阶偏相关系数,可以利用n+2个变量组成的组简单相关系数进行运算而得出。

请参阅图4,图4为本发明实施例提供的异常线损影响因素的分析装置一种结构示意图,该结构示意图中的各模块的工作过程参照图1对应的实施例中方法的执行过程,该系统包括:

获取单元410,用于获取多个线路和电力设备的统计线损率;

第一确定子单元420,用于采用鲁棒异常点检测的数据挖掘分析方法从所述统计线损率中确定异常统计线损率;

提取单元430,用于提取所述异常统计线损率的特征指标;

判断单元440,用于确定所述特征指标为运行属性指标还是固有属性指标;

第一聚类子单元450,用于当所述特征指标为所述运行属性指标时,采用em聚类算法对所述运行属性指标进行聚类;

第二聚类子单元460,用于当所述特征指标为所述固有属性指标时,采用二阶聚类算法对所述固有属性指标进行聚类;

第二确定单元470,用于依据分群所对应的分析方法,确定每个分群中的主要影响因素;

排序子单元480,采用偏相关性分析法对所述主要因素进行显著性排序。

本发明实施例提供的技术方案,将异常点检测算法、聚类算法、因素分析法进行有效融合,提出了一种异常线损影响的分析方法。该方法首先对线损进行检测,筛选出异常统计线损率,然后根据提取出的异常统计线损率,确定其特征指标,并对不同的属性特征指标进行聚类。最后根据分类结果,分群分析出导致线损异常的主要因素,并按各个特征的显著程度排序。相对于现有技术,本发明是实现了对异常统计线损率的客观、全面的综合分析。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对于装置或系统实施例而言,由于其基本相应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,在没有超过本发明的精神和范围内,可以通过其他的方式实现。当前的实施例只是一种示范性的例子,不应该作为限制,所给出的具体内容不应该限制本发明的目的。例如,所述单元或子单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或多个子单元结合一起。另外,多个单元可以或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

另外,所描述系统,装置和方法以及不同实施例的示意图,在不超出本发明的范围内,可以与其它系统,模块,技术或方法结合或集成。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1