一种面向不平衡数据集的极限学习机变压器故障诊断方法与流程

文档序号:16037012发布日期:2018-11-24 10:09阅读:642来源:国知局

本发明属于变压器故障在线监测技术领域,具体涉及一种面向不平衡数据集的极限学习机变压器故障诊断方法。

背景技术

当前社会高速发展,随之带来的对电网建设的刚性需求,使得全国联网的格局基本形成。电力系统是一个由众多发、送、输、配的用电设备连接而成的大系统,任何设备的故障都将直接影响整个系统的稳定性和安全性。变压器在电力系统中应用广泛,其安全稳定的运行状态关系着电网与人民的安全,发生故障将造成很大的经济损失。

因此,对变压器进行故障诊断显得十分重要。其主要故障包括高温过热、中低温过热、局部放电和火花放电等;目前针对上述故障已经提出了多种监测方法,譬如,油中溶解气体分析技术、铁芯接地电流检测技术以及红外热像检测技术;其中油中溶解气体分析技术含有丰富的运行状态信息,可作为变压器故障诊断的依据,但运行状态信息中各种故障数据量参差不齐,正常数据为多数样本,各种故障组成各自的少数样本,由此生成的不平衡数据集将会影响故障诊断算法的准确率。



技术实现要素:

本发明的目的是提供一种面向不平衡数据集的极限学习机变压器故障诊断方法,该方法能够解决在变压器故障诊断中少数故障集包含的信息量有限,难以确定少数故障集的数据分布,在其内部难以发现规律,从而造成的少数故障集识别率低的问题。

本发明所采用的技术方案是,一种面向不平衡数据集的极限学习机变压器故障诊断方法,具体按照以下步骤实施:

步骤1:数据处理阶段:

步骤1.1:将采集的油浸式变压器带有类标签的不平衡样本集s={(x1,t1),(x2,t2)…(xn,tn)}按6:1的比例分为训练样本和测试样本;其中,xi代表样本属性,i=1,2,3,4,5,6,具体包含氢气、甲烷、乙烷、乙烯、乙炔、一氧化碳,六种属性;ti代表类别标签,i=1,2,3,4,5,6,1、2、3、4、5、6分别对应正常状态、中温过热、高温过热、局部放电、火花放电、电弧放电,并用pam算法对其进行聚类;

步骤1.2:运行pam聚类算法;

步骤1.3:计算并记录聚类后的簇心ci=(c1,c2,…c6)的位置;

步骤2:smote插值阶段:

以pam算法的聚类簇心作为中心点,取其近邻的5个数据点关联插值从而降低插值对分类结果的影响;

步骤3:极限学习机分类输出阶段:

将步骤2产生的新数据集仍按6:1分成训练集和测试集,6份用来训练建模,1份用来验证分类效果。

本发明的特点还在于,

步骤1.2具体按照以下步骤实施:

step1:对n个数据中随意选择6个数据作为初始的中心点;

step2:重复;

step3:指派n-6个剩余的数据给离它最近的中心点所代表的簇;

step4:为每一个数据对oi、oh计算总代价tcih,其中oi是当前中心点,oj是非中心点;

step5:找出所有数据对oi、oh的总代价tcih中的最小值mintcih,如果mintcih是负值,用oh替换oi,形成新的6个中心点集合;

step6:until(min(tcih≥0));

step7:指派n-6个剩余的数据给离它最近的中心点所代表的簇,终止;

在step3和step7中使用欧几里德距离作为空间点之间距离的度量公式,

上式中,dab代表两个n维向量a(g11,g12,…,g1m)与之间的距离;

tcih=∑jcjih(2)

上式中,∑j表示对当前全部n-6个非中心点数据oj的代价cjih求和。

步骤2具体按照以下步骤实施:

步骤2.1:采样倍率n取决于数据集的不平衡程度,计算数据集的多数类与少数类之间的不平衡程度il,采样倍率n的计算公式为:

n=round(il)(3)

上式中,round(il)表示对il四舍五入后的值;

步骤2.2:根据欧几里德距离公式(1)为每一个少数类中的簇心si找到其n个近邻;

步骤2.3:进行pam-smote插值操作;

smote算法的插值公式如下:

pi=x+rand(0,1)*(yi-s)i=1,2,…,n(4)

上式中,pi为新插值的样本,s为选择的原始样本数据,rand(0,1)表示0与1之间的某一随机数,yi为原始样本数据s的最近邻样本。

步骤3具体按照以下步骤实施:

步骤3.1:首先将某一类别样本表示为正类,其他样本表示为负类,训练得出一个决策函数;然后,从负类样本中选取一类表示为正类,其余的依然表示为负类,接着训练得出另一个决策函数,以此类推可以得到6个决策函数,同时也得到了多级极限学习机故障诊断模型;

步骤3.2:对极限学习机网络的输入权值矩阵w={wi}和隐藏层结点偏置向量b={bi}进行赋值,其中wi=(wi1,wi2,…win)t是连接第i个隐藏层结点的输入权值;bi是第i个隐藏层结点偏置;βi=[βi1,βi2,…,βim]t是连接第i个隐藏层结点的输出权值,其中所有的

步骤3.3:按照公式计算插值后的训练集snew的网络隐藏层输出矩阵h(w,b,snew);

步骤3.4:按照公式(6)和(7)计算网络的隐藏层输出权值矩阵

由于存在一个矩阵g,gy是线性系统ax=y的最小范数二乘解,则g为矩阵a的moore-penorse广义逆,则有是h的moore-penorse广义逆,在的条件下可由正交投影法求得:

步骤3.5:用训练出的代入hβ=t计算输出,其中矩阵h是隐藏层输出矩阵,

上式中,wi·xj是wi和xj的内积,激励函数g(·)选择“sigmoid”。

本发明的有益效果是:

(1)本发明提出的一种面向不平衡数据集的极限学习机变压器故障诊断方法,能够解决在变压器故障诊断中少数故障集包含的信息量有限,从而难以确定少数故障集的数据分布,在其内部难以发现规律,从而造成的少数故障集识别率低的问题;

(2)本发明提出的一种面向不平衡数据集的极限学习机变压器故障诊断方法,利用pam聚类算法对原始数据进行聚类,簇心作为中心,用来smote插值,保证插值结果仍在所属故障类型之中,降低直接使用smote插值对数据的影响,并且解决smote算法可能导致的模糊正负类边界的问题;

(3)本发明提出的一种面向不平衡数据集的极限学习机变压器故障诊断方法,利用油中气体(氢气、甲烷、乙烷、乙烯、乙炔、一氧化碳)与算法pam-smote-elm进行结合,构建变压器故障诊断模型,能够有效检测出油浸式变压器内部故障。

附图说明

图1为本发明方法中dga-elm分类结构图;

图2为本发明方法中pam-smote-elm算法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种面向不平衡数据集的极限学习机变压器故障诊断方法,其流程如图1所示,具体按照以下步骤实施:

步骤1:数据处理阶段,

步骤1.1:将采集的油浸式变压器带有类标签的不平衡样本集s={(x1,t1),(x2,t2)...(xn,tn)}按6:1的比例分为训练样本和测试样本;其中,xi代表样本属性,i=1,2,3,4,5,6,具体包含氢气、甲烷、乙烷、乙烯、乙炔、一氧化碳,六种属性;ti代表类别标签,i=1,2,3,4,5,6,1、2、3、4、5、6分别对应正常状态、中温过热、高温过热、局部放电、火花放电、电弧放电,并用pam算法对其进行聚类;

步骤1.2:运行pam聚类算法,具体按照以下步骤实施:

step1:对n个数据中随意选择6个数据作为初始的中心点,设定6

是因为本文故障分为6类;

step2:重复;

step3:指派n-6个剩余的数据给离它最近的中心点所代表的簇;

step4:为每一个数据对oi、oh计算总代价tcih,其中oi是当前中心

点,oj是非中心点;

step5:找出所有数据对oi、oh的总代价tcih中的最小值mintcih,如

果mintcih是负值,用oh替换oi,形成新的6个中心点集合;

step6:until(min(tcih≥0));

step7:指派n-6个剩余的数据给离它最近的中心点所代表的簇,

终止;

以上步骤中:在step3和step7中使用欧几里德距离作为空间点之间距离的度量公式;

上式中,dab代表两个n维向量a(g11,g12,…,g1m)与之间的距离。

tcih=∑jcjih(2)

上式中,∑j表示对当前全部n-6个非中心点数据oj的代价cjih求和;

步骤1.3:计算并记录聚类后的簇心ci=(c1,c2,…c6)的位置。(簇心位置用于smote插值);

步骤2:smote插值阶段:以pam算法的聚类簇心作为中心点,对于少数类,例如(变压器的火花放电与局部放电两类中,局部放电样本属于少数类)取其近邻的倍率数个数据点进行倍率次关联插值,从而降低插值对分类结果的影响;

步骤2.1:采样倍率n取决于数据集的不平衡程度,计算数据集的多数类与少数类之间的不平衡程度il(imbalancelevel,il),采样倍率n的计算公式为:

n=round(il)(3)

上式中,round(il)表示对il四舍五入后的值;

步骤2.2:根据欧几里德距离公式(1)为每一个少数类中的簇心si找到其n个近邻;

步骤2.3:进行pam-smote插值操作;

smote算法的插值公式如下:

pi=x+rand(0,1)*(yi-s)i=1,2,…,n(4)

上式中,pi为新插值的样本,s为选择的原始样本数据,rand(0,1)表示0与1之间的某一随机数,yi为原始样本数据s的最近邻样本;

本文由pam聚类的簇心与聚类中数据样本进行关联插值,并限制随机数的大小,从而保证新的插值样本处于聚类区域,降低了插值对分类的结果影响;

pi=ci+rand(0,dmax)*(sj-ci)(5)

用公式(1)计算ci附近的n个数据点sj到ci的欧几里德距离d={d1,d2,…d5},选择其中最大的dmax;上式子中,i=1,2,…,n,j=1,2,…,6;

步骤3:极限学习机分类输出阶段,首先建立dag-elm模型,然后,阶段2产生的新数据集仍按6:1分成训练集和测试集,6份用于训练建模,1份用于验证分类效果;

步骤3.1:如图2所示,首先将某一类别样本表示为正类,其他样本表示为负类,训练得出一个决策函数;然后,从负类样本中选取一类表示为正类,其余的依然表示为负类,接着训练得出另一个决策函数,以此类推可以得到6个决策函数,同时也得到了多级极限学习机故障诊断模型;

步骤3.2:对极限学习机网络的输入权值矩阵w={wi}和隐藏层结点偏置向量b={bi}进行赋值,其中wi=(wi1,wi2,…win)t是连接第i个隐藏层结点的输入权值;bi是第i个隐藏层结点偏置;βi=[βi1,βi2,…,βim]t是连接第i个隐藏层结点的输出权值,其中所有的

步骤3.3:按照公式计算插值后的训练集snew的网络隐藏层输出矩阵h(w,b,snew);

步骤3.4:按照公式(6)和(7)计算网络的隐藏层输出权值矩阵

由于存在一个矩阵g,gy是线性系统ax=y的最小范数二乘解,则g为矩阵a的moore-penorse广义逆,则有是h的moore-penorse广义逆,在的条件下可由正交投影法求得:

步骤3.5:用训练出的代入hβ=t计算输出,其中矩阵h是隐藏层输出矩阵;

上式中,wi·xj是wi和xj的内积,激励函数g(·)本文选择“sigmoid”。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1