一种基于特征优选和BP神经网络的变压器诊断方法

文档序号:28595964发布日期:2022-01-22 10:22阅读:59来源:国知局
一种基于特征优选和BP神经网络的变压器诊断方法
一种基于特征优选和bp神经网络的变压器诊断方法
技术领域
1.本发明涉及一种变压器诊断方法,尤其涉及一种基于特征优选和bp神经网络的变压器诊断方法。


背景技术:

2.变压器是电力系统的重要电气设备。确保变压器安全可靠地运行是保障供电可靠性的重要条件。变压器实际运行过程中,电力系统的突发性故障以及内部绝缘材料的老化,都会对变压器造成不良影响,一旦这种不良影响累积到一定程度,就会威胁变压器的可靠运行。然而,变压器内部存在潜伏性故障并不意味着变压器不能正常运行,如果不进行一些测量和数据分析,运行人员很难发现这些故障。
3.在实际工程应用中,考虑到故障数据获取的便捷性以及故障数据反映真实故障状态的能力,通常以dga(dissolved gas analysis)数据作为变压器故障诊断特征量。当变压器内部存在故障时,由于电、热、机械性压力等联合作用的影响,变压器油或绝缘纸会发生分解,产生某些特定类型的气体,而这些气体又溶解于变压器油中。dga技术通过气相色谱分析,测定变压器油中溶解气体的组分和含量,测量的特征气体主要包括h2、ch4、c2h6、c2h4和c2h2。
4.变压器故障类型大体上可以分为放电性故障和过热性故障,某些情况下可能同时存在放电和过热故障。如果对这些故障类型进一步细分可以分成以下几类:局部放电、低能放电、高能放电、低温过热(低于300℃)、中温过热(300℃~700℃)和高温过热(高于700℃)和放电兼过热。
5.虽然dga技术可以测出油中溶解的特征气体组分和含量,但是特征气体与变压器故障之间却是存在复杂的对应关系,如果不借助数据分析方法,无法直接由特征气体组分和含量推断出故障类型。传统的dga数据分析方法有duval三角形法、dornenburg比值法、rogers比值法、iec三比值法以及我国根据实际情况推出的改良三比值法等。传统的这些dga数据分析方法,物理意义比较明确,并且不依赖于大量的样本训练。但是,实际计算结果却表明,这些传统的方法诊断准确性方面的表现欠佳。一方面,如今的变压器运行条件已经和几十年前的变压器运行条件不同,基于过去的变压器运行条件获得的诊断规则无法适用于一些新出现的故障特征;另一方面,传统的方法并没有囊括所有可能的特征组合取值范围,某些特征组合取值下,传统方法没有故障类型与之对应。
6.在上述背景之下,随着人工智能的发展,越来越多的ai方法被用于分析dga数据,试图找出特征气体与故障类型之间复杂的对应关系,其中又以bp(back-propagation)神经网络最为常用。虽然人工神经网络的诊断准确率相比于传统诊断方法得到了比较大的提升,但是也存在一些待解决的问题,主要为:
7.一、bp神经网络的表现对网络的输入特征依赖性很强,而现有的基于bp神经网络变压器故障诊断模型的输入特征不统一。现有模型的输入特征主要有两类来源:一、传统变压器故障诊断方法的特征量;二、基于分类器的表现进行特征优选。实际测试结果表明,以
第一类特征作为bp神经网络的输入时,bp神经网络的表现不佳。第二类特征则依赖于筛选特征时所选择的分类器类型和训练样本,因此通用性不够,并且往往不同的分类器筛选得到的最优特征差别很大。另外,使用分类器进行特征筛选时,计算量随总特征集中特征数量呈指数级增长,因此,总特征集中特征数目不能过大。
8.二、当使用各类别的样本数量不平衡的训练数据进行bp神经网络训练时,会造成bp神经网络偏置,即各类别的分类准确率相差较大,样本数量多的类别可以获得较高的分类准确率,而样本数量少的类别分类准确率不理想,即样本量不平衡的训练数据训练得到的bp神经网络存在偏置问题。


技术实现要素:

9.本发明的目的在于针对现有的当使用各类别的样本数量不平衡的训练数据进行bp神经网络训练时,会造成bp神经网络偏置的问题,以及变压器故障分类模型的输入特征选择问题,提出了一种基于特征优选和bp神经网络的变压器诊断方法,采用的技术方案具体如下:
10.一种基于特征优选和bp神经网络的变压器诊断方法,通过获取状态评估结果为异常的变压器dga数据并转换为特征组合后,输入至一训练好的bp神经网络获得变压器的故障类别。其中,所述bp神经网络通过如下方法训练获得:
11.(1)获取一系列各种故障类别的变压器dga数据,并转换成设计的特征。再计算每两类故障类型样本之间在每个特征维度上重叠度,基于重叠度进行特征优选获得特征组合x,保证每两种故障类别之间,至少有一个特征能将两类样本分开。
12.(2)构建一bp神经网络,以每个样本的特征组合为输入,故障类别为预测目标,采用反向传播算法训练,从而获得训练好的bp神经网络。
13.进一步地,所述步骤2中,反向传播算法采用的代价函数为:
[0014][0015]
其中,n为样本数,为类别k的权重,样本数目越多的类别权重越小;no为类别数目,表示类别k样本i的实际故障类别标签;fk(x(i))表示第i个样本、输出层第k个节点的输出;λ为惩罚因子,为实数;l为bp神经网络的层数,s
l
为第l层的神经元个数,为第 l层的第i个神经元与第j个神经元的连接权重。
[0016]
进一步地,分为3类,分别取值为2、1.6、1。
[0017]
进一步地,所述步骤1中还包括各故障类别的样本量平衡步骤:
[0018]
通过采用smote算法对样本数量少的故障类别生成一部分人工样本,使每个故障类别的样本量相等。
[0019]
进一步地,具体包括以下步骤:
[0020]
统计各故障类别的样本量,并确定所有故障类别中的单个类别最大样本量n
max

[0021]
按照将所有故障类别的样本量补充至n
max
,确定每个类别需要人工生成的样本量。
[0022]
根据确定的需要人工生成的样本量对每个类别进行样本扩充:从相同类别的样本中,找出当前样本的n
near
个最邻近样本,从m
near
个最邻近样本中随机选取一个,并与当前样
本计算差分向量diff,根据差分向量生成新样本:
[0023]
x
new
=x+ran.*diff
[0024]
x
new
代表新生成的样本的特征向量,ran是一个随机向量,维数与特征向量维数相同,每一维的随机数数值范围为(0,1)。
[0025]
进一步地,每两类故障类别样本之间在每个特征维度上重叠度具体为:
[0026][0027]
其中,μ1和μ2分别是第一类和第二类故障类别样本某一特征量的平均值,σ1和σ2分别是第一类和第二类样本对应的某一特征量的标准差。
[0028]
进一步地,基于重叠度进行特征优选,具体为:
[0029]
选择每两类故障类别样本之间重叠度最小的特征或选择满足多个每两类故障类别样本之间重叠度阈值要求的特征组成特征组合。
[0030]
进一步地,所述步骤1中,设计的特征包括:其中,表示任意一种特征气体含量;表示任意两种特征气体含量之和;表示任意三种特征气体含量之和;表示任意四种特征气体含量之和;表示总气体含量(包括h2、ch4、c2h6、c2h4、c2h2)。
[0031]
进一步地,所述步骤1中,优选获得特征组合x为f1:ch4/c2h2、f2:c2h4/c2h2、f3: c2h4/(ch4+c2h2)、f4:c2h4/(ch4+c2h6+c2h2)、f5:c2h4/(h2+c2h4+c2h2)、f6: c2h2/(h2+ch4+c2h6)、f7:c2h4/(h2+ch4+c2h4+c2h2)、f8:(ch4+c2h6)/(ch4+c2h4)、f9:(ch
4 +c2h4)/(c2h6+c2h2)、f10:(ch4+c2h4)/(h2+ch4+c2h6+c2h2)、f11: (ch4+c2h6+c2h4)/(h2+ch4+c2h6+c2h2)、f12:(ch4+c2h2)/(ch4+c2h4+c2h2)。
[0032]
进一步地,所述故障类别包括:局部放电、低能放电、高能放电、低温过热(低于300℃)、中温过热(300℃~700℃)、高温过热(高于700℃)和放电兼过热。
[0033]
本发明的有益效果是:提出一种新的变压器故障诊断特征筛选方法,该方法基于每两类故障类别样本之间的重叠度进行特征筛选,保证每两种类别之间,至少有一个特征维度能将两类故障类别样本分开。上述方法可以最大限度地将不同类别的样本在空间分布上区分开,一方面有利于减少smote(synthetic minority oversampling technique)算法生成的人工样本不同类别之间的重叠,另一方面有利于bp神经网络的训练。
[0034]
二、分别基于算法层面和数据层面提出了两种解决bp神经网络训练数据不平衡的方案。在算法层面,通过修改bp神经网络代价函数的方式,赋予不同类别的样本不同的权重,使得bp神经网络在训练时更加重视样本数量少的类别的正确分类。在数据层面,利用smote 算法生成一部分人工样本补充到样本数量少的类别中,从样本量层面消除各类别之间的不平衡性,然后使用再平衡后的训练数据训练bp神经网络。
[0035]
本发明提出的变压器故障诊断模型,能够适用于样本数据不平衡的情形,并且容易基于优选特征组合训练得到高分类准确率的模型。
具体实施方式
[0036]
本发明提出了一种基于特征优选和bp神经网络的变压器诊断方法,其中,提出的基于各类别之间样本重叠度进行特征筛选的方法,具有明确的物理含义,该方法所基于的原理是让不同类别的样本在特征空间中尽可能地分开,从而有利于bp神经网络寻找不同类别之间的边界。正因为这种特征筛选方法是基于样本在特征空间中的分布情况,该方法筛选得到的特征组合具有通用性,即不仅可以用于bp神经网络构建的变压器故障诊断模型,也可以用于其它类型的分类器(比如支持向量机、决策树等等)构建的变压器故障诊断模型。另一方面,本发明提出的特征筛选方法能够做到大范围筛选,而其它基于分类器表现的特征筛选方法,受限于计算量,无法做到大范围筛选。目前,可查阅的文献中,总特征集中的特征数量最多也没有超过50个,而本发明的总特征集中的特征数量高达465个。
[0037]
并本发明提出了两种解决样本数据不平衡问题的方法,分别是基于算法层面的样本变权重法和基于数据层面的smote法,无论哪一种方法(尤其是smote法),都可以提高样本数量少的故障类别的分类准确率。实际上,在基于dga数据进行变压器故障诊断研究问题上,样本数据不平衡是非常常见的(几乎所有公开文献中可见的样本数据都存在不同程度的样本数据不平衡性)。使用不平衡的样本数据训练得到的bp神经网络存在偏置问题,即样本数量少的故障类别诊断准确率不佳。从最后的测试结果可以看到,本发明提出的两种样本不平衡性解决方法可以有效降低bp神经网络的偏置。
[0038]
下面结合具体实施方式对本发明作进一步说明:
[0039]
本发明提出的基于特征优选和bp神经网络的变压器诊断方法的具体流程是:
[0040]
通过获取状态评估结果为异常的变压器dga数据并转换为特征组合后,输入至一训练好的bp神经网络获得变压器的故障类别。其中,所述bp神经网络通过如下方法训练获得:
[0041]
(1)获取一系列不同故障类型的变压器dga数据,并转换成设计的特征。再计算每两类故障类别样本之间在每个特征维度上的重叠度,基于重叠度进行特征优选获得特征组合x,保证每两种故障类别类别之间,至少有一个特征能将两类样本分开。
[0042]
作为一优选方案,本发明中被用作特征筛选的总特征集如表1所示。总特征集中所有特征都是由h2、ch4、c2h6、c2h4、c2h2五种气体的气体含量构成,最终可以得到465个特征。
[0043]
表1总特征集(特征总量:465)
[0044][0045]
任意一种特征气体含量
[0046]
任意两种特征气体含量之和
[0047]
任意三种特征气体含量之和
[0048]
任意四种特征气体含量之和
[0049]
总气体含量(包括h2、ch4、c2h6、c2h4、c2h2)
[0050]
其中,在一个特征维度上,两类故障类别样本之间的重叠度可以根据如下公式进行计算:
[0051][0052]
其中,μ1和μ2分别是第一类和第二类样本某一特征量的平均值,σ1和σ2分别是第一类和第二类样本对应的某一特征量的标准差。对于一个多分类问题,每一个特征维度都可以计算得到一个nd×
nd的重叠度矩阵(nd为类别数目)。
[0053]
为了进行特征筛选,以bp神经网络的训练数据(如表3所示的832条故障数据)为原始样本数据,基于原始样本数据,分别计算了465个特征维度下的重叠度矩阵。表2中列出了基于各类别之间的重叠度筛选得到的特征,表格中的值表示的是在支配特征量(每两种类别之间的支配特征量已在表格中列出)维度上,两种类别之间的重叠度。特征筛选的原则是每两种类别之间,至少有一个特征维度能够将两者区分开(重叠度小)。为此,从平均重叠度排在前列的特征中选取了能同时识别多个两类别的3个特征(高效特征,加粗标注),不能利用这3个特征进行区分的两类之间,从总特征集中找到一个两者之间有最小重叠的特征(专属特征),高效特征和专属特征一起得到最终特征组合。特别地,低能放电和高能放电这两种故障类型的样本重叠度较大,因此这两种故障类型之间使用了2个专属特征。表2列出了基于重叠度筛选出的12个特征,这12个特征将成为bp神经网络的输入特征。
[0054]
表2基于重叠度筛选得到的最终特征组合(12个特征量)
[0055][0056]
f1:ch4/c2h2f2:c2h4/c2h2f3:c2h4/(ch4+c2h2)f4:c2h4/(ch4+c2h6+c2h2)f5:c2h4/(h2+c2h4+c2h2)f6:c2h2/(h2+ch4+c2h6)f7:c2h4/(h2+ch4+c2h4+c2h2)f8:(ch4+c2h6)/(ch4+c2h4)f9:(ch4+c2h4)/(c2h6+c2h2)f10:(ch4+c2h4)/(h2+ch4+c2h6+c2h2)f11:(ch4+c2h6+c2h4)/(h2+ch4+c2h6+c2h2)f12:(ch4+c2h2)/(ch4+c2h4+c2h2)
[0057]
(2)构建一bp神经网络,以每个样本的特征组合为输入,故障类别为预测目标,采用反向传播算法训练,从而获得训练好的bp神经网络。
[0058]
bp神经网络的结构由三部分组成:输入层、隐含层和输出层。其中,输入层的神经元数目由输入特征向量的维数决定,本发明中输入特征向量的维数随着选取的特征组合不同而变化,因此相应的bp神经网络输入层神经元数也会跟随着一起变化。bp神经网络输出层的神经元数目与类别数相同,本发明中变压器故障分成以下七类:局部放电、低能放电、高能放电、低温过热(低于300℃)、中温过热(300℃~700℃)、高温过热(高于700℃)和放电兼过热。因此,该bp神经网络的输入层神经元个数为12,输出层的神经元个数为7。
[0059]
bp神经网络的隐含层数量以及各层的神经元数目是可变的。实际上,当bp神经网络的训练效果不佳时,通常都是通过调整隐含层数量或者各隐含层的神经元数量来改善。确定bp神经网络最佳结构的常用方法是多次试验,每次试验使用不同的结构,通过对比模型测试结果的方式选出最佳结构。
[0060]
bp神经网络的训练则是采用反向传播算法,作为一优选方案,还可以从算法层面降低案例库不平衡带来消极影响,即在bp神经网络的训练环节,增大“少类”样本的权重。对于一个多分类问题,当各类别的样本数量不平衡,需要对各类别的样本分配不同的权重时,不等权重的bp神经网络代价函数为:
[0061][0062]
其中,n为样本数,为类别k的权重;no为类别数目,表示类别k样本i的实际故障类别标签;fk(x(i))表示第i个样本、输出层第k个节点的输出;λ为惩罚因子,为实数;l为bp神经网络的层数,s
l
为第l层的神经元个数,为第l层的第i个神经元与第(l+1)层的第j个神经元的连接权重。
[0063]
样本数目越多的类别权重越小,假设类别k的数量少于类别(k+1)的数量,则为了降低样本不平衡带来的bp神经网络偏置,两类样本的权重满足关系另外,具体的
权重取值需要依据不平衡度而定。
[0064]
各类样本的权重值根据表3中各故障类别的样本数量分布情况,分成了三个等级,各等级的权重值以及对应的类别如下:
[0065]
一级(权重值):局部放电、低温过热、放电兼过热
[0066]
二级(权重值):中温过热
[0067]
三级(权重值):低能放电、高能放电、高温过热
[0068]
根据上述提出的样本变权重法进行神经网络的训练可以有效降低神经网络的偏置。
[0069]
作为另一优选方案,还可以从数据层面解决各故障类型的样本量不平衡的问题,即:采用smote算法人工生成一部分“少类”样本补充到案例库中。
[0070]
在使用smote算法之前,为了防止在噪声数据周围生成人工样本,对bp神经网络的训练产生不利影响,先对样本数据进行数据清洗,将噪声数据排除在用于生成人工样本的数据集之外。
[0071]
本发明采用3σ法则识别噪声数据。假设各故障类别的所有样本数据,在各个特征维度上均服从高斯分布,则对于一个样本数据,只要有其中一个特征维度上不满足3σ (pr(μ-3σ≤x≤μ+3σ)≈99.7%)法则,则认为该数据点为噪声数据,噪声数据将不会用于产生人工样本。
[0072]
smote算法的基本原理是在欧氏空间中作线性插值,具体地,利用smote算法解决案例库样本不平衡问题的步骤如下:
[0073]
1)统计各故障类别的样本量,并确定所有故障类别中的单个类别最大样本量n
max

[0074]
2)按照所有故障类别的样本量补充至n
max
,确定每个类别需要人工生成的样本量。
[0075]
3)按流程处理所有类别的样本扩充。对于某个类别,如果需要人工生成的样本量超过其初始的样本量,则该类别的样本数据中每个样本都根据步骤五生成若干个“影子样本”即新样本,具体数量取决于需要补充的样本量能够进行几次循环,不足以完成一次完整循环的部分,则随机从该样本库中抽取所需数量的样本,每个样本再额外生成一个“影子样本”;如果需要人工生成的样本量少于其初始的样本量,则随机地从该类别的样本库中随机抽取所需数量的样本,每个被抽取的样本根据步骤五生成一个“影子样本”。
[0076]
4)从相同类别的样本中,找出当前样本的n
near
个最邻近样本(注意是在完成特征变换之后的欧氏空间中寻找),从n
near
个最邻近样本中随机选取一个,和当前样本一起生成一个“影子样本”。首先,计算两个样本的差分向量:
[0077]
diff=x
ran-x
[0078]
x代表当前样本的特征向量,x
ran
代表从n
near
个最邻近样本中随机选取的样本的特征向量。根据差分向量生成新样本:
[0079]
x
new
=x+ran.*diff
[0080]
其中,x
new
代表新生成的样本的特征向量,ran是一个随机向量,维数与特征向量维数相同,每一维的随机数数值范围为(0,1)。
[0081]
为了验证本发明提出的变压器故障诊断模型的准确性,从国网公司和公开文献中收集整理了1039条变压器故障数据,其中随机地将4/5故障数据作为模型的训练样本,剩下
的1/5故障数据作为模型的测试样本。表3中展示了训练样本数据和测试样本数据的分布情况。bp神经网络的最终拓扑结构,经过多次试验,最终定型为12-15-7型(即隐含层神经元个数为15)。
[0082]
表3 bp神经网络的训练样本数据和测试样本数据的分布情况
[0083][0084]
为了测试本发明提出的特征筛选方法的有效性,以及对比不同特征组合的使用效果,将不同的特征组合作为bp神经网络的输入特征,使用反向传播算法训练神经网络。
[0085]
表4中列出了所有被用于测试的特征组合,一部分特征组合来自于传统的变压器故障诊断方法,一部分来自于研究变压器故障诊断特征筛选的公开文献,特征组合10则是利用本发明提出的特征筛选方法得到的特征组合。
[0086]
表4用于筛选bp神经网络最佳特征组合的所有组合
[0087]
[0088][0089]
[1]汪可,李金忠,张书琦,等.变压器故障诊断用油中溶解气体新特征参量[j].中国电机工程学报,2016,36(23):6570-6578.
[0090]
[2]lij.,zhangq.,wangk.,etal.optimaldissolvedgasratiosselectedbygeneticalgorithmforpowertransformerfaultdiagnosisbasedonsupportvectormachine[j].ieeetransactionsondielectricsandelectricalinsulation,2016,23(2):1198-1206.
[0091]
[3]张育杰,冯健,李典阳,等.基于油色谱数据的变压器故障征兆新优选策略[j].电网技术,2020:1-9.
[0092]
[4]tusongjiangkari,wenshenggao,dongbozhao,etal.hybridfeatureselectionapproachforpowertransformerfaultdiagnosisbasedonsupportvectormachineandgeneticalgorithm[j].ietgeneration,transmission&distribution,2018,12(21):5672-5680.
[0093]
[5]jiakefang,hanbozheng,jiefengliu,etal.atransformerfaultdiagnosismodelusinganoptimalhybriddissolvedgasanalysisfeaturessubsetwithimprovedsocialgroupoptimization-supportvectormachineclassifier[j].energies,2018,11(8):1-18.
[0094]
每一种特征组合重复进行训练、测试10次,取10次测试结果的平均值作为最终的测试准确率,得到的准确率测试结果如表5所示。从测试结果可以看出,输入特征对bp神经网络的准确性影响较大,并且传统变压器故障诊断方法的特征组合表现得远不及经过特征优选得到的特征组合。在10组特征组合中,本发明筛选出的特征组合获得最高的准确率。
[0095]
表5不同特征组合的bp神经网络准确率测试结果
[0096][0097]
本发明提出了两种修正样本数据不平衡的解决方案,分别是基于算法层面的样本变权重法和基于数据层面的smote法。为了验证样本数据不平衡性修正的有效性,分别测试了样本数据不平衡性未修正和使用样本变权重法、smote法修正不平衡性时,各故障类别的诊断准确率。该测试一共进行10次,表6中列出了10次测试的平均值。
[0098]
表6 10次测试中各类故障类型的平均分类准确率
[0099][0100]
从表6中可以发现,如果不对样本数据的不平衡性进行修正,各故障类别的诊断准确率相差较大,样本数量少的故障类型诊断准确率相对较低。使用样本变权重法进行不平衡性修正,其中一部分“少类”(样本数量少的类别)的诊断准确率可以得到改善(比如中温过热故障类型),但是并不是所有“少类”的诊断准确率都得到提升。使用smote法进行不平衡性修正,所有“少类”的诊断准确率都得到了提升,该方法比样本变权重法对样本数据不平衡性的修正效果好。需要注意的是,无论使用哪种方法进行不平衡性修正,虽然“少类”的诊断准确率得到了提升,但是“多类”的分类准确率有所下降,由于测试样本中“多类”样本比重较大,导致整体诊断准确率会有轻微下降。但是,相比于样本变权重法和smote算法对“少类”的诊断准确率的提升,整体诊断准确率的轻微下降几乎可以忽略不计。
[0101]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1