基于数据的断路器故障影响因素定性分析方法与流程

文档序号:12305702阅读:293来源:国知局
基于数据的断路器故障影响因素定性分析方法与流程
本发明属于电力设备应用
技术领域
,主要涉及断路器故障影响因素的定性分析与挖掘,具体是一种基于数据的断路器故障影响因素定性分析方法,应用于对断路器的设备改进以及为其运行维护提供参考依据。
背景技术
:随着国家经济发展进入新常态,电力已经成为各行各业发展的动力保障,人们对电力不间断供应提出了更高的需求。由于各种潜在的、复杂的因素作用,电力供给过程中,输配电故障时常发生,不仅会对经济发展造成较为严重的损害,还会对工业生产效率和人民生活质量产生影响。如何保证电力安全、高效、不间断的配给与输送,尽量避免电力供给安全隐患的发生,是当前电力运行维护中亟待解决的问题。断路器按照其内部用于灭弧的绝缘介质分为油断路器、真空断路器、sf6断路器等。该类设备一旦发生故障,非常容易引起大面积停电,造成很严重的社会影响。因此,其在高压输配电过程中扮演重要角色。在运行过程中,其工作原理是通过接收相关指令来完成电路的断开与闭合操作,从而进行电路切换。当发生故障时,可能会由于各种因素的影响使得断路器出现拒绝开合、绝缘失效,甚至发生爆炸等故障问题,因此需要对断路器的故障影响因素进行分析与挖掘,即通过故障历史数据挖掘出引起断路器各类故障发生的关键因素,为设备检修与设计提供一定的参考依据,提高电网供电可靠性。目前对于断路器故障影响因素分析模型,传统方法主要针对设备本身而言,只是涉及到设备自身部件问题对故障发生的影响,例如周佳佳在论文“高压断路器常见故障的分析与处理探究”(《建筑工程技术与设计》2016(22).)中根据断路器操作结构和零部件为分析目标研究了高压断路器的6种主要机械故障和电气故障,并根据经验判断其故障发生的原因并给予维护保养的处理方案。而现阶段断路器正逐渐趋向于智能化,导致故障的因素越来越隐蔽且多元化,所要面临的分析场景也越来越复杂,凭借人工经验找寻故障影响因素,结果准确度和客观性极大受限。因此,为了保准分析的有效性和准确性,需要将科学的方法应用到断路器故障原因分析中,挖掘出故障与影响因素之间的客观规律。例如贺林晓在“基于粗糙集的关联规则挖掘在变电设备故障诊断中的应用”(华北电力大学,2015.)提出一种基于粗糙集和关联规则挖掘的变电设备故障诊断模型,运用粗糙集理论对原始数据集进行离散化、补齐和约简等预处理操作,以提高数据质量,供关联规则挖掘算法对故障原因进行挖掘分析。这一方法解决了目前故障因素挖掘不客观的问题,提高了分析的有效性,但这一方法对故障数据的规约研究不足,影响了分析过程的效率,而且没有对模型的准确度进行验证,不能确保结果的客观准确性。综上所述:现有技术中,不少研究人员对断路器等电力设备进行了故障原因的分析,主要以人工经验总结、故障树分析和粗糙集等方法为主,不足以全面、客观的挖掘到潜在的断路器故障影响因素,分析过程不够科学、效率不高,没有充分利用故障数据,使得分析结果不够理想。技术实现要素:本发明是针对当前断路器故障影响因素分析问题,提出一种高效、准确、全面的基于数据的断路器故障影响因素定性分析方法,用于解决现有断路器故障原因不明的问题和定性分析模型稳定性验证的问题。本发明是一种基于数据的断路器故障影响因素定性分析方法,具体步骤包括有:(1)定义原始故障数据集:设原始故障数据集为u=(u1,u2,…,un-1,un,y),其中ui表示故障数据集中潜在的故障影响因素属性,主要包括开断电流次数、操作机构次数、投运时间、年平均负载率、环境温度和环境污秽等级等,y表示故障类型,主要包括操动机构异常、sf6泄漏、辅助部件损坏和主要部件劣化等,当影响因素增多,故障数据量增大时,本发明依然适用;(2)故障数据清洗:首先利用业务常识对影响因素ui进行约束,识别每个影响因素属性中的异常值并剔除,然后采用多重插补法和均值插补法分别对连续型和离散型数据进行缺失值插补,经过缺失值插补后的故障数据集为(3)故障数据变换:关联规则算法的实现要求输入数据的所有属性都为离散型数据,所以本发明利用高斯混合模型(gaussianmixturemodel,gmm)对故障数据集中的连续型属性进行离散化,即将一列连续型数据拟合成多个高斯分布曲线,将数据划分到不同的单高斯分布曲线中,达到连续数据离散化划分为多个区间的目的,为了找到最优的高斯混合模型,使得故障数据拟合的曲线误差较小,需要利用贝叶斯信息准则(bayesianinformationcriterion,bic)来进行模型的选择,通过计算bic值确定最优的高斯混合模型,找到最合适的区间划分,连续属性离散化后得到新的数据集s=(x1,x2,…,xn-1,xn,y),其中xi均为离散型区间变量;(4)故障数据归约:以故障数据中的“故障类型”属性作为类别标签,分别计算所有影响因素属性与“故障类型”之间的信息增益率,并对所求的信息增益率进行降序排列,选取排序前60%的属性特征作为数据规约后的故障数据子集s=(x1,x2,…,xm-1,xm,y),将n个属性维度降低为m个维度;(5)十次十折交叉验证构建故障影响因素定性分析模型:将新故障数据子集s随机均等划分为十份,即所谓的十折,记为si(i=0,1,…,10),每份包含的样本量一致,轮流将其中一份作为测试样本集test,并将剩余的九份作为训练样本集train,由此进行数据训练,得到10个cmar分类器ci(i=1,2,…,10),并计算每个分类器的分类准确率ri(i=1,2,…,10),重复10次,总共得到100个cmar分类器,求得所有100个cmar分类器准确率的均值rm,寻找到分类准确率ri与rm最接近的分类器cb,如果存在多个最接近的分类器则取首次寻找到的结果;(6)得到关联规则:分析与rm最接近的分类器cb中所有规则的支持度、置信度指标,其中置信度作为因素与故障相关性评价的标准,设置最小置信度minconfi,如果规则置信度大于等于minconfi则该规则保留,如果小于则丢弃,从保留下来的规则中即可得到断路器故障影响因素的定性描述。本发明所提出的一种基于数据的断路器故障影响因素定性分析方法,能应对越来越复杂的分析场景,准确、全面得到与故障发生相关的影响因素。本发明与现有技术相比,具有以下优点:(1)本发明基于数据挖掘技术,相比较传统故障树的分析方法,避免了分析结果的主观随意性和庞大的建树过程,能够在待分析因素增多、故障数据量变大时增加计算维度,扩展迭代计算能力,高效,客观性更强。(2)本发明应用的连续数据的离散化方法为高斯混合模型,这种离散化处理方式能够根据数据本身的分布趋势进行区间划分,更加准确、全面,逼近精度高。数据规约利用信息增益率来评价特征的优劣,然后根据每个特征的信息增益率对特征进行排序选择,该方法能够有效的适应断路器故障数据,避免“维灾难”。(3)本发明使用的cmar算法是一种有监督学习算法,相比传统的定性分析算法,能够方便的进行数据验证。本发明中提出的十次十折交叉验证是利用分类准确率接近均值的分类器作为故障影响因素定性分析模型,保证了断路器故障影响因素定性模型的稳健性。附图说明图1是本发明的定性分析方法流程图;图2是本发明的断路器故障数据预处理流程图;图3是本发明的断路器故障影响因素定性分析模型构建流程图;图4是十次十折交叉分类准确率分布图。具体实施方式下面结合附图和具体实例对本发明作详细说明。实施例1目前电力电网行业的开关设备故障原因分析主要以人工经验为主,主观性强、误差大,维护保养没有针对性,设备信息和故障数据利用也不充分,已有的关联分析模型在故障数据的预处理部分流程过于简单,无法应对高维的数据特征问题,而且分析模型稳定性不足,验证阶段工作太少,不利于数据的扩展,结果不够客观准确。本发明针对现有断路器故障原因分析方法中的故障数据处理、分析模型构建问题以及模型验证问题提出了一种基于数据的断路器故障影响因素定性分析方法,主要流程参见图1,主要包括故障数据的预处理、影响因素定性分析模型的构建和验证,以及规则的选取和描述,具体步骤包括有:(1)定义原始故障数据集:设原始故障数据集为u=(u1,u2,…,un-1,un,y),其中ui表示故障数据集中潜在的故障影响因素属性,主要包括开断电流次数、操作机构次数、投运时间、年平均负载率、环境温度和环境污秽等级等,y表示故障类型,主要包括操动机构异常、sf6泄漏、辅助部件损坏和主要部件劣化等;(2)故障数据清洗:首先利用业务常识对影响因素ui进行约束,识别每个影响因素属性中的异常值并剔除,然后采用多重插补法和均值插补法分别对连续型和离散型数据进行缺失值插补,经过缺失值插补后的故障数据集为数据清洗主要包括异常值处理和缺失值处理两大部分。由于故障数据集的历史性特点,所以提出利用图2所示的步骤进行数据清洗操作。(2.1)异常值检验与处理对于故障数据集而言,由于其历史性特点,要对数据进行异常值检测不能简单使用统计、聚类等识别方法。例如:故障数据中第一条数据显示“操动机构次数”的记录值为200次,此时故障1发生,而第二条数据显示“操动机构次数”记录值500次,故障2发生,且整体记录中500的频数很低,但并不能认为500次就是异常数据。然而,如果该属性的记录出现225.5则一定是异常数据,原因在于“操动机构次数”的技术单位是“次”,不可能有小数出现,可能在人工记录中疏忽形成,而聚类和统计的方法是检测不了这样的异常值情况的。因此,断路器故障数据的异常值检测要以实际业务为基础,对不同的数据字段需要进行特定的范围界定,比如对温度属性而言,国标规定断路器应该能够在-40℃~40℃温度范围内工作,而如果某条故障记录显示温度值记录为“400℃”则显然是异常值,必须予以剔除。(2.2)缺失值处理断路器故障数据是包含连续型和离散型的混合类型数据集,对其进行缺失值处理应该按数据类型的不同采用相应的方法。具体方式为①连续型属性使用多重插补法进行插补;②离散型数据采用均值插补。(3)故障数据变换:关联规则算法的实现要求输入数据的所有属性都为离散型数据,所以本发明利用高斯混合模型(gaussianmixturemodel,gmm)对故障数据集中的连续型属性进行离散化,即将一列连续型数据拟合成多个高斯分布曲线,将数据划分到不同的单高斯分布曲线中,达到连续数据离散化划分为多个区间的目的,为了找到最优的高斯混合模型,使得故障数据拟合的曲线误差较小,需要利用贝叶斯信息准则(bayesianinformationcriterion,bic)来进行模型的选择,通过计算bic值确定最优的高斯混合模型,取bic值最大时的高斯混合模型作为连续属性离散化的模型,此时是最合适的区间划分,连续属性离散化后得到新的数据集s=(x1,x2,…,xn-1,xn,y),其中xi均为离散型区间变量。(4)故障数据归约:随着需求的不断增加,待分析的潜在因素越来越多,数据集维度也会不断增加,数据规约避免了直接从原始特征空间中随机选择特征子空间,而是要通过一定的手段,根据某个评价准则从原始特征中去除冗余或者不相关的特征,得到一组最优的特征子集。由于数据集中的“故障类型”可以认为是类别标签,因此可以直接使用信息增益来衡量一个特征与标签之间的相关性。具体做法为①计算所有特征与“故障类型”标签之间的信息增益率:之所以要计算信息增益率是因为不同特征划分的区间个数可能不同,要使不同特征的信息增益在同一个尺度上衡量,需要计算信息增益率。②将所得的信息增益率看成是特征重要性的度量,按重要性度量排序特征,并按照重要性变化的特点选择最重要的特征。以故障数据中的“故障类型”属性作为类别标签,分别计算所有影响因素属性与“故障类型”之间的信息增益率,并对所求的信息增益率进行降序排列,选取排序前60%的属性特征作为数据规约后的故障数据子集s=(x1,x2,…,xm-1,xm,y)。(5)十次十折交叉验证构建故障影响因素定性分析模型:将新故障数据子集s随机均等划分为十份,即所谓的十折,记为si(i=0,1,…,10),每份包含的样本量一致,轮流将其中一份作为测试样本集test,并将剩余的九份作为训练样本集train,由此进行数据训练,得到10个cmar分类器ci(i=1,2,…,10),并计算每个分类器的分类准确率ri(i=1,2,…,10),重复10次,总共得到100个cmar分类器,求得所有100个cmar分类器准确率的均值rm,寻找到分类准确率ri与rm最接近的分类器cb,如果存在多个最接近的分类器则取首次寻找到的结果。(6)得到关联规则:分析cb中所有规则的支持度、置信度指标,其中置信度作为因素与故障相关性评价的标准,设置最小置信度minconfi,如果规则置信度大于等于minconfi则该规则保留,如果小于则丢弃,从保留下来的规则中即可得到断路器故障影响因素的定性描述。本发明通过断路器故障数据的清洗、归约等操作,建立基于十折十次验证的影响因素定性分析模型对断路器的主要故障类型进行影响因素的定性分析,得到影响断路器故障的关键原因,为设备维护保养提供针对性的参考依据。实施例2基于数据的断路器故障影响因素定性分析方法同实施例1,本发明步骤(3)所述的高斯混合模型主要是为了提供合理的连续属性离散化方法,以适应开关设备故障数据特点,并确保cmar分类的准确程度,高斯混合模型认为数据的概率密度函数曲线是通过多个单高斯分布混合加权得到的。(3.1)假设一组向量点xi(i=1,2...n'),共有n'个观测值,这组点的分布由k个高斯分布混合构成,表示离散化过程中样本点共离散为k个区间,其中高斯混合模型的定义式为:式中πk∈[0,1],表示每个高斯分布对数据点的影响因子,θk为各单高斯分布的参数,θ为参数空间,θ={π1,…,πk,θ1,…,θk}。其中pk(x|θk)表示第k个单高斯分布对应的概率密度函数,n(x|μk,σk)表示第k个单高斯分布的概率密度,μk为该高斯分布概率密度的均值,σk为其标准差。(3.2)通过贝叶斯信息准则来进行模型选择,找到最合适的k值,其定义公式如下:bic=lnlθ-klnn'其中k表示由参数空间θ构成的模型空间中自由参数的个数,n'为样本量,klnn'是对模型复杂程度的惩罚项,高斯混合模型的对数似然函数lθ如下:式中n∈[1,n'],k∈[1,m'],通常情况下,如果k值较大,意味着混合分量的个数较多,则模型拟合的误差将会很小,但可能导致过拟合,而k值较小会导致数据拟合不足,不能反映数据真实情况。对于连续属性故障数据点xi(i=1,2...n'),分别计算高斯混合分量个数为k∈[1,m']时bic值,其中m'表示所尝试的最大分量个数,取bic值最大时的高斯混合模型作为连续属性离散化的模型,此时对应的k值即为所要划分的区间数。通过混合多个高斯分布拟合分布情况未知的数据,并将高斯混合模型用于聚类能够根据数据的分布情况进行类别的区分,在多个领域已有广泛的应用,且得到了普遍的认可,而bic准则能够在兼顾模型复杂性和模型对数据解释能力的前提下寻找最佳的评估准则。实施例3基于数据的断路器故障影响因素定性分析方法同实施例1-2,本发明步骤(4)所述的故障数据归约,即计算每一种属性的信息增益率,并进行排序选择,信息增益率的具体计算公式如下:式中a表示一种属性,gain(a)表示属性a的信息增益,splitinfoa(s)表示数据集中属性a被划分后产生的信息。信息增益gain(a)计算公式如下:内在信息值splitinfoa(s)计算公式如下:其中,info(s)和infoa(s)分别表示数据集s进行属性划分前后的熵值,pi表示s中任意元组属于故障类别yi的相对概率,用属性a将s划分成v个子集,表示第j个划分的权重。每一种属性都可以计算出一个信息增益率值,将每个属性的信息增益值进行降序排列,选取前60%的属性进行后续分析,达到故障数据属性归约的目的。实施例4基于数据的断路器故障影响因素定性分析方法同实施例1-3,本发明步骤(5)中所述的十次十折交叉验证构建故障影响因素定性分析模型,故障影响因素定性分析方法的模型是基于数据算法构建,该算法的核心思想是关联规则中的fp-growth算法,cmar算法与fp-growth算法的区别在于频繁项集不仅是属性,而是“属性-类别”对,其最终得到的关联规则的右键全都是故障类别,该算法得到的结果是一个包含有规则集的分类器。为了保证所构建的定性分析模型的稳定性本发明通过十次十折交叉验证构建故障影响因素定性分析模型。断路器故障影响因素定性分析模型构建的具体做法如图3所示,需要进行多次迭代求得最优的定性分析分类器。具体操作步骤如下:(5.1)首先将数据集s随机均等划分为十份,即所谓的十折,分别为s1,s2,...,s10,每份包含的样本量大致一样。(5.2)轮流将每一份作为测试样本集test,并将剩余的九份作为训练样本集train,进行故障影响因素定性分析模型的训练,得到10个cmar分类器c1,c2,...,c10,每个分类器中包含一种关联规则集。(5.3)计算每个分类器的分类准确率r1,r2,...,r10,即将之前挑出的测试样本集故障数据代入每个分类器中验证故障标签类别,若10条测试数据中有8条数据输入模型后得到的故障类别符合原始数据记录的故障类别,则表明该分类器准确率为0.8。(5.4)重复10次步骤(5.1)到步骤(5.3)的过程,一共可以得到100个cmar分类器,100个分类器准确率。(5.5)求出100个r1,r2,...,r100的均值rm,寻找分类准确率与rm最接近的分类器cb,如果存在多个准确率相同的分类器,则选取首次寻找到的结果。(5.6)分析分类准确率与rm最接近的分类器cb中所有关联规则的支持度、置信度指标,其中将置信度作为因素与故障相关性评价的标准,设置最小置信度minconfi,如果规则的置信度大于等于minconfi则保留该规则,否则丢弃。(5.7)从保留下来的规则中即可得到断路器故障影响因素的定性描述,例如:规则“{a1,b2}=>{f1}”表示在属性a取值为a1,以及属性b取值为b2时,可以推断出故障f1发生(a1与b2都表示区间)。实施例5基于数据的断路器故障影响因素定性分析方法同实施例1-4,步骤(5.2)所述的得到cmar分类器,主要分为两个阶段:根据训练数据集产生分类关联规则集并存储,取出分类关联规则对新数据对象进行分类,得到cmar分类器,具体操作步骤如下:(5.2.1)扫描断路器故障数据集s,找出大于给定最小置信度minconfi的属性-类别对集合,例如{a1,f1},属性a1与故障类别f1的属性-类别对;(5.2.2)按置信度大小对属性-类别对进行降序排序;(5.2.3)再次扫描故障数据集,建立带有分类的fp-树,对于故障数据集s中的每一个事务s,按照其序列将事务s存在的属性-类别对逐个存放在fp-树中,并在插入最后一个属性-类别对的同时插入事务s的类标号;(5.2.4)在fp-树中采用自下而上递归的方式挖掘频繁模式,将已处理属性-类别对有关节点的类分布归结到其父节点上,输出频繁模式及其类分布计数;其中cmar利用一种叫做cr-树的前缀树数据结构存储产生规则,其构造方式如下:例如某数据集进行挖掘后生成4条规则,构成规则集,a、b、c表示类标号:①abc→a;②abcd→c;③abe→b;④bce→c;首先将规则左边的属性值按照其出现的频繁程度有多到少进行排序,即a出现频率最高,排在第一位;第一条规则作为第一条从根节点出发的路径插入到树种,在插入最后一个节点的时候,存储类标号、支持度和置信度;第二条规则与第一条规则共享前缀abc,并在该路径的最前端插入一个新节点d,然后将剩余规则按该方式插入,直到构成储存规则的cr-树。本发明主要包含故障影响因素定性分析数据预处理和基于关联规则的故障影响因素定性分析模型两部分。故障影响因素定性分析数据预处理,用于对故障数据集进行数据清洗、转换、规约的预处理操作,数据清洗剔除数据中异常值、插补缺失值,数据转换得到符合定性分析的数据格式,数据规约用于对原始数据集进行特征选择从而实现降维,最终得到故障影响因素定性分析数据资源。然后建立基于关联规则的故障影响因素定性分析模型,用于对故障影响因素定性分析数据资源进行挖掘与分析,并建立若干个故障影响因素 分类器。为了保证模型的稳定性,从若干分类器中选择合适的分类器,从而构成了故障影响因素定性分析模型,最终从该模型的分类器中的规则中得到与断路器故障类别相关的影响因素。下面结合实验和数据分析对本发明的技术效果进一步说明。实施例6基于数据的断路器故障影响因素定性分析方法同实施例1-5,下面以某地区sf6断路器的故障数据为例,进行故障影响因素定性分析,找到故障和影响因素之间的定性关系。本发明使用数据分析软件rstudio工具,说明故障影响因素定性分析的具体流程和步骤。(1)收集断路器的故障数据,最终样本数据中各属性因素信息如表1所示,包括设备参数信息、环境参数信息、运行参数信息共10个属性因素:生产单位、设备型号、机构型式、机械寿命、环境污秽等级、环境温度、负载情况、操动机构次数、开断电流次数和投运时间。具体样本数据的示例如表2所示,其中假设“故障类型”属性中各故障的类别为:“操动机构异常”(caodong)、“sf6泄漏”(sf6)、“辅助部件损坏”(fuzhu)、“主要部件劣化”(zhuyao)、“其它”(qita)。表1收集的样本数据各属性信息表2样本数据示例x1x2x3x4x5x6x7x8x9x10yprocmp1equtype2mectype2meclife1a15.640-60%21018.85caodongprocmp1equtype2mectype1meclife1e29.840-60%18029.95caodongprocmp2equtype1mectype2meclife1e25.240-60%17019.07zhuyaoprocmp1equtype3mectype3meclife1b18.160-80%328115.71sf6procmp1equtype4mectype2meclife2c25.480%以上4193015.03qita……………………………procmp3equtype2mectype1meclife2d40.540-60%123113.08caodongprocmp1equtype1mectype2meclife1d26.840-60%811012.58qitaprocmp4equtype3mectype1meclife2e39.640%以下47116.67fuzhuprocmp2equtype2mectype3meclife1b11.540%以下27121.80fuzhu(2)按照具体业务情况为所有属性限定约束条件。比如对于离散型变量x3来说限定其值只能是“mectype1”、“mectype2”、“mectype3”三个值中的一个,而对于连续型变量x6而言,由于其表示温度,而国标规定断路器工作温度应该满足-40℃~40℃,因此可以将该属性的取值范围取为-50~50,超出这个区间的值均为异常值。类似的其它所有属性都按照这种方式进行异常值检测,且对异常值予以剔除。(3)本示例中使用多重插值法对连续型属性进行缺失值计算与插补,共进行了4次计算,产生了4个完整的数据集,利用回归预测法填充了连续型缺失值。而离散型属性采用属性的众数进行填充,例如x5的缺失值用频次最高的d级进行填补。(4)对连续型属性的离散化数据集中的连续型属性进行离散化,即将一列连续型数据拟合成多个高斯分布曲线,将数据划分到不同的单高斯分布曲线中。以x6为例,利用高斯核密度函数,拟合其数据分布密度曲线,根据密度分布峰值的变化,可以将该连续型属性取值分散为4个区间。以此类推,x8属性离散化为6个区间,x9属性离散化为3个区间,x10属性离散为5个区间。经过连续值离散化后的数据资源中所有属性均为离散型属性,为定性分析模型构建提供数据基础。最终得到连续属性区间划分结果如表3所示,例如“envtemp1:[11.2,28.1)”表示将温度属性划分区间后,11.2~28.1℃被划分到第温度区间1,其标识为“envtemp1”,连续型属性离散化后数据集如表4所示。表3连续型属性区间划分对应表表4连续型属性离散化后数据集x1x2x3x4x5x6x7x8x9x10yprocmp1equtype2mectype2meclife1aenvtemp140-60%mecnum3opennum1usetime3caodongprocmp1equtype2mectype1meclife1eenvtemp240-60%mecnum2opennum1usetime3caodongprocmp2equtype1mectype2meclife1eenvtemp140-60%mecnum2opennum1usetime3zhuyaoprocmp1equtype3mectype3meclife1benvtemp160-80%mecnum5opennum1usetime4sf6procmp1equtype4mectype2meclife2cenvtemp180%以上mecnum6opennum3usetime4qita……………………………procmp3equtype2mectype1meclife2denvtemp440%-60%mecnum1opennum1usetime4caodongprocmp1equtype1mectype2meclife1denvtemp140%-60%mecnum1opennum2usetime4qitaprocmp4equtype3mectype1meclife2eenvtemp340%以下mecnum1opennum2usetime2fuzhuprocmp2equtype2mectype3meclife1benvtemp140%以下mecnum1opennum2usetime1fuzhu(5)对每一列的属性均计算其信息增益率,并由大到小进行排序得到如表5所示的各属性信息增益率排序表。本例使用选择前60%的属性作为特征选择后的子集。表5各属性信息增益率排序表(6)故障影响因素定性分析使用多分类关联规则算法cmar。将断路器故障影响因素定性分析数据资源代入到定性分析方法中,cmar算法将数据资源中的“故障类别”视为分类的标签,建立了“故障类别”与其它属性因素之间的关系。数据按照文中所述的方法被分割为了10份,利用十次十折交叉验证,总共计算得到了100个cmar分类器。每个分类器分类的准确率如图4所示,横轴表示100个分类器迭代过程,纵轴表示交叉验证时的分类准确率。其中对于cmar算法取的最小支持度supp=0.2、交叉验证后的分类器平均准确率rm=0.82,且第76次迭代时的分类器准确率最为接近平均准确率。取最小置信度minconf=0.8,对该分类器中的规则集筛选得到如表6的关联规则集。表6优选分类器中的关联规则集表6中关联规则说明了sf6断路器各故障类型与属性因素之间的关系。以关联规则rules1:{usetime=usetime1}=>{faulttype=caodong}为例,可以看出当投运时间在区间usetime1:[1.1,3.6)中,即投运时间为1.1~3.6年时,能够推断出发生操动机构异常这个故障,对于该条规则而言,表明导致断路器操动机构异常这一故障的一个关键因素可能是投运时间在[1.1,3.6)区间段内。以此类推,即可将所有与各种故障相关的影响因素全部挖掘出来。简而言之,本发明公开的一种基于数据的断路器故障影响因素定性分析方法,解决了现有断路器故障数据利用不充分、故障原因定位太主观以及定性分析模型稳定性不足等问题。本发明通过对断路器故障数据的挖掘与分析,找到断路器各类故障的关键影响因素。该方法步骤包括:①定义原始故障数据集;②故障数据清洗;③故障数据变换;④故障数据规约;⑤构建故障影响因素定性分析模型并进行十次十折交叉验证;⑥得到故障与影响因素的关联规则。本发明利用有监督学习算法cmar进行建模,随着数据量的增大,模型的准确度会不断提高。同时,十次十折交叉验证保证了定性分析模型的稳健性,能有效的分析出断路器故障的影响因素,用于对断路器的设备改进以及为其运行维护提供参考依据。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1