一种基于机器学习的电网故障诊断方法与流程

文档序号：21358194发布日期：2020-07-04 04:31阅读：283来源：国知局

本发明涉及电力系统领域，更具体地，涉及电网故障诊断领域的一种基于及其学习的电网故障诊断方法。
背景技术：
：电网故障诊断是利用故障后告警信息中的保护装置和断路器等的动作信息来推断故障的元件和位置。准确高效的故障诊断对电力系统的安全经济运行和供电可靠性具有重要意义。目前，电网故障诊断技术主要有专家系统、人工神经网络、信息融合、petri网、解析模型等，这些故障诊断技术多基于规则进行。对于在线电网故障的诊断，现有的故障诊断技术在建模初期需要引入大量的保护和设备动作规则，建模过程和模型维护过程困难，通用性低。因此，如何简化电网故障诊断的建模和维护过程，并获得较高的诊断准确率，成为电网故障诊断发展亟需解决的问题。技术实现要素：本发明提出一种基于机器学习的电网故障诊断方法，以告警信息的时序特征作为分析对象，能够充分挖掘电网告警信息的时序信息，判断故障类型，定位故障设备。本发明不以告警信息内容本身作为分析对象，而是提取告警信息文本的时序特征并整合为由单纯数字构建的数据驱动模型，最终确定故障设备及故障性质。本发明所述的一种基于机器学习的电网故障诊断方法，包括以下步骤：s1：告警信息文本预处理，将告警信息的设备与属性进行分词处理；s2：构建基于随机森林的电网故障诊断模型，划分训练集与测试集，提取告警信息文本的时序特征，将样本数据填入所述模型；s3：对训练集样本进行bootstrap重抽样，生成k个训练子集；s4：根据随机森林生成k棵决策树；其中，随机森林中随机选取的特征数目取mtry＝log2(m+1)，m为样本输入特征维数；随机森林规模ntree的大小根据分类结果调整；s5：将测试集样本输入所述故障诊断模型，得到故障诊断结果。其中所述步骤s1包括：s11：将告警信息文本的字符数小于等于13的设备信息存入建立的空词典，分别记为{d1,d2,…,dn}；s12：将告警信息文本的字符数大于13的设备信息依次查找词典，与{d1,d2,…,dn}进行匹配；s13：若匹配成功，将匹配成功的字段与剩下的字段切分；s14：若匹配不成功，跳过此设备信息，将下一个设备信息与词典进行匹配；s15：重复以上步骤，直到所有设备信息匹配完成。3.根据权利要求1或2所述的方法，其特征在于，进一步地，步骤s2中构建基于随机森林的电网故障诊断模型，包括：将告警信息文本中的十个指标作为模型特征：设备出现次数、设备开始动作时间、设备持续动作时间、故障事件信息数量、故障事件持续时间、涉及最高电压等级、涉及电压等级数、涉及厂站数量和设备电压等级以及所对应的标签，建立一个十维空间并将其用向量d表示：d＝(f,t,δt,c,e,h,n,s,v,l)式中：f为可疑故障设备出现次数，表示各告警信息文本中所有可疑设备各自出现的次数，其值设为fi，则第k个告警信息文本中的第i个可疑故障设备出现的次数为t为可疑故障设备开始动作的时间，表示各告警信息文本中所有可疑故障设备各自开始动作的时间，其值设为ti，则第k个告警信息文本中第i个可疑故障设备开始动作时间为δt为可疑故障设备动作持续时间，表示各告警信息文本中所有可疑故障设备各自从动作到复归的时间间隔，其值设为δti，则第k个告警信息文本中第i个可疑故障设备动作持续时间为c为告警信息文本中的故障信息数量，表示各告警信息文本的信息条数，其值设为c，则第k个告警信息文本中信息条数为e为故障持续时间，表示各告警信息文本第一条告警信息与最后一条告警信息间的时间间隔，其值设为e，则第k个告警信息文本中告警信息持续时间为h为故障涉及的最高电压等级，表示故障发生后各告警信息文本所涉及的最高电压等级，其值设为h，则第k个告警信息文本中涉及的最高电压等级为n为故障涉及的电压等级数量，表示故障发生后各告警信息文本所涉及的电压等级数量，其值设为n，则第k个告警信息文本中所涉及的电压等级数量为s为故障涉及的厂站数量，用来表示故障发生后各告警信息文本所涉及的厂站数量，其值设为s，则第k个告警信息文本中所涉及的厂站数量为v为可疑故障设备电压等级，表示各告警信息文本中各可疑故障设备的电压等级，其值设为v，则第k个告警信息文本中第i个可疑故障的电压等级为l为告警信息文本对应的标签。4.根据权利要求3所述的方法，其特征在于，l为告警信息文本对应的标签，如果进行二分类，则lk＝0或lk＝1，如果进行三分类，则lk＝0，或lk＝1，或lk＝2。所述步骤s3包括：采用bootstrap重抽样法从训练集的原始样本集中抽取多组样本，分别对各组样本进行训练，由此生成k个训练子集。所述步骤s4包括：所述随机森林中，综合所有决策树的投票结果得到最终分类。与现有技术相比，本发明的有益效果包括：电网故障诊断需要分析故障过程时序事件的顺序关系，告警信息中时序畸变情况常见，本发明针对各故障设备提取相应的设备动作时间，无需对由于时间畸变导致的事件顺序错误进行校时处理。在线运行的故障诊断系统故障信息量大，建模和维护工作非常繁重，不仅要进行基本的属性设定，还要进行逻辑关联；在诊断系统投入运行后，电气设备更换、装置更新和电网规模扩大都要求诊断系统原有的模型随之进行知识表示、规则设定及诊断模型修正工作，增大了诊断系统的维护工作量。本发明无需进行逻辑推理，也无需引入大量描述保护系统行为的知识，仅需针对告警信息提取模型对应的数字特征，建模和模型修改过程简单易操作，诊断准确率相对较高。附图说明图1为本发明所述方法的流程图。图2为可疑设备信息数目示意图。图3为可疑设备故障持续时间示意图。图4为随机森林分类过程示意图。图5为基于机器学习的故障诊断结构图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。本发明基于随机森林的故障诊断流程如图1所示，包括：s1：告警信息文本预处理，将告警信息的设备与属性进行分词处理；s2：构建基于随机森林的电网故障诊断模型，划分训练集与测试集，提取告警信息文本的时序特征，将样本数据填入所述模型；s3：对训练集样本进行bootstrap重抽样，生成k个训练子集；s4：根据随机森林生成k棵决策树，其中，随机选取的特征数目取mtry＝log2(m+1)(m为样本输入特征维数)，随机森林规模ntree的大小根据分类结果调整；s5：将测试样本输入所述驱动模型，得到故障诊断结果。1、告警信息文本分词处理。告警信息是电网调度通过scada系统采集的基本信息，它是对电网内发生的各类异常事件的间接近似描述。表1为东平站#1主变a相发生永久故障的部分告警信息。表1可以看出，告警信息文本中的一些设备包含多个属性，如#1主变含有“10kv侧9011开关”、“10kv侧9012开关”等多个属性，设备与属性糅合在一起，不利于设备信息时序特征的提取。因此，将设备与属性的切分具有重要的意义。本发明根据告警信息中设备信息的特点，分词过程如下：1)将字符数小于等于13的设备信息存入建立的空词典，如：东平站#1主变、东平站10kv#1电容器，分别记为{d1,d2,…,dn}；2)将字符数大于13的设备信息依次查找词典，与{d1,d2,…,dn}进行匹配；3)若匹配成功，将匹配成功的字段与剩下的字段切分；4)若匹配不成功，跳过此设备信息，将下一个设备信息与词典进行匹配；5)重复以上步骤，直到所有设备信息匹配完成。切分结果如表2所示。表2分词前的设备信息分词后的设备信息东平站#1主变东平站#1主变东平站#1主变10kv侧9011开关东平站#1主变/10kv侧9011开关东平站#1主变10kv侧9012开关东平站#1主变/10kv侧9012开关东平站#1主变东平站#1主变东平站10kv#1电容器东平站10kv#1电容器东平站10kv#1电容器971开关东平站10kv#1电容器/971开关2、建立故障诊断模型。将告警信息文本中的十个指标作为模型特征：设备出现次数、设备开始动作时间、设备持续动作时间、故障事件信息数量、故障事件持续时间、涉及最高电压等级、涉及电压等级数、涉及厂站数量和设备电压等级以及所对应的标签，建立一个十维空间并将其用向量d表示，如式(1)所示。d＝(f,t,δt,c,e,h,n,s,v,l)(1)式中：f为可疑故障设备出现次数，表示各告警信息文本中所有可疑设备各自出现的次数，其值设为fi，则第k个告警信息文本中的第i个可疑故障设备出现的次数为t为可疑故障设备开始动作的时间，表示各告警信息文本中所有可疑故障设备各自开始动作的时间，其值设为ti，则第k个告警信息文本中第i个可疑故障设备开始动作时间为δt为可疑故障设备动作持续时间，表示各告警信息文本中所有可疑故障设备各自从动作到复归的时间间隔，其值设为δti，则第k个告警信息文本中第i个可疑故障设备动作持续时间为c为告警信息文本中的故障信息数量，表示各告警信息文本的信息条数，其值设为c，则第k个告警信息文本中信息条数为e为故障持续时间，表示各告警信息文本第一条告警信息与最后一条告警信息间的时间间隔，其值设为e，则第k个告警信息文本中告警信息持续时间为h为故障涉及的最高电压等级，表示故障发生后各告警信息文本所涉及的最高电压等级，其值设为h，则第k个告警信息文本中涉及的最高电压等级为n为故障涉及的电压等级数量，表示故障发生后各告警信息文本所涉及的电压等级数量，其值设为n，则第k个告警信息文本中所涉及的电压等级数量为s为故障涉及的厂站数量，用来表示故障发生后各告警信息文本所涉及的厂站数量，其值设为s，则第k个告警信息文本中所涉及的厂站数量为v为可疑故障设备电压等级，表示各告警信息文本中各可疑故障设备的电压等级，其值设为v，则第k个告警信息文本中第i个可疑故障的电压等级为l为告警信息文本对应的标签，如果进行二分类，则lk＝0或lk＝1，如果进行三分类，则lk＝0或lk＝1或lk＝2。以东平站1号变压器a相发生永久故障生成的告警信息文本为例，此告警信息文本共包含#1主变、110kv青东线1151开关、10kv#1电容器、10kv#2电容器、10kvii-iii分支备自投、10kvi-iv分支备自投、10kv母分923开关、10kv母分914开关8种设备，其中#1主变为故障设备，其余设备均为非故障设备。可疑设备信息数目如图2所示。可疑设备故障持续时间如图3所示。随机森林采用bootstrap重抽样法从原始样本集中抽取多组样本，对各样本进行训练并建立决策树模型，综合所有决策树的投票结果得到最终分类。随机森林分类过程如图4所示。随机森林的基本单元是决策树，是以很多决策树{h(x,θk),k＝1,…}形成的组合分类模型。θk是独立同分布的随机向量，对每棵树投票结果求众数得到随机森林的最终分类结果。对输入向量x和输出y，定义边缘函数如式(2)所示：其中，i(·)为指示函数，y包含j个不同类别，j为j种类中的一类，ak为求均值函数，k＝1,2,...,n。从(2)可以看出，对于输入向量x，正确分类的平均得票数多于其他分类平均得票数的最大值。因此，边缘函数越大，分类的置信度越高。随机森林的泛化误差如式(3)：pe*＝px,y(f(x,y)＜0)(3)其中，px,y为分类错误率函数，pe*度量了随机森林对样本的分类错误率。当随机森林中的决策树数目足够多时遵循大数定律，可得到以下定理。随着树数目的增加，对所有随机序列θk，pe*逐渐收敛于：其中pθ是对于给定序列θ的分类错误率。可见，随机森林不会由于树的增加出现过度拟合，其泛化误差会趋于某一上界。随机森林的泛化误差上界为：其中，是树的平均相关系数，s是树的平均强度。由此可看出，随机森林的泛化误差上界可通过降低树之间的相关性和提高单棵树的分类强度来减小。因此，降低树之间的相关性和提高单棵决策树的性能是提高随机森林性能的主要方法。为了验证本发明实施例提供方法的实际效果，本发明实施例采用的数据为2000篇告警信息文本，其中单一故障告警信息文本共1500篇，多重故障告警信息文本共500篇，故障类型如表3所示。表3为了更好地评估分析分类效果，本文采用准确率和召回率作为评价指标计算方法，如式(6)和式(7)所示。式中，tp、fn、fp、tn分别代表真正(truepositive)、假负(falsenegative)、假正(falsepositive)、真负(truenegative)。四者关系如表4所示。表4为了判断故障类型，将400篇多重故障，1200篇单一故障作为训练样本，单一故障样本中包含线路故障480篇，变压器故障360篇，母线故障360篇；测试样本由100篇多重故障，300篇单一故障组成，单一故障样本中包含线路故障120篇，变压器故障90篇，母线故障90篇。对告警信息进行三组判别故障类型的实验：组一：多重故障和单一故障；组二：线路、变压器、母线故障；组三a：线路简单故障、线路+断路器拒动故障、线路+保护拒动故障；b：变压器简单故障、变压器+断路器拒动故障、变压器+保护拒动故障；c：母线简单故障、母线+断路器拒动故障、母线+保护拒动故障。组一的准确率和召回率均为1。组二和组三的实验结果如表5和表6所示。表5表6由组一至组三的实验结果可知，基于随机森林的故障诊断模型能够相对准确地判断故障类型。多重故障与单一故障的分类准确率和召回率均达到1.0。但是随着故障类型的细化，准确率和召回率有所降低。这是由于随着故障类型的细化，数据特征相似度会提升，类型判别的难度也随之增加。以天门站#1主变发生调压瓦斯永久故障为例展示模型数据，告警信息文本中出现27个可疑故障设备，其中天门站#1主变为故障设备，其余26个设备均属于非故障设备。数据填入模型后如表7所示。表7将1200篇单一故障作为训练样本，300篇单一故障作为测试样本，各故障均按表7的方式填入模型。对十次实验结果取平均值，测得召回率为0.9678，准确率为0.9685。因此，基于机器学习的电网故障诊断模型能够准确定位故障设备。综合上述实验结果，表明本发明具有良好的故障诊断性能。申请人结合说明书附图对本发明的实施例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭;王仪贤;丁睿婷;郑钰川;陈云龙;王怡;张慧婷;郭云
技术所有人：华北电力大学
我是此专利的发明人

上一篇：一种高效环保抗菌防霉含纳米成膜剂涂料及其制备方法与流程
上一篇：一种分仓式的抗衰老化妆品组合物的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。