1.一种基于机器学习的电网故障诊断方法,包括以下步骤:
s1:告警信息文本预处理,将告警信息的设备与属性进行分词处理;
s2:构建基于随机森林的电网故障诊断模型,划分训练集与测试集,提取告警信息文本的时序特征,将样本数据填入所述模型;
s3:对训练集样本进行bootstrap重抽样,生成k个训练子集;
s4:根据随机森林生成k棵决策树;
其中,随机森林中随机选取的特征数目取mtry=log2(m+1),m为样本输入特征维数;
随机森林规模ntree的大小根据分类结果调整;
s5:将测试集样本输入所述故障诊断模型,得到故障诊断结果。
2.根据权利要求1所述的方法,其特征在于,
所述步骤s1包括:
s11:将告警信息文本的字符数小于等于13的设备信息存入建立的空词典,分别记为{d1,d2,…,dn};
s12:将告警信息文本的字符数大于13的设备信息依次查找词典,与{d1,d2,…,dn}进行匹配;
s13:若匹配成功,将匹配成功的字段与剩下的字段切分;
s14:若匹配不成功,跳过此设备信息,将下一个设备信息与词典进行匹配;
s15:重复以上步骤,直到所有设备信息匹配完成。
3.根据权利要求1或2所述的方法,其特征在于,
步骤s2中构建基于随机森林的电网故障诊断模型,包括:
将告警信息文本中的十个指标作为模型特征:设备出现次数、设备开始动作时间、设备持续动作时间、故障事件信息数量、故障事件持续时间、涉及最高电压等级、涉及电压等级数、涉及厂站数量和设备电压等级以及所对应的标签,建立一个十维空间并将其用向量d表示:
d=(f,t,δt,c,e,h,n,s,v,l)
式中:f为可疑故障设备出现次数,表示各告警信息文本中所有可疑设备各自出现的次数,其值设为fi,则第k个告警信息文本中的第i个可疑故障设备出现的次数为
t为可疑故障设备开始动作的时间,表示各告警信息文本中所有可疑故障设备各自开始动作的时间,其值设为ti,则第k个告警信息文本中第i个可疑故障设备开始动作时间为
δt为可疑故障设备动作持续时间,表示各告警信息文本中所有可疑故障设备各自从动作到复归的时间间隔,其值设为δti,则第k个告警信息文本中第i个可疑故障设备动作持续时间为
c为告警信息文本中的故障信息数量,表示各告警信息文本的信息条数,其值设为c,则第k个告警信息文本中信息条数为
e为故障持续时间,表示各告警信息文本第一条告警信息与最后一条告警信息间的时间间隔,其值设为e,则第k个告警信息文本中告警信息持续时间为
h为故障涉及的最高电压等级,表示故障发生后各告警信息文本所涉及的最高电压等级,其值设为h,则第k个告警信息文本中涉及的最高电压等级为
n为故障涉及的电压等级数量,表示故障发生后各告警信息文本所涉及的电压等级数量,其值设为n,则第k个告警信息文本中所涉及的电压等级数量为
s为故障涉及的厂站数量,用来表示故障发生后各告警信息文本所涉及的厂站数量,其值设为s,则第k个告警信息文本中所涉及的厂站数量为
v为可疑故障设备电压等级,表示各告警信息文本中各可疑故障设备的电压等级,其值设为v,则第k个告警信息文本中第i个可疑故障的电压等级为
l为告警信息文本对应的标签。
4.根据权利要求3所述的方法,其特征在于,
l为告警信息文本对应的标签,如果进行二分类,则lk=0或lk=1,如果进行三分类,则lk=0,或lk=1,或lk=2。
5.根据权利要求3所述的方法,其特征在于,所述步骤s3包括:
采用bootstrap重抽样法从训练集的原始样本集中抽取多组样本,分别对各组样本进行训练,由此生成k个训练子集。
6.根据权利要求3所述的方法,其特征在于,所述步骤s4包括:
所述随机森林中,综合所有决策树的投票结果得到最终分类。