一种电力调度日志缺陷分类方法与流程

文档序号:16089524发布日期:2018-11-27 22:50阅读:447来源:国知局

本发明涉及电力调度领域,尤其涉及一种电力调度日志缺陷分类方法。



背景技术:

在当前电网中,缺陷的种类繁多,如空调故障、直流系统异常、主变本体及附件异常、开关机构异常等缺陷,当出现缺陷时,调度人员往往会采用自然语言在调度日志中记录发生的缺陷。但是,由于不同调度人员在记录日志时的习惯有差异,再加上中文语言丰富多彩,常导致记录日志后,难以从日志中自动识别发生缺陷的具体类别,不利于根据缺陷发生的统计数据,制订合理的电网调度和检修决策。



技术实现要素:

本发明所要解决的技术问题是:提供一种电力调度日志缺陷分类方法,采用这种分类方法能方便的将电力日志中的具体缺陷识别出来。

本发明所采用的技术方案是:一种电力调度日志缺陷分类方法,它包括以下步骤:

S1、收集M个电力调度日志,对收集到的M个电力调度日志进行预处理,然后通过jieba分词工具对收集到的M个电力调度日志进行分词,之后将所有电力调度日志中分词后得到的不重复的词形成一个n维的词典向量,其中n为词典中的词量;

S2、切换到训练模式,收集电力调度日志作为训练日志;

S3、对训练日志进行缺陷标注;

S4、对训练日志进行预处理,然后使用jieba分词工具对训练日志进行分词;

S5、通过one-hot编码方式将第i个训练日志编码成一个维度与词典向量维度相同的特征向量,即di=(w1,w2,……,wn),即第i个训练日志中存在的词的位置wn为1,其他位置wn为0;

S6、将步骤S5得到的所有训练日志的特征向量通过χ2统计量算法进行降维,同时得到一个对测试数据进行降维的χ2统计量模型;

S7、将步骤S6降维后的训练日志特征向量和对应标记好的缺陷类型构成分类训练样本集,然后通过决策树分类算法形成一个决策树分类模型;

S8、切换到测试模式,收集电力调度日志作为测试日志;

S9、对测试日志进行预处理,然后使用jieba分词工具对测试日志进行分词;

S10、通过one-hot编码方式将测试日志进行编码得到测试日志的特征向量;

S11、将步骤S10得到的所有测试日志的特征向量通过步骤S6得到的χ2统计量模型进行降维;

S12、将步骤S11降维后得到的测试日志的特征向量输入步骤S7得到的决策树分类模型中,得到缺陷分类结果。

步骤S1、步骤S4以及步骤S9中提到的预处理包括将电力调度日志中的无意义的标点符号进行删除。

步骤S1、步骤S4以及步骤S9中提到的预处理还包括将电力调度日志中的不规范的字进行转化。

步骤S5以及步骤S11中提到的χ2统计量算法进行降维具体为度量词与日志缺陷类别直接的相关程度,其具体公式为:其中t为其中一个词,j为其中一类缺陷类型,N为日志的数量,A为词t在第j类缺陷日志中出现的次数,B为词t在不是第j类缺陷日志中出现的次数,C为第j类缺陷日志中不出现词t的次数,D为即没有词t也不是第j类缺陷的日志出现次数。

选择相关度较高的80-120个词作为关键词,即降维后的维数为80-120维。

采用以上方法与现有技术相比,本发明具有以下优点:根据one-hot编码得到一个高维的特征向量,然后通过降维得到一个低维的特征向量,之后将得到的低维特征向量与标注的缺陷分类作为样本集得到决策树分类模型,这样就可以将实际得到的日志通过这个模型得到每个日志的缺陷分类了,即不需要人工再去为每个日志去标注缺陷分类,可以通过模型得到调度日志涉及到的缺陷信息,非常方便快捷。

附图说明

图1为部分决策树模型图。

具体实施方式

以下通过具体实施方式对本发明做进一步描述,但是本发明不仅限于以下具体实施方式。

一种电力调度日志缺陷分类方法,它包括以下步骤:

S1、收集M个电力调度日志,对收集到的M个电力调度日志进行预处理,其中预处理主要是将无意义的标点符号进行删除以及将不规范的字进行转化,然后通过jieba分词工具对收集到的M个电力调度日志进行分词,jieba分词工具是一种现有技术很常规的分词工具,它可以将一段话分成多个词条,在此不详细展开,之后将所有电力调度日志中分词后得到的不重复的词形成一个n维的词典向量,其中n为词典中的词量;这里的M数量比较大,基本是上千条的日志,然后最后形成的词典里面可能有上万个词,基本电力调度日志能用到的词在这里都包括进去了;

S2、切换到训练模式,收集电力调度日志作为训练日志;

S3、对训练日志进行缺陷标注;标注的的类型分为18种,分别是空调故障,直流系统异常,主变本体及附件,开关机构异常,开关控制回路,开关压力低,闸刀/手车缺陷,设备发热,PT异常及熔丝熔断,CT异常,母线异常,线路设备异常,避雷器缺陷,电容器/电抗器缺陷,故障录波器,测控装置异常,保护异常;标注完后如下表1所示:

表1

S4、对训练日志进行预处理,然后使用jieba分词工具对训练日志进行分词;这个与步骤S1中的预处理以及分词相同,在此不详细描述,其中一条训练日志分词前后如下表2所示:

表2

S5、通过one-hot编码方式将第i个训练日志编码成一个维度与词典向量维度相同的特征向量,即di=(w1,w2,……,wn),即第i个训练日志中存在的词的位置wn为1,其他位置wn为0;这部主要是将分词后的训练日志与步骤S1中得到的词典进行比较,即词典内有上万个词条,形成一个n维的词典向量,将分词后的训练日志也形成一个n维的特征向量,n就是词典中词条的数量,即为上万条,所以训练日志得到的特征向量也是上万维的,但是训练日志里面实际的词条一般就十几条,所以训练日志得到的特征向量中有这个词条的位置为1,其他位置为0,即一个训练日志的特征向量中只有十几个位置是1,其他位置都是0;

S6、将步骤S5得到的所有训练日志的特征向量通过χ2统计量算法进行降维;主要为度量词与日志缺陷类别直接的相关程度,其具体公式为:其中t为其中一个词,j为其中一类缺陷类型,N为日志的数量,A为词t在第j类缺陷日志中出现的次数,B为词t在不是第j类缺陷日志中出现的次数,C为第j类缺陷日志中不出现词t的次数,D为即没有词t也不是第j类缺陷的日志出现次数,即每个词基于每个缺陷分类可以得到一个相关度的数值,最后排序,选择相关度最高的100个词,即得到的降维后的特征向量如果存在相关度最高的100个词,则存在这些词的位置标1,其他位置标0,然后同时得到一个对测试数据进行降维的χ2统计量模型,即相当于相关度最高的那100个词会记录下来,等到实际去分类降维时就是用到的这100个词,其中一条训练日志特征向量降维后如下表3:

表3

S7、将步骤S6降维后的训练日志特征向量和对应标记好的缺陷类型构成分类训练样本集,然后通过决策树分类算法形成一个决策树分类模型;将使用χ2降维后的特征向量和缺陷类别标签以(d1,y1),(d2,y2),...,(dN,yN)的形式训练出一个决策树模型。部分决策树模型图如图1所示,其中每个中间节点上的参数分别对应判定函数,不纯度值,覆盖样本函数和节点取值。

i)判定函数:是一个特征的取值。当特征小于等于这个值时,决策走左边,反之决策走右边。

ii)不纯度值:是当前节点的不纯度值,通过不纯度函数求出。常见的不纯度函数有信息熵(info entropy)和基尼系数(Gini Index)。在本方法中采用基尼系数,具体形式:

其中,Pi表示样本X中随机抽取一个为第i类缺陷的概率,即

iii)覆盖样本函数:是指参与此节点决策的样本个数。其中父亲节点(p)和两个孩子节点(l,r)的样本个数关系满足:p=l+r。

iv)节点取值:节点取值是一个数组。数组的长度为缺陷类别的个数。本方法中,数组长度为18。其中的数组的数值代表属于某类的个数。

每个叶子节点除了没有决策函数之外,其他参数同中间节点意义一样。

S8、切换到测试模式,收集电力调度日志作为测试日志;

S9、对测试日志进行预处理,然后使用jieba分词工具对测试日志进行分词;

S10、通过one-hot编码方式将测试日志进行编码得到测试日志的特征向量;

S11、将步骤S10得到的所有测试日志的特征向量通过步骤S6得到的χ2统计量模型进行降维,即主要将词典从上万个词变成之前得到的那100个词,即词条特征向量为100维,词条中存在那100个词的就在相对应的位置标1,否则标0;

S12、将步骤S11降维后得到的测试日志的特征向量输入步骤S7得到的决策树分类模型中,得到缺陷分类结果。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的技术人员应当理解,其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行同等替换;而这些修改或者替换,并不使相应的技术方案的本质脱离本发明各实施例技术方案的精神与范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1