一种对质量较差电网设备缺陷文本的质量提升方法与流程

文档序号:16069188发布日期:2018-11-24 12:59阅读:513来源:国知局

本发明属于电力系统领域,具体地说是一种对质量较差电网设备缺陷文本的质量提升方法。

背景技术

随着智能电网建设的深入推进,电力系统各个环节产生了海量的多源异构数据,以文本、音频、图像为代表的非结构化数据增长最为迅速。其中描述电网设备缺陷的文本,蕴含着与设备及电网安全最为密切的信息,受到了技术和管理人员的重视,比如为掌握缺陷规律或设备质量情况,对缺陷进行各种视角的分类和统计。由于人工对缺陷文本进行分类和统计,工作量大、效率低,结果依赖于人工主观经验,如何提高缺陷文本的挖掘效率是需要解决的问题。

目前,自然语言处理技术日益成熟,利用机器学习方法或者深度学习方法对中文文本进行挖掘已可实现。实际的电网设备缺陷文本常常存在一些各种原因造成的不规范问题,如描述不完整、有歧义等,若将这些存在质量问题的文本作为有效文本进行挖掘,会给挖掘结果带来一定偏差。因此需要一种对质量较差的文本进行质量提升的方法,为电网设备缺陷文本挖掘提供有质量保证的文本。

与电网的结构化数据挖掘研究相比,非结构化的文本数据挖掘研究还相对较少。目前,国外有学者通过数据挖掘手段对电网历史故障文本进行了研究,对文本中包含的缺陷进行了统计,但研究对象是具有较强规律的故障工单。国内对电网文本的挖掘大部分针对自动生成的、具有很强规范性的操作票。电网设备缺陷文本由于语义更为复杂,进行文本挖掘更具难度。一些研究针对电网设备缺陷文本,进行了不同目的的挖掘,然而共性的问题是挖掘结果受缺陷文本质量影响较大。对于文本质量,目前尚没有提升文本质量的方法公开发表。



技术实现要素:

本发明所要解决的技术问题是针对由于电网设备缺陷文本质量存在的问题给电网文本挖掘结果带来的偏差,提出一种对质量较差的电网设备缺陷文本质量提升的方法。

本发明解决技术问题所采取的技术方案为:

首先,利用自然语言处理领域的中文文本相似度计算方法,结合国家电网公司输变电一次设备缺陷分类标准(简称“标准”),从标准中找出与实际缺陷最相似的标准表述形式。将缺陷文本按缺陷等级分类,结合缺陷文本质量检测方法找出的缺陷文本存在的问题,对质量较差的历史缺陷文本进行修正,实现对历史缺陷文本质量的提升。利用深度学习领域的一种文本表示模型,词向量映射(word2vec)模型,结合缺陷文本质量检测方法得到的缺陷文本在不同指标上的得分,给出一条新录入缺陷文本的具体修正建议,实现对新录入缺陷文本的质量保证。

然后,对修正前后的缺陷文本进行比较,并利用机器学习和深度学习中已有的不同文本分类方法对缺陷文本按缺陷等级进行分类,通过修正前后质量检测结果和分类准确率验证质量提升方法的有效性。

本发明的有益效果:在电网设备缺陷文本质量检测结果的基础上,针对具有不完整、不具体、冗余度过高、缺陷等级和缺陷描述不匹配等问题的质量较差的缺陷文本,发明了一种质量提升方法。对中文文本相似度算法进行改进,修改了“文本-词语”矩阵的词语加权方式,并采用潜在狄利克雷分布模型进行降维,利用js距离找出实际缺陷文本对应的国家电网输变电一次设备缺陷分类标准中的标准语句,对质量较差的缺陷文本进行修正。对新录入文本经质量检测后,若发现存在质量问题,给出修正建议。经算例验证,修正后的缺陷文本在质量检测结果上有较大提升,利用机器学习和卷积神经网络模型分类时结果更为准确,证明了质量提升方法的有效性。本发明为实际质量较差的电网缺陷文本提出了一种质量提升方法,从源头上规范了缺陷文本、保证了缺陷文本的质量,为缺陷文本挖掘提供了更为可靠准确的文本数据,进而改善了文本挖掘效果,同时也为电网设备其他文本的质量提升提供了示范。

附图说明

图1历史缺陷文本质量提升流程;

图2修正前后不同类型设备缺陷文本质量检测的平均结果。

具体实施方式

本发明结合国家电网公司输变电一次设备缺陷分类标准,利用自然语言处理领域的中文文本相似度计算方法和词向量映射模型,发明了一种对质量较差历史缺陷文本的修正方法,流程如图1所示,并且发明了新录入缺陷文本的质量保证方法。然后对实际缺陷文本中质量较差的文本进行质量提升,根据修正前后质量检测结果和机器学习等文本分类方法的分类准确率验证质量提升的有效性。具体步骤如下:

步骤1.利用自然语言处理领域的中文文本相似度计算方法,对国家电网公司输变电一次设备缺陷分类标准(简称“标准”)和实际历史缺陷文本进行处理,生成“分类标准-主题”矩阵和“缺陷文本-主题”矩阵,具体方法为:

(1)对标准和实际缺陷文本进行分词和去除停用词的预处理,然后分别生成“词语-缺陷文本”矩阵和“词语-标准”矩阵,矩阵中的行向量即为缺陷文本向量和标准向量,矩阵中的不同列代表不同词语,矩阵中的词语加权方式采用“tf-idf”加权,如下:aij=tfij*idfi,

其中,aij代表词语权重;tfij是词语i在缺陷文本j中出现的频率;idfi代表出现词语i的文本的频率倒数;ndoc是缺陷文本总数;gfi代表词语i在所有缺陷文本中出现的频率。

(2)利用潜在狄利克雷分布(latentdirichletallocation,lda)模型对采用上述词语加权方式得到的“词语-标准”矩阵进行降维,生成“标准-主题”矩阵z,再按标准的缺陷等级“危急、严重、一般”,生成三个“分类标准-主题”矩阵z1,z2,z3。z,z1,z2,z3的列向量即为标准语句对应的标准向量。对历史缺陷文本,利用生成矩阵z,z1,z2,z3时已经确定的lda模型参数,以及历史缺陷文本的缺陷等级,对“词语-缺陷文本”矩阵降维,生成历史缺陷文本向量q及分类历史缺陷文本向量q1(或q2、q3),不同的历史缺陷文本向量构成“缺陷文本-主题”矩阵。

步骤2.结合实际缺陷文本的缺陷等级,对质量较差历史缺陷文本进行修正,具体方法为:

(1)采用js距离计算缺陷文本向量q和矩阵z中标准向量间的相似度,找出相似度最高标准向量,进而判断实际缺陷文本和标准的语义相似程度。js距离表达式为:sim(q1,z)的取值范围为(0,1);q1为缺陷文本向量,z为标准向量;dkl为同样表示概率向量差异的kl距离,如下式:zj和q1j为向量z和q1中的元素;

(2)通过判断实际缺陷文本和标准的相似度是否大于0.6、质量评分s是否大于70分,以及实际缺陷文本的缺陷等级和最相似的标准的缺陷等级是否一致,对历史缺陷文本中可能存在的缺陷等级与缺陷描述不匹配的问题加以修正;

(3)对于具有保证正确性的缺陷等级的缺陷文本,同样采用上述判断指标,在矩阵z1,z2,z3中找出和分类历史缺陷文本向量q1(或q2、q3)最相似的标准向量,利用标准向量对应的标准文本对质量较差的历史缺陷文本进行修正。

步骤3.利用深度学习领域的一种文本表示模型——词向量映射(word2vec)模型,结合由缺陷文本质量检测方法得到的缺陷文本在不同指标上的得分,给出一条新录入缺陷文本的具体修正建议,其方法如下:

(1)首先根据新录入缺陷文本在不同检测指标上的得分判断出其在缺陷描述或是设备分层上的问题;

(2)对于不够完整和冗余的问题可根据步骤2中方法进行修正,对于设备分层不够精确的问题,利用word2vec模型生成设备分层中不同词语的词向量,根据已存在的词,利用余弦相似度求出最可能缺少的词语,作为补全设备分层的修正建议。

步骤4.对实际电网设备缺陷文本中质量较差的文本进行质量提升,对修正前后的缺陷文本进行比较,并利用机器学习和深度学习中已有的不同文本分类方法对缺陷文本按缺陷等级进行分类,通过修正前后质量检测结果和分类准确率验证质量提升方法的有效性。

应用例

将本发明提出的电网设备缺陷文本质量提升方法应用于实际的25000多条不同类型设备的缺陷文本。以主变压器为例,给出修正前后的历史缺陷文本和质量检测结果如表1,修正前后缺陷等级不变,故不重复列出。从表1可以看出,两条缺陷文本修正前的设备分层不够精确,缺陷描述中缺少漏油速度和变色程度,修正后已经补全。

表1修正前后的历史缺陷文本及其质量检测结果

对五类设备的缺陷文本给出修正前后质量检测的平均结果如图2,可以看出不同类型设备缺陷文本经修正后质量检测的平均结果均有不同程度的提升。

以主变压器为例,利用前述质量提升方法给出新录入文本的指标得分及修正建议如表2。以表中第一条文本为例,给出修正建议的具体过程如下:首先利用字符串匹配判断出文本在设备分层上的描述为“主变”、“有载开关”、“分接开关”、“呼吸器”,分别位于设备分层的设备类型、部件、部件种类、部位层次,缺失层为“设备种类”;由于精确度得分大于0.6小于1,利用word2vec得到四个词的词向量,求出位于“设备种类”层并且和上述四个向量夹角余弦平均值最大的词为“油浸变压器”,作为设备分层缺失描述;由于完整度得分为0.8,利用前述相似度计算方法,得到最相似标准语句的缺陷程度部分为“硅胶潮解变色部分超过总量的2/3”,为工作人员补全新录入缺陷文本的缺陷程度提供参考。

表2新录入文本在不同指标上的得分及修正建议

利用机器学习和卷积神经网络(cnn)分类模型对修正前后的历史缺陷文本进行分类。以主变压器为例,分类结果如表3和表4。其中,严重错误率定义为将“一般”误分类为“危急”或“危急”误分类为“一般”的情况占文本总数的百分比。从准确率和严重错误率可以看出缺陷文本在修正后分类结果有了明显改善,证明了对质量较差缺陷文本质量提升方法的有效性。

表3机器学习模型对修正前后主变缺陷文本分类结果统计

表4cnn模型对修正前后主变缺陷文本分类结果统计

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1