电力运检故障文本分类方法及系统和设备与流程

文档序号:33932701发布日期:2023-04-22 12:43阅读:27来源:国知局
电力运检故障文本分类方法及系统和设备

本发明涉及电力运检故障文本分类方法及系统和设备,属于电力运检故障分类。


背景技术:

1、电站和输电设备的运行操作、维护检修以及改造换代等工作,每年会产生大量不同类型的数据,比如停电记录清单等结构化数据、故障报告等半结构化数据和运行规程等非结构化数据。由于电力运检领域数据多样化、复杂化、孤岛化,运检人员查找资料耗时较长,运检工作对专家经验依赖较大。因此,提升变电站运检工作的数字化、智能化具有十分重大意义。

2、在运检人员发现设备异常时,按工作规范要求需填写故障报告,描述故障实际情况,并归纳故障类型。虽然运检部门有详细的故障归类导则文件,但很多现场运检人员并没有看过或者并不清楚导则文件的内容,所以常常发生故障类型与故障描述不对应的情况,对后续专家检修以及之后电力数据整理与规范造成很大影响。因此,根据运检工作人员对故障的描述,智能辅助系统能够自动填写故障类型或给出故障类型置信度,对实际运检生产具有重要作用。

3、文本分类是自然语言处理(natural language processing,nlp)中一项经典且重要的任务,是许多现实应用的必要基础,比如情感分类、垃圾邮件识别、新闻主题分类等。目前,文本分类主要分为机器学习和深度学习两类方法。在大数据时代背景下,深度学习相比机器学习具有自动提取特征、准确度较高等优势,是研究的热点与重心。

4、文本分类虽然有很多性能优秀的算法,但其中绝大多数算法使用通用语料库进行评估,如果用电力运检故障文本测试,分类准确率、召回率、f1值都很低,效果十分不理想,这是因为电力运检故障文本中含有大量专业术语,通用文本分类算法无法学习或识别专业术语特征,进而无法分辨电力运检故障文本类别。因此,为了实现电力运检故障文本精准分类,需要能够学习专业领域术语特征的分类算法,即针对电力运检故障文本的分类算法。

5、但是现有的故障分析方法中,如果预先训练的语言模型或分类模型效果不理想,那么最后分类结果都会受到很大影响,并且前期语言模型和分类模型的训练会花费很长时间、占用大量算力;此外,每种文本类型都需要相对应不同参数的语言模型,已训练好的语言模型很难迁移。因此,现有的电力运检故障文本分类技术,具有成本高、难以迁移的缺点,并难以用于实际。


技术实现思路

1、针对现有技术的缺陷,本发明的目的一在于提供一种通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行的电力运检故障文本分类方法及系统和设备。

2、本发明的目的二在于提供一种利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力的电力运检故障文本分类方法。

3、本发明的目的三在于提供一种图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用的电力运检故障文本分类方法。

4、本发明的目的四在于提供一种通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行的电力运检故障文本分类系统。

5、为实现上述目的之一,本发明的第一种技术方案为:

6、电力运检故障文本分类方法,

7、包括以下内容:

8、获取电力运检故障文本;

9、构建规则提取模型,对电力运检故障文本进行知识提取,得到特征词:

10、构建故障文本网图模型,对特征词进行处理,得到故障文本网图;

11、构建图卷积神经网络模型,利用图卷积神经网络,对故障文本网图进行迭代训练,得到文本特征矩阵;其中,文本特征矩阵包括若干行特征向量;特征向量的维度为故障类别数,特征向量的每个值为对应故障类别的置信概率;

12、选取特征向量中的最大值,作为分类置信概率;

13、将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。

14、本发明经过不断探索以及试验,通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,能够识别并学习专业词汇特征,提高对电力运检故障文本类别的辨识能力,具有强专业性的优点;同时利用图卷积神经网络,对故障文本网图进行迭代训练,得到分类结果,无需使用预训练的语言模型和分类模型,具有成本低、易于迁移的优点,并提高了对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。

15、进一步,本发明是针对电力运检故障文本的分类方法,利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力。

16、更进一步,本发明的图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,并且利用多层图卷积神经网络可以让信息在节点间多次传递,使模型能够捕捉到更多邻点的特征信息,增加对电力运检故障文本的语义解释,从而改善电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,从而有效解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用。

17、作为优选技术措施:

18、电力运检故障文本包括训练集、验证集、待分类电力运检故障文本集。

19、作为优选技术措施:

20、规则提取模型的构建方法如下:

21、构建专用电气词汇表;

22、利用专用电气词汇表,对自然语言处理nlp工具的语料库进行扩充;

23、利用自然语言处理nlp工具对电力运检故障文本进行分词,得到电力运检故障文本词汇;

24、对电力运检故障文本词汇,进行清洗和去除停用词,得到一串特征词,从而构建规则提取模型;

25、其中,特征词为由电力运检故障文本中的若干电力运检故障文本词汇组成的对应集合。

26、作为优选技术措施:

27、故障网网图模型为:g=(v,e),v(|v|=n)是节点的集合,e是无向边的集合,|v|为节点数量,节点数量是电力运检故障文本数与特征词数量之和;

28、故障文本网图模型的构建方法如下:

29、根据特征词和电力运检故障文本,构建节点;

30、根据节点三种类型,构建节点间无向边;

31、根据电力运检故障文本中特征词的词频统计结果、共现词信息,计算无向边的权重,即边权值;

32、根据节点间边权值,构建邻接矩阵表示故障文本网图模型的结构特征。

33、作为优选技术措施:

34、无向边包括无向边一、无向边二、无向边三、无向边四;

35、无向边一为电力运检故障文本与电力运检故障文本之间的边,其权重为边权一;

36、无向边二为电力运检故障文本与特征词之间的边,其权重为边权二;

37、无向边三为特征词与特征词之间的边,其权重为边权三;

38、无向边四,用于加快模型收敛速度,其权重为边权四,所述边权四的取值直接为1。

39、作为优选技术措施:

40、边权一为电力运检故障文本之间的文本相似度,其通过textrank算法计算得到;

41、边权二为特征词对于所属电力运检故障文本的重要程度,其通过词频-倒排文档频次tf-idf算法得到;

42、边权三为两个特征词间的关联度,其利用共现词信息,使用固定大小的滑动窗口在电力运检故障文本的语料库中进行收集,然后用逐点交互信息法pmi计算特征词与特征词间的边权值,得到两个特征词间的关联度。

43、作为优选技术措施:

44、边权一的计算公式如下:

45、

46、其中,i、j为两个电力运检故障文本,w是同时出现在两个电力运检故障文本中的词;

47、边权二的计算公式如下:

48、

49、其中,i是特征词,j是电力运检故障文本,nij为特征词i在电力运检故障文本j中出现的次数,|d|为电力运检故障文本总数,dk为遍历的电力运检故障文本,k是遍历的序号,用于遍历语料库所有电力运检故障文本;

50、边权三的计算公式如下:

51、

52、其中,i、j为两个特征词,nsw(i)是在语料库中包含特征词i的滑窗数,nsw(j)是在语料库中包含特征词j的滑窗数,nsw(i,j)同时包含两个特征词的滑窗数,nsw是语料库滑窗总数;

53、如果pmi>0,表示两个特征词间有着高度关联度;

54、如果pmi<0,则表示两个特征词间关联度很小或不相关;

55、边权一、边权二、边权三、边权四,形成节点i与节点j之间的边权,其计算公式如下:

56、

57、其中,i、j分别为节点。

58、作为优选技术措施:

59、图卷积神经网络模型的构建方法如下:

60、利用图数据对图卷积神经网络进行训练,以捕捉到预设数量的邻点的特征信息,从而构建规则提取模型,其计算公式如下:

61、

62、其中,为归一化后的邻接矩阵,a是邻接矩阵,d为故障文本网图的度矩阵,ρ为网络激活函数,ρ(x)=max(0,x),j为图卷积层数,wj为第j层权重矩阵,l(j)为第j层特征矩阵,l(j+1)为第j+1层特征矩阵,当j=0时,l(0)=x为初始特征矩阵;

63、在训练过程中,使用梯度下降法优化权重矩阵w,损失函数为交叉熵损失函数,其计算公式如下:

64、

65、其中,是交叉熵损失函数,是带标签的电力运检故障文本的索引集合,f是输出特征向量维度,即故障类别数,ydf是标签指标矩阵,zdf是网络输出矩阵;

66、为文本特征矩阵,其每一行为节点v的特征向量,m是特征向量的维度;d为故障文本网图的度矩阵,其中,dii=∑jaij。

67、为实现上述目的之一,本发明的第二种技术方案为:

68、电力运检故障文本分类系统,

69、采用上述的电力运检故障文本分类方法;

70、其包括:规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块;

71、规则提取模块,用于提取电力运检故障文本的知识,得到特征词:

72、故障文本网图模块,用于对特征词进行处理,得到故障文本网图;

73、图卷积神经网络模块,用于对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;

74、分类处理模块,用于将分类置信概率对应的故障类别,作为该电力运检故障文本的类别,完成电力运检故障文本的分类。

75、本发明经过不断探索以及试验,通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。

76、为实现上述目的之一,本发明的第三种技术方案为:

77、电力运检故障文本分类设备,包括:

78、一个或多个处理器;

79、存储装置,用于存储一个或多个程序;

80、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的电力运检故障文本分类方法。

81、与现有技术相比,本发明具有以下有益效果:

82、本发明经过不断探索以及试验,通过构建规则提取模型、故障文本网图模型、图卷积神经网络模型,捕捉大量邻点特征信息,得到具有若干行特征向量的文本特征矩阵;并选取特征向量中的最大的值,作为分类置信概率;进而将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。

83、进一步,本发明是针对电力运检故障文本的分类方法,利用规则提取模型、故障文本网图模型,能够学习电力运检故障文本中专业术语特征,从而提高模型对电力运检故障文本的辨识能力。

84、更进一步,本发明的图卷积神经网络模型,在输入训练数据和预测数据后,经过少量迭代便可得到分类结果,无需使用预训练的语言模型和分类模型,解决了目前已有方案计算成本高、难以迁移的问题,促进了电力运检故障文本分类的实际应用。

85、再进一步,本发明经过不断探索以及试验,通过设置规则提取模块、故障文本网图模块、图卷积神经网络模块、分类处理模块,得到故障文本网图,并对故障文本网图进行迭代训练,得到与故障类别相对应的置信概率;然后将分类置信概率与故障类别进行对应,得到该电力运检故障文本的类别,完成电力运检故障文本的分类,解决了目前已有方案计算成本高、难以迁移的问题,并可以增加对电力运检故障文本的语义解释,改善了电力运检故障文本的稀疏性与非正式性,提高对故障类型的识别能力,促进了电力运检故障文本分类的实际应用,方案科学、合理,切实可行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1