基于融合分类器的电力巡检文本分类方法、装置及介质与流程

文档序号:35528323发布日期:2023-09-21 04:33阅读:52来源:国知局
基于融合分类器的电力巡检文本分类方法、装置及介质与流程

本发明涉及计算机领域,特别是涉及基于融合分类器的电力巡检文本分类方法、装置及介质。


背景技术:

1、随着能源互联网和电网智能化建设的不断推进,源荷互动场景各环节的感知能力逐步提升,数据采集系统会对新能源发电出力动态变化、可控负荷消耗的电力、源荷交互等各个动态调节过程中产生的数据进行采集,因此对于电力巡检文本数据处理技术至关重要。

2、传统的电力巡检文本数据分类方法过度依赖人力作业,无法实现自动化,或者是人工与计算机共同协作进行分类,导致分类效率较低,并且容易出错,大大限制了能源互联网和电网智能化建设的进程。


技术实现思路

1、本发明提供基于融合分类器的电力巡检文本分类方法、装置与介质,以解决在现有的电力巡检文本分类方法中,需要依靠人工进行分类,导致文本分类的效率和准确率低的问题。

2、本发明提供了基于融合分类器的电力巡检文本分类方法,包括:

3、从配电站房获取电力巡检文本数据集,对所述电力巡检文本数据集进行预处理,得到第一数据集,将所述第一数据集中的每组非结构化文本数据表示为非结构化数据的向量,得到若干非结构化数据;对所述若干非结构化数据进行分类和归一化处理,得到子矩阵;

4、使用预设的融合分类器对所述子矩阵进行训练,得到分类结果,使用所述融合分类器的嵌入层得到所述分类结果的词嵌入向量集,其中所述融合分类器是通过双向循环网络结构构建而成;

5、将所述词嵌入向量集输入预设的双向循环神经网络模型,从前后两个方向对所述词嵌入向量集进行编码,对编码后的数据进行特征提取,得到所述电力巡检文本数据集的分类结果。

6、本发明通过对电力巡检文本数据集进行预处理,能够消除大量无用的介词、重复词以及大小写不统一的词,提高数据计算的准确率和效率;通过融合分类器对子矩阵进行训练,可以达到对数据进行初步分类的效果;在初步分类的基础上,通过双向循环神经网络模型进行进一步分类,由于双向循环神经网络模型能够捕捉嵌入向量集中序列前后两个方向的信息,因此可以更好地处理长序列数据,并且能够捕捉更多的上下文信息,得到分类结果,提高模型分类的准确性。相比于现有技术,可以实现对巡检文本数据的全自动分类,提高了文本数据分类的效率和准确率。

7、作为优选方案,对所述电力巡检文本数据集进行预处理,得到第一数据集,具体为:

8、将所述电力巡检文本数据集中的每个字母都转化为小写,并删除没有重要意义的介词,得到初始数据集;

9、若确定所述初始数据集中同一个含义的第一单词有不同的形式,把不同形式的第一单词合并为同一个单词,遍历所述初始数据集中的单词,得到所述第一数据集。

10、本优选方案通过对电力巡检文本数据集进行字母转化、并删除没有重要意义的介词,以及词干提取,达到对电力巡检文本数据集进行预处理的目的,由于在收集的电力巡检文本数据集中包含大量无用的介词、重复词以及大小写不统一的词,在后续基于统计学的算法中,这些不必要的特征会对系统性能产生不利影响,因此,通过消除这些不必要的特征,可以提高数据计算的准确率和效率。

11、作为优选方案,对所述若干非结构化数据进行分类和归一化处理,得到子矩阵,具体为:

12、使用表示数据来源的标签对所述若干非结构化数据进行分类,得到子数据集,对所述子数据集进行归一化处理,得到归一化数据集;使用所述归一化数据集的数据,建立子矩阵。

13、本优选方案的若干非结构化数据是非结构化的数据形式,无法直接作为后续融合分类器的输入,因此通过把若干非结构化数据转化为子矩阵,能够直接把子矩阵输入融合分类器进行处理,以便进行下一步操作。

14、作为优选方案,使用预设的融合分类器对所述子矩阵进行训练,得到分类结果,具体为:

15、将所述子矩阵输入所述融合分类器,通过所述融合分类器在所述子矩阵中数据的文本序列首位加入特殊标记[cls]来表示一条文本或一个句子对,在所述子矩阵中数据的句子分隔处加上[sep]来表示句子中记词的嵌入向量、句子词的嵌入向量以及位置词的嵌入向量,使用toki表示所述子矩阵中数据的句子个数标记,使用ei表示所述个数标记的嵌入向量,使用ti表示所述子矩阵中数据的特征向量,得到标记数据集;

16、使用所述融合分类器的分类层对所述标记数据集进行分类,得到分类结果。

17、本优选方案从不同的角度对子矩阵中的数据进行标记,有利于后续快速对这些数据进行分类,得到分类结果。

18、作为优选方案,使用所述融合分类器的分类层对所述标记数据集进行分类,得到分类结果,具体为:

19、将所述标记数据集输入所述融合分类器的分类层,所述分类层使用预设函数对所述标记数据集中的若干数据进行标签的概率计算,根据所述若干数据各自对应的概率最大标签对所述若干数据进行分类,得到分类结果。

20、本优选方案中,标记数据集的若干数据各自可能对应多个不同的标签,通过计算标签的概率,能对标记数据集的若干数据进行初步分类。

21、作为优选方案,使用所述融合分类器的嵌入层得到所述分类结果的词嵌入向量集,具体为:

22、将所述分类结果输入所述融合分类器的嵌入层,使用所述[cls]和[sep]来区分所述分类结果中的句子,将区分好的若干句子通过所述融合分类器的隐藏层输出,得到所述词嵌入向量集。

23、本优选方案使用[cls]和[sep]来区分分类结果中的句子,由于之前使用了[cls]和[sep]对数据进行标记处理,[cls]是作为输入的起始符、[sep]是分隔符,所以可以对若干句子起到很好的区分作用。

24、作为优选方案,其中所述融合分类器是通过双向循环网络结构构建而成,具体为:

25、使用所述双向循环网络结构来学习数据的上下文语义特征,使用预设的神经网络最大池化层对数据进行特征选择,在预设的textcnn分类器和textrnn分类器的基础上,结合所述双向循环网络结构和预设的神经网络最大池化层,构建所述融合分类器。

26、本优选方案中的融合分类器是在预设的textcnn分类器和textrnn分类器的基础上,结合双向循环网络结构和预设的神经网络最大池化层构建而成,拥有textcnn分类器和textrnn分类器的结构简单、数据处理速度快、擅长处理序列结构、能够学习到句子的上下文信息的优点,同时可以避免参数较多导致分类器运行效率较低、容易丢失重要信息的缺点。

27、作为优选方案,从前后两个方向对所述词嵌入向量集进行编码,对编码后的数据进行特征提取,得到所述电力巡检文本数据集的分类结果,具体为:

28、使用所述双向循环神经网络模型的第一编码公式和第二编码公式分别对所述嵌入向量集进行编码,使用所述双向循环神经网络模型的提取公式对编码后的数据进行特征提取,得到所述分类结果;

29、所述第一编码公式为:

30、

31、所述第一编码公式为:

32、

33、所述提取公式为:

34、

35、其中,f表示函数关系,w(和)、v(和)和u为双向循环神经网络模型中不同权重的矩阵,b(和)和c为双向循环神经网络模型中不同偏置的矩阵,ht―1和ht+1分别为前一时刻和后一时刻的编码结果,xt为t时刻输入的嵌入向量集。

36、本优选方案是在初步分类的基础上,通过双向循环神经网络模型进行进一步分类,由于双向循环神经网络模型能够捕捉嵌入向量集中序列前后两个方向的信息,因此可以更好地处理长序列数据,并且能够捕捉更多的上下文信息,得到分类结果,提高模型分类的准确性。

37、本发明提供了基于融合分类器的电力巡检文本分类装置,包括:

38、数据处理模块,用于获取电力巡检文本数据集,对所述电力巡检文本数据集进行预处理,得到第一数据集,将所述第一数据集中的每组非结构化文本数据表示为非结构化数据的向量,得到若干非结构化数据;对所述若干非结构化数据进行分类和归一化处理,得到子矩阵;

39、数据训练模块,使用预设的融合分类器对所述子矩阵进行训练,得到分类结果,使用所述融合分类器的嵌入层得到所述分类结果的词嵌入向量集,其中所述融合分类器是通过双向循环网络结构构建而成;

40、特征提取模块,用于将所述词嵌入向量集输入预设的双向循环神经网络模型,从前后两个方向对所述词嵌入向量集进行编码,对编码后的数据进行特征提取,得到所述电力巡检文本数据集的分类结果。

41、作为优选方案,所述数据处理模块包括:

42、预处理单元,用于将所述电力巡检文本数据集中的每个字母都转化为小写,并删除没有重要意义的介词,得到初始数据集;

43、若确定所述初始数据集中同一个含义的第一单词有不同的形式,把不同形式的第一单词合并为同一个单词,遍历所述初始数据集中的单词,得到所述第一数据集;

44、子矩阵获取单元,用于使用表示数据来源的标签对所述若干非结构化数据进行分类,得到子数据集,对所述子数据集进行归一化处理,得到归一化数据集;使用所述归一化数据集的数据,建立子矩阵。

45、作为优选方案,所述数据训练模块包括:

46、标记单元,用于将所述子矩阵输入所述融合分类器,通过所述融合分类器在所述子矩阵中数据的文本序列首位加入特殊标记[cls]来表示一条文本或一个句子对,在所述子矩阵中数据的句子分隔处加上[sep]来表示句子中记词的嵌入向量、句子词的嵌入向量以及位置词的嵌入向量,使用toki表示所述子矩阵中数据的句子个数标记,使用ei表示所述个数标记的嵌入向量,使用ti表示所述子矩阵中数据的特征向量,得到标记数据集;

47、使用所述融合分类器的分类层对所述标记数据集进行分类,得到分类结果;

48、分类单元,用于将所述标记数据集输入所述融合分类器的分类层,所述分类层使用预设函数对所述标记数据集中的若干数据进行标签的概率计算,根据所述若干数据各自对应的概率最大标签对所述若干数据进行分类,得到分类结果;

49、区分单元,用于将所述分类结果输入所述融合分类器的嵌入层,使用所述[cls]和[sep]来区分所述分类结果中的句子,将区分好的若干句子通过所述融合分类器的隐藏层输出,得到所述词嵌入向量集;

50、分类器构建单元,用于使用所述双向循环网络结构来学习数据的上下文语义特征,使用预设的神经网络最大池化层对数据进行特征选择,在预设的textcnn分类器和textrnn分类器的基础上,结合所述双向循环网络结构和预设的神经网络最大池化层,构建所述融合分类器。

51、作为优选方案,所述特征提取模块具体为:

52、使用所述双向循环神经网络模型的第一编码公式和第二编码公式分别对所述嵌入向量集进行编码,使用所述双向循环神经网络模型的提取公式对编码后的数据进行特征提取,得到所述分类结果;

53、所述第一编码公式为:

54、

55、所述第一编码公式为:

56、

57、所述提取公式为:

58、

59、其中,f表示函数关系,w(和)、v(和)和u为双向循环神经网络模型中不同权重的矩阵,b(和)和c为双向循环神经网络模型中不同偏置的矩阵,ht―1和ht+1分别为前一时刻和后一时刻的编码结果,xt为t时刻输入的嵌入向量集。

60、本发明提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被计算机调用并执行,实现如上所述基于融合分类器的电力巡检文本分类方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1