本申请涉及输变电设备安全及人工智能,尤其涉及一种输变电设备的实体识别方法、装置、设备及存储介质。
背景技术:
1、随着大力推动电网数字化转型升级,这对传统电力设备的运行维护提出了更高的要求。输变电设备作为电力系统中的核心设备,不同程度的故障都会对整个电网的安全稳定运行产生挑战。快速准确地掌握输变电设备信息,提升输变电设备检修维护效率和水平,是保证用户用电质量的重要基础。电力系统中的各种数据和变量常常以非结构化的形式存储,计算机难以理解其中的语义信息。如何从海量的数据中快速、准确地提取出有价值的信息,提升输变电设备运维效率和水平,是目前电力领域迫切需要解决的问题。
2、知识图谱是一种将非结构化的知识和数据转化为结构化知识的数据库。实体识别是构建大规模知识图谱的重要环节,是实现自动化构建大规模知识图谱的重要技术,其目的在于从不同来源、不同结构的数据中进行实体提取并存入知识图谱中。传统的静态单词矢量模型如word2vec和glove,每一个单词都对应着一个方向,因此存在无法描述的多义单词现象,不能很好表达其上下文语言间的关系,导致实体识别不准确。
技术实现思路
1、本申请的主要目的在于提供一种输变电设备的实体识别方法、装置、设备及存储介质,可以解决现有技术中的实体识别不准确的技术问题。
2、为实现上述目的,本申请第一方面提供一种输变电设备的实体识别方法,该方法包括:
3、将输变电设备文本序列输入至已训练的实体识别模型中的chinesebert层,得到输变电设备文本序列中每个字符的字符向量、字形向量、字音向量和位置编码向量;
4、利用chinesebert层分别对同一个字符的字符向量、字形向量、字音向量进行融合,得到每个字符的融合向量;
5、分别将每个字符对应的融合向量和位置编码向量输入至bert层,得到每个字符的字向量;
6、将所有字符的字向量输入至双通道神经网络层中,获取每个字符对应的上下文特征和局部特征;
7、分别对每个字符的上下文特征和局部特征进行拼接,得到每个字符的拼接特征;
8、将所有字符的拼接特征输入至crf层进行实体识别,得到输变电设备文本序列的实体识别结果。
9、为实现上述目的,本申请第二方面提供一种输变电设备的实体识别装置,该装置包括:
10、第一特征提取模块,用于将输变电设备文本序列输入至已训练的实体识别模型中的chinesebert层,得到输变电设备文本序列中每个字符的字符向量、字形向量、字音向量和位置编码向量;
11、第一融合模块,用于利用chinesebert层分别对同一个字符的字符向量、字形向量、字音向量进行融合,得到每个字符的融合向量;
12、第二融合模块,用于分别将每个字符对应的融合向量和位置编码向量输入至bert层,得到每个字符的字向量;
13、第二特征提取模块,用于将每个字符的字向量输入至双通道神经网络层中,获取每个字符对应的上下文特征和局部特征;
14、拼接模块,用于分别对每个字符的上下文特征和局部特征进行拼接,得到每个字符的拼接特征;
15、识别模块,用于将所有字符的拼接特征输入至crf层进行实体识别,得到输变电设备文本序列的实体识别结果。
16、为实现上述目的,本申请第三方面提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
17、将输变电设备文本序列输入至已训练的实体识别模型中的chinesebert层,得到输变电设备文本序列中每个字符的字符向量、字形向量、字音向量和位置编码向量;
18、利用chinesebert层分别对同一个字符的字符向量、字形向量、字音向量进行融合,得到每个字符的融合向量;
19、分别将每个字符对应的融合向量和位置编码向量输入至bert层,得到每个字符的字向量;
20、将所有字符的字向量输入至双通道神经网络层中,获取每个字符对应的上下文特征和局部特征;
21、分别对每个字符的上下文特征和局部特征进行拼接,得到每个字符的拼接特征;
22、将所有字符的拼接特征输入至crf层进行实体识别,得到输变电设备文本序列的实体识别结果。
23、为实现上述目的,本申请第四方面提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:
24、将输变电设备文本序列输入至已训练的实体识别模型中的chinesebert层,得到输变电设备文本序列中每个字符的字符向量、字形向量、字音向量和位置编码向量;
25、利用chinesebert层分别对同一个字符的字符向量、字形向量、字音向量进行融合,得到每个字符的融合向量;
26、分别将每个字符对应的融合向量和位置编码向量输入至bert层,得到每个字符的字向量;
27、将所有字符的字向量输入至双通道神经网络层中,获取每个字符对应的上下文特征和局部特征;
28、分别对每个字符的上下文特征和局部特征进行拼接,得到每个字符的拼接特征;
29、将所有字符的拼接特征输入至crf层进行实体识别,得到输变电设备文本序列的实体识别结果。
30、采用本申请实施例,具有如下有益效果:
31、本申请提供一种基于chinesebert、双通道神经网络和crf实现了输变电设备的实体识别,采用该方法对输变电设备数据进行实体识别,可有效解决词向量特征单一和忽略文本中局部特征的问题,可有效提升词向量语义表达能力,使词向量表征更符合具体上下文语境,能够更准确地表达输变电设备的相关特征,准确识别出文本中的实体,对实体识别研究具有一定的指导意义。
1.一种输变电设备的实体识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述双通道神经网络层包括并行的长短期记忆网络和卷积神经网络,其中,所述长短期记忆网络为lstm网络或bi-lstm网络;
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络包括卷积层和池化层,所述局部特征通过以下步骤计算得到:
4.根据权利要求2所述的方法,其特征在于,所述长短期记忆网络为bi-lstm网络,bi-lstm网络包括2个不同方向的并行层:前向层和后向层,2个并行层分别从句子的前端和末端开始运行,存储了来自2个方向的句子信息,2个并行层均通过以下公式3-8得到输出:
5.根据权利要求1所述的方法,其特征在于,所述将所有字符的所述拼接特征输入至crf层进行实体识别,得到所述输变电设备文本序列的实体识别结果,包括:
6.根据权利要求1所述的方法,其特征在于,所述分别将每个字符对应的所述融合向量和位置编码向量输入至bert层,得到每个字符的字向量,包括:
7.根据权利要求1所述的方法,其特征在于,所述字形向量通过以下步骤获取到:
8.一种输变电设备的实体识别抽取装置,其特征在于,所述装置包括:
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。