本发明涉及一种电力二次工作安全措施票文本向量化方法及相关装置,属于目标跟踪。
背景技术:
1、二次工作安全措施票是检修作业前隔离待检修设备的核心依据,票面数据的准确性关系这二次安措工作的准确进行。当前基于深度学习的自然语义处理基础的发展为机器自动校对工作安全措施票文本提供了可能。
2、安全措施票文本的特征向量化能够便于后续模型的输入应用,例如训练机器学习模型,例如分类器或聚类算法,以匹配或验证票面内容。
技术实现思路
1、目的:鉴于以上技术问题中的至少一项,本发明提供一种电力二次工作安全措施票文本向量化方法及相关装置,用于实现电力二次工作安全措施票命名中文本的特征向量化。
2、本发明采用的技术方案为:
3、第一方面,本发明提供了一种电力二次工作安全措施票文本向量化方法,包括:
4、获取目标二次工作安全措施票;
5、利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用electra模型构建而成;
6、基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;其中所述词汇表表示为词汇的索引系统,每个词汇对应一个唯一的索引;
7、利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;其中所有词嵌入向量均为一个固定长度;
8、基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。
9、在一些实施例中,所述electra模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:
10、获取电力安全措施相关的专业名词;其中所述专业名词包括电力领域的术语或常用词汇;
11、将所述专业名词按照词典格式写入词典中;
12、利用所述词典训练electra模型或将词典加载进electra模型中,对模型进行优化,得到预训练好的分词模型。
13、在一些实施例中,所述词典格式包括:
14、词汇名称,词频,词性。
15、在一些实施例中,所述预训练的词嵌入模型采用word2vec,通过在大型语料库上学习得到。
16、在一些实施例中,在得到目标文本的向量序列之后,还包括:对所述向量序列进行填充或截断,得到处理后的向量序列,以使所有文本的向量序列具有相同的长度;其中所述处理后的向量序列的长度根据后续模型要求的输入长度决定。
17、在一些实施例中,对所述向量序列进行填充或截断,包括:
18、确定最大序列长度;
19、对于长度小于最大序列长度的向量序列,添加填充符号至序列末尾,直到其长度达到最大序列长度;
20、对于长度超过最大序列长度的向量序列,进行前截断或后截断,直到其长度达到最大序列长度。
21、在一些实施例中,所述填充符号包括:<pad>。
22、第二方面,本发明提供了一种电力二次工作安全措施票文本向量化装置,包括:
23、获取模块,被配置为:获取目标二次工作安全措施票;
24、分词模块,被配置为:利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;其中所述分词模型采用electra模型构建而成;
25、构建模块,被配置为:基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;其中所述词汇表表示为词汇的索引系统,每个词汇对应一个唯一的索引;
26、生成模块,被配置为:利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;其中所有词嵌入向量均为一个固定长度;
27、转换模块,被配置为:基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。
28、第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
29、第四方面,本发明提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。
30、第五方面,本发明提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
31、有益效果:本发明提供的电力二次工作安全措施票文本向量化方法及相关装置,具有以下优点:利用electra模型构建中文工作安全措施票文本分词预处理模型,获取丰富的词性信息,学习丰富的语言特征,结合额外的规则算,来将专业名词按照词典格式写入词典中,用于训练新的分词模型或将词典加载进分词模型中,对electra模型进行优化;利用预训练好的分词模型将目标二次工作安全措施票中的文本进行分词,得到分词结果;然后基于所述分词结果,统计所有文本中出现的词汇的词频,并基于词频构建词汇表;利用预训练的词嵌入模型为词汇表中的每个词汇生成相应的词嵌入向量;基于构建的词汇表,将目标二次工作安全措施票中目标文本的每个词汇转换为对应的索引,并根据索引替换为相应的词嵌入向量,得到目标文本的向量序列。
1.一种电力二次工作安全措施票文本向量化方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述electra模型包括一个生成器和一个判别器;所述分词模型的获取方法包括:
3.根据权利要求2所述的方法,其特征在于,所述词典格式包括:
4.根据权利要求1所述的方法,其特征在于,所述预训练的词嵌入模型采用word2vec,通过在大型语料库上学习得到。
5.根据权利要求1所述的方法,其特征在于,在得到目标文本的向量序列之后,还包括:对所述向量序列进行填充或截断,得到处理后的向量序列,以使所有文本的向量序列具有相同的长度;其中所述处理后的向量序列的长度根据后续模型要求的输入长度决定。
6.根据权利要求5所述的方法,其特征在于,对所述向量序列进行填充或截断,包括:
7.根据权利要求6所述的方法,其特征在于,所述填充符号包括:<pad>。
8.一种电力二次工作安全措施票文本向量化装置,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
10.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。