本技术涉及文本数据处理,尤其涉及一种基于关系抽取的能源文本数据结构化方法及装置。
背景技术:
1、当前以文本类型的能源大数据无法直接应用于数据挖掘,所以需要将对能源文本数据转化为结构清楚和关系明确的数据,以利于数据存储和数据分析。
2、目前,应用于文本数据的结构化方法包括模板匹配、关键词提取、命名实体识别以及实体关系抽取等。其中,传统的模板匹配和关键词提取在处理文本数据时严重依赖于预设模板与关键词,若文本数据无法匹配预设模板或不包含关键词,则无法识别出文本数据中的结构化信息。命名实体识别可以识别文本数据中的实体,从而提取出可能具有关系的实体,但泛文本领域的实体与能源领域的实体在数据特征上存在较大差异,直接应用容易出现实体识别不全和类别标签错误等情况。可见,传统方法对于能源文本数据上的应用存在局限性,因此亟需一种针对能源文本数据特征的结构化方法。
技术实现思路
1、本技术提供了一种基于关系抽取的能源文本数据结构化方法及装置,以解决传统文本数据结构化方法在能源文本数据的应用上存在局限性的技术问题。
2、为了解决上述技术问题,第一方面,本技术提供了一种基于关系抽取的能源文本数据结构化方法,包括:
3、获取第一能源文本数据集,所述第一能源文本数据集包括多个能源文本数据;
4、利用预训练语言模型,提取所述第一能源文本数据集中的能源文本数据的实体特征,并建立所述能源文本数据之间的实体关系,得到第二能源文本数据集;
5、基于所述能源文本数据的能源类型,对所述第二能源文本数据集中的能源文本数据进行数据增强,得到第三能源文本数据集;
6、基于所述第三能源文本数据集,对预设神经网络模型进行迭代训练,直至所述预设神经网络模型达到预设收敛条件,得到数据结构化模型;
7、利用所述数据结构化模型,对待结构化能源文本数据进行结构化,生成结构化数据报表。
8、在一些实现方式中,所述获取第一能源文本数据集,包括:
9、基于预设关键词库,从互联网爬取与预设关键词对应的多个能源文本数据,所述预设关键词库包括多个预设关键词;
10、基于预设关系库,以三元组方式,对所述能源文本数据之间的实体关系进行标注,得到所述第一能源文本数据集。
11、在一些实现方式中,所述利用预训练语言模型,提取所述第一能源文本数据集中的能源文本数据的实体特征,并建立所述能源文本数据之间的实体关系,得到第二能源文本数据集,包括:
12、利用预训练语言模型,针对所述第一能源文本数据集中具有实体关系三元组的能源文本数据进行实体提取,得到所述能源文本数据的实体特征;
13、利用预设实体关系模板,根据所述实体关系三元组,对所述实体特征进行关系向量表示,生成所述能源文本数据之间的实体关系向量,得到所述第二能源文本数据集。
14、在一些实现方式中,所述基于所述能源文本数据的能源类型,对所述第二能源文本数据集中的能源文本数据进行数据增强,得到第三能源文本数据集,包括:
15、提取所述第二能源文本数据集中能源文本数据的每个字特征向量;
16、利用自注意力机制,根据所述能源类型,对所述字特征向量进行运算,得到所述第三能源文本数据集。
17、在一些实现方式中,所述基于所述第三能源文本数据集,对预设神经网络模型进行迭代训练,直至所述预设神经网络模型达到预设收敛条件,得到数据结构化模型,包括:
18、将所述第三能源文本数据集输入至所述预设神经网络模型;
19、利用所述预设神经网络模型,对所述第三能源文本数据集中的能源文本数据进行命名实体识别,确定每个实体在所述能源文本数据中的位置,得到实体集;
20、提取所述实体集中的多个关系类别,得到关系类别集;
21、基于所述实体集和所述关系类别集,预测在目标关系类别下第一目标实体对应的第二目标实体在所述能源文本数据中的位置,输出多个关系三元组;
22、基于所述关系三元组,计算所述预设神经网络模型的损失函数,并基于所述损失函数更新所述预设神经网络模型的模型参数,直至所述预设神经网络模型达到预设收敛条件,得到所述数据结构化模型。
23、在一些实现方式中,所述基于所述实体集和所述关系类别集,预测在目标关系类别下第一目标实体对应的第二目标实体在所述能源文本数据中的位置,输出多个关系三元组,包括:
24、对于所述实体集中的第一目标实体,在所述关系类别集中的目标关系类别下,从所述实体集中确定与所述第一目标实体具有所述目标关系类别的第二目标实体,并预测所述第二目标实体在所述能源文本数据中的位置概率值;
25、将所述位置概率值最大时对应的第二目标实体与所述第一目标实体和所述目标关系类别组成所述关系三元组。
26、在一些实现方式中,所述利用所述数据结构化模型,对待结构化能源文本数据进行结构化,生成结构化数据报表,包括:
27、利用所述数据结构化模型,预测所述待结构化能源文本数据中的所有关系三元组;
28、基于所有所述关系三元组,生成所述结构化数据报表。
29、第二方面,本技术还提供一种基于关系抽取的能源文本数据结构化装置,包括:
30、获取模块,用于获取第一能源文本数据集,所述第一能源文本数据集包括多个能源文本数据;
31、提取模块,用于利用预训练语言模型,提取所述第一能源文本数据集中的能源文本数据的实体特征,并建立所述能源文本数据之间的实体关系,得到第二能源文本数据集;
32、增强模块,用于基于所述能源文本数据的能源类型,对所述第二能源文本数据集中的能源文本数据进行数据增强,得到第三能源文本数据集;
33、训练模块,用于基于所述第三能源文本数据集,对预设神经网络模型进行迭代训练,直至所述预设神经网络模型达到预设收敛条件,得到数据结构化模型;
34、结构化模块,用于利用所述数据结构化模型,对待结构化能源文本数据进行结构化,生成结构化数据报表。
35、第三方面,本技术还提供一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的基于关系抽取的能源文本数据结构化方法。
36、第四方面,本技术还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于关系抽取的能源文本数据结构化方法。
37、与现有技术相比,本技术至少具备以下有益效果:
38、通过获取第一能源文本数据集,所述第一能源文本数据集包括多个能源文本数据,并利用预训练语言模型,提取所述第一能源文本数据集中的能源文本数据的实体特征,并建立所述能源文本数据之间的实体关系,得到第二能源文本数据集,以针对能源领域文本数据进行自然语言的实体提取,并针对不同实体完成关系抽取,同时利用预训练模型中隐含的先验知识获取更加精细的关系特征表示,提高关系抽取的准确性;再基于所述能源文本数据的能源类型,对所述第二能源文本数据集中的能源文本数据进行数据增强,得到第三能源文本数据集,以能源不同能源类型赋予文本中相关字词更高的权重,从而提高实体及关系类别分类的准确性;最后基于所述第三能源文本数据集,对预设神经网络模型进行迭代训练,直至所述预设神经网络模型达到预设收敛条件,得到数据结构化模型,以及利用所述数据结构化模型,对待结构化能源文本数据进行结构化,生成结构化数据报表,以采用结构化数据报表展示能源文本数据,使得能源文本数据的结构更加清晰统一,从而提高能源文本数据的可分析性和便于数据存储,进而满足能源领域的文本数据结构化需求,有效解决传统文本数据结构化方法在能源领域的局限性。