本发明涉及自然语言处理,尤其是涉及一种实体关系联合抽取方法、装置、终端设备及计算机可读存储介质。
背景技术:
1、实体关系联合抽取技术可以获取文本中的关键实体之间的关系,可以帮助计算机理解人类的意图,在人机交互应用中起到了至关重要的作用。现有技术在面临电力调度领域的实体关系联合抽取任务时,对于电力调度领域内的调度文本语料库通常来源于现场实际采集,经语音识别和人工标注后生成,数据量少,难以满足语言模型训练的要求,此外,现有技术通常采用适用通用领域的预训练语言模型来进行实体关系联合抽取,当应用于电力调度领域时,由于没有考虑电力调度领域文本的语义特征而使得实体关系联合抽取的准确性低。
技术实现思路
1、本发明提供一种实体关系联合抽取方法、装置、设备及介质,通过文本生成模型扩充电力调度文本数据集,并使用神经嵌入模块提取待处理电力调度文本数据的语义特征,从而能够增强语言模型在电力调度领域的适用性,提高了针对电力调度领域的实体关系联合抽取的准确性。
2、为了解决上述技术问题,本发明实施例第一方面提供一种实体关系联合抽取方法,包括如下步骤:
3、基于以预设的神经嵌入模块为输入层的预训练语言模型,将待处理电力调度文本数据输入所述预训练语言模型,以提取所述待处理电力调度文本数据的语义特征,获得若干文本表示向量;
4、将若干所述文本表示向量输入预设的标签预测模块,获得各文本表示向量所对应的实体标注标签概率分布;
5、根据所述实体标注标签概率分布,通过crf模块利用viterbi算法确定各文本表示向量在预设标注标签间依赖关系约束下的最优实体标注标签,并对各最优实体标注标签进行词嵌入,获得最优实体标注标签嵌入向量;
6、将所述实体标注标签概率分布和所述最优实体标注标签嵌入向量进行拼接以形成关系抽取输入量,根据所述关系抽取输入量和预设的信息矩阵,通过sigmoid函数获取各文本表示向量的最优实体标注标签之间的目标关系;
7、其中,所述信息矩阵包含不同文本表示向量之间的关系;
8、所述神经嵌入模块为利用基于预设的文本生成模型所生成的电力调度文本数据集训练transformer语言模型而获得;
9、所述标签预测模块和所述crf模块预先利用实体关系标记后的电力调度文本数据集进行训练。
10、作为优选方案,所述文本生成模型具体为seqgan网络;
11、所述方法具体通过如下步骤生成所述电力调度文本数据集:
12、将预设的电力调度文本数据输入所述seqgan网络,获得符合所述电力调度文本数据的电力调度生成文本数据,并根据所述电力调度生成文本数据构建所述电力调度文本数据集。
13、作为优选方案,所述方法具体通过如下步骤获取实体关系标记后的电力调度文本数据集:
14、基于预设的实体集合和关系集合,利用bio标记策略对所述电力调度文本数据集进行标记,获得若干五元组;其中,所述五元组包括字或词在句子中的位置、当前五元组所对应的字或词、实体标注标签、关系以及关系词的下标位置;
15、将所述电力调度文本数据集中每个句子中的每个字或词所对应的五元组依序封装至每个句子中,并基于封装后的每个句子中的若干五元组,获取各五元组中字或词所对应的文本表示向量、所述实体标注标签所对应的实体标注标签列表和关系矩阵;其中,所述关系矩阵为基于各五元组中的所述关系词的下标位置、所述关系集合的总长度和所述关系在所述关系集合中的位置索引计算而获得;
16、按照所述电力调度文本数据集中最长句子的维度对所述电力调度文本数据集中的每个句子进行数据填充处理,并基于每个句子中的各五元组中字或词所对应的文本表示向量、所述实体标注标签所对应的实体标注标签列表和关系矩阵,形成实体关系标记后的电力调度文本数据集。
17、作为优选方案,所述方法具体通过如下步骤获取所述信息矩阵:
18、根据所述电力调度文本数据集的句子长度和所述关系集合的总长度,初始化一个零矩阵作为初始信息矩阵;
19、将所述关系矩阵中不为0的向量转置后作为所述初始信息矩阵的列向量并填充为1,获得所述信息矩阵。
20、作为优选方案,所述根据所述关系抽取输入量和预设的信息矩阵,通过sigmoid函数获取各文本表示向量的最优实体标签之间的目标关系,具体包括如下步骤:
21、将所述关系抽取输入量输入以relu为激活函数的线性神经网络,计算各文本表示向量所对应的关系得分,以获取各文本表示向量所对应的预测关系;
22、根据所述关系得分和所述信息矩阵,通过sigmoid函数获取各文本表示向量的最优实体标签之间的目标关系。
23、作为优选方案,所述预训练语言模型具体为bert模型。
24、作为优选方案,所述标签预测模块具体为bilstm模型。
25、本发明实施例第二方面提供一种实体关系联合抽取装置,包括:
26、文本表示向量生成模块,用于基于以预设的神经嵌入模块为输入层的预训练语言模型,将待处理电力调度文本数据输入所述预训练语言模型,以提取所述待处理电力调度文本数据的语义特征,获得若干文本表示向量;
27、实体标注标签概率分布获取模块,用于将若干所述文本表示向量输入预设的标签预测模块,获得各文本表示向量所对应的实体标注标签概率分布;
28、最优实体标注标签获取模块,用于根据所述实体标注标签概率分布,通过crf模块利用viterbi算法确定各文本表示向量在预设标注标签间依赖关系约束下的最优实体标注标签,并对各最优实体标注标签进行词嵌入,获得最优实体标注标签嵌入向量;
29、实体关系抽取模块,用于将所述实体标注标签概率分布和所述最优实体标注标签嵌入向量进行拼接以形成关系抽取输入量,根据所述关系抽取输入量和预设的信息矩阵,通过sigmoid函数获取各文本表示向量的最优实体标注标签之间的目标关系;
30、其中,所述信息矩阵包含不同文本表示向量之间的关系;
31、所述神经嵌入模块为利用基于预设的文本生成模型所生成的电力调度文本数据集训练transformer语言模型而获得;
32、所述标签预测模块和所述crf模块预先利用实体关系标记后的电力调度文本数据集进行训练。
33、本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的实体关系联合抽取方法。
34、本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的实体关系联合抽取方法。
35、相比于现有技术,本发明实施例的有益效果在于,通过文本生成模型扩充电力调度文本数据集,并使用神经嵌入模块提取待处理电力调度文本数据的语义特征,从而能够增强语言模型在电力调度领域的适用性,提高了针对电力调度领域的实体关系联合抽取的准确性。