一种电力系统信息的关系抽取方法、装置、设备及介质与流程

文档序号:36320802发布日期:2023-12-08 20:30阅读:33来源:国知局
一种电力系统信息的关系抽取方法与流程

本发明涉及自然语言处理,尤其是涉及一种电力系统信息的关系抽取方法、装置、终端设备及计算机可读存储介质。


背景技术:

1、目前,随着电力系统规模的扩大和数据的积累,电力系统知识图谱的构建和应用越来越受到关注。电力系统领域包含了设备、电网拓扑关系、技术参数等大量信息,这些信息的有效整合和利用对于提高电力系统的运行效率和安全性具有重要意义。而传统的数据库和信息检索方式,往往只能满足简单的查询和统计需求,并不能很好地表现出信息之间的复杂关系和隐含规律。因此,采用知识图谱来描述电力系统的信息,可以更加直观地展现信息之间的关系,帮助人们从中发现新的规律和知识,并为电力系统的管理和优化提供决策支持。知识图谱作为一种基于大数据和人工智能技术的信息组织和检索方式,可以为电力系统的可持续发展、智能化和安全稳定运行提供强有力的支撑,促进电力系统的可持续发展。

2、但是,由于电力系统领域的复杂性、多样化和数据缺乏等问题,现有的知识图谱构建技术需要大量的人工标注且标注人员需要掌握大量的领域专业知识,从而现有技术难以达到较高的精确度和覆盖率。


技术实现思路

1、本发明提供一种电力系统信息的关系抽取方法、装置、设备及介质,在无需人工标注与模型训练的基础上,通过生成式预训练语言模型和各种抽取问题模板,实现从电力系统文本数据自动提取用于构建知识图谱的关系三元组,能够达到较高的精确度和覆盖率。

2、为了解决上述技术问题,本发明实施例第一方面提供一种电力系统信息的关系抽取方法,包括如下步骤:

3、获取电力系统文本数据,并对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句;

4、基于预设的实体类型列表和关系列表,将所述实体类型列表和所述关系列表分别与各待处理分句进行结合,生成若干实体类型抽取问题模板和关系抽取问题模板;

5、将若干所述实体类型抽取问题模板和所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型和关系;

6、基于预设的若干用于表征不同实体类型之间的关系的链提取模板,将各待处理分句所包含的若干实体类型、关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板;

7、将所述待处理分句分别与若干所述目标链提取模板进行结合,生成若干实体关系抽取问题模板,并将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,通过所述生成式预训练语言模型获取所述待处理分句所包含的各关系所对应的若干对实体;

8、根据各待处理分句所包含的各关系所对应的若干对实体,生成若干关系三元组,并将若干所述关系三元组作为所述电力系统文本数据的关系抽取结果。

9、作为优选方案,所述对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句,具体包括如下步骤:

10、对所述电力系统文本数据进行清洗处理和缺失数据填充;

11、对清洗处理和缺失数据填充后的电力系统文本数据按照段落结构进行分段处理;

12、通过nltk库中的sent_tokenize函数对分段处理后的电力系统文本数据进行分句处理,获得所述电力系统文本数据的若干待处理分句。

13、作为优选方案,所述实体类型列表包括若干实体类型,所述实体类型包括但不仅限于发电机、变压器、输电线路、变电站、电力负荷、电力市场、电力设备、电能计量设备、电力保护装置、发电厂、电力消费者、能源资源、电网运营公司、电力系统规划部门和监管机构;

14、所述关系列表包括若干关系,所述关系包括但不仅限于连接关系、供需关系、控制和保护关系、资源关系、消费关系、规划和管理关系。

15、作为优选方案,所述方法将若干所述实体类型抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型,具体包括如下步骤:

16、将若干所述实体类型抽取问题模板输入至所述生成式预训练语言模型,根据各实体类型抽取问题模板所对应的待处理分句和所述实体类型列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述实体类型列表中的任意一个实体类型;

17、当所述待处理分句包含所述实体类型列表中的任意一个实体类型时,判定所述任意一个实体类型为所述待处理分句所对应的实体类型抽取问题模板的答案;

18、当所述待处理分句不包含所述实体类型列表中的任意一个实体类型时,将所述待处理分句所对应的实体类型抽取问题模板的答案标记为none;

19、根据各实体类型抽取问题模板的答案,确定各待处理分句所包含的若干实体类型。

20、作为优选方案,所述方法将若干所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干关系,具体包括如下步骤:

21、将若干所述关系抽取问题模板输入至所述生成式预训练语言模型,根据各关系抽取问题模板所对应的待处理分句和所述关系列表,通过所述生成式预训练语言模型判断所述待处理分句是否包含所述关系列表中的任意一种关系;

22、当所述待处理分句包含所述关系列表中的任意一种关系时,判定所述任意一种关系为所述待处理分句所对应的关系抽取问题模板的答案;

23、当所述待处理分句不包含所述关系列表中的任意一种关系时,将所述待处理分句所对应的关系抽取问题模板的答案标记为none;

24、根据各关系抽取问题模板的答案,确定各待处理分句所包含的若干关系。

25、作为优选方案,所述将各待处理分句所包含的若干实体类型、关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板,具体包括如下步骤:

26、根据各链提取模板所表示的第一目标实体类型与第二目标实体类型之间的目标关系,判断所述待处理分句是否包含任意一个链提取模板中的所述第一目标实体类型、所述第二目标实体类型和所述目标关系;

27、当所述待处理分句包含任意一个链提取模板中的所述第一目标实体类型、所述第二目标实体类型和所述目标关系时,判定所述任意一个链提取模板是所述待处理分句所对应的目标链提取模板;

28、当所述待处理分句不包含任意一个链提取模板中的所述第一目标实体类型、所述第二目标实体类型和所述目标关系时,判定所述任意一个链提取模板不是所述待处理分句所对应的目标链提取模板。

29、作为优选方案,所述将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,通过所述生成式预训练语言模型获取所述待处理分句所包含的各关系所对应的若干对实体,具体包括如下步骤:

30、将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,根据各实体关系抽取问题模板所对应的所述第一目标实体类型、所述第二目标实体类型和所述目标关系,通过所述生成式预训练语言模型判断所述待处理分句中匹配于所述目标关系的关系是否具有相关联的匹配于所述第一目标实体类型和所述第二目标实体类型的任意一对实体;

31、当所述待处理分句中匹配于所述目标关系的关系具有相关联的匹配于所述第一目标实体类型和所述第二目标实体类型的任意一对实体时,判定所述任意一对实体为所述待处理分句所对应的实体关系抽取问题模板的答案;

32、当所述待处理分句中匹配于所述目标关系的关系不具有相关联的匹配于所述第一目标实体类型和所述第二目标实体类型的任意一对实体时,将所述待处理分句所对应的实体关系抽取问题模板的答案标记为none;

33、根据各实体关系抽取问题模板的答案,确定所述待处理分句所包含的各关系所对应的若干对实体。

34、本发明实施例第二方面提供一种电力系统信息的关系抽取装置,包括:

35、文本数据处理模块,用于获取电力系统文本数据,并对所述电力系统文本数据进行预处理,确定所述电力系统文本数据的若干待处理分句;

36、抽取问题模板生成模块,用于基于预设的实体类型列表和关系列表,将所述实体类型列表和所述关系列表分别与各待处理分句进行结合,生成若干实体类型抽取问题模板和关系抽取问题模板;

37、实体类型及关系抽取模块,用于将若干所述实体类型抽取问题模板和所述关系抽取问题模板输入至生成式预训练语言模型,通过所述生成式预训练语言模型获取各待处理分句所包含的若干实体类型和关系;

38、目标链提取模块确定模块,用于基于预设的若干用于表征不同实体类型之间的关系的链提取模板,将各待处理分句所包含的若干实体类型、关系与若干所述链提取模板进行匹配,确定各待处理分句所对应的若干目标链提取模板;

39、关系抽取模块,用于将所述待处理分句分别与若干所述目标链提取模板进行结合,生成若干实体关系抽取问题模板,并将若干所述实体关系抽取问题模板输入至所述生成式预训练语言模型,通过所述生成式预训练语言模型获取所述待处理分句所包含的各关系所对应的若干对实体;

40、关系三元组生成模块,用于根据各待处理分句所包含的各关系所对应的若干对实体,生成若干关系三元组,并将若干所述关系三元组作为所述电力系统文本数据的关系抽取结果。

41、本发明实施例第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的电力系统信息的关系抽取方法。

42、本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的电力系统信息的关系抽取方法。

43、相比于现有技术,本发明实施例的有益效果在于,在无需人工标注与模型训练的基础上,通过生成式预训练语言模型和各种抽取问题模板,实现从电力系统文本数据自动提取用于构建知识图谱的关系三元组,能够达到较高的精确度和覆盖率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1