一种结合语言模型的电力知识图谱构建方法及设备与流程

文档序号:37351644发布日期:2024-03-18 18:32阅读:14来源:国知局
一种结合语言模型的电力知识图谱构建方法及设备与流程

本发明涉及一种结合语言模型的电力知识图谱构建方法及设备,属于知识图谱领域。


背景技术:

1、知识图谱作为一种基于人工智能技术的知识组织与构建方法,将知识以三元组的形式进行表示,并存储在图数据库中。图数据库由“节点”和“边”组成,充分利用节点之间能够相互指向的特点将不同的信息联系起来。但实体间的关系复杂可能存在缺失,且知识图谱所利用的数据质量参差不齐,实体关系的可信度存疑。因此,需要对知识图谱进行检查,以保持其准确度和完整性。

2、专利cn110442563a《一种面向电力行业的知识提取方法及其系统、计算机可读存储介质》公开如下步骤:获取蕴含于信息源中的电力行业知识,并抽取所述电力行业知识中的多个电力术语;根据所述多个电力术语的类别以及所述多个电力术语之间的关系进行分组并构建知识结构模型;将知识结构模型的表示形式转换成计算机可表示的内部形式;对转换表示形式后的知识结构模型进行编译后存储于知识库中;获取外界服务器知识数据,并根据所述外界服务器知识数据检验知识库中知识结构模型的正确性。


技术实现思路

1、为了克服现有技术中存在的问题,本发明设计了一种结合语言模型的电力知识图谱构建方法,通过语言模型、本体提取指示、知识抽取指示从电力文档中自动抽取知识,形成电力知识图谱;并基于用户访问量、节点度或信息源置信度在电力知识图谱中采样若干条知识,语言模型根据基于信息源或召回文档构建的任务文本对采样结果进行数据质检,确保知识图谱的准确性。

2、为了实现上述目的,本发明采用如下技术方案:

3、技术方案一

4、一种结合语言模型的电力知识图谱构建方法,包括以下步骤:

5、构建电力知识图谱:获取若干信息源文档;从信息源文档中抽取三元组;将三元组存入数据库,得到电力知识图谱;

6、数据采样:从电力知识图谱中抽取k条知识作为采样结果;

7、数据质检:构建第一任务文本,第一任务文本包括采样结果、信息源文档以及质检指示;将第一任务文本输入至语言模型,语言模型根据信息源文档按质检指示对采样结果进行数据质检,得到质检结果;

8、数据补全:遍历知识图谱中所有实体,根据所述知识图谱的本体,查找属性值缺失的实体或关系;获取该实体或关系的属性值并加入知识图谱。

9、进一步地,还包括:对各信息源文档的文本数据进行预处理,将预处理后的文本数据输入至文档分类器,通过文档分类器进行分类,判断该信息源文档是否属于电力领域,若该信息源文档不属于电力领域,则将其从信息源文档集中删除。

10、进一步地,还包括:构建第二任务文本,第二任务文本包括信息源文档、本体提取指示;语言模型按本体提取指示在信息源文档中以三元组的形式提取本体;利用本体提取结果构建第三任务文本,第三任务文本包括信息源文档、本体提取结果以及知识抽取指示;语言模型根据本体提取结果按知识抽取指示在信息源文档中以三元组的形式抽取知识并存入数据库,得到电力知识图谱。

11、进一步地,还包括:根据用户访问量大、节点度或信息源置信度,选取k个实体关联的k条知识作为采样结果。

12、进一步地,数据质检具体为:语言模型根据信息源文档按质检指示对采样结果进行真假判断,若为真则通过质检;若为假则转至人工纠错或直接删除。

13、进一步地,还包括:判断采样结果中是否包含信息源字段;若采样结果中包含信息源字段,则基于信息源文档构建第一任务文本;若采样结果中不包含信息源字段,则利用知识获取召回文档,基于召回文档构建第一任务文本。

14、进一步地,还包括:利用知识获取n个召回文档,基于n个召回文档的拼接结果构建第一任务文本。

15、进一步地,构建属性值获取指令输入至语言模型,得到实体或关系的属性值;或利用搜索引擎获取实体或关系的属性值。

16、技术方案二

17、一种电子设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如技术方案一所述步骤。

18、技术方案三

19、一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如技术方案一所述步骤。

20、与现有技术相比本发明有以下特点和有益效果:

21、本发明通过语言模型、本体提取指示、知识抽取指示从电力文档中自动抽取知识,形成电力知识图谱;并基于用户访问量、节点度或信息源置信度在电力知识图谱中采样若干条知识,语言模型根据基于信息源或召回文档构建的任务文本对采样结果进行数据质检,确保知识图谱的准确性。此外,本发明遍历知识图谱中所有实体,根据本体查找属性值缺失的实体或关系,并获取该属性值并加入知识图谱,确保知识图谱的完整性。



技术特征:

1.一种结合语言模型的电力知识图谱构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:对各信息源文档的文本数据进行预处理,将预处理后的文本数据输入至文档分类器,通过文档分类器进行分类,判断该信息源文档是否属于电力领域,若该信息源文档不属于电力领域,则将其从信息源文档集中删除。

3.根据权利要求1所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:构建第二任务文本,第二任务文本包括信息源文档、本体提取指示;语言模型按本体提取指示在信息源文档中以三元组的形式提取本体;利用本体提取结果构建第三任务文本,第三任务文本包括信息源文档、本体提取结果以及知识抽取指示;语言模型根据本体提取结果按知识抽取指示在信息源文档中以三元组的形式抽取知识并存入数据库,得到电力知识图谱。

4.根据权利要求1所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:根据用户访问量大、节点度或信息源置信度,选取k个实体关联的k条知识作为采样结果。

5.根据权利要求4所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,数据质检具体为:语言模型根据信息源文档按质检指示对采样结果进行真假判断,若为真则通过质检;若为假则转至人工纠错或直接删除。

6.根据权利要求5所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:判断采样结果中是否包含信息源字段;若采样结果中包含信息源字段,则基于信息源文档构建第一任务文本;若采样结果中不包含信息源字段,则利用知识获取召回文档,基于召回文档构建第一任务文本。

7.根据权利要求6所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:利用知识获取n个召回文档,基于n个召回文档的拼接结果构建第一任务文本。

8.根据权利要求1所述的一种结合语言模型的电力知识图谱构建方法,其特征在于,还包括:构建属性值获取指令输入至语言模型,得到实体或关系的属性值;或利用搜索引擎获取实体或关系的属性值。

9.一种电子设备,其特征在于,包括:

10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至8中任一项所述步骤。


技术总结
本发明涉及一种结合语言模型的电力知识图谱构建方法,包括:构建电力知识图谱:获取若干信息源文档;从信息源文档中抽取三元组;将三元组存入数据库,得到电力知识图谱;数据质检:从电力知识图谱中抽取k条知识作为采样结果;构建第一任务文本,第一任务文本包括采样结果、信息源文档以及质检指示;将第一任务文本输入至语言模型,语言模型根据信息源文档按质检指示对采样结果进行数据质检,得到质检结果;数据补全:遍历知识图谱中所有实体,根据所述知识图谱的本体,查找属性值缺失的实体;获取该实体的属性值并加入知识图谱。

技术研发人员:方志坚,倪文书,陈红,高晓欣,陈冬隐,方晓玲,周璞,刘璐,蒋鑫,范炜琳,肖琦敏
受保护的技术使用者:国网福建省电力有限公司
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1