基于生成式大语言模型的领域知识图谱构建方法和系统与流程

文档序号:35710410发布日期:2023-10-12 11:14阅读:67来源:国知局
基于生成式大语言模型的领域知识图谱构建方法和系统与流程

本技术涉及互联网,具体而言,本技术涉及一种基于生成式大语言模型的领域知识图谱构建方法、系统、电子设备和存储介质。


背景技术:

1、知识图谱是信息的结构化表示,允许以人类可读和机器可读的方式表示实体及其属性之间的复杂关系。这使得它非常适合表示大量的知识,并支持对这些知识的有效查询和分析。由于开放的知识图谱融合了多领域多学科的知识,尽管这样的知识图谱具有通识性,但专业领域的应用上,知识深度远远不够。基于此,各行业都在积极探索在垂直领域上构建领域知识图谱。

2、以往,构建一个知识图谱的基本步骤包括知识抽取、知识表示、知识融合等。在这过程中,知识抽取是从海量的数据中提取有用的知识;知识表示将实体、属性和关系等信息通过可视化的方式表示出来,以便于在图谱中进行存储、查询和分析。知识融合则是将不同领域、不同来源的知识进行整合和融合,以形成更加完整、准确的知识图谱;由此看来,知识图谱的构建是一个复杂的数据处理过程。因此,要想构造一个完整可用的领域知识图谱需要从海量行业数据中提取有用的知识。然而,对海量行业数据做知识抽取是一项费时费力的艰巨任务。因此,如何简化知识抽取任务的工作量,成为了业界亟待解决的技术瓶颈。

3、其中,一种解决方案是通过对部分语料进行人工标注,利用深度学习算法对标注过的语料进行有监督训练以生成实体关系抽取模型,从而对剩余语料进行命名实体识别、关系属性提取。然而,为了强化模型的预测效果,势必要尽可能多的对语料进行标注,以覆盖各种命名实体识别的样例,这样就导致人工标注的任务依然繁重。此外,对于人工标注,还需要通过冗余标注的方式进行互相监督,从而降低人工标注的错误率。这就导致原本需要标注的语料数据量翻倍,给知识图谱生成提高了人工成本。


技术实现思路

1、有鉴于此,本技术各实施例提出了一种基于生成式大语言模型的领域知识图谱构建方法、系统、电子设备和存储介质,利用生成式大语言模型对领域知识图谱的三元组提示信息进行学习,从而基于预先对百科语料数据的学习,以自动领会基于该领域知识图谱构建所需的三元组表达式的提示信息,从而能快捷生成该领域三元组信息,以避免繁重的人工标注工作。技术方案如下:

2、根据本技术实施例的一个方面,基于生成式大语言模型的领域知识图谱构建方法,包括:步骤s1:构建生成式大语言模型,生成式大语言模型通过大语言模型训练模块预训练生成;步骤s2:分析领域知识图谱的使用需求,构建领域知识图谱的三元组模板;步骤s3:预先对领域知识进行理解,并基于领域知识,收集待生成领域知识图谱的实体信息,并生成实体清单;步骤s4:将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息;步骤s5:导出知识描述信息进行存储,并生成领域知识图谱。

3、在一示例性实施方式中,三元组模板包括实体关系类三元组模板和实体属性类三元组模板;分析领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。

4、在一示例性实施方式中,知识描述信息包括:实体描述信息、关系描述信息和属性描述信息。

5、在一示例性实施方式中,导出知识描述信息进行存储,具体包括:步骤51:将导出的知识描述信息存储在中间数据存储模块;步骤52:从中间数据存储模块中提取实体清单中每个实体的实体关系或实体属性的三元组信息;步骤53:将三元组信息及对应的描述信息以结构化方式存入图数据库。在一示例性实施方式中,基于存入图数据库的三元组信息生成领域知识图谱。

6、在一示例性实施方式中,生成式大语言模型的构建方法,具体包括:步骤11:收集领域知识作为语料库;步骤12:对语料库的数据进行预处理,预处理包括对数据进行分词、去除无效数据、标点符号;步骤13:对分词进行编码,并构建基于编码的分词表;步骤14:选用transformer模型构建生成式大语言模型的初始模型;步骤15:使用经过编码的语料对生成式大语言模型进行训练并调优,以获得生成式大语言模型。

7、在一示例性实施方式中,生成式大语言模型为gpt模型。

8、根据本技术实施例的另一个方面,提供了一种基于生成式大语言模型的领域知识图谱构建系统,包括:大语言模型生成模块,三元组模板构建模块、实体信息收集模块、知识描述信息生成模块和知识图谱构建模块;大语言模型生成模块,用于利用测试语料对候选生成式大语言模型进行测试和调参,以获得具有领域知识的生成式大语言模型。三元组模板构建模块,用于分析知识图谱的使用需求,构建领域知识图谱的三元组模板;实体信息收集模块,用于预先对领域知识进行理解,并基于领域知识,收集待生成领域知识图谱的实体信息,并生成实体清单;知识描述信息生成模块,用于将模板作为生成式大语言模型的提示信息,并与实体清单一起输入生成式大语言模型,以获得实体清单上每个实体基于模板的知识描述信息;知识图谱构建模块,用于导出知识描述信息进行存储,并生成领域知识图谱。

9、在一示例性实施方式中,还包括:三元组模板包括实体关系类三元组模板和实体属性类三元组模板;三元组模板构建模块,还用于分析领域知识图谱的应用场景,将实体清单中的实体按照待生成实体关系类三元组和待生成实体属性类三元组进行分类,并对应适用所属类别的三元组模板作为提示信息。

10、在一示例性实施方式中,知识图谱构建模块,还用于将导出的知识描述信息存储在中间数据存储模块;从中间数据存储模块中提取实体清单中每个实体的实体关系或实体属性的三元组信息;将三元组信息及对应的描述信息以结构化方式存入图数据库,并基于存入图数据库的三元组信息生成领域知识图谱。

11、在一示例性实施方式中,大语言模型生成模块,还用于收集领域知识作为语料库;对语料库的数据进行预处理,预处理包括对数据进行分词、去除无效数据、标点符号;对分词进行编码,并构建基于编码的分词表;选用transformer模型构建生成式大语言模型的初始模型;使用经过编码的语料对生成式大语言模型进行训练并调优,以获得生成式大语言模型。

12、在一示例性实施方式中,生成式大语言模型为gpt模型。

13、根据本技术实施例的另一个方面,提供了一种电子设备,包括:至少一个处理器、至少一个存储器、以及至少一条通信总线,其中,该存储器上存储有计算机程序,该处理器通过该通信总线读取该存储器中的该计算机程序;该计算机程序被该处理器运行时实现上述基于生成式大语言模型的领域知识图谱构建方法。

14、根据本技术实施例的另一个方面,提供了一种存储介质,其上存储有计算机程序,计算机程序被计算机的处理器运行时实现上述基于生成式大语言模型的领域知识图谱构建方法。

15、本技术提供的技术方案带来的有益效果是:

16、1、利用生成式大语言模型自动并且大规模生成该领域知识图谱的三元组信息,从而避免了人工手段对待生成的该领域知识图谱的数据进行标注或提取。

17、2、利用生成式大语言模型学习领域知识,不仅可以生成知识图谱的三元组信息,还可以生成三元组信息的实体描述,从而填充到该领域知识图谱中,以提高该领域知识图谱的可解释性和可用性;

18、3、选用经过百科语料作为训练集进行预训练后的生成式大语言模型作为基线模型,再利用该领域的语料进行领域迁移,可以提高该垂直领域下的三元组的完整性和准确性。

19、4、本技术采用的gpt模型提取实体关系时,能够依靠预训练时对语料的上下文信息学习,推断实体之间隐含关系,以克服现有技术仅能从文本中提取明确记载的实体间关系,而无法抽取隐含关系及隐含知识。

20、5、由于能够实现对隐含关系和隐含知识的抽取,从而极大补充了领域知识图谱的完整性,提高了该领域知识图谱对知识推理能力的底层支持。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1