一种基于树形Prompt模板的领域知识图谱智能构建方法及系统

文档序号:37260570发布日期:2024-03-12 20:39阅读:15来源:国知局
一种基于树形Prompt模板的领域知识图谱智能构建方法及系统

本发明涉及数据应用领域,具体涉及一种基于树形prompt模板的领域知识图谱智能构建方法及系统。


背景技术:

1、随着企业所拥有的数据量不断增加,高效地管理和利用数据变得至关重要。而知识图谱对提高数据整合、数据可视化、数据结构化、数据分析等方面有着重要作用。企业中的数据由于存在于各种不同的部门、数据格式多样化导致数据的利用率很低且难以直接使用,仅建立数据库进行管理,实用性并不强。另外,传统的知识图谱智能构建工作常常采用实体抽取和关系抽取分开建模的方式,这不仅大大增加了了模型训练的时间,同时难以将实体抽取和关系抽取进行关联,这导致实体抽取和关系抽取后得到的实体和关系存在大量冗余,效率并不高。如《知识图谱中实体关系抽取方法研究》利用实体抽取和关系抽取针对于复杂结构、开放领域、多语言、多模态、小样本数据和实体关系联合抽取等不同研究热点进行研究,但得到的实体和关系存在大量冗余。《dkg-pipd:a novel methodaboutbuilding deep knowledge graph》使用实体和关系联合抽取对非结构化数据知识进行半自动提取,但该方法需要大量标注数据进行训练,时间成本耗费巨大。


技术实现思路

1、发明目的:本发明目的是提供一种效率高、实用性强的基于树形prompt模板的领域知识图谱智能构建方法及系统。

2、技术方案:本发明所述的基于树形prompt模板的领域知识图谱智能构建方法包括以下步骤:

3、s1、获取并标注源领域数据,得到源标注集;为所述源标注集构建树形prompt模板;

4、s2、获取uie框架及预训练模型,将所述源标注集及其对应的树形prompt模板输入所述uie框架,使用所述预训练模型训练生成实体抽取模型和关系抽取模型;

5、s3、获取目标领域数据,为所述目标领域数据构建树形prompt模板;使用所述实体抽取模型和关系抽取模型处理所述目标领域数据对应的树形prompt模板,构建目标领域知识图谱;

6、s4、将所述目标领域知识图谱进行实体消歧,并进行搜索、推荐、问答。

7、进一步的,使用bio标注法进行所述标注。

8、进一步的,所述树形prompt模板包括若干个实体、关系、描述所述实体的实体文本、描述所述关系的关系文本。

9、进一步的,所述步骤s2中,处理所述树形prompt模板时,在所述实体文本、关系文本中加入特殊符号[cls]、[sep];其中,[sep]表示分句符号,用于断开实体文本、关系文本中的句子,放于句尾表示句子结束,[cls]表示分任务符号,放于实体文本、关系文本开头表示下游文本用于进行分类任务。

10、进一步的,构建目标领域知识图谱包括以下步骤:

11、s31、使用所述实体抽取模型抽取所述树形prompt模板的实体文本、使用所述关系抽取模型抽取所述树形prompt模板的关系文本;

12、s32、将所述实体文本作为节点、将所述关系文本作为边,构建目标领域知识图谱。

13、进一步的,步骤s4中,基于largeea模型进行所述实体消歧。

14、进一步的,所述搜索、推荐基于模糊搜索的方法实现。

15、进一步的,所述问答基于相关子图和自然语言拼接的方法实现。

16、进一步的,所述源领域数据选自新闻领域,对应的树形prompt模板中,实体包括发布日期、来源、地点、标题、记者,关系包括发布日期为、来源为、提及地点、新闻标题为、报道记者为;所述目标领域选自政策领域,对应的树形prompt模板中,实体包括政策标题、发布日期、发文字号、政策层级、发文机构、来源、关键词、相关链接、地名、人名,关系包括政策标题为、发布日期为、发文字号为、政策层级为、发文机构为、来源为、是关键词、与相关、提及地名、提及人名。

17、技术方案:本发明所述的基于树形prompt模板的领域知识图谱智能构建系统包括:

18、数据获取模块,用以获取并标注源领域数据,得到源标注集;为所述源标注集构建树形prompt模板;

19、抽取模型生成模块,用以获取uie框架及预训练模型,将所述源标注集及其对应的树形prompt模板输入所述uie框架,使用所述预训练模型训练生成实体抽取模型和关系抽取模型;

20、构建目标领域知识图谱模块,用以获取目标领域数据,为所述目标领域数据构建树形prompt模板;使用所述实体抽取模型和关系抽取模型处理所述目标领域数据对应的树形prompt模板,构建目标领域知识图谱;

21、搜索推荐问答模块,用以将所述目标领域知识图谱进行实体消歧,并进行搜索、推荐、问答。

22、有益效果:本发明具有如下显著效果:1、效率高:本发明通过手工标注源领域数据的所有实体和关系,并为这些实体和关系构建树形prompt模板,使用树形prompt模板对实体和关系信息的提示信息进行建模,利用uie框架对实体抽取和关系抽取进行统一建模,并利用预训练模型ernie3.0模型在小样本数据集下进行微调,将源领域数据训练得到的实体抽取和关系抽取模型迁移到目标领域,仅需极少量的标注数据即可完成高性能的实体抽取和关系抽取,构建更高效的领域知识图谱,并且有效地降低微调所需样本数量;2、实用性强:基于构建好的目标领域知识图谱实现智能搜索、推荐、问答,实现更高效的数据管理和数据利用。



技术特征:

1.一种基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述构建方法包括以下步骤:

2.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,使用bio标注法进行所述标注。

3.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述树形prompt模板包括若干个实体、关系、描述所述实体的实体文本、描述所述关系的关系文本。

4.根据权利要求3所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述步骤s2中,处理所述树形prompt模板时,在所述实体文本、关系文本中加入特殊符号[cls]、[sep];其中,[sep]表示分句符号,用于断开实体文本、关系文本中的句子,放于句尾表示句子结束,[cls]表示分任务符号,放于实体文本、关系文本开头表示下游文本用于进行分类任务。

5.根据权利要求3所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,构建目标领域知识图谱包括以下步骤:

6.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,步骤s4中,基于largeea模型进行所述实体消歧。

7.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述搜索、推荐基于模糊搜索的方法实现。

8.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述问答基于相关子图和自然语言拼接的方法实现。

9.根据权利要求1所述的基于树形prompt模板的领域知识图谱智能构建方法,其特征在于,所述源领域数据选自新闻领域,对应的树形prompt模板中,实体包括发布日期、来源、地点、标题、记者,关系包括发布日期为、来源为、提及地点、新闻标题为、报道记者为;所述目标领域选自政策领域,对应的树形prompt模板中,实体包括政策标题、发布日期、发文字号、政策层级、发文机构、来源、关键词、相关链接、地名、人名,关系包括政策标题为、发布日期为、发文字号为、政策层级为、发文机构为、来源为、是关键词、与相关、提及地名、提及人名。

10.一种基于树形prompt模板的领域知识图谱智能构建系统,其特征在于,包括:


技术总结
本发明公开了一种基于树形Prompt模板的领域知识图谱智能构建方法及系统。其中,构建方法包括以下步骤:S1、获取并标注源领域数据,得到源标注集;为所述源标注集构建树形Prompt模板。S2、获取UIE框架及预训练模型,将所述源标注集及其对应的树形Prompt模板输入所述UIE框架,使用所述预训练模型训练生成实体抽取模型和关系抽取模型。S3、获取目标领域数据,为所述目标领域数据构建树形Prompt模板;使用所述实体抽取模型和关系抽取模型处理所述目标领域数据对应的树形Prompt模板,构建目标领域知识图谱。S4、将所述目标领域知识图谱进行实体消歧,并进行搜索、推荐、问答。本发明具有效率高、实用性强的特点。

技术研发人员:叶振雷,孙小兵,薄莉莉,吴潇雪,徐一帆,魏淼淼
受保护的技术使用者:扬州大学
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1