知识图谱的质量管控系统、管控方法、模型及生成装置与流程

文档序号:37122962发布日期:2024-02-22 21:30阅读:17来源:国知局
知识图谱的质量管控系统、管控方法、模型及生成装置与流程

本技术涉及互联网,特别涉及一种知识图谱的质量管控系统、管控方法、模型及生成装置。


背景技术:

1、在人工智能领域中,智能对话当属重点,而知识图谱在智能对话场景中关于知识性的表达句式的理解有着关键性的作用,能直接影响智能对话中意图理解的准确性;因此,构建一套高质量的知识图谱,成为当前在实现智能对话场景中提高对话质量,提升用户体验的重中之重。这其中需要通过一套管理知识点系统来快速抽取知识点、分析知识点、分类知识点、结构化知识点,以这些信息训练一个知识点抽取模型,由模型快速抽取出知识点,再对模型抽取的知识点进行质检以及模型调优,最后完成对整个知识图谱的高质量管理。

2、当前现有的自动化构建知识图谱技术方案,大多以爬虫抓取网络数据进行构建知识图谱,这种方式构建出来的知识图谱信息杂乱,难以提取出有用的关键信息;同时构建出来的知识图谱质量参差不齐,需要大量人力在构建图谱完成后进行知识点筛选,分类等操作。


技术实现思路

1、本技术提供一种知识图谱的质量管控系统、管控方法、模型及生成装置,通过在前期进行相对少量的人工搭建知识三元组的操作,可以针对所需的领域、行业、业务等编辑对应的三元组;之后根据业务场景的需要,构建三元组的提取规则再把三元组传输进大模型进行训练,再由大模型进行大范围的知识点抓取;这样做的好处是针对性更强,抓取的知识点质量更为精准,质量更高;也不需要存储大量的无用数据;从而达到了减少人力与物理资源的目的。

2、具体的,本技术提供的一种知识图谱的质量管控系统,所述系统包括专业文档数据分析提取模块、文档管理模块、知识标注模块、规则标注模块、知识概念管理模块、实体管理模块、关系管理模块、知识库管理模块、动态可视化图谱生成模块;

3、其中,

4、所述专业文档数据分析提取模块,采用基于python文档数据分析技术对文档进行格式转化,提取文本以及图片数据存储进系统;

5、所述文档管理模块,用于上传、导出、分类、管理录入系统的文档;

6、所述知识标注模块,用于根据用户意图进行实体内容编辑和实体关联设置;

7、所述规则标注模块,用于设置三元组知识规则;

8、知识概念管理模块,用于定义和管理知识概念;

9、实体管理模块,用于添加实体,编辑实体,删除实体和查找实体;

10、关系管理模块、用于管理实体直接的关联关系;

11、知识库管理模块、对已有的知识库进行分类、组织和管理,包括知识库导入,知识库导出,知识库更新和知识库校验;

12、动态可视化图谱生成模块;用于将知识图谱的内容以可视化形式展现出来供用户交互。

13、在上述技术方案中,该知识图谱的质量管控系统通过提供多个功能模块和技术支持,实现了对专业文档的分析提取、知识标注、规则标注、概念管理、实体关系管理、知识库管理和动态可视化图谱生成等功能,从而提高知识图谱的质量和应用效果。

14、所述文档管理模块还包括:文档数据划词提槽功能,划词编辑功能,划词链接功能以及链接编辑功能;其中,

15、所述文档数据划词提槽功能,用于向用户提供可在文档文本内划词提取相关词汇;

16、划词编辑功能,对提取的词汇进行生成实体、概念划分、设置属性、编辑实体关系操作;

17、划词链接功能,提供在文档内部的两个提槽词汇的可视化连线操作,生成实体间的联系;

18、链接编辑功能,将划词链接功能生成的关系线赋予对应的关系操作。

19、所述规则标注模块还包括:

20、规则编辑功能,用于编辑机器学习模型可识别的三元组规则;

21、规则测试功能,用于根据所述三元组规则判断是否选中对应的知识三元组;

22、知识三元组自动提取功能,根据编辑好的规则,自动从文档识别并抽取出知识三元组,存储入库。

23、基于同一构思,本技术还提供一种知识图谱的质量管控方法,包括步骤:

24、s1:根据不同的应用场景,搭建知识三元组;

25、采集和整理相关的数据源,包括专业文档、语料库、公开数据等,将其转化为三元组的形式,表示实体和实体之间的关系;

26、s2:构建三元组的提取规则,并采用机器学习模型进行规则训练;

27、根据已有的数据,设计三元组提取规则。这些规则可以使用自然语言处理的方法,如正则表达式、关键词匹配等,来提取实体和关系。然后,使用机器学习模型对这些规则进行训练,以提高三元组提取的准确性和效率。

28、s3:获取用户在文档管理模块设置的实体内容编辑和实体关联设置,进行定向知识点抓取;

29、基于用户在文档管理模块设置的实体内容编辑和实体关联,进行定向知识点的抓取。可以通过爬虫技术从互联网上抓取相关信息,或者从专业文档中提取特定实体的详细信息。根据用户设置的关联,进行实体之间的关系抓取和链接。

30、s4:将爬取的数据以可视化结果进行呈现。

31、通过图谱展示等方式,将实体、关系和属性展示出来,以便用户直观地理解和探索知识图谱。可视化结果可以提供交互的功能,方便用户进行导航、搜索和深入了解知识图谱的内容。

32、其中,所述s1包括:

33、s11:聚类多个不同应用场景,获取多个应用领域和用途;

34、s12:根据应用场景选择合适的知识源,并对所述知识源进行可靠性评估,择优知识源进行数据采集

35、s13:将采集的数据进行预处理,进行实体识别和标注,并进行关系抽取和构建知识三元组模型;

36、s14:对所述知识三元组模型进行训练,并进行校验和审核,若通过,则将构建好的知识三元组存储到知识图谱存储系统中;否则,返回步骤s11。

37、所述s2包括:

38、s21:选择知识标注模块编辑好的知识三元组,调起规则创建抽屉页面,进入规则标注模式;

39、s22:在抽屉页面中,设置上下文约束内容,编辑当前文本内部,前后词之间的关系或固定位置关联词的条件;

40、s23:在抽屉页面中,设置词约束内容。

41、所述词约束内容包括:提槽约束、邻域词约束和禁用词约束;其中,

42、所述提槽约束,为选择匹配文本内容范围及提取的目标图谱内容,同时可编辑提槽词所属词集,并将该提槽词归属为实体、关系和属性值。

43、所述邻域词约束,为配置当前文本之外,邻近文本的限制,包括定位类型和出现内容归属设置。

44、所述禁用词约束,为配置当前文本之内,禁止抽取的词。

45、所述s3包括:

46、s31:选取需要进行标注的句子或段落,前端通过基于canvas技术将文本提取生成画布;

47、s32:用户将在提取出的句子画布上进行划词操作,对选择的文本进行canvas图层渲染高亮同时弹出实体编辑框;

48、s33:在所述实体编辑框中进行实体编辑,编辑完成后将数据入库保存;

49、s34:用户将在上下文中选择下一词汇,重复s32-s33步骤进行下一实体编辑;

50、s35:系统将自动在任意两个实体之间生成连线,用户点击连线,弹出对应的实体关系编辑弹窗,完成两个实体间关联信息编辑后将关系数据保存入库。

51、基于同一构思,本技术还提供一种知识三元组模型,所述知识三元组模型为如上所述的知识三元组模型。

52、基于同一构思,本技术还提供一种知识图谱的生成装置,包括:

53、发送模块,用于向服务端发送知识图谱获取请求,其中,所述请求中包含待查询的目标实体;

54、接收模块,用于接收各个知识图谱库中所述目标实体对应的知识图谱;

55、生成模块,用于根据各个所述知识图谱中的关联实体及所述目标实体,将所述知识图谱进行融合,以生成目标知识图谱;

56、展示模块,用于将目标知识图谱展示在显示界面。

57、本方法通过从多个应用场景中聚类获取不同的应用领域和用途,选择合适的知识源并进行可靠性评估,采集数据进行预处理,构建知识三元组,并进行模型训练和校验,最终存储到知识图谱存储系统中,从而实现了对知识图谱的质量管控。

58、与现有技术相比,本技术的有益效果在于:

59、通过构建三元组的提取规则,并采用机器学习模型进行规则训练,提高了知识提取的准确性和效率。机器学习模型可以学习已有数据的规律,从而更好地识别和提取实体和关系。

60、根据用户在文档管理模块设置的实体内容编辑和实体关联,进行定向知识点的抓取,将相关的信息整合到知识图谱中。这样可以满足用户特定的信息需求,提供更加个性化和定制化的知识图谱服务。

61、本技术以知识标注与规则标注结合,人工干预管控深度学习算法的抽取知识工作,实现用户在针对所需的垂直领域构建出高质量、更专业的知识图谱。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1