一种动态知识图谱的构建方法与流程

文档序号:18165231发布日期:2019-07-13 09:33阅读:1689来源:国知局
一种动态知识图谱的构建方法与流程

本发明涉及动态知识图谱领域,尤其涉及一种动态知识图谱的构建方法。



背景技术:

知识图谱能提供高质量的结构化数据,目前己经广泛地应用于人工智能的多个领域,例如自动问答、搜索引擎以及信息抽取。典型的知识图谱通常以三元组的形式表示(头实体,关系,尾实体),例如(姚明,国籍,中国)反映了姚明的国籍是中国这件事实。然而,大多数现有的知识图谱长时间无法更新,更新效率低,更新容易出现错误信息,因此存在图谱不完整、扩展性较差以及不能实现正确更新的弊端。



技术实现要素:

(一)发明目的

为解决背景技术中存在的技术问题,本发明提出一种动态知识图谱的构建方法,动态知识图谱信息完整,动态知识图谱能够有效且高效的进行更新,保证数据信息的正确性。

(二)技术方案

为解决上述问题,本发明提供了一种动态知识图谱的构建方法,包括以下步骤;

s1、获取原始数据信息;

s2、对原始数据信息进行存储以及处理;

s3、根据处理后的原始数据信息,建立知识图谱初次构架;

s4、知识图谱初次构架进行知识更新;

s5、对s4进行多次操作,实现知识图谱初次构架多次更新;

s6、完成动态知识图谱的建立;

其中,在s4中,知识更新包括以下步骤:

s101、从网站获取最新数据信息作为参照实体;

s102、抽取图谱中的现有实体,作为现有实体;

s103、将参照实体与现有实体进行比对;

s104、如果,在s103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在s103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在s103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;

s105、知识图谱初次构架根据s104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。

优选的,s1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。

优选的,s2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。

优选的,在s101中,按照以下方式抽取实体:s201、对抓取到的标题先使用命名实体识别,抽取出命名实体;s202、利用分词技术,从标题中获取识别不到的候选实体词列表;s203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。

优选的,在s103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧。

优选的,在s2中,数据信息采用图数据库进行存储。

本发明的上述技术方案具有如下有益的技术效果:

本发明中,高效地实现了知识图谱的构建以及更新;首先进行数据的获取以及数据的存储和处理,根据现有数据建立知识图谱初次构架;之后,对知识图谱初次构架进行知识更新,从而提高知识图谱初的准确性和完整性。

本发明中,对于最新的信息以及在各个网站上发生变化的实体,进行及时更新,实现高效、实时对知识图谱中的数据进行更新的目的,减少了知识图谱数据的滞后性。同时,数据更新过程中,实现数据的智能对比,实现智能审核配合人工审核的高效运作方式,以提高数据的准确性和数据更新效率。

附图说明

图1为本发明提出的动态知识图谱的构建方法的构建流程示意图。

图2为本发明提出的动态知识图谱的构建方法中图谱更新的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

如图1-2所示,本发明提出的一种动态知识图谱的构建方法,包括以下步骤;

s1、获取原始数据信息;

s2、对原始数据信息进行存储以及处理;

s3、根据处理后的原始数据信息,建立知识图谱初次构架;

s4、知识图谱初次构架进行知识更新;

s5、对s4进行多次操作,实现知识图谱初次构架多次更新;

s6、完成动态知识图谱的建立;

其中,在s4中,知识更新包括以下步骤:

s101、从网站获取最新数据信息作为参照实体;

s102、抽取图谱中的现有实体,作为现有实体;

s103、将参照实体与现有实体进行比对;

s104、如果,在s103中的比对结果显示无误,则以参照实体作为最终标准的实体;如果,在s103中的比对结果显示部分相同,则以参照实体作为最终标准的实体;如果在s103中的比对结果显示完全不同,则将参照实体与现有实体均发送至服务器,进行人工判断审核,人工审核后,选出最终标准的实体;

s105、知识图谱初次构架根据s104中选出的最终标准的实体进行数据信息的更新,以完成知识更新过程。

本发明中,高效地实现了知识图谱的构建以及更新;首先进行数据的获取以及数据的存储和处理,根据现有数据建立知识图谱初次构架;之后,对知识图谱初次构架进行知识更新,从而提高知识图谱初的准确性和完整性。

本发明中,对于最新的信息以及在各个网站上发生变化的实体,进行及时更新,实现高效、实时对知识图谱中的数据进行更新的目的,减少了知识图谱数据的滞后性。同时,数据更新过程中,实现数据的智能对比,实现智能审核配合人工审核的高效运作方式,以提高数据的准确性和数据更新效率。

在一个可选的实施例中,s1中,原始数据包括:在期刊、论文、专利、百科、词典作为语料来源而获取的数据信息,将作为原始数据;在社交网站上的热门标题以及搜索引擎上的热搜词汇为起点进行搜索而获取的数据信息,将作为原始数据;在以国家官网、企业官网以及其他正规机构的官网上获取的信息,将作为原始数据;在各个专业、职业的获取的权威性信息,将作为原始数据。

需要说明的是,获取数据信息来源可靠,保证数据的准确性;获取数据信息的路径广泛,避免遗漏信息,从而提高动态知识图谱的准确性,以及使得动态知识图谱的覆盖面更加广泛。

在一个可选的实施例中,s2中,原始数据信息的存储和处理包括数据存储模块、模型编辑模块、并发控制模块、权限控制模块、数据验证模块和自动构建模块;

数据存储模块,用于存储结构化数据、半结构化数据和非结构化数据;

模型编辑模块,用于编辑知识模型的概念、实体、属性、层次关系以及概念-实体关系;

并发控制模块,用于在数据库系统中根据事务隔离级别来对数据进行并发编辑;

权限控制模块,用于校验用户登录信息,以控制不同编辑层面的权限。

需要说明的是,实现数据的存储和处理,便于后续对数据信息的处理,提高动态知识图谱的构建效率。

在一个可选的实施例中,在s101中,按照以下方式抽取实体:

s201、对抓取到的标题先使用命名实体识别,抽取出命名实体;

s202、利用分词技术,从标题中获取识别不到的候选实体词列表;

s203、对候选实体词进行词性标注,筛去无实际意义的候选词汇,然后在百科网站上验证候选词是否是实体词,把实体词和抽取的命名实体作为参照实体。

需要说明的是,在抽取实体时,通过挑选特征,挖掘出最主要可能更新了的实体,高效的对知识图谱进行更新,减少了知识图谱更新过程中不必要的更新,很好的避免了现有方法对网络带宽的浪费,也大大减少了知识图谱中数据的时间滞后。

在一个可选的实施例中,在s103中,包括数据验证处理模块;数据验证处理模块,用于验证实体的完整性和一致性,并备份和导出数据,以及实现实体识别与实体消歧,从而利于准确的得出参照实体与现有实体之间的对比结构,提高更新效率。

在一个可选的实施例中,在s2中,数据信息采用图数据库进行存储,图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高,当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1