一种大数据知识图谱构建方法、系统、设备及存储介质

文档序号:34363195发布日期:2023-06-04 18:31阅读:57来源:国知局
一种大数据知识图谱构建方法、系统、设备及存储介质

本发明涉及知识图谱与大数据,尤其涉及一种大数据知识图谱构建方法、系统、设备及存储介质。


背景技术:

1、利用大数据以及数据分析预测来提高政府治理能力,一直是政府治理领域研究的热门。然而当前政府部门对于数据的进一步的整合与分析的能力依旧很缺乏,目前并没有成熟的政府大数据治理系统,实现政府治理数据的可视化,并且分析与预测政府与城市的未来发展,并且提出相应意见,知识图谱在政府大数据治理领域的应用和技术体系依旧很缺乏。

2、在如今信息化的社会背景下,“互联网+”成为社会发展的新潮,大数据被视为一种积极的治理资源,政府要善于利用大数据,只有利用好大数据资源,才能做出更科学和更精准的决策,通过大数据分析提升政府与公众的联系,通过政府与公众在城市建设,医疗卫生服务,生态环境等方面的齐心合作,共同建设更好的城市与社会。因此“数据到知识”的转换能力显得更加重要,政府治理大数据知识图谱的构建与应用,从数据收集到知识整合与存储,以及图谱的生成与应用,实现了各类治理数据与规划信息更好的流动与互通。政府治理大数据的公开透明,也能进一步提升政府部门在公众心中的可信度,使得社会的发展更加和谐与稳定。


技术实现思路

1、针对现有技术中存在的技术问题,本发明提供了一种大数据知识图谱构建方法、系统、设备及存储介质,以实现公民与政府工作人员可直接查看到政府治理数据之间的关联关系,实现各类治理数据与发展规划信息互通。

2、根据本发明的第一方面,提供了一种大数据知识图谱构建方法,用于政府治理对大数据进行分析,构建方法包括以下步骤:

3、s1.获取政府治理大数据的结构化数据、半结构化数据和非结构化数据,确定政府治理大数据知识图谱的整体层次结构;

4、s2.分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取;

5、s3.提取政府治理大数据知识三元组(x,r,y),其中x,y表示具体政府治理大数据具体实体,r表示实体间的具体关系,构建政府治理大数据知识图谱;

6、s4.完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现。

7、可选的,所述获取政府治理大数据的结构化数据、半结构化数据和非结构化数据包括:

8、使用python爬虫技术对官网权威网站获取政府治理文件,整理政府文件数据,通过数据预处理,筛选出政府文件中结构化、半结构化以及非结构化数据,其中,结构化数据指关系型数据库表形式管理的数据,具有明显的层次结构,半结构化以及非结构化数据指没有固定结构模式的数据。

9、可选的,所述分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取包括:

10、利用数据预处理、规则模板定义和融合加性注意力机制和传统实体关系抽取模型相结合的方式分别对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取;

11、若数据为结构化数据或半结构化数据,通过构建规则模板,利用规则模板提取知识三元组;

12、若数据为非结构化数据,利用加性实体关系提取知识三元组。

13、可选的,所述利用规则模板提取知识三元组包括:

14、提取构建规则模板所需的关键词,构建关键词集;

15、利用关键词集匹配结构化或半结构化数据中对应的标志词;

16、利用所述标志词与所述关键词的关系,构建规则模板,利用正则表达式提取上述结构化或半结构化数据中,适配所构建规则模板的数据,以提取结构化与半结构化数据的知识三元组。

17、可选的,所述若数据为非结构化数据,利用加性实体关系提取知识三元组包括以下步骤:

18、将非结构化数据逐条处理为政府治理信息知识数据,构建文本集;

19、采用bert模型进行预训练学习上下文信息和结构特征,通过bert模型中的自注意力机制获取多个维度的语义信息,学习输入的治理信息中每个字和符号到对应的实体识别标签的规律;

20、对bert模型的输出向量进行特征提取,得到更加全面的上下文语义信息和句子级别特征,输出每个字符对应标签类别矩阵;

21、采用加性注意力机制降低线性复杂度,实现有效的上下文建模。

22、可选的,所述提取政府治理大数据知识三元组包括:

23、确定政府治理大数据知识图谱的整体层次结构与模式层,将所有实体、关系、属性自动存入数据库中,对三元组进行标注区分,完成政府治理大数据的可视化展示。

24、可选的,所述完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现包括:

25、根据知识图谱各个实体、关系、属性以及路径关系网,联合cypher语句查询操作,进行政府治理大数据知识问答系统交互。

26、根据本发明的第二方面,提供一种大数据知识图谱构建系统,包括:

27、包括:获取模块、划分模块、提取模块和融合模块,

28、获取模块,用于获取政府治理大数据的结构化数据、半结构化数据和非结构化数据,确定政府治理大数据知识图谱的整体层次结构;

29、划分模块,用于对政府治理大数据的结构化数据、半结构化数据和非结构化数据进行实体关系抽取;

30、提取模块,用于提取政府治理大数据知识三元组(x,r,y),其中x,y表示具体政府治理大数据具体实体,r表示实体间的具体关系,构建政府治理大数据知识图谱;

31、融合模块,用于完成政府治理大数据知识问答系统的环境搭建、需求分析、整体模块设计、功能实现。

32、根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机程序时实现一种大数据知识图谱构建方法的步骤。

33、根据本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机管理类程序被处理器执行时实现一种大数据知识图谱构建方法的步骤。

34、本发明的技术效果和优点:

35、本发明在对政府治理大数据知识整合过程中,考虑到政府治理类别的多样化,以及多模态的业务场景需求,本发明利用知识图谱技术对大量政府治理数据进行可视化存储与管理、对政府治理多样化的类别优化了分类方法、提出了政府治理大数据知识三元组(x,r,y)的匹配技术、构建了动态管理数据库,为构建更科学、更完整的政府治理大数据知识图谱提供了理论基础与技术保障。

36、本文提出了加性实体关系抽取bbfc模型,通过fastformer层降低线性复杂度,实现有效的上下文建模,解决传统实体关系抽取模型存在的长序列前端语义稀释、输出的特征向量信息不够准确,导致识别的实体标签信息错误等问题,提升了实体关系抽取的准确性,并取得了良好的效果。

37、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1