基于知识图谱的档案数据处理方法和系统

文档序号:37553831发布日期:2024-04-08 14:05阅读:10来源:国知局
基于知识图谱的档案数据处理方法和系统

本公开涉及档案管理领域,具体涉及一种基于知识图谱的档案数据处理方法和系统。


背景技术:

1、档案数据的信息化和网络化已经成为现今社会中的主流,电子政务系统或者科研数据档案的信息化也做的比较完善;针对科研信息单位特别是图书馆均将档案数据的管理、维护和共享作为主要的研究方向。在面对各个专业领域的书籍、论文、杂志、音视频等各种档案数据,在实现收管存用特别是用的阶段,在档案数据的语义关联与利用方面,还存在颗粒度较粗、只有著录项目信息可用的尴尬局面,无法在本质上实现数据的深度细粒度的加工,例如,一篇具有多个章节的大论文,我们仅仅能从摘要部分、著录信息方面获取信息或加工信息,会将具体到多个章节的细粒度的详细描述给漏掉,进而使得用户在检索相关文献时无法关联到自己最想找到的信息。这说明,我们对于信息的加工和处理还不够细致,然而,现有的处理档案数据的方式更多的是实现代码化并实现基本的语义或者直接词语的关联,需要用户同时用到多个跟档案数据中的某些相同的词句才可能找到相关信息。

2、对此,知识图谱在档案数据的处理和分析中具有重要的作用,现有的研究中存在将领域知识图谱的手段用于关联语义和实现数据的再加工,并通过深度学习的方式实现智能语义的识别。然而,现有的档案数据的细粒度识别或者多个维度的关联也好,始终存在对档案数据深度加工不够的问题,具体表现在至少以下几个方面:

3、1)科研档案由于会采用一些非常规的或自创的科技术语而导致无法跟现有的领域知识无法产生很好的关联;

4、2)在进行细粒度关联时无法把握哪些才是档案数据中的核心表述,导致关联到的信息是无关紧要的,并未把握到核心信息,如上述举例时提到的各个章节中实际做出的细粒度的详细的或重要的表述;

5、3)在进行多维度的描述时无法构建一个整体的逻辑,只能进行知识层面的描述,然后进行多维度的关联,并无法将知识成体系或者能够串联起来的知识融合。


技术实现思路

1、本公开提供一种基于知识图谱的档案数据处理方法和系统,能够解决背景技术中提到的至少一个问题。为解决上述技术问题,本公开提供如下技术方案:

2、作为本公开实施例的一个方面,提供基于知识图谱的档案数据处理方法,包括如下步骤:

3、s10、获取档案数据,所述档案数据包括如下中的至少一种:文本档案、音视频档案、数字化后的纸质档案;

4、s20、基于实体抽取规则对所述档案数据进行实体抽取,所述实体抽取规则包括对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取各自所采用的策略,并将各自所采用的策略进行知识图谱关联,所述知识图谱关联基于所述档案数据中的著录信息、技术方向的关联;

5、s30、基于所述实体抽取的结果进行语义关系的计算和关联得到关系抽取结果;

6、s40、基于步骤s20和s30中的实体抽取的结果和关系抽取结果进行知识推理得到知识融合结果以供检索。

7、可选地,步骤s20和s30中的实体抽取的结果和关系抽取结果还通过专家标引和/或领域知识库的验证来实现校核。

8、可选地,对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取,包括:

9、将所述档案数据进行结构化处理得到结构化数据,所述结构化处理包括数据清洗和对数据清洗后的结果进行数据封装;

10、将所述结构化数据进行知识层级分析得到知识层级结果;所述知识层级结果包括档案数据类型、档案数据研究层次和档案数据研究架构;

11、基于所述档案数据研究架构进行应用领域分析、问题抽取以及解决方案抽取;其中应用领域分析、问题抽取以及解决方案抽取为知识图谱关联的知识流向。

12、可选地,所述知识图谱关联的知识流向,包括:定义应用领域范围得到所述应用领域范围内的存在的问题类别;基于所述问题类别筛选所述档案数据中描述的问题;基于描述的问题关联档案数据中的解决方案;验证所述解决方案是否属于所述应用领域范围以及是否与所述问题类别关联。

13、可选地,验证所述解决方案是否属于所述应用领域范围以及是否与所述问题类别关联,包括:

14、引入通过专家标引和/或领域知识库的验证校核过的实体抽取规则;

15、基于实体抽取规则和著录信息的关联判断所述解决方案是否属于所述应用领域范围,所述著录信息的关联包括所述档案数据中涉及到的科研人员和/管理人员相关的团队、背景和研究方向的关联;

16、如果判断属于所述应用领域范围,则进一步判断是否与所述问题类别关联;当判断与所述问题类别关联则进行知识图谱关联以形成知识流向。

17、可选地,基于所述实体抽取的结果进行语义关系的计算和关联得到关系抽取结果,包括:

18、将实体抽取的结果采用自然语言处理的机器学习模型相结合的方式进行实体与关系的智能识别,以获取实体中的实体关联关系和实体属性;所述机器学习模型包括如下中的一种:bert模型、lstm模型、bigru-attention模型或transe模型。

19、作为本公开实施例的另一个方面,提供基于知识图谱的档案数据处理系统,包括:

20、档案数据获取单元,用于获取档案数据,所述档案数据包括如下中的至少一种:文本档案、音视频档案、数字化后的纸质档案;

21、实体抽取单元,用于基于实体抽取规则对所述档案数据进行实体抽取,所述实体抽取规则包括对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取各自所采用的策略,并将各自所采用的策略进行知识图谱关联,所述知识图谱关联基于所述档案数据中的著录信息、技术方向的关联;

22、关系抽取单元,基于所述实体抽取的结果进行语义关系的计算和关联得到关系抽取结果;

23、知识融合单元,基于实体抽取的结果和关系抽取结果进行知识推理得到知识融合结果以供检索。

24、作为本公开实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于知识图谱的档案数据处理方法。

25、作为本公开实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的基于知识图谱的档案数据处理方法。

26、相对于现有技术,本公开可以基于对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取,实现知识图谱关联的实体抽取,将档案数据中的技术进行更细粒度的抽取;通过对上述信息的分析和抽取实现档案数据的核心数据的抽取,而且抽取的核心数据是在同一个技术方向的,便于构建一个整体知识体系,便于后续知识融合后的信息检索。



技术特征:

1.基于知识图谱的档案数据处理方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于知识图谱的档案数据处理方法,其特征在于,步骤s20和s30中的实体抽取的结果和关系抽取结果还通过专家标引和/或领域知识库的验证来实现校核。

3.如权利要求1或2所述的基于知识图谱的档案数据处理方法,其特征在于,对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取,包括:

4.如权利要求3所述的基于知识图谱的档案数据处理方法,其特征在于,所述知识图谱关联的知识流向,包括:定义应用领域范围得到所述应用领域范围内的存在的问题类别;基于所述问题类别筛选所述档案数据中描述的问题;基于描述的问题关联档案数据中的解决方案;验证所述解决方案是否属于所述应用领域范围以及是否与所述问题类别关联。

5.如权利要求4所述的基于知识图谱的档案数据处理方法,其特征在于,验证所述解决方案是否属于所述应用领域范围以及是否与所述问题类别关联,包括:

6.如权利要求1或2所述的基于知识图谱的档案数据处理方法,其特征在于,基于所述实体抽取的结果进行语义关系的计算和关联得到关系抽取结果,包括:

7.基于知识图谱的档案数据处理系统,其特征在于,包括:

8.如权利要求7所述的基于知识图谱的档案数据处理系统,其特征在于,对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的基于知识图谱的档案数据处理方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述的基于知识图谱的档案数据处理方法。


技术总结
本公开涉及档案管理领域,具体涉及一种基于知识图谱的档案数据处理方法和系统,所述方法包括如下步骤:获取档案数据;基于实体抽取规则对所述档案数据进行实体抽取,所述实体抽取规则包括对所述档案数据中的技术进行知识层级分析、应用领域分析、问题抽取以及解决方案抽取各自所采用的策略,并将各自所采用的策略进行知识图谱关联,所述知识图谱关联基于所述档案数据中的著录信息、技术方向的关联;基于所述实体抽取的结果进行语义关系的计算和关联得到关系抽取结果;基于实体抽取的结果和关系抽取结果进行知识推理得到知识融合结果以供检索。本公开能够将档案数据中的技术进行更细粒度的抽取。

技术研发人员:李登宇,朱世伟,于俊凤,赵燕清,李肖俊,魏墨济,李晨
受保护的技术使用者:山东省科学院情报研究所
技术研发日:
技术公布日:2024/4/7
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1