文档知识体系自动构建方法、装置、电子设备及存储介质与流程

文档序号:36166347发布日期:2023-11-23 18:22阅读:39来源:国知局
文档知识体系自动构建方法与流程

本公开涉及数据处理,具体涉及知识图谱、知识体系、实体识别、深度学习等人工智能,尤其涉及一种文档知识体系自动构建方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

1、诸如能源类企业、化工类企业以及大型实体制造业类企业,由于企业生产需要通过各种加工设备对大量原材料按预设的处理工序进行加工处理,在整个过程中企业内部会记录大量的故障运维记录、故障库、检修记录等历史材料中,蕴含了大量知识,这些无结构化文档通常以国家标准、技术规范、行业报告等形式存储,蕴含大量知识,但如何将这些知识进行抽取、成体系的组织并进行应用是一个业界难题。


技术实现思路

1、本公开实施例提出了一种文档知识体系自动构建方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

2、第一方面,本公开实施例提出了一种文档知识体系自动构建方法,包括:确定构成目标文档的各文本内容和各文本内容之间的结构关系;通过多任务统一训练技术和基于行业人工标注的样本增强技术,识别文档内容中包含的实体、行业标签和属性信息,并将不同类型的识别结果分类至相应类型的内容节点;将各内容节点按结构关系构建关联关系,得到与目标文档对应的行业知识体系。

3、第二方面,本公开实施例提出了一种文档知识体系自动构建装置,包括:内容及结构关系确定单元,被配置成确定构成目标文档的各文本内容和各文本内容之间的结构关系;识别及节点分类单元,被配置成通过多任务统一训练技术和基于行业人工标注的样本增强技术,识别文档内容中包含的实体、行业标签和属性信息,并将不同类型的识别结果分类至相应类型的内容节点;行业知识体系构建单元,被配置成将各内容节点按结构关系构建关联关系,得到与目标文档对应的行业知识体系。

4、第三方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面描述的文档知识体系自动构建方法。

5、第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面描述的文档知识体系自动构建方法。

6、第五方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面描述的文档知识体系自动构建方法的步骤。

7、本公开提供的文档知识体系自动构建方案,在对目标文档进行初步的内容解析和结构解析的基础上,通过采用多任务统一训练技术和基于人工标注样本的样本增强技术,对文本内容中包含的各类行业知识进行准确识别和分类,最终结合结构关系得以自动构建出行业知识体系。借助样本增强技术得以仅需借助少量微调或标注操作即可进行行业领域知识体系的构建,而无需像常规方案一样必须借助行业专家或需要大量行业知识辅助,借助多任务统一训练技术则可以极大的提升模型训练效率,进而得以高效、准确、低介入的对给定行业文档自动完成行业知识体系的构建。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种文档知识体系自动构建方法,包括:

2.根据权利要求1所述的方法,其中,所述确定构成目标文档的各文本内容和各所述文本内容之间的结构关系,包括:

3.根据权利要求1所述的方法,其中,所述通过多任务统一训练技术和基于行业人工标注的样本增强技术,识别所述文档内容中包含的实体、行业标签和属性信息,包括:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求1所述的方法,其中,所述将各所述内容节点按所述结构关系构建关联关系,得到与所述目标文档对应的行业知识体系,包括:

6.根据权利要求1所述的方法,还包括:

7.根据权利要求1所述的方法,其中,确定构成目标文档的各文本内容,包括:

8.根据权利要求1-7任一项所述的方法,还包括:

9.根据权利要求8所述的方法,还包括:

10.根据权利要求8所述的方法,还包括:

11.一种文档知识体系自动构建装置,包括:

12.根据权利要求11所述的装置,其中,所述内容及结构关系确定单元被进一步配置成:

13.根据权利要求11所述的装置,其中,所述识别及节点分类单元包括被配置成通过多任务统一训练技术和基于行业人工标注的样本增强技术,识别所述文档内容中包含的实体、行业标签和属性信息的识别子单元,所述识别子单元包括:

14.根据权利要求13所述的装置,其中,还包括:

15.根据权利要求11所述的装置,其中,所述行业知识体系构建单元被进一步配置成:

16.根据权利要求11所述的装置,还包括:

17.根据权利要求11所述的装置,其中,所述内容及结构关系确定单元包括被配置成确定构成目标文档的各文本内容的文本内容确定子单元,所述文本内容确定子单元被进一步配置成:

18.根据权利要求11-17任一项所述的装置,还包括:

19.根据权利要求18所述的装置,还包括:

20.根据权利要求18任一项所述的装置,还包括:

21.一种电子设备,包括:

22.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的文档知识体系自动构建方法。

23.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1-10中任一项所述文档知识体系自动构建方法的步骤。


技术总结
本公开提供了一种文档知识体系自动构建方法、装置、电子设备及存储介质,涉及知识图谱、知识体系、实体识别、深度学习等人工智能技术领域。该方法包括:确定构成目标文档的各文本内容和各文本内容之间的结构关系;通过多任务统一训练技术和基于行业人工标注的样本增强技术,识别文档内容中包含的实体、行业标签和属性信息,并将不同类型的识别结果分类至相应类型的内容节点;将各内容节点按结构关系构建关联关系,得到与目标文档对应的行业知识体系。应用该方法可以高效、准确、低介入的对给定行业文档自动完成行业知识体系的构建。

技术研发人员:杨天行
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1