一种企业知识图谱的构建系统和方法与流程

文档序号:23629220发布日期:2021-01-12 10:43阅读:201来源:国知局
一种企业知识图谱的构建系统和方法与流程

本发明涉及知识图谱技术领域,尤其涉及一种企业知识图谱的构建系统和方法。



背景技术:

在数字经济时代,企业拥有海量的结构化、半结构化和非结构化(下文中,指的是非结构化文档数据)等类型的数据(异构),并且这些数据通常存储在不同的位置(多源)。多源异构数据的碎片化、关联性不足等特征容易导致“信息孤岛”、数据不能转化成知识等问题,进而影响数据价值挖掘的深度。数据自身需要通过理解、分析才能够有效被利用,而构建知识图谱即是对数据进行“萃取”,进而“提炼”有效知识的重要途径。

知识图谱作为人工智能技术的应用领域之一,其强大的语义处理和数据结构化组织能力,为智能化信息应用提供了基础。知识图谱是通过构建实体与关系的语义网络将大规模数据/知识进行整合、交叉关联、分析比对,对数据进行深度挖掘,支撑知识的智能化理解表示、推理、检索和服务,向用户提供自助的迭代分析能力。然而,对于非结构化、半结构化数据整合关联、知识提取表示等的需求和应用,传统数据库和分析挖掘技术工具几乎无能为力。

当前,企业海量数据的组织和存储往往是碎片化的,各种结构的数据由于数据结构、数据库存储能力等方面的限制存储在不同的数据库和文件系统中,传统的数据库和分析挖掘技术工具对于非结构化和半结构化数据处理能力弱,进而导致各种结构类型的数据不能进行有效整合和关联、数据的价值挖掘难度大。



技术实现要素:

鉴于上述的分析,本发明实施例旨在提供一种企业知识图谱的构建系统和方法,用以解决现有数据库和分析挖掘技术工具对于非结构化和半结构化数据处理能力弱,进而导致各种结构类型的数据不能进行有效整合和关联、数据的价值挖掘难度大的问题。

一方面,本发明实施例提供了一种企业知识图谱的构建系统,包括:创建图谱模块,用于创建知识图谱卡片;图谱设计模块,用于针对所述知识图谱卡片设计知识图谱schema,以定义知识图谱中的实体和关系;数据配置模块,用于分别通过导入数据子模块、数据源配置子模块和知识抽取子模块配置基础数据源,其中,所述知识抽取子模块将非结构化数据进行结构化处理并将结构化处理后的数据作为所述基础数据源之一提供给图谱构建模块;所述图谱构建模块,用于利用所述导入数据子模块、所述数据源配置子模块和所述知识抽取子模块选择的所述基础数据源,基于所述知识图谱schema构建知识图谱;以及规则设计模块,用于在所述知识图谱中实现规则配置和规则推理,以通过可视化知识图谱展示所述规则推理和推理结果。

上述技术方案的有益效果如下:知识图谱是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示数据中定义的“实体”,每条边为实体与实体之间的“关系”。知识图谱的构建主要关注如何整合结构化、半结构化和非结构化的数据,实现用统一的语义数据结构。从而更好地组织、管理和理解企业海量信息的能力,能够克服上述企业数据管理难题。

基于上述系统的进一步改进,根据权利要求1所述的企业知识图谱的构建系统,所述知识图谱schema包括普通视图模式、可视化视图模式和模板导入模式,以在所述普通视图模式、所述可视化视图模式和所述模板导入模式之间进行切换。

基于上述系统的进一步改进,所述导入数据子模块用于批量导入excel文件,以为所述知识图谱配置半结构化数据。

基于上述系统的进一步改进,所述数据源配置子模块用于通过url连接方式添加关系型数据库,以及将所述关系型数据库中的结构化数据映射到所述知识图谱中,以为所述知识图谱配置结构化数据。

基于上述系统的进一步改进,所述结构化数据映射包括:实体映射、属性映射和关系映射,其中,所述实体映射将所述图谱设计模块定义的所述实体与所述关系型数据库中的数据表进行逐个关联;所述属性映射将所述实体的属性与其关联的数据表中的字段进行映射;以及所述关系映射是建立首实体与尾实体之间的关系。

基于上述系统的进一步改进,所述知识抽取子模块用于对非结构化文本数据进行知识抽取,包括本体管理子模块、语料管理子模块、算法管理子模块、模型训练子模块和模型作业子模块,其中,本体管理子模块,用于根据业务场景需求定义从所述非结构化文本数据中抽取的实体及其关系作为本体;语料管理子模块,用于对上传的非结构化样本语料进行管理,其中,基于所述本体对所述非结构化样本语料中的实体与实体关系进行标注;算法管理子模块,用于对所述非结构化文本数据中的实体与实体关系抽取算法进行管理;模型训练子模块,用于根据任务需求选择算法和训练样本,然后进行模型训练;以及模型作业子模块,用于使用训练好的模型和需要被处理的新的原始样本构建模型作业,从新的原始样本中抽取实体及其关系。

基于上述系统的进一步改进,企业知识图谱的构建系统还包括数据清洗模块、归一消歧模块和知识图谱重构模块,其中,所述数据清洗模块,用于配置正则表达式并且按照所述正则表达式对属性值类型进行过滤,以统一数据格式;所述归一消歧模块,用于根据实体相似度确定同一实体,以去除重复实体;所述知识图谱重构模块,用于通过数据清洗和归一消歧对所述知识图谱进行手动调优,以重构知识图谱。

基于上述系统的进一步改进,所述规则设计模块,用于进行规则配置和规则推理,并且所述规则配置包括:填写规则基本描述信息;选择规则相关实体;基于规则意图形成规则表达式并将所述规则表达式分解成多个规则子表达式,其中,每个规则子表达式为知识图谱中的一条实体与关系路径;配置所述多个规则子表达式中的一个规则子表达式,选定所述一个规则子表达式的首实体,并显示所述首实体的所有基础属性和关系属性;选择所述基础属性或者所述关系属性,以配置所述首实体的属性数据;当选择所述基础属性时,所述属性数据为所述基础属性对应的数据,所述一个规则子表达式配置完成,以与所述一个规则子表达式相同的方式继续配置剩余的规则子表达式;当选择所述关系属性时,实体选择框会自动切换为关系属性所对应的尾实体,所述属性数据变换为所述尾实体对应的属性数据,以与所述一个规则子表达式相同的方式继续配置剩余的规则子表达式;构建规则子表达式、规则子表达式函数、和常规运算符之间的关系以完成规则表达式配置。

基于上述系统的进一步改进,所述规则推理用于选择配置的规则,并将选择的规则应用于知识图谱,以通过可视化知识图谱展示所述规则推理和推理结果。

另一方面,本发明实施例提供了一种企业知识图谱的构建方法,包括:创建知识图谱卡片;针对所述知识图谱卡片设计知识图谱schema,以定义知识图谱中的实体和关系;分别通过导入数据子模块、数据源配置子模块和知识抽取子模块配置基础数据源,其中,所述知识抽取子模块将非结构化数据进行结构化处理并将结构化处理后的数据作为所述基础数据源之一提供给图谱构建模块;利用所述导入数据子模块、所述数据源配置子模块和所述知识抽取子模块选择的所述基础数据源,基于所述知识图谱schema构建知识图谱;以及在所述知识图谱中实现规则配置和规则推理,以通过可视化知识图谱展示所述规则推理和推理结果。

与现有技术相比,本发明至少可实现如下有益效果之一:

1、知识图谱是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示数据中定义的“实体”,每条边为实体与实体之间的“关系”。知识图谱的构建主要关注如何整合结构化、半结构化和非结构化的数据,实现用统一的语义数据结构。从而更好地组织、管理和理解企业海量信息的能力,能够克服上述企业数据管理难题。

2、知识图谱把大规模不同结构的数据中定义的“实体”通过“关系”连接在一起而形成一个数据网络,实现多源异构数据整合、深层次交叉关联,进而提供从“关系”的角度去分析问题的能力,达到充分挖掘数据价值的目的。

3、知识图谱技术能够有效打破“数据壁垒”,实现多源异构数据的互联互通。快速构建知识图谱,解决企业多源异构数据的整合难题,进而提升企业数据应用价值。

本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。

图1为根据本发明实施例的企业知识图谱的构建系统的框图;

图2为根据本发明实施例的企业知识图谱的构建系统的具体结构图;

图3为根据本发明实施例的知识抽取的框图;以及

图4为根据本发明实施例的企业知识图谱的构建方法的流程图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。

本发明的一个具体实施例,公开了一种企业知识图谱的构建系统。参考图1,企业知识图谱的构建系统,包括:创建图谱模块102,用于创建知识图谱卡片;图谱设计模块104,用于针对知识图谱卡片设计知识图谱schema,以定义知识图谱中的实体和关系;数据配置模块106,用于分别通过导入数据子模块、数据源配置子模块和知识抽取子模块配置基础数据源,其中,知识抽取子模块将非结构化数据进行结构化处理并将结构化处理后的数据作为基础数据源之一提供给图谱构建模块;图谱构建模块108,用于利用导入数据子模块、数据源配置子模块和知识抽取子模块选择的基础数据源,基于知识图谱schema构建知识图谱;以及规则设计模块110,用于在知识图谱中实现规则配置和规则推理,以通过可视化知识图谱展示规则推理和推理结果。

与现有技术相比,本实施例提供的企业知识图谱的构建系统中,知识图谱是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示数据中定义的“实体”,每条边为实体与实体之间的“关系”。知识图谱的构建主要关注如何整合结构化、半结构化和非结构化的数据,实现用统一的语义数据结构。从而更好地组织、管理和理解企业海量信息的能力,能够克服上述企业数据管理难题。

下文中,将参考图1至图3,对企业知识图谱的构建系统进行详细描述。

参考图1,企业知识图谱的构建系统包括:创建图谱模块102、图谱设计模块104、数据配置模块106、图谱构建模块108和规则设计模块110。参考图2,企业知识图谱的构建系统还包括:数据清洗模块、归一消歧模块和知识图谱重构模块。

创建图谱模块102用于创建知识图谱卡片。每个知识图谱卡片是基于具体应用场景设计的知识图谱。本系统支持用户创建多个知识图谱卡片。

图谱设计模块104,用于针对知识图谱卡片设计知识图谱schema,以定义知识图谱中的实体和关系。知识图谱schema包括普通视图模式、可视化视图模式和模板导入模式,以在普通视图模式、可视化视图模式和模板导入模式之间进行切换。

数据配置模块106,用于分别通过导入数据子模块、数据源配置子模块和知识抽取子模块配置基础数据源,其中,知识抽取子模块将非结构化数据进行结构化处理并将结构化处理后的数据作为基础数据源之一提供给图谱构建模块。数据配置模块106即参考图2的我的数据模块。具体地,导入数据子模块用于批量导入excel文件,以为知识图谱配置半结构化数据。数据源配置子模块用于通过url连接方式添加关系型数据库,以及将关系型数据库中的结构化数据映射到知识图谱中,以为知识图谱配置结构化数据。结构化数据映射包括:实体映射、属性映射和关系映射,其中,实体映射将图谱设计模块定义的实体与关系型数据库中的数据表进行逐个关联;属性映射将实体的属性与其关联的数据表中的字段进行映射;以及关系映射是建立首实体与尾实体之间的关系。下文中,参考图3,对知识抽取子模块进行详细描述。

参考图3,知识抽取子模块用于对非结构化文本数据进行知识抽取,包括本体管理子模块、语料管理子模块、算法管理子模块、模型训练子模块和模型作业子模块,其中,本体管理子模块,用于根据业务场景需求定义从非结构化文本数据中抽取的实体及其关系作为本体;语料管理子模块,用于对上传的非结构化样本语料进行管理,其中,基于本体对非结构化样本语料中的实体与实体关系进行标注;算法管理子模块,用于对非结构化文本数据中的实体与实体关系抽取算法进行管理;模型训练子模块,用于根据任务需求选择算法和训练样本,然后进行模型训练;以及模型作业子模块,用于使用训练好的模型和需要被处理的新的原始样本构建模型作业,从新的原始样本中抽取实体及其关系。

图谱构建模块108,用于利用导入数据子模块、数据源配置子模块和知识抽取子模块选择的基础数据源,基于知识图谱schema构建知识图谱。

数据清洗模块,用于配置正则表达式并且按照正则表达式对属性值类型进行过滤,以统一数据格式;归一消歧模块,用于根据实体相似度确定同一实体,以去除重复实体;知识图谱重构模块,用于通过数据清洗和归一消歧对知识图谱进行手动调优,以重构知识图谱。

规则设计模块110,用于在知识图谱中实现规则配置和规则推理,以通过可视化知识图谱展示规则推理和推理结果。具体地,规则设计模块,用于进行规则配置和规则推理,并且规则配置包括:填写规则基本描述信息;选择规则相关实体;基于规则意图形成规则表达式并将规则表达式分解成多个规则子表达式,其中,每个规则子表达式为知识图谱(即,重构知识图谱又称优化的知识图谱)中的一条实体与关系路径;配置多个规则子表达式中的一个规则子表达式,选定一个规则子表达式的首实体,并显示首实体的所有基础属性和关系属性;选择基础属性或者关系属性,以配置首实体的属性数据;当选择基础属性时,属性数据为基础属性对应的数据,一个规则子表达式配置完成,以与一个规则子表达式相同的方式继续配置剩余的规则子表达式;当选择关系属性时,实体选择框会自动切换为关系属性所对应的尾实体,属性数据变换为尾实体对应的属性数据,以与一个规则子表达式相同的方式继续配置剩余的规则子表达式;构建规则子表达式、规则子表达式函数、和常规运算符之间的关系以完成规则表达式配置。规则推理用于选择配置的规则,并将选择的规则应用于优化的知识图谱,以通过可视化知识图谱展示规则推理和推理结果。

本发明的另一个具体实施例,公开了一种企业知识图谱的构建方法。参考图4,企业知识图谱的构建方法包括:步骤s402,创建知识图谱卡片;步骤s404,针对知识图谱卡片设计知识图谱schema,以定义知识图谱中的实体和关系;步骤s406,分别通过导入数据子模块、数据源配置子模块和知识抽取子模块配置基础数据源,其中,知识抽取子模块将非结构化数据进行结构化处理并将结构化处理后的数据作为基础数据源之一提供给图谱构建模块;步骤s408,利用导入数据子模块、数据源配置子模块和知识抽取子模块选择的基础数据源,基于知识图谱schema构建知识图谱;以及步骤s410,在知识图谱中实现规则配置和规则推理,以通过可视化知识图谱展示规则推理和推理结果。

在企业可用非结构化、半结构化和结构化数据规模快速增长的推动下,解决多源异构数据的整合、构建业务知识图谱是企业信息化发展的重要手段。知识图谱技术能够有效打破“数据壁垒”,实现多源异构数据的互联互通。构建知识图谱应用能够实现数据应用价值提升。本发明实施例的提出企业知识图谱的构建方法和系统,即,知识图谱半自动化构建方法和系统,能够实现从0到1快速构建知识图谱,解决企业多源异构数据的整合难题,进而提升企业数据应用价值。

下文中,将参考图2以具体实例的方式,对企业知识图谱的构建系统进行详细描述。具体而言,企业知识图谱的构建系统的实施流程如下:

(1)用户登录。

(2)用户点击“创建图谱”创建知识图谱卡片,其中,创建图谱模块的功能是对系统中创建的多个面向具体业务的知识图谱进行管理。每个知识图谱卡片是基于具体应用场景设计的知识图谱。本系统支持用户创建多个知识图谱卡片。

(3)点击知识图谱卡片,进入“图谱设计”功能模块,设计知识图谱schema,即定义知识图谱中的“实体”和“关系”。schema定义支持三种模式:普通视图、可视化视图和模板导入。

(4)schema设计完成后,进入“我的数据”功能模块。该模块的功能主要是为知识图谱提供基础数据,其包括“导入数据”、“数据源配置”和“知识抽取”三个子模块。(a)“导入数据”子模块提供实例导入模板下载和半结构化的excel文件实例数据批量导入操作等功能。(b)“数据源配置”子模块包括“添加数据源”和“数据映射”两个功能,其主要是将对关系型数据库中的结构化数据映射到图谱中。“添加数据源”子模块通过url连接方式添加常见的关系型数据库源,如mysql,oracle等,以备“数据映射”功能使用。“数据映射”包含三个步骤:实体映射、属性映射和关系映射。“实体映射”将图谱设计定义的实体与关系型数据库中的表进行逐个关联。“属性映射”将实体的属性与其关联的表中的字段进行映射。“关系映射”是建立首实体与尾实体之间的关系,通过建立首实体所对应表中的一个字段与尾实体所对应表中的一个字段的关系进行表达,字段关系名称即为首尾实体的关系名称。(c)“知识抽取”子模块针对非结构文本数据进行知识抽取,其包括“本体管理”、“语料管理”、“算法管理”、“模型训练”和“模型作业”等功能。“本体管理”依据“图谱设计”模块定义的schema进行构建,“本体管理”定义的本体的范畴不超越schema定义的范畴。“语料管理”包括原始语料管理和语料标注。语料标注是基于本体进行的非结构化文本中的实体与实体关系标注,手动将非结构化文本结构化。“算法管理”对非结构化数据实体与实体关系抽取算法进行管理,本系统提供基于预训练模型bert(bidirectionalencoderrepresentationsfromtransformers)、结合三种算法的综合抽取模型bilstm+crf+capsule(bilstm:bi-directionallongshort-termmemory,双向长短时记忆神经网络,是由前向lstm与后向lstm组合而成;crf:conditionalrandomfieldalgorithm,条件随机场;capsule:胶囊神经网络)、结合三种算法的综合抽取模型bilstm+crf+cnn(cnn:convolutionalneuralnetworks,卷积神经网络)、结合三种算法的综合抽取模型bilstm+crf+gcn(gcn:graphconvolutionalnetwork,图卷积神经网络)、结合三种算法的综合抽取模型bilstm+crf+bert、结合三种算法的综合抽取模型bilstm+crf+rnn(rnn:recurrentneuralnetwork,递归神经网络)和结合三种算法的综合抽取模型bilstm+crf+transformer等七种抽取算法供不同场景进行选择使用。“模型训练”是基于标注语料和七种算法进行模型训练和调参,保存训练好的模型供“模型作业”使用。“模型作业”使用训练好的模型进行非标注语料的知识抽取,抽取结果保存留用。以上三个子模块是针对不同结构的数据进行结构化处理,并将处理后的数据作为基础数据供图谱构建使用。

参考图3,知识抽取流程包括:a、本体管理:本体管理模块包括本体的增删改查等功能,本体设计是根据业务场景需求定义从非结构化文本数据中抽取的实体及其关系(即新增本体),基于“图谱设计”模块进行。此处的本体设计的实体及其关系对应的是“图谱设计”模块的schema的子集。b、语料管理:语料管理模块对上传的非结构化文本语料进行管理,包括增删改查等基本操作和文本打标功能。c、算法管理:算法管理模块是对不同的非结构化文本抽取需求对相应的算法进行管理,包括增删改查等功能。d、模型训练:模型训练模块是根据任务需求选择算法和训练样本,然后进行模型训练。e、模型作业:模型作业是使用训练好的模型和需要被处理的新的原始样本构建模型作业,从新的原始样本中抽取实体及其关系。

(5)在知识图谱schema设计和基础数据准备完成之后进入“图谱构建”功能模块进行知识图谱的构建过程。构建过程经历配置“我的数据”功能模块中提供的基础数据和调用知识图谱schema两个步骤即可开始构建知识图谱。知识图谱构建完成后可以通过“实体映射”、“属性映射”查看数据映射是否完全正确。

(6)知识图谱构建完成后可以通过“实体映射”、“属性映射”、“数据清洗”和“归一消歧”等操作实现知识图谱的手动调优。其中,“数据清洗”是通过配置正则表达式方式进行;“归一消歧”是通过提供实体相似度算法实现。进而进行知识图谱重构,得到满足质量要求的知识图谱。

(7)知识图谱构建完成之后,进入“规则设计”功能模块,该模块包括“规则管理”和“规则推理”两个功能。“规则管理”包含“规则分类”和“规则添加”等功能。“规则分类”实现规则的增删改等操作。“规则添加”为在知识图谱中配置推理规则,其流程如下:(i)规则基本描述信息填写。(ii)选择规则相关实体。(iii)进入规则配置管理,依据规则意图形成规则表达式并将其分解成多个规则子表达式(每个规则子表达式即为图谱中的一条实体与关系路径)。(iv)配置规则子表达式,即选中规则顶端的实体,显示该实体所有的基础属性及关系属性。(v)选择实体的基础属性或者关系属性。如果选择基础属性,则该条规则子表达式配置完成,跳转至步骤(vii);(vi)如果选择关系属性,实体选择框会自动切换为关系属性所对应的尾实体,属性数据也变换为尾实体对应的属性数据,跳转至步骤(v)。(vii)重复步骤(iv)直至所有规则子表达式配置完毕,构建规则子表达式、规则子表达式函数(本方案中归纳的用于描述规则子表达式之间的关系)、常规运算符(加、减、乘、除、大于、小于、恒等、不等、并、或、交等)之间的关系完成规则表达式配置。“规则推理”可以选择配置的规则应用于知识图谱中实现规则推理和推理结果的可视化图谱展示。该模块能够在知识图谱中快速实现规则配置,提供规则推理功能。

(8)完成规则设计后,即可进入“图谱发布”功能模块,对构建好的知识图谱进行发布,提供给第三方服务调用。

本方案提出一种知识图谱半自动化构建方法及系统,该系统主要包含创建图谱、图谱设计、我的数据、图谱构建、规则设计和图谱发布等六个功能模块。“创建图谱”功能模块用于管理系统创建的多个面向具体业务的知识图谱。“图谱设计”功能模块是针对每个知识图谱进行schema设计,即定义知识图谱中的“实体”和“关系”。“我的数据”功能模块为知识图谱配置基础数据源。“图谱构建”功能模块基于schema选择基础数据源进行图谱构建,支持“数据清洗”和“归一消歧”等操作实现知识图谱的手动调优。“规则设计”功能模块能够在知识图谱中快速实现规则配置,支持规则推理。“图谱发布”功能模块实现图谱发布和查看发布记录功能。通过使用本系统能够实现从0到1快速构建知识图谱。

与现有技术相比,本发明至少可实现如下有益效果之一:

1、知识图谱是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示数据中定义的“实体”,每条边为实体与实体之间的“关系”。知识图谱的构建主要关注如何整合结构化、半结构化和非结构化的数据,实现用统一的语义数据结构。从而更好地组织、管理和理解企业海量信息的能力,能够克服上述企业数据管理难题。

2、知识图谱把大规模不同结构的数据中定义的“实体”通过“关系”连接在一起而形成一个数据网络,实现多源异构数据整合、深层次交叉关联,进而提供从“关系”的角度去分析问题的能力,达到充分挖掘数据价值的目的。

3、知识图谱技术能够有效打破“数据壁垒”,实现多源异构数据的互联互通。快速构建知识图谱,解决企业多源异构数据的整合难题,进而提升企业数据应用价值。

本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1