知识体系的建立方法、装置及存储介质与流程

文档序号:16880961发布日期:2019-02-15 22:08阅读:209来源:国知局
知识体系的建立方法、装置及存储介质与流程

本发明实施例涉及信息处理技术领域,尤其涉及一种知识体系的建立方法、装置及存储介质。



背景技术:

目前越来越多的行业,需要信息化的整体已有知识,形成知识体系,沉淀行业经验,并在知识体系之上,提供能够赋能行业,降低行业人力成本的智能化ai应用。知识图谱是近年来在行业中比较热门的知识体系组织形式,很多具备一定技术势力的行业客户,期望或者正在进行行业知识体系的图谱化工作。

行业知识体系往往是极为复杂的,单一的知识表示形式很难覆盖行业知识上层应用的需求。目前的大数据解决方案重点关注在结构化的知识数据构建上,传统的知识库解决方案重点关注在非结构化的数据检索和自然语言处理相关问题上。实际上,行业积累的大量数据,普遍存在各种形态,通过单一形式的知识体系,很难满足行业在ai场景下的高要求。

目前业界对行业知识体系构建的处理方法分为如下几类:一是,原始知识不经过细化处理,直接以检索引擎相关技术进行上层服务,知识体系即为文档、段落粒度的组织。二是,原始知识经过扁平化二维处理,转化为问题-答案的形式,能够实现一些比较简单的上层应用知识,比如简单问答等,知识体系即为二维组织形式。三是,原始知识经过大数据处理技术,或者数据库处理技术,存储于大数据引擎或者数据库中,知识体系即为结构化的行列组织形式。

上述三个方案存在如下问题:应用能力的限制,知识体系的表达形式单一化,往往只能适应单一场景的应用需求;语义理解能力低;行业数据转化率差;知识信息密度低,知识缺乏语义层次,难以支撑比较ai化的行业应用。



技术实现要素:

本发明提供的知识体系的建立方法、装置及存储介质,实现构建复合型层次化知识体系的构建过程,该知识体系具有较高的行业数据转化率,能够支持ai化的行业应用。

本发明的第一方面提供一种知识体系的建立方法,包括:

从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;

根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;

根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层。

在一种可能的实现方式中,所述根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,包括:

获取所述非结构化数据对应的实体;

根据所述非结构化数据对应的实体以及所述知识图谱中的实体,针对相同的实体构建与所述知识图谱关联的图谱外延层。

在一种可能的实现方式中,所述根据所述结构化数据构建知识图谱,包括:

获取各所述结构化数据中各实体的相似度度量;

根据各所述相似度度量针对同一实体进行归一化聚合处理,得到所述知识图谱。

在一种可能的实现方式中,所述各实体的相似度度量包括如下中的至少一种:字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。

在一种可能的实现方式中,在获取各所述结构化数据中各实体的相似度度量之前,所述方法还包括:

判断各实体的所述属性信息是否满足预设语法规则;

若否,则根据预设映射规则,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

在一种可能的实现方式中,所述从行业数据中获取结构化数据和非结构化数据,包括:

从关系型数据库中获取所述结构化数据;

通过预设抽取规则,从行业数据中抽取非结构化数据,所述预设抽取规则至少包括如下中的一种:要素抽取、标签抽取、关系抽取、属性值抽取。

在一种可能的实现方式中,所述实体名称对应的属性信息包括实体的属性以及属性对应的属性值。

本发明的第二方面提供一种知识体系的建立装置,包括:

获取模块,用于从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;

构建模块,用于根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;

所述构建模块,还用于根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层。

本发明的第三方面提供一种知识体系的建立装置,包括:

存储器;

处理器;以及

计算机程序;

其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如本发明第一方面任一项所述的知识体系的建立方法。

本发明的第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如本发明第一方面任一项所述的知识体系的建立方法。

本发明实施例提供一种知识体系的建立方法、装置及存储介质,通过从行业数据中获取结构化数据和非结构化数据,其中,结构化数据包括实体的实体名称以及实体名称对应的属性信息;根据结构化数据构建知识图谱,知识图谱中包括实体的属性和属性值以及各实体之间的关系;根据非结构化数据构建与知识图谱关联的图谱外延层,图谱外延层包括问答层、知识段落层以及推理层。上述建立方法得到的知识体系为复合形式的分层体系,包含知识图谱层和图谱外延层,图谱外延层的数据与知识图谱层的数据相互融合,使得该知识体系具有较高的行业数据转化率,能够支持ai化的行业应用。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的知识体系的结构示意图;

图2为本发明实施例提供的知识图谱的结构示意图;

图3为本发明一实施例提供的知识体系的建立方法的流程示意图;

图4为本发明一实施例提供的知识体系的建立装置的结构示意图;

图5为本发明另一实施例提供的知识体系的建立装置的结构示意图;

图6为本发明一实施例提供的知识体系的建立装置的硬件结构示意图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的说明书中通篇提到的“一实施例”或“另一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一些实施例中”或“在本实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的知识体系的结构示意图,图2为本发明实施例提供的知识图谱的结构示意图。

如图1所示,本发明实施例提供的知识体系不再是单一的形式,而是一个复合形式的体系。该体系包括知识图谱层和图谱外延层。其中,

知识图谱层为知识体系的核心层,行业数据经过分类算法,一部分沉淀在知识图谱层,一部分沉淀在图谱外延层。图谱外延层建立在知识图谱层之上,图谱外延层具体包括问答层、知识段落层以及推理层,示例性的,图谱外延层的数据包括实体关联的图片、实体关联的评论信息、实体关联的服务信息等。

具体来说,问答层即faq,是以往单一形式知识体系常用的key-value知识形态;知识段落层是比较传统的知识体系常用的文本段落;推理层包括了图谱外延中的规则、决策、过程的表现形式,行业中对知识的应用形式大一部分落在推理层,以满足行业推理计算的需求。

本实施例提供的复合形式的知识体系是以知识图谱的结构化符号化描述为基础,行业知识中适合且能够沉淀到知识图谱的部分,由s-p-o三元组(s、p、o分别表示subject,predicate和object),s-s关联关系,s-s概念上下位关系的图谱化形式存储。

其中,知识图谱用于描述真实世界中存在的各种实体及其关系。知识图谱中包括实体的属性和属性值以及各实体之间的关系。知识图谱可被看作是一张巨大的图,节点表示实体,边则由属性或关系构成。例如,在图2中示出了实体a的属性和属性值,以及与实体a具有关系的实体b、实体c和实体d。

图3为本发明一实施例提供的知识体系的建立方法的流程示意图,如图1所示,本实施例提供的知识体系的建立方法包括如下步骤:

s301、从行业数据中获取结构化数据和非结构化数据,结构化数据包括实体的实体名称以及实体名称对应的属性信息;

在本实施例中,从行业数据中获取结构化数据具体是指,从关系型数据库中获取结构化数据;从行业数据中获取非结构化数据具体是指,通过预设抽取规则,从行业数据中抽取非结构化数据。其中,预设抽取规则至少包括如下中的一种:要素抽取、标签抽取、关系抽取、属性值抽取。

其中,结构化数据包括实体的实体名称以及实体名称对应的属性信息,实体名称对应的属性信息包括实体的属性以及属性对应的属性值。

在本实施例中,实体的属性有两种含义:

一种含义为:实体的自身属性,该自身属性可以为实体的身高、体重等,对应的属性值为该自身属性对应的属性值,例如具体的身高值,体重值等。在知识图谱中,边信息则用于指示实体的自身属性。其中,实体的自身属性可以有多个,每个自身属性对应的属性值也可以为多个。

另一种含义为:实体之间的关系属性,该关系属性可以为夫妻、子女、父母、朋友等,对应的属性值为与该实体具有关系的其它实体。在知识图谱中,边信息则用于指示实体与其它实体的关系。其中,实体对应的关系属性可以有多个,每个关系属性可以对应多个其它实体。

s302、根据结构化数据构建知识图谱;知识图谱中包括实体的属性和属性值以及各实体之间的关系;

在获取行业数据中的结构化数据之后,创建知识图谱之前,获取各结构化数据中各实体的相似度度量;其中,

各实体的相似度度量包括如下中的至少一种:

字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。下面分别依次进行说明:

一、字符语义相似度的度量。具体地,判断各结构化数据中各实体的实体名称的字符语义相似度是否大于预设阈值,若是,则进行归一化聚合处理。

在具体实现过程中,具有相同表述的实体可能是同一实体。例如,从不同房产垂直网站可能采集到上海绿地海珀星晖、绿地海珀星晖、海珀星晖、海珀星晖小区等实体,从名称的字符相似度上可以判断它们可能是同一实体,例如字符相似度大于预设阈值,则判断为同一实体。可选地,在判断字符相似度之前,还可以过滤掉前缀或后缀等,例如过滤掉前缀地名、前缀开发商名,过滤掉后缀“小区”等。

二、实体所处分类树的结构相似度的度量。判断各结构化数据中各实体在分类树中的节点信息;判断各实体的子节点与父节点是否相同,若是,则进行归一化聚合处理。

在具体实现过程中,具有相同邻居节点的实体可能指向同一实体。在数据源为分类树时,可以通过结构相似度的度量来进行度量。例如,从中国植物志和护花网分别采集的植物学分类树时,木樨和桂花的父节点与子节点都相同,则判断两者为同一实体。

三、属性相似度的度量。在本实施例中,判断各结构化数据的各实体对应的属性是否相同,若是,则进一步判断属性对应的属性值是否相同,若是,则进行归一化聚合处理。具体可通过属性比较器进行属性相似度的比较。

根据上述各相似度度量,针对同一实体进行归一化聚合处理,得到知识图谱。将多源异构数据中指向同一实体的重复数据,进行归一化操作。

s303、根据非结构化数据构建与知识图谱关联的图谱外延层,图谱外延层包括问答层、知识段落层以及推理层。

具体的,获取所述非结构化数据对应的实体;

根据非结构化数据对应的实体以及知识图谱中的实体,针对相同的实体构建与知识图谱关联的图谱外延层。本实施例中,具体是通过知识理解算法识别非结构化数据对应的实体,并与知识图谱建立关联,从而使得图谱外延层的实体与知识图谱层中的实体关联,丰富了图谱外延层的语义表达,从而形成一个复合型知识体系,增强了对上层应用的支持。

本发明实施例提供的知识体系的建立方法,通过从行业数据中获取结构化数据和非结构化数据,其中,结构化数据包括实体的实体名称以及实体名称对应的属性信息;根据结构化数据构建知识图谱,知识图谱中包括实体的属性和属性值以及各实体之间的关系;根据非结构化数据构建与知识图谱关联的图谱外延层,图谱外延层包括问答层、知识段落层以及推理层。上述建立方法得到的知识体系为复合形式的分层体系,包含知识图谱层和图谱外延层,图谱外延层的数据与知识图谱层的数据相互融合,使得该知识体系具有较高的行业数据转化率,能够支持ai化的行业应用。

可选的,在上述实施例的基础上,在获取各结构化数据中各实体的相似度度量之前,建立方法还包括如下步骤:

判断各实体的属性信息是否满足预设语法规则;

若否,则根据预设映射规则,对各属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

基于上述实施例的描述可知,各结构化数据中各实体的属性信息包括实体的属性以及属性对应的属性值,在获取各结构化数据中各实体的相似度度量之前,需要确保各实体的属性信息满足预设的属性语法规则,若不满足,则需要根据预设属性映射规则,对不满足属性语法规则的属性信息进行清洗归一处理,以使具有相同语义的属性信息具有预设语法规则的描述。

在确保各结构化数据的各实体满足预设的属性语法规则之后,再进行各实体之间的相似度度量,去除同一实体的重复数据。

图4为本发明一实施例提供的知识体系的建立装置的结构示意图,如图4所示,本实施例提供的知识体系的建立装置40,包括:

获取模块41,用于从行业数据中获取结构化数据和非结构化数据,所述结构化数据包括实体的实体名称以及所述实体名称对应的属性信息;

构建模块42,用于根据所述结构化数据构建知识图谱;所述知识图谱中包括实体的属性和属性值以及各实体之间的关系;

所述构建模块42,还用于根据所述非结构化数据构建与所述知识图谱关联的图谱外延层,所述图谱外延层包括问答层、知识段落层以及推理层。

本发明实施例提供的知识体系的建立装置包括获取模块和构建模块,其中,获取模块用于从行业数据中获取结构化数据和非结构化数据,结构化数据包括实体的实体名称以及实体名称对应的属性信息;构建模块用于根据结构化数据构建知识图谱,其中知识图谱中包括实体的属性和属性值以及各实体之间的关系;构建模块还用于根据非结构化数据构建与知识图谱关联的图谱外延层,其中图谱外延层包括问答层、知识段落层以及推理层。上述装置实现对复合形式的分层知识体系的构建,该知识体系包括数据相互融合的知识图谱层和图谱外延层,使得该知识体系具有较高的行业数据转化率,能够支持ai化的行业应用。

可选的,所述构建模块42,具体用于:

获取所述非结构化数据对应的实体;

根据所述非结构化数据对应的实体以及所述知识图谱中的实体,针对相同的实体构建与所述知识图谱关联的图谱外延层。

可选的,所述构建模块42,具体用于:

获取各所述结构化数据中各实体的相似度度量;

根据各所述相似度度量针对同一实体进行归一化聚合处理,得到所述知识图谱。

可选的,所述各实体的相似度度量包括如下中的至少一种:字符语义相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。

图5为本发明另一实施例提供的知识体系的建立装置的结构示意图,在图4所示装置的基础上,如图5所示,本实施例提供的知识体系的建立装置40,还包括:判断模块43和属性映射模块44;

所述判断模块43,用于在获取各所述结构化数据中各实体的相似度度量之前,判断各实体的所述属性信息是否满足预设语法规则;

若否,则所述属性映射模块44,用于根据预设映射规则,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。

可选的,所述获取模块41,具体用于:

从关系型数据库中获取所述结构化数据;

通过预设抽取规则,从行业数据中抽取非结构化数据,所述预设抽取规则至少包括如下中的一种:要素抽取、标签抽取、关系抽取、属性值抽取。

可选的,所述实体名称对应的属性信息包括实体的属性以及属性对应的属性值。

本实施例提供的知识体系的建立装置,可以执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本发明实施例还提供一种知识体系的建立装置,参见图6所示,本发明实施例仅以图6为例进行说明,并不表示本发明仅限于此。

图6为本发明一实施例提供的知识体系的建立装置的硬件结构示意图,如图6所示,本实施例提供的知识体系的建立装置60,包括:

存储器61;

处理器62;以及

计算机程序;

其中,计算机程序存储在存储器61中,并被配置为由处理器62执行以实现如前述任一项方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

可选的,存储器61既可以是独立的,也可以跟处理器62集成在一起。

当存储器61是独立于处理器62之外的器件时,知识体系的建立装置60还包括:

总线63,用于连接存储器61和处理器62。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器62执行以实现如上方法实施例中知识体系的建立装置60所执行的各个步骤。

应理解,上述处理器可以是中央处理单元(英文:centralprocessingunit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digitalsignalprocessor,简称:dsp)、专用集成电路(英文:applicationspecificintegratedcircuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速ram存储器,也可能还包括非易失性存储nvm,例如至少一个磁盘存储器,还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(applicationspecificintegratedcircuits,简称:asic)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1