一种知识图谱的构建方法及装置、电子设备、存储介质与流程

文档序号:32660551发布日期:2022-12-23 23:23阅读:34来源:国知局
一种知识图谱的构建方法及装置、电子设备、存储介质与流程

1.本技术涉及数据处理技术领域,尤其涉及一种知识图谱的构建方法及装置、电子设备、存储介质。


背景技术:

2.在企业数据现代化治理的手段中,数据入湖是现阶段比较主流的数据集中化管控方式,可以针对企业各种各样的原始数据,将数据全部集中起来提供存取、处理、分析及传输。随着对于数据处理的需求提升,企业常采用一个共有数据湖和多个子数据湖的结构以运行整个企业的工作负载,共有数据湖接收私有数据湖传回的数据并做汇聚计算,存在业务处理不及时的问题,并且多个子数据湖较为分散,易形成地理位置和业务呈现孤岛隔离的数据,进而影响企业数据的整体关联性。


技术实现要素:

3.为解决上述技术问题,本技术的实施例提供了一种知识图谱的构建方法及装置、电子设备、计算机可读存储介质、计算机程序产品。
4.根据本技术实施例的一个方面,提供了一种知识图谱的构建方法,包括:从不同实体库获取针对运营商的元数据,以得到全局元数据;基于从所述全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱;对所述全局元数据中除所述指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定所述其他元数据的结构类型;基于所述其他元数据的结构类型,确定所述其他元数据的实体关联关系,并基于所述其他元数据的实体关联关系调整所述初始知识图谱,得到目标知识图谱。
5.根据本技术实施例的一个方面,一种知识图谱的构建装置,包括:获取单元,用于从不同实体库获取针对运营商的元数据,以得到全局元数据;预构建单元,用于基于从所述全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱;识别单元,用于对所述全局元数据中除所述指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定所述其他元数据的结构类型;处理单元,用于基于所述其他元数据的结构类型,确定所述其他元数据的实体关联关系,并基于所述其他元数据的实体关联关系调整所述初始知识图谱,得到目标知识图谱。
6.在另一示例性实施例中,所述基于所述其他元数据的结构类型,确定所述其他元数据的实体关联关系,包括:若所述其他元数据中存在属于第一结构类型的元数据,则从所述第一结构类型的元数据中提取所述第一结构类型的元数据对应的三元组,并基于提取到的三元组得到所述第一结构类型的元数据对应的实体关联关系;若所述其他元数据中存在属于第二结构类型的元数据,则对所述第二结构类型的元数据进行针对实体、关系和属性的提取处理,并基于提取到的实体、关系和属性构建得到三元组,并基于提取到的三元组得到所述第二结构类型的元数据对应的实体关联关系。
7.在另一示例性实施例中,所述其他元数据包括多个元数据;所述基于所述其他元
数据的结构类型,确定所述其他元数据的实体关联关系,包括:基于所述多个元数据的实体信息对所述多个元数据进行实体对齐处理,得到所述多个元数据之间的实体关联关系;所述基于所述其他元数据的实体关联关系调整所述初始知识图谱,得到目标知识图谱,包括:基于所述多个元数据之间的实体关联关系,对相同实体对应的实体信息进行归纳处理,得到实体调整量;基于所述实体调整量调整所述初始知识图谱,得到所述目标知识图谱。
8.在另一示例性实施例中,所述基于从所述全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱,包括:对所述指定数量的元数据进行预处理,得到预处理后的元数据;其中,所述预处理包括内容抽取处理、格式转换处理和加载处理中的至少一种;基于所述预处理后的元数据,构建得到所述初始知识图谱。
9.在另一示例性实施例中,在所述基于所述其他元数据的实体关联关系调整所述初始知识图谱,得到目标知识图谱之后,所述方法还包括:获取所述目标知识图谱的三元组,并基于所述三元组得到针对所述目标知识图谱的补充信息;基于所述补充信息对所述目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。
10.在另一示例性实施例中,所述获取所述目标知识图谱的三元组信息,基于所述三元组得到针对所述目标知识图谱的补充信息,包括:将所述三元组输入至预设的知识表示学习模型中,以通过所述预设的知识表示学习模型对所述三元组中缺失的关系和实体中的至少一个进行补全处理,得到针对所述目标知识图谱的补充信息。
11.在另一示例性实施例中,在所述基于所述其他元数据的实体关联关系调整所述初始知识图谱,得到目标知识图谱之后,所述方法还包括:基于所述目标知识图谱的图谱信息得到预测实体信息,所述预测实体信息包括三元组所包含的三项元素中的至少两项;基于所述预测实体信息对应的预测三元组,对所述目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。
12.根据本技术实施例的一个方面,一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备如前实现所述的知识图谱的构建方法。
13.根据本技术实施例的一个方面,一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的知识图谱的构建方法。
14.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的知识图谱的构建方法。
15.在本技术的实施例所提供的技术方案中,从不同实体库获取针对运营商的全局元数据,不同实体库对应不同的数据结构类型;以全局元数据中的指定数量的元数据构建得到初始知识图谱,之后还识别确定全局元数据中剩余的其他元数据的结构类型,并基于其他元数据的结构类型确定其他元数据的实体关联关系,进而基于其他元数据的实体关联关系对初始知识图谱进行调整,得到目标知识图谱。这样,基于运营商的全局元数据能够构建得到准确度较高、且较为全面的目标知识图谱,并且通过目标知识图谱能够形成呈现孤岛隔离的数据之间的虚拟全连接,从而提升了运营商的全局元数据之间的关联性,便于数据
管理。
16.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
18.图1是本技术涉及的一种实施环境的示意图;
19.图2是本技术的一示例性实施例示出的一种知识图谱的构建方法的流程图;
20.图3是图2所示实施例的步骤s204中确定其他元数据的实体关联关系的步骤在一个示例性实施例中的流程图;
21.图4是图2所示实施例中的步骤s204在一个示例性实施例中的流程图;
22.图5是图2所示实施例中的步骤s202在一个示例性实施例中的流程图;
23.图6是图2所示实施例中的步骤s204中得到目标知识图谱的步骤在一个示例性实施例中的流程图;
24.图7是图6所示实施例中通过为翻译模型的预设的知识表示学习模型得到针对目标知识图谱的补充信息的算法实现过程;
25.图8是本技术的另一示例性实施例示出的知识图谱的构建方法的流程图;
26.图9是本技术的一示例性实施例示出的一种知识图谱的构建装置的框图;
27.图10是适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
28.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
29.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
30.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
31.在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
32.相关技术中,在企业数据现代化治理的手段中,数据入湖是现阶段比较主流的数据集中化管控方式,数据湖可以针对企业各种各样的原始数据,将数据全部集中起来提供
存取、处理、分析及传输。随着对于数据处理的需求提升,企业常采用一个共有数据湖和多个子数据湖的结构以运行整个企业的工作负载,共有数据湖接收私有数据湖传回的数据并做汇聚计算,存在业务处理不及时的问题,并且多个子数据湖较为分散,易形成地理位置和业务呈现孤岛隔离的数据,进而影响企业数据的整体关联性。
33.如对运营商的数据进行管理,由于运营商的数据类型丰富且来源复杂,可以包括有业务域、运营域、管理域等数据领域的核心数据,以及信令等网络数据,采用“集团+多个省公司”两层化数据管理架构的同时也带来了诸多问题。例如,数据流转周期长,难以支持实时性业务,体现于大量数据传回中心的“集团”进行汇聚计算,容易阻塞网络导致带宽成本较高,同时存在性能瓶颈和业务处理不灵活的缺陷。另外,针对运营商的数据全局关联不够,体现于集团下省公司的各类采集以及计算平台集群较为分散,难以实现全程全网聚合优势。甚至为了保证数据安全性和隐私性,无法充分使用数据导致管理难度大且数据经营收益小,从而限制运营商对于大数据业务领域的发展。
34.为了解决如上问题,本技术的实施例提出了一种知识图谱的构建方法及装置、电子设备、计算机可读存储介质主要涉及数据处理技术,以下将对这些实施例进行详细说明。
35.首先请参阅图1,图1是本技术涉及的一种实施环境的示意图。该实施环境包括数据库10和服务器20,数据库10和服务器20之间通过有线或者无线网络进行通信。
36.服务器20用于从数据库10中获取针对运营商的元数据,以得到全局元数据,数据库10包括各种不同的实体库,服务器20基于从全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱;对全局元数据中除指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定其他元数据的结构类型;基于其他元数据的结构类型,确定其他元数据的实体关联关系,并基于其他元数据的实体关联关系调整初始知识图谱,得到目标知识图谱。相比于现有技术的数据处理的方案,本实施环境所提供的知识图谱的构建方法能够得到准确度较高、且较为全面的目标知识图谱,以虚拟链接针对运营商的全局元数据,并将目标知识图谱应用于运营商的数据管理。
37.需说明的是,图1所示实施环境中的服务器20服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器,本处不进行限制。
38.图2是本技术的一示例性实施例示出的知识图谱的构建方法的流程图。该方法可以应用于图1所示的实施环境,并由图1所示实施例环境中的服务器20具体执行。而在其它的实施环境中,该方法可以由其它实施环境中的设备执行,本实施例不对此进行限制。
39.如图2所示,在一示例性实施例中,该知识图谱的构建方法可以包括步骤s201至步骤s204,详细介绍如下:
40.步骤s201,从不同实体库获取针对运营商的元数据,以得到全局元数据。
41.不同的实体库中存储有不同类型的元数据,例如业务元数据、技术元数据、操作元数据等,其中,元数据是一种描述存储系统中文件或数据对象信息的数据,是数据的描述和上下文,有助于组织、查找以及理解数据。而针对运营商的全局元数据表征为所有与运营商相关的数据,故从不同实体库获取针对运营商的元数据,基于获取到的所有元数据能够得到全局元数据。
42.步骤s202,基于从全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱。
43.在得到运营商的全局元数据后,需要从中获取指定数量的元数据,并基于获取到的指定数量的元数据初步构建得到一个简易的、基础的、有待完善和更新的初始知识图谱。其中,指定数量的具体数值可以依据构建需求进行设置,也可以依据预设值确定,在此不做具体限制,能够基于获取到的指定数量的元数据构建得到初始知识图谱即可。
44.步骤s203,对全局元数据中除指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定其他元数据的结构类型。
45.由于初始知识图谱是基于全局元数据中指定数量即部分的元数据构建得到的,并不是基于运营商全部的元数据,故需要基于全局元数据中除指定数量的元数据之外的其他元数据对初始知识图谱进行更新,以形成一个准确度较高、且较为全面的知识图谱。
46.本技术中,根据元数据的结构类型将各种结构类型的元数据更新至初始知识图谱中,而不局限于特定结构类型的元数据,以形成较为全面的知识图谱。故在本实施例中构建得到初始图谱后,对全局元数据中除指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定其他元数据的结构类型。
47.步骤s204,基于其他元数据的结构类型,确定其他元数据的实体关联关系,并基于其他元数据的实体关联关系调整初始知识图谱,得到目标知识图谱。
48.针对全局元数据中除指定数量的元数据之外的其他元数据,能够通过不同的结构类型对应不同的识别获取方式对数据内容进行识别获取,从而进一步确定其他元数据之间的实体关联关系,再基于其他元数据的实体关联关系调整初始知识图谱,得到目标知识图谱。这样基于其他元数据之间建立的虚拟链接关系后,不仅能够形成准确度高且较为全面的目标知识图谱,还能够通过实体关联关系减少调整初始知识图谱的运算量,降低成本。
49.由上可知,在本实施例提供的方法中,通过从对应不同的数据结构类型的各个实体库中获取针对运营商的全局元数据,以全局元数据中的指定数量的元数据构建得到初始知识图谱。之后为了调整得到的简易、基础、有待完善和更新的初始知识图谱,还识别确定全局元数据中剩余的其他元数据的结构类型,并基于其他元数据的结构类型确定其他元数据的实体关联关系,进而基于其他元数据的实体关联关系对初始知识图谱进行调整,以得到不局限于特定结构类型元数据的目标知识图谱。这样,通过本技术提供的知识图谱的构建方法,基于运营商的全局元数据能够构建得到准确度较高、且较为全面的目标知识图谱,并且通过目标知识图谱能够形成呈现孤岛隔离的数据之间的虚拟全连接,以提升运营商的全局元数据之间的关联性,提升了数据管理效率以及利用率。
50.并且,通过首先基于指定数量的元数据构建初始知识图谱,再基于全局元数据中剩余的其他元数据调整得到目标知识图谱的方式,避免了直接根据全部的元数据导致构建过程运算量庞大,并且不容易拓展从而应用场景受限的情况,同时通过表征了所有与运营商相关的数据的全局元数据还保证了目标知识图谱的准确度和全面性。
51.在本技术的一示例性实施例中,数据结构类型包括第一结构类型和第二结构类型,如图3所示,图3是图2所示实施例的步骤s204中确定其他元数据的实体关联关系的步骤在一个示例性实施例中的流程图,具体可以包括步骤s301至步骤s302,详细介绍如下:
52.步骤s301,若其他元数据中存在属于第一结构类型的元数据,则从第一结构类型
的元数据中提取第一结构类型的元数据对应的三元组,并基于提取到的三元组得到第一结构类型的元数据对应的实体关联关系。
53.除了图2所示实施例中将不同的实体库中存储的不同类型的元数据依据数据种类为划分标准,划分业务元数据、技术元数据、操作元数据等,还可以依据数据的结构特征,划分为结构化数据、非结构化数据以及半结构化数据。
54.上述的第一结构类型表征元数据为结构化数据,结构化数据通过关系型数据库进行存储和管理,结构化数据严格地遵循预设的数据格式与长度规范,并且其具有的明确的关系,典型的结构化数据为字段名称。这样就使得在识别确定其他元数据的结构类型为第一结构类型后,能够直接基于数据内容确定该元数据对应的实体关联关系。
55.具体的,确定其他元数据中存在属于第一结构类型的元数据后,就依据第一结构类型的数据的特性,从中提取第一结构类型的元数据对应的三元组,并基于提取到的三元组得到第一结构类型的元数据对应的实体关联关系。其中,三元组为效力于知识图谱的最小数据结构单元,包括两个节点以及之间的关系,在本技术提供的实施例中提取到的第一结构类型的元数据对应的三元组包括实体、关系和属性。因此,实体关联关系表征的是,其他元数据中除第一结构类型的元数据外的剩余元数据的三元组与第一结构类型的元数据的三元组之间,基于实体、关系和属性判定其中实体的具体关联。
56.步骤s302,若其他元数据中存在属于第二结构类型的元数据,则对第二结构类型的元数据进行针对实体、关系和属性的提取处理,并基于提取到的实体、关系和属性构建得到三元组,并基于提取到的三元组得到第二结构类型的元数据对应的实体关联关系。
57.上述的第二结构类型表征元数据为非结构化数据或者半结构化数据,半结构化数据通过文件存储系统数据库进行存储和管理,例如表单元数据便为半结构化数据,具有一定的结构要求的同时具有变化性;非结构化通过非关系型数据库进行存储和管理,非结构化数据是字段可变的数据,不符合任何预定义的模型,例如文字处理、电子表格、演示文稿、电子邮件、日志等文本文件。因此在识别确定其他元数据的结构类型为第二结构类型后,需要对元数据进行针对实体、关系和属性的提取处理,从而确定该元数据对应的实体关联关系。
58.具体的,确定其他元数据中存在属于第二结构类型的元数据后,就依据第二结构类型的数据的特性,对第二结构类型的元数据进行针对实体、关系和属性的提取处理,并基于提取到的实体、关系和属性构建得到三元组,并基于提取到的三元组得到第二结构类型的元数据对应的实体关联关系。其中,针对实体的提取处理可以通过命名实体识别来进行,针对关系和属性的抽取可以规则的、基于传统机器学习的和基于深度学习的方法来进行,即对元数据进行只是抽取和信息化抽取。
59.并且实体关联关系表征的是,其他元数据中除第二结构类型的元数据外的剩余元数据的三元组与第二结构类型的元数据的三元组之间,基于实体、关系和属性判定其中实体的具体关联。例如,识别确定其他元数据中只存在第二结构类型的元数据,则只需要基于提取到的第二结构类型的元数据对应的三元组得到各个数据之间的实体关联关系,若只存在第一结构类型的元数据则同上;若识别确定其他元数据中同时存在第一结构类型和第二结构类型的元数据,则基于对应的方式分别提取出对应的三元组之后,得到其他数据中各个数据之间的实体关联关系。
60.本实施例通过识别确定其他元数据中数据的结构类型,基于第一结构类型和第二结构类型对应的三元组提取方式提取包括实体、关系和属性的三元组,并基于提取到的三元组得到其他数据中各个数据之间的实体关联关系,以使得形成的知识图谱全面对应运营商的全局元数据,且不局限于特定结构类型的元数据。
61.请参阅图4,图4是图2所示实施例中的步骤s204在一个示例性实施例中的流程图。如图4所示,步骤s204具体可以包括步骤s401至步骤s403,通过上述步骤来确定其他元数据的实体关联关系,详细介绍如下:
62.步骤s401,基于多个元数据的实体信息对多个元数据进行实体对齐处理,得到多个元数据之间的实体关联关系。
63.全局元数据中除指定数量的元数据之外的其他元数据是包括多个元数据的,上述的实体信息表征为各个元数据可以提取出的包括实体、关系和属性的三元组,在获取到各个数据对应的三元组后便可以得到实体之间的实体关联关系。具体的,基于多个元数据的实体信息对多个元数据进行实体对齐处理,基于三元组分析判断多个元数据的三元组中的实体是否为指向真实世界中同一个对象,以此得到多个元数据之间的实体关联关系。
64.步骤s402,基于多个元数据之间的实体关联关系,对相同实体对应的实体信息进行归纳处理,得到实体调整量。
65.实体对齐处理可以包括实体消歧和指代消解,实体消歧主要是为了明确多个元数据各自对应的三元组中的实体所指代的真实世界实体,达到字面上的消解歧义的效果,通过实体消歧明确元数据所指代的真实世界实体后,通过指代消解将同一实体的不同指称划分到一起,也就是将具有相同实体的元数据聚集在一起对各自的信息进行融合和聚集,以实现上述的归纳处理。其他元数据包括的多个元数据通过上述的实体对齐处理以及归纳处理后,处理结果中不存在相同的实体且包括了原其他元数据包括的多个元数据的所有内容,作为实体调整量。
66.步骤s403,基于实体调整量调整初始知识图谱,得到目标知识图谱。
67.本实施例基于全局元数据中除指定数量的元数据之外的其他元数据得到实体调整量,再基于实体调整量调整初始知识图谱,能够得到涵盖运营商全局元数据的目标知识图谱。其中,调整操作可以是将实体调整量直接更新至出初始知识图谱中,也可以是其他手段,在此不做限制。
68.本实施例,通过实体对齐处理以及归纳处理得到实体调整量,将全局元数据中剩余的其他元数据更新至初始知识图谱中得到目标知识图谱,避免了直接根据全部的元数据导致构建过程运算量庞大,并且不容易拓展从而应用场景受限的情况,同时通过表征了所有与运营商相关的数据的全局元数据还保证了目标知识图谱的准确度和全面性。
69.请参阅图5,图5是图2所示实施例中的步骤s202在一个示例性实施例中的流程图。如图5所示,步骤s202具体可以包括步骤s501至步骤s502,通过上述步骤来构建得到初始知识图谱,详细介绍如下:
70.步骤s501,对指定数量的元数据进行预处理,得到预处理后的元数据。
71.其中,预处理包括内容抽取处理、格式转换处理和加载处理中的至少一种,本技术提供的该实施例可以采用etl方式对指定数量的元数据进行预处理,那么预处理便至少包括抽取处理、格式转换处理和加载处理,还可以包括其他优化数据的处理手段,以得到预处
理后的元数据。
72.etl(extract-transform-load),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是为了将分散、零乱、标准不统一的数据整合到一起。具体的,抽取处理一般是通过工具从各个不同的数据源抽取到一个中间层中,应用到本技术中即是从不同实体库中获取针对营运商的元数据,抽取后还包括不符合要求的错误数据、不完整数据、重复数据等数据清除掉;转换处理是把所有数据的模板、标准、计算规则等进行统一,如存储结构、数据编码等。
73.步骤s502,基于预处理后的元数据,构建得到初始知识图谱。
74.基于预处理后的元数据构建初始知识图谱的方法,可以是基于专家经验和规则进行手工标注,通过这样的方法形成一个简易的、基础的、有待完善和更新的知识图谱,应用到本技术提供的知识图谱的构建方法中,以进行初始知识图谱的调整得到目标知识图谱。
75.本实施例通过首先基于指定数量的元数据构建初始知识图谱,之后再通过本技术提供的知识图谱的构建方法基于全局元数据中剩余的其他元数据调整得到目标知识图谱,避免了直接根据全部的元数据导致构建过程运算量庞大,并且不容易拓展从而应用场景受限的情况,同时通过表征了所有与运营商相关的数据的全局元数据还保证了目标知识图谱的准确度和全面性。
76.请参阅图6,图6是图2所示实施例中的步骤s204中基于其他元数据的实体关联关系调整初始知识图谱,得到目标知识图谱的步骤在一个示例性实施例中的流程图。如图6所示,可以包括步骤s601至步骤s602,详细介绍如下:
77.步骤s601,获取目标知识图谱的三元组,并基于三元组得到针对目标知识图谱的补充信息。
78.其中,获取的目标知识图谱的三元组包括的是两个实体以及实体之间的关系,不同于图3所示实施例中从其他元数据中提取到的实体、关系和属性构建得到三元组。并且本实施例中,获取的目标知识图谱的三元组涵盖目标知识图谱中所有的三元组,这样通过对三元组中表现的实体之间的关系进行全面分析处理,得到针对目标知识图谱的补充信息,补充信息包括有缺失的关系或者实体。
79.在本技术的一示例性实施例中,可以通过预设的知识表示学习模型得到针对目标知识图谱的补充信息,具体的,将三元组输入至预设的知识表示学习模型中,以通过预设的知识表示学习模型对三元组中缺失的关系和实体中的至少一个进行补全处理,得到针对目标知识图谱的补充信息。
80.知识表示学习模型包括有翻译模型、能量模型、距离模型和双线性模型等,本实施例中应用的预设的知识表示学习模型是,如图7所示,图7是为翻译模型的预设的知识表示学习模型得到针对目标知识图谱的补充信息的算法实现过程:
81.input表示输入获取到的目标知识图谱的三元组。(h,r,t)为三元组,其中的r表征为关系relation,h表征为头实体head,t表征为尾实体tail;
82.1表示向量的初始化;
83.3-8表示批量训练数据集的构建。具体的,3表示从训练集合中随机选出真实存在的一个size大小为b的一个minibatch,名为s
batch
;4至6表示基于其中的三元组(h,r,t)得到训练的负样本;获得负样本的操作方式是对正样本中的h,r,t中的两个值保持不变,改变另
一个的值以获得负样本;7表示和s
batch
一起构成批训练数据集;
84.9表示采用随机梯度下降算法。使用基于最大间隔的目标函数来学习,对批量训练数据中的正样本和负样本中每个实体和关系的向量进行更新。其中,f(h+r,t)可以是曼哈顿距离或者欧氏距离,γ表示最大间隔的超参数。[x]+表示当x<0时,取值为0,当x>0时,取x本身的值。
[0085]
步骤s602,基于补充信息对目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。
[0086]
由于补充信息中包括有缺失的关系或者实体,故基于目标知识图谱的三元组得到针对目标知识图谱的补充信息后,将补充信息更新到目标知识图谱中,以补全目标知识图谱中的关系和实体,得到更新处理后的目标知识图谱。
[0087]
由上可知,在本技术的上述实施例提供的方法中,通过将目标知识图谱的所有三元组输出预设的知识表示学习模型,输出目标知识图谱中缺失的关系或者实体,以对目标知识图谱进行更新处理,得到准确度较高、且较为全面的目标知识图谱。
[0088]
请参阅图8,图8是本技术的另一示例性实施例示出的知识图谱的构建方法的流程图。其中,图8所示的知识图谱的构建方法在图2所示步骤s204中得到目标知识图谱之后,还包括步骤s801至步骤s802,通过上述步骤来预测挖掘目标知识图谱中可能存在的三元组,详细介绍如下:
[0089]
步骤s801,基于目标知识图谱的图谱信息得到预测实体信息,预测实体信息包括三元组所包含的三项元素中的至少两项。
[0090]
目标知识图谱的图谱信息至少包括目标知识图谱中的所有三元组,预测实体信息包括三元组所包含的三项元素中的至少两项,该三元组对应的是目标知识图谱包括两个实体以及实体之间的关系三元组,故预测实体信息至少包括两个实体或者一个实体和对应的关系。本实施例中,得到可能存在于目标知识图谱的三元组对应的预测实体信息的方式可以是依据专家经验和预设规则进行预测和挖掘。
[0091]
步骤s802,基于预测实体信息对应的预测三元组,对目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。
[0092]
由于预测实体信息包括三元组所包含的三项元素中的至少两项,故根据包含的两项可以推算得到相关联的剩余一项,进而得到预测实体信息对应的预测三元组,将预测实体信息对应的预测三元组更新至目标知识图谱中便能得到更新处理后的目标知识图谱。其中,更新预测三元组至目标知识图谱中的方式可以应用图4所示实施例中的方式,将预测三元组与目标知识图谱中进行实体对齐,若存在相同指代的实体,则将预测三元组更新融合至对应的实体下,若不存在相同指代的实体,则新建该预测三元组至目标知识图谱中。
[0093]
由此,通过本实施例的方法,本技术在构建得到覆盖运营商的全局元数据后,通过预测挖掘可能存在的三元组,拓展目标知识图谱,使得构建的知识图谱更加全面且准确。
[0094]
通过本技术提供的知识图谱的构建方法构建得到的知识图谱,可以应用到数据搜索与访问的场景中,本技术提供的构建方法得到的目标知识图谱,是基于运营商的全局元数据构建得到的,具有准确度较高且全面的特性,并且通过目标知识图谱能够形成呈现孤岛隔离的数据之间的虚拟全连接,以提升运营商的全局元数据之间的关联性,提升了数据管理效率以及利用率。
[0095]
用户在进行跨领域的知识链接时,不需要理解每个元数据的具体含义也可以通过本技术构建得到的目标知识图谱获取与用户业务需求相适的目标数据。具体的,在用户通过本文查询或关键字查询方式提出业务数据问题后,目标知识图谱自动实时生成新数据知识目录,将答案高效准确的返回给用户。生成的该答案覆盖用户人工无法覆盖的全部业务领域数据,并且通过元数据知识图谱将其关系、权重等形式反馈回用户。这样,基于目标知识图谱建立的运营商数据之间的虚拟链接,能够及时获取符合需求的数据即提升了业务处理的实时性,同时增加运营商各类数据之间的关联度,并且使得数据管理效率提升,利用敏感数据时不需要完全解读数据内容也能通过关联性对其进行调用,即提升了管理效率的同时保证了数据安全性。
[0096]
以运营商业务出账分析应用场景为例,用户搜索“本月度业务出账分析”的关键字,不需要进行连表操作等数据查询方式,通过本技术构建得到的目标知识图谱已构建包含所有与收入有关联的元数据,可以针对本次用户的搜索提问、针对该用户的业务需求和数据访问范围,自动生成自由机楼收入、合作机楼收入、机架收入、带宽收入、其他收入等数据字段构建的精准元数据知识目录,并可以下钻至其二级关联关系,展示自有机楼宽带流入流量、合作机楼宽带流量、机架宽带流量、带宽型宽带总流量、其他宽带总流量等所有与其具备因果、相关、集成等关系作为目标数据地图。
[0097]
图9是本技术的一示例性实施例示出的一种知识图谱的构建装置900的框图。如图9所示,该装置包括:
[0098]
获取单元901,用于从不同实体库获取针对运营商的元数据,以得到全局元数据;预构建单元902,用于基于从全局元数据中获取到的指定数量的元数据,构建得到初始知识图谱;识别单元903,用于对全局元数据中除指定数量的元数据之外的其他元数据进行结构类型的识别处理,确定其他元数据的结构类型;处理单元904,用于基于其他元数据的结构类型,确定其他元数据的实体关联关系,并基于其他元数据的实体关联关系调整初始知识图谱,得到目标知识图谱。
[0099]
该装置应用本技术提供的知识图谱的构建方法,通过获取单元901从不同实体库获取针对运营商的全局元数据,不同实体库对应不同的数据结构类型;预构建单元902以全局元数据中的指定数量的元数据构建得到初始知识图谱,之后识别单元903还识别确定全局元数据中剩余的其他元数据的结构类型,通过处理单元904基于其他元数据的结构类型确定其他元数据的实体关联关系,进而基于其他元数据的实体关联关系对初始知识图谱进行调整,得到目标知识图谱。这样,基于运营商的全局元数据能够构建得到准确度较高、且较为全面的目标知识图谱,并且通过目标知识图谱能够形成呈现孤岛隔离的数据之间的虚拟全连接,以提升运营商的全局元数据之间的关联性,便于数据管理。
[0100]
在另一示例性的实施例中,该装置还包括:
[0101]
预测单元,用于基于目标知识图谱的图谱信息得到预测实体信息,预测实体信息包括三元组所包含的三项元素中的至少两项;基于预测实体信息对应的预测三元组,对目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。
[0102]
在另一示例性的实施例中,识别单元903,还用于若其他元数据中存在属于第一结构类型的元数据,则从第一结构类型的元数据中提取第一结构类型的元数据对应的三元组,并基于提取到的三元组得到第一结构类型的元数据对应的实体关联关系;若其他元数
据中存在属于第二结构类型的元数据,则对第二结构类型的元数据进行针对实体、关系和属性的提取处理,并基于提取到的实体、关系和属性构建得到三元组,并基于提取到的三元组得到第二结构类型的元数据对应的实体关联关系。
[0103]
在另一示例性的实施例中,识别单元903,还用于基于多个元数据的实体信息对多个元数据进行实体对齐处理,得到多个元数据之间的实体关联关系;基于多个元数据之间的实体关联关系,对相同实体对应的实体信息进行归纳处理,得到实体调整量;基于实体调整量调整初始知识图谱,得到目标知识图谱。
[0104]
在另一示例性的实施例中,预构建单元902,还用于对指定数量的元数据进行预处理,得到预处理后的元数据;其中,预处理包括内容抽取处理、格式转换处理和加载处理中的至少一种;基于预处理后的元数据,构建得到初始知识图谱。
[0105]
在另一示例性的实施例中,处理单元904,还用于获取目标知识图谱的三元组,并基于三元组得到针对目标知识图谱的补充信息;基于补充信息对目标知识图谱进行更新处理,得到更新处理后的目标知识图谱。还用于将三元组输入至预设的知识表示学习模型中,以通过预设的知识表示学习模型对三元组中缺失的关系和实体中的至少一个进行补全处理,得到针对目标知识图谱的补充信息。
[0106]
需要说明的是,上述实施例所提供的知识图谱的构建装置与上述实施例所提供的知识图谱的构建方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的知识图谱的构建装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
[0107]
本技术的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得电子设备实现上述各个实施例中提供的知识图谱的构建方法。
[0108]
图10示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0109]
如图9所示,计算机系统1000包括中央处理单元(centralprocessingunit,cpu)1001,其可以根据存储在只读存储器(read-onlymemory,rom)1002中的程序或者从储存部分1008加载到随机访问存储器(randomaccessmemory,ram)1003中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在ram1003中,还存储有系统操作所需的各种程序和数据。cpu1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(input/output,i/o)接口1005也连接至总线1004。
[0110]
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(cathoderaytube,crt)、液晶显示器(liquidcrystaldisplay,lcd)等以及扬声器等的输出部分1007;包括硬盘等的储存部分1008;以及包括诸如lan(localareanetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入储存部分1008。
[0111]
特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本技术的系统中限定的各种功能。
[0112]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compactdiscread-onlymemory,cd-rom)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0113]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0114]
描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
[0115]
本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的知识图谱的构建方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
[0116]
本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该
计算机设备执行上述各个实施例中提供的知识图谱的构建方法。
[0117]
以上仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内所做的任何修改、等同替换或改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1