知识图谱构建方法、装置、存储介质及电子设备与流程

文档序号:32342457发布日期:2022-11-26 10:13阅读:93来源:国知局
知识图谱构建方法、装置、存储介质及电子设备与流程

1.本公开涉及知识图谱技术领域,具体地,涉及一种知识图谱构建方法、装置、存储介质及电子设备。


背景技术:

2.火电领域的业务场景复杂,例如,汽机、电气、锅炉、热控4个专业下,普通发电机组包括几万台设备(含各类管道、阀门等),机组组成十分复杂。而面向同一个设备,不同专业的工作人员,他们所处理的业务也是千差万别的。比如:对于磨煤机,设备部的人关注的是它的故障信息和运维检修信息;运行部的人关注的是它的运行参数和设备运行状态;热控部的人关注的是它的报警联锁停机条件、参数上下限以及传感器是否有问题等信息;电气部的人关注的是它的供电参数、供电设计图纸以及对应的电闸等信息。
3.面向同一台设备,由于业务的不同、信息关注对象不同导致不同专业的部门的数据库(设备部的文档数据库、运行部的文档数据库、热控部的文档数据库、电气部的文档数据库)中包含的内容也不相同。因此,从不同专业的部门的数据库中抽取出来的实体即便是相同的,但实体的属性和实体与实体之间的关系并不相同,这在实体对齐、实体融合、实体补全、关系抽取、关系补全等方面存在巨大的挑战。
4.相关技术中,领域知识图谱的构建模式为自顶向下构建,即由精通领域知识、业务、机理、以及工艺的专家,结合知识图谱的应用场景,进行知识图谱本体库(知识图谱的模式层,即schema)构建,然后再向知识图谱本体库中融合具体的资源数据,从而生成领域知识图谱。然而由于火电领域业务复杂,即便是领域专家,在考虑应用场景的基础上构建知识图谱本体库仍然十分困难。


技术实现要素:

5.为解决相关技术中存在的问题,本公开提出一种知识图谱构建方法、装置、存储介质及电子设备。
6.为了实现上述目的,本公开实施例的第一方面提供一种知识图谱构建方法,所述方法包括:
7.获取初始知识图谱本体库,所述初始知识图谱本体库包括多个预定义的实体数据结构,每一所述实体数据结构包括实体类别和实体属性;
8.基于所述实体数据结构的实体类别和实体属性,从数据源中抽取得到对应所述实体类别、且包括所述实体属性的实体;
9.针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定所述关联关系的业务域属性,所述第一实体和所述第二实体之间的所述关联关系是基于所述数据源确定的;
10.根据抽取到的实体、所述关联关系、以及所述关联关系的业务域属性生成知识图谱,和/或,根据所述关联关系、以及所述关联关系的业务域属性补全所述初始知识图谱本
体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库。
11.可选地,所述方法还包括通过如下方式生成所述业务域模型:
12.从所述数据源中提取业务主题词;
13.针对每一所述业务主题词,将所述业务主题词以及所述业务主题词的预设权重转换为词向量;
14.对所有的所述词向量进行聚类,得到多个业务簇;
15.为每一所述业务簇分配业务域id;
16.根据每一所述业务簇、以及每一所述业务簇的业务域id生成所述业务域模型。
17.可选地,所述针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定所述关联关系的业务域属性,包括:
18.从所述数据源中确定抽取所述第一实体和所述第二实体的目标子数据源;
19.基于所述业务域模型,计算所述目标子数据源对应的第一目标业务域id;
20.将所述第一目标业务域id确定为所述关联关系的业务域属性。
21.可选地,所述基于所述业务域模型,计算所述目标子数据源对应的第一目标业务域id,包括:
22.抽取所述目标子数据源中的目标业务主题词;
23.确定所述目标业务主题词对应的目标词向量;
24.从所述业务域模型中确定与所述目标词向量距离最小的目标业务簇;
25.将所述目标业务簇的业务域id作为所述第一目标业务域id。
26.可选地,所述方法还包括:
27.响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
28.从所述知识图谱中确定所述第二目标业务域id对应的子图谱,所述子图谱中所述关联关系的业务域属性为所述第二目标业务域id;
29.基于所述子图谱执行所述业务操作。
30.可选地,所述响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id,包括:
31.确定所述用户的业务操作权限信息;
32.根据所述业务操作权限信息、所述业务域模型确定所述第二目标业务域id。
33.可选地,所述方法还包括:
34.响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
35.从所述目标知识图谱本体库中确定所述第二目标业务域id对应的子本体库,所述子本体库中各所述实体数据结构之间的关系的业务域属性为所述第二目标业务域id;
36.从所述知识图谱中确定所述子本体库对应的子图谱;
37.基于所述子图谱执行所述业务操作。
38.本公开实施例的第二方面提供一种知识图谱构建装置,所述装置包括:
39.获取模块,用于获取初始知识图谱本体库,所述初始知识图谱本体库包括多个预定义的实体数据结构,每一所述实体数据结构包括实体类别和实体属性;
40.抽取模块,用于基于所述实体数据结构的实体类别和实体属性,从数据源中抽取得到对应所述实体类别、且包括所述实体属性的实体;
41.第一确定模块,用于针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定所述关联关系的业务域属性,所述第一实体和所述第二实体之间的所述关联关系是基于所述数据源确定的;
42.第一执行模块,用于根据抽取到的实体、所述关联关系、以及所述关联关系的业务域属性生成知识图谱,和/或,根据所述关联关系、以及所述关联关系的业务域属性补全所述初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库。
43.可选地,所述装置还包括:
44.业务域模型生成模块,用于从所述数据源中提取业务主题词;针对每一所述业务主题词,将所述业务主题词以及所述业务主题词的预设权重转换为词向量;对所有的所述词向量进行聚类,得到多个业务簇;为每一所述业务簇分配业务域id;根据每一所述业务簇、以及每一所述业务簇的业务域id生成所述业务域模型。
45.可选地,所述第一确定模块,包括:
46.第一抽取子模块,用于从所述数据源中确定抽取所述第一实体和所述第二实体的目标子数据源;
47.计算子模块,用于基于所述业务域模型,计算所述目标子数据源对应的第一目标业务域id;
48.第一确定子模块,用于将所述第一目标业务域id确定为所述关联关系的业务域属性。
49.可选地,所述计算子模块,包括:
50.第二抽取子模块,用于抽取所述目标子数据源中的目标业务主题词;
51.第二确定子模块,用于确定所述目标业务主题词对应的目标词向量;
52.第三确定子模块,用于从所述业务域模型中确定与所述目标词向量距离最小的目标业务簇;
53.执行子模块,用于将所述目标业务簇的业务域id作为所述第一目标业务域id。
54.可选地,所述装置还包括:
55.第一响应模块,用于响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
56.第二确定模块,用于从所述知识图谱中确定所述第二目标业务域id对应的子图谱,所述子图谱中所述关联关系的业务域属性为所述第二目标业务域id;
57.第二执行模块,用于基于所述子图谱执行所述业务操作。
58.可选地,所述第一响应模块包括:
59.第四确定子模块,用于确定所述用户的业务操作权限信息;
60.第五确定子模块,用于根据所述业务操作权限信息、所述业务域模型确定所述第二目标业务域id。
61.可选地,所述装置还包括:
62.第二响应模块,用于响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
63.第三确定模块,用于从所述目标知识图谱本体库中确定所述第二目标业务域id对
应的子本体库,所述子本体库中各所述实体数据结构之间的关系的业务域属性为所述第二目标业务域id;
64.第四确定模块,用于从所述知识图谱中确定所述子本体库对应的子图谱;
65.第三执行模块,用于基于所述子图谱执行所述业务操作。
66.本公开实施例的第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
67.本公开实施例的第四方面提供一种电子设备,包括:
68.存储器,其上存储有计算机程序;
69.处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面中任一项所述方法的步骤。
70.采用上述技术方案,至少能够达到如下的有益技术效果:
71.获取初始知识图谱本体库,初始知识图谱本体库包括多个预定义的实体数据结构,每一实体数据结构包括实体类别和实体属性。基于实体数据结构的实体类别和实体属性,从数据源中抽取得到对应实体类别、且包括实体属性的实体。针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定关联关系的业务域属性。其中第一实体和第二实体之间的关联关系是基于数据源确定的。根据抽取到的实体、关联关系、以及关联关系的业务域属性生成知识图谱。本公开这种生成知识图谱的方式,与相关技术中自顶向下构建模式相比,本公开这种方式因无需预先构建包括实体数据结构与实体数据结构之间的关系的完整知识图谱本体库而使得知识图谱构建过程简化。而在无需构建完整知识图谱本体库的情况下,无需进行实体关系的设计(实体数据结构与实体数据结构之间的关系是根据相应的实体与实体之间的关系抽象得到的),这可避免考虑在不同的场景下两个实体之间存在哪些不同的关系的问题,进而可避免如果两个实体之间的关系被遗漏而可能在未来应用过程中无法基于知识图谱实现查询、推理等应用操作的问题,以及可以避免如果把两个实体之间的关系设定的过于全面而导致的知识图谱本体库将会变得十分庞杂,难于解释和处理的问题。而本公开根据关联关系、以及关联关系的业务域属性补全初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库(即完整知识图谱本体库)的方式,与相关技术中人工构建目标知识图谱本体库的方式相比,降低了目标知识图谱本体库的创建难度。
72.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
73.附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
74.图1是根据本公开一示例性实施例示出的一种知识图谱本体库。
75.图2是根据本公开一示例性实施例示出的一种不同场景下的复杂关系示意图。
76.图3是根据本公开一示例性实施例示出的一种知识图谱构建方法的流程图。
77.图4是根据本公开一示例性实施例示出的一种业务域模型示意图。
78.图5是根据本公开一示例性实施例示出的一种知识图谱应用示意图。
79.图6是根据本公开一示例性实施例示出的一种知识图谱构建装置的框图。
80.图7是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
81.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
82.需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
83.相关技术中,自顶向下的知识图谱构建模式大致过程是,先结合知识图谱的应用场景,进行知识图谱本体库构建。例如,针对火电设备运维业务,可构建出如图1所示的火电设备运维知识图谱schema。然后,向构建好的知识图谱本体库中融合具体的资源数据,从而生成知识图谱。其中,知识图谱本体库(即schema)的概念在知识图谱领域中,是用于对知识图谱中的实体、属性及关系进行明确的界定,即图谱的模式层,模式层一般由专家基于经验和业务目标进行构建。schema限定了待加入知识图谱数据的格式。相当于某个领域内的数据模型,包含了该领域内有意义的概念类型以及这些类型的属性。
84.然而由于领域业务复杂,即便是领域专家,在考虑应用场景的基础上构建知识图谱本体库仍然十分困难,难点在于如何梳理并实现实体属性的设置、以及实体关系的设计。在不同的场景下两个实体之间存在不同的关系,例如,图2所示的不同场景下的复杂关系示意图。如果关系设定遗漏则可能在未来应用的过程中导致基于知识图谱本体库生成的知识图谱无法实现查询、推理等应用操作。即,当实体间的关系设定的不全面(应解释的是,领域专家基于自身知识储备可以设定其已知的实体间关系,但同样受限于自身知识储备,可能设定不全面或无法设定全面)时,可能无法支撑不同应用场景下的应用操作。也可能无法找到隐藏的实体间关系或实体推理结果。例如,对于业务十分复杂的火电领域,其知识图谱本体库的构建过程十分困难,需要面向不同的业务(如设备部业务、运行部业务、安健环业务、机电业务、电气业务等等)全盘考虑并进行抽象,设定实体、实体属性以及实体间关系。相对于实体和实体属性,实体间关系的确定是最困难的,如果考虑得不充分,未来进行知识图谱本体库变更或扩展就会非常困难,可能需要推倒重建知识图谱本体库。此处应说明的是,在应用知识图谱的过程中,基于关系的查询、搜索、推荐、模式推理等应用操作是常见的应用方式,具体可参见相关技术中的定义和解释。
85.相反,如果把两个实体之间的关系设定的过于全面,那么知识图谱本体库将会变得十分庞杂,难于解释和处理。根据庞杂的知识图谱本体库生成的知识图谱也会十分庞杂。而面对十分庞杂的知识图谱,若实体间的关系异常复杂,则将会在查询、搜索、推荐的过程中匹配得到大量实体或属性,面对大量的实体或属性匹配结果,需要进行人工判断和二次筛选,以得到少量的精准的匹配结果。
86.有鉴于此,本公开提出一种与相关技术中的自顶向下构建模式不同的一种新的知识图谱构建方法,在本公开的技术方案中,实体和实体属性(即实体数据结构)的定义是自顶向下构建的,然而实体间关系/实体数据结构间关系的抽取是自底向上构建的。自底向上是指将从各种不同业务数据源抽取到的实体之间的关系,直接作为数据层的关系以构建得到知识图谱,并基于已构建的数据层的知识图谱中实体间关系抽象出模式层的知识图谱本
体库中的关系。
87.下面对本公开的技术方案进行详细的实施例说明。在后文中,为了简便描述,将实体数据结构与实体数据结构之间的关系称为实体数据结构间关系。将实体与实体之间的关联关系称为实体间的关联关系。
88.图3是根据本公开一示例性实施例示出的一种知识图谱构建方法的流程图,如图3所示,该知识图谱构建方法包括以下步骤。
89.s11、获取初始知识图谱本体库,所述初始知识图谱本体库包括多个预定义的实体数据结构,每一所述实体数据结构包括实体类别和实体属性。
90.初始知识图谱本体库中包括多个由人工定义的实体数据结构。每一实体数据结构包括实体类别和实体属性。示例地,如图1中各方框表示的实体数据结构。例如图1中的一个实体数据结构为“类别:机组;属性:名称”。又例如图1中的另一个实体数据结构为“类别:测点;属性:名称、kks、单位、通道类型、量程上限、量程下限、报警上限、报警下限、传感器类型(4-20ma,k等)”。其中kks是“kraftwerk-kennzeichensystem”的缩写,意思是“电厂标识系统”。
91.在本公开实施例中,初始知识图谱本体库中可不包括实体数据结构间关系,即人工无需考虑实体数据结构间关系。在另一些实施方式中,若人工已知部分准确的实体数据结构间关系,那么在构建初始知识图谱本体库时,也可将准确地、已知的实体数据结构间关系加入到初始知识图谱本体库种,即人工无需将实体数据结构间关系考虑完全。
92.举例来说,初始知识图谱本体库可以是去掉图1中实体数据结构间的全部/部分连线(箭头)后所呈现的本体库。
93.s12、基于所述实体数据结构的实体类别和实体属性,从数据源中抽取得到对应所述实体类别、且包括所述实体属性的实体。
94.数据源(data source)是提供某种所需数据的器件或原始媒体。例如器件/原始媒体可以是文件、数据库等。数据源是任一种数据存储技术将某一类数据以特定的格式存储后得到的。形象的解释是,如果数据是水,数据源就是水库。
95.在本公开实施例中,数据源中包括用于构建知识图谱的数据。例如,在构建火电领域的知识图谱的场景下,数据源中可以包括火电企业中设备部的文档数据、运行部的文档数据、热控部的文档数据、电气部的文档数据中的至少一种数据。
96.基于初始知识图谱本体库中的各实体数据结构,从数据源中抽取得到对应相应实体类别、且包括相应实体属性的实体。例如,基于图1中的实体数据结构“类别:设备;属性:名称、kks码、位置码、设备型号、规格、材质、出厂编号、出厂日期、投运日期”,从数据源中抽取得到的实体可以是如图2所示的#1控制柜、给煤机、磨煤机、锅炉等。其中,kks是“kraftwerk-kennzeichensystem”的缩写,意思是“电厂标识系统”。kks用来标识电厂的部件及其辅助系统。
97.此处需说明的是,根据实体数据结构从数据源中抽取实体的方式可参见相关技术中的实体识别技术,例如基于nlp即natural language processing的命名实体识别方法。又例如可采用相关技术中的隐马尔可夫模型(hidden markov model,hmm)、最大熵模型(maximum entropy,mem)、条件随机场(conditional random field,crf)、基于深度学习的crf-bilstm等模型实现实体识别。本公开对实体识别过程不作赘述。
98.s13、针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定所述关联关系的业务域属性,所述第一实体和所述第二实体之间的所述关联关系是基于所述数据源确定的。
99.在本公开实施例中,将业务的业务范畴称为该业务的业务领域,简称业务域。若具有关联关系的第一实体a和第二实体b均是从某一业务m下的业务数据中抽取得到的,那么第一实体a和第二实体b之间的该关联关系c一般是在该某一业务m下所存在的关系。为了表征第一实体a和第二实体b之间的关联关系c是在该某一业务m下所存在的关系,可将该某一业务m对应的业务域m作为关联关系c的一个属性,关联关系c的该属性在本公开实施例中称为业务域属性。
100.业务域模型是一种数学模型,其中包括多个业务域的数学表示。每一业务域的数学表示是根据对应业务中的关键词进行加权、编码(如采用词嵌入算法将关键词和权重值编码为向量进行表示)、聚类等数据处理后得到的。各业务域的数学表示相互独立。
101.在一些实施方式中,确定第一实体a和第二实体b之间的关联关系c的业务域属性的方式可以是,从数据源中截取以第一实体a和第二实体b为端点的目标文本,确定目标文本对应的编码向量。将业务域模型中各业务域的数学表示与该编码向量进行相似度计算(如采用欧几里得距离、欧氏距离等方式计算相似度),并将相似度最大的业务域确定为关联关系c的业务域属性。
102.示例地,实体间的关联关系可以是因果关系、时空关系、数量关系、领属关系、相比关系、相适关系、蕴含关系、控制关系等,对此本公开不作具体的限定。
103.第一实体和第二实体之间的关联关系是基于数据源确定的,具体可参见相关技术中的领域实体关系抽取方法。本公开对如何抽取实体间的关联关系仅做原理性的简单说明。例如,面向结构化、半结构化的数据源。由于结构化、半结构化的数据源中各个数据资源间存在关联关系,如excel表格、word表格中行数据资源和列数据资源之间存在预设关联关系。所以,可直接基于数据映射规则,将预设关联关系映射给相应地第一实体和第二实体。又例如,面向非结构化的数据源,可使用监督学习的方法来抽取实体间的关联关系。例如,采用nlp方案如支持向量机、朴素贝叶斯算法、神经网络等方式确定实体间的关联关系。
104.s14、根据抽取到的实体、所述关联关系、以及所述关联关系的业务域属性生成知识图谱,和/或,根据所述关联关系、以及所述关联关系的业务域属性补全所述初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库。
105.其中,第一实体数据结构与第一实体对应,第二实体数据结构与第二实体对应。
106.应说明的是,由于知识图谱包括实体、实体间的关联关系,所以在基于初始知识图谱本体库抽取到实体、并确定实体间的关联关系、以及确定各实体间的关联关系的业务域属性之后,可生成知识图谱。并且,由于实体间的关联关系具备业务域属性,所以可采用属性图的方式存储/表示本公开生成的知识图谱。属性图的方式是指支持实体和/或关系拥有属性的方式,即属性图表示方式。
107.本公开上述这种生成知识图谱的方式,与相关技术中自顶向下构建模式相比,本公开这种方式因无需预先构建包括实体数据结构间关系的完整知识图谱本体库而使得知识图谱构建过程简化。而在无需构建完整知识图谱本体库的情况下,无需进行实体关系的
设计(实体数据结构与实体数据结构之间的关系是根据相应的实体与实体之间的关系抽象得到的),这可避免考虑在不同的场景下两个实体之间存在哪些不同的关系的问题,进而可避免如果两个实体之间的关系被遗漏而可能在未来应用过程中无法基于知识图谱实现查询、推理等应用操作的问题,以及可以避免如果把两个实体之间的关系设定的过于全面而导致的知识图谱本体库将会变得十分庞杂,难于解释和处理的问题。
108.而本公开根据关联关系、以及关联关系的业务域属性补全初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库(即完整知识图谱本体库)的方式,与相关技术中人工构建目标知识图谱本体库的方式相比,降低了目标知识图谱本体库的人工创建难度。
109.并且,基于数据层(即知识图谱),反向将实体抽象(可理解为映射)到初始知识图谱本体库中的实体数据结构上,并将实体间的关联关系也抽象到相应的实体数据结构之间,从而得到目标知识图谱本体库。这种方式使得目标知识图谱本体库中的实体数据结构间关系是基于实际的业务层数据源来抽取得到的,相比由人工设置实体数据结构间关系的方式更符合实际的应用场景,并可基于实际应用场景对目标知识图谱本体库进行解释。而且,在目标知识图谱本体库更符合实际的应用场景的情况下,可提升知识查找、搜索、推荐以及推理等应用操作的精确度。
110.可选地,所述方法还包括通过如下方式生成所述业务域模型:
111.从所述数据源中提取业务主题词;针对每一所述业务主题词,将所述业务主题词以及所述业务主题词的预设权重转换为词向量;对所有的所述词向量进行聚类,得到多个业务簇;为每一所述业务簇分配业务域id;根据每一所述业务簇、以及每一所述业务簇的业务域id生成所述业务域模型。
112.数据源可以包括多个文档。通常情况下,文档的来源是相对固定的,比如来源于热控部门的检修报告,来源于设备部门的设备手册、来源于运行部门的安全措施手册等等。基于此,一种实施方式,可由人工预先设定由不同业务下的业务主题词组成的业务主题词集,以及每一业务主题词的预设权重。在生成业务域模型的过程中,根据业务主题词集,从数据源中识别并提取得到该数据源中所包括的业务主题词。
113.另一种实施方式,可使用传统的主题词提取算法,如lda(latent dirichlet allocation,一种主题模型)从数据源中提取主题词。lda可以将文档集中每篇文档的主题词按照概率分布的形式给出识别结果,并基于主题词的概率分布可确定该主题词的预设权重。又如,可采用基于词频的算法tf-idf(term frequency

inverse document frequency)从数据源中提取主题词,并基于各主题词在文档中的重要程度确定对应的预设权重。其中应解释的是,词频是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度。
114.针对提取到的每一业务主题词,将该业务主题词以及该业务主题词的预设权重一起转换为词向量。转换方式可采用表示学习进行向量化表示(如词嵌入算法)。
115.对所有的词向量进行聚类处理,例如使用k-means算法对所有的词向量进行聚类,得到多个业务簇(cluster)。为每一业务簇分配唯一的业务域id。根据每一业务簇、以及每一业务簇的业务域id生成业务域模型。每一业务簇可用该业务簇的聚焦/聚类点表征。示例地,如图4所示的业务域模型示意图。
116.可选地,所述针对抽取到的实体中具有关联关系的第一实体和第二实体,基于业务域模型,确定所述关联关系的业务域属性,包括:
117.从所述数据源中确定抽取所述第一实体和所述第二实体的目标子数据源;基于所述业务域模型,计算所述目标子数据源对应的第一目标业务域id;将所述第一目标业务域id确定为所述关联关系的业务域属性。
118.示例地,目标子数据源可以是目标文档。例如,在数据源包括多个文档的情况下,可确定抽取第一实体和第二实体的目标文档,该目标文档即为目标子数据源。
119.再示例地,目标子数据源也可以是目标文段。例如,在数据源是一篇长文档的情况下,可确定抽取第一实体和第二实体的目标文段,该目标文段即为目标子数据源。
120.在确定目标子数据源之后,可基于业务域模型,计算目标子数据源对应的第一目标业务域id。一种实施方式,可采用主题词提取算法,或根据预设的业务主题词集,抽取得到目标子数据源中包括的目标业务主题词。将目标业务主题词、以及目标业务主题词对应的预设权重一起转换成目标词向量,计算目标词向量与业务域模型中各个业务簇(的聚焦点)之间的距离,从业务域模型中确定与目标词向量距离最小的目标业务簇。将目标业务簇的业务域id作为第一目标业务域id。将第一目标业务域id确定为第一实体和第二实体之间的关联关系的业务域属性。
121.另一种实施方式,将目标子数据源中的每一文字均转换成字向量,将所有的字向量拼接起来得到目标词向量。计算目标词向量与业务域模型中各个业务簇之间的距离,从业务域模型中确定与目标词向量距离最小的目标业务簇。将目标业务簇的业务域id作为第一目标业务域id。将第一目标业务域id确定为第一实体和第二实体之间的关联关系的业务域属性。
122.可选地,所述方法还包括:
123.响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;从所述知识图谱中确定所述第二目标业务域id对应的子图谱,所述子图谱中所述关联关系的业务域属性为所述第二目标业务域id;基于所述子图谱执行所述业务操作。
124.业务操作是指查询、搜索、推荐、模式推理等业务层的应用操作。
125.确定业务操作对应的第二目标业务域id的实施方式可以是,确定用户的业务操作权限信息。根据业务操作权限信息、业务域模型确定第二目标业务域id。一种实施方式,可采用与前述确定第一目标业务域id的实施方式相类似的方式确定唯一的一个第二目标业务域id。另一种实施方式,可确定业务操作权限信息对应的业务操作向量,从业务域模型中确定与该业务操作向量之间的距离小于预设距离阈值的多个第二目标业务域id。
126.另一种实施方式,每一用户对应有一个业务域id表格,该业务域id表格中包括一个或多个业务域id,每一业务域id是采用与前述确定第一目标业务域id的实施方式相类似的方式预先确定的。第二目标业务域id为业务域id表格中的业务域id。
127.确定业务操作对应的第二目标业务域id的实施方式也可以是,确定用户在哪一功能模块进行的该业务操作,并根据该功能模块对应的业务领域,确定第二目标业务域id。
128.确定业务操作对应的第二目标业务域id的实施方式还可以是,根据业务操作对应的操作请求、业务域模型确定第二目标业务域id。
129.也就是说,确定业务操作对应的第二目标业务域id的方式,可以是基于用户进行
业务操作的系统模块来确定,也可以是基于用于的身份信息来确定,还可以是基于用户输入的业务操作请求信息来确定。
130.在第二目标业务域id的数量为1的情况下,在响应于用户的业务操作,确定业务操作对应的第二目标业务域id之后,从知识图谱中确定第二目标业务域id对应的子图谱,该子图谱中实体间的关联关系的业务域属性均为第二目标业务域id。基于该子图谱执行业务操作。示例地,如图5所示,假设知识图谱为图5中左侧的知识图谱,第二目标业务域id为a001,那么从知识图谱中确定a001对应的子图谱可以为图5中右侧的知识图谱。采用这种方式,在比知识图谱更小范围的子图谱中执行业务操作,可提升业务操作效率,如提升图谱搜索、查找和推理的效率。而且,由于子图谱中实体间的关联关系的业务域属性均为第二目标业务域id,不会存在除了第二目标业务域id之外的其他业务域id,所以在子图谱中执行业务操作得到的结果中,不会存在基于除了第二目标业务域id之外的其他业务id进行搜索、查找或推理得到的结果,而存在的是基于第二目标业务域id进行搜索、查找或推理得到的结果,这提升了操作结果的准确性。
131.其中,从知识图谱中确定第二目标业务域id对应的子图谱的过程可理解为,保留知识图谱中的业务域属性为第二目标业务域id的目标关联关系、以及每一目标关联关系对应的两个目标实体,其余的关联关系和实体均被删除,以得到子图谱。
132.在第二目标业务域id的数量为多个的情况下,在响应于用户的业务操作,确定业务操作对应的第二目标业务域id之后,从知识图谱中确定第二目标业务域id对应的子图谱,该子图谱中实体间的关联关系的业务域属性为多个第二目标业务域id中的任一种。
133.可选地,所述方法还包括:
134.响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;从所述目标知识图谱本体库中确定所述第二目标业务域id对应的子本体库,所述子本体库中各所述实体数据结构之间的关系的业务域属性为所述第二目标业务域id;从所述知识图谱中确定所述子本体库对应的子图谱;基于所述子图谱执行所述业务操作。
135.由于知识图谱比目标知识图谱本体库更加复杂,所以,从知识图谱中确定第二目标业务域id对应的子图谱的方式,相比于从目标知识图谱本体库中确定第二目标业务域id对应的子本体库的方式效率低很多。基于此,本公开实施例还提供一种确定子图谱的实施方式。即,响应于用户的业务操作,确定业务操作对应的第二目标业务域id。从目标知识图谱本体库中确定第二目标业务域id对应的子本体库,该子本体库中各实体数据结构之间的关系的业务域属性为第二目标业务域id。从知识图谱中确定子本体库对应的子图谱。
136.应说明的是,本公开实施例中,实体与实体之间的关联关系可以有多种,相应地,实体数据结构与实体数据结构之间的关系也可以有多种。
137.图6是根据本公开一示例性实施例示出的一种知识图谱构建装置的框图。如图6所示,该知识图谱构建装置600包括:
138.获取模块610,用于获取初始知识图谱本体库,所述初始知识图谱本体库包括多个预定义的实体数据结构,每一所述实体数据结构包括实体类别和实体属性;
139.抽取模块620,用于基于所述实体数据结构的实体类别和实体属性,从数据源中抽取得到对应所述实体类别、且包括所述实体属性的实体;
140.第一确定模块630,用于针对抽取到的实体中具有关联关系的第一实体和第二实
体,基于业务域模型,确定所述关联关系的业务域属性,所述第一实体和所述第二实体之间的所述关联关系是基于所述数据源确定的;
141.第一执行模块640,用于根据抽取到的实体、所述关联关系、以及所述关联关系的业务域属性生成知识图谱,和/或,根据所述关联关系、以及所述关联关系的业务域属性补全所述初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库。
142.采用上述知识图谱构建装置,与相关技术中自顶向下构建模式相比,本公开这种方式因无需预先构建包括实体数据结构间关系的完整知识图谱本体库而使得知识图谱构建过程简化。而在无需构建完整知识图谱本体库的情况下,无需进行实体关系的设计(实体数据结构与实体数据结构之间的关系是根据相应的实体与实体之间的关系抽象得到的),这可避免考虑在不同的场景下两个实体之间存在哪些不同的关系的问题,进而可避免如果两个实体之间的关系被遗漏而可能在未来应用过程中无法基于知识图谱实现查询、推理等应用操作的问题,以及可以避免如果把两个实体之间的关系设定的过于全面而导致的知识图谱本体库将会变得十分庞杂,难于解释和处理的问题。
143.而本公开根据关联关系、以及关联关系的业务域属性补全初始知识图谱本体库中第一实体数据结构和第二实体数据结构之间的关系,得到目标知识图谱本体库(即完整知识图谱本体库)的方式,与相关技术中人工构建目标知识图谱本体库的方式相比,降低了目标知识图谱本体库的人工创建难度。
144.并且,基于数据层(即知识图谱),反向将实体抽象(可理解为映射)到初始知识图谱本体库中的实体数据结构上,并将实体间的关联关系也抽象到相应的实体数据结构之间,从而得到目标知识图谱本体库。这种方式使得目标知识图谱本体库中的实体数据结构间关系是基于实际的业务层数据源来抽取得到的,相比由人工设置实体数据结构间关系的方式更符合实际的应用场景,并可基于实际应用场景对目标知识图谱本体库进行解释。而且,在目标知识图谱本体库更符合实际的应用场景的情况下,可提升知识查找、搜索、推荐以及推理等应用操作的精确度。
145.可选地,所述装置600还包括:
146.业务域模型生成模块,用于从所述数据源中提取业务主题词;针对每一所述业务主题词,将所述业务主题词以及所述业务主题词的预设权重转换为词向量;对所有的所述词向量进行聚类,得到多个业务簇;为每一所述业务簇分配业务域id;根据每一所述业务簇、以及每一所述业务簇的业务域id生成所述业务域模型。
147.可选地,所述第一确定模块630,包括:
148.第一抽取子模块,用于从所述数据源中确定抽取所述第一实体和所述第二实体的目标子数据源;
149.计算子模块,用于基于所述业务域模型,计算所述目标子数据源对应的第一目标业务域id;
150.第一确定子模块,用于将所述第一目标业务域id确定为所述关联关系的业务域属性。
151.可选地,所述计算子模块,包括:
152.第二抽取子模块,用于抽取所述目标子数据源中的目标业务主题词;
153.第二确定子模块,用于确定所述目标业务主题词对应的目标词向量;
154.第三确定子模块,用于从所述业务域模型中确定与所述目标词向量距离最小的目标业务簇;
155.执行子模块,用于将所述目标业务簇的业务域id作为所述第一目标业务域id。
156.可选地,所述装置600还包括:
157.第一响应模块,用于响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
158.第二确定模块,用于从所述知识图谱中确定所述第二目标业务域id对应的子图谱,所述子图谱中所述关联关系的业务域属性为所述第二目标业务域id;
159.第二执行模块,用于基于所述子图谱执行所述业务操作。
160.可选地,所述第一响应模块包括:
161.第四确定子模块,用于确定所述用户的业务操作权限信息;
162.第五确定子模块,用于根据所述业务操作权限信息、所述业务域模型确定所述第二目标业务域id。
163.可选地,所述装置600还包括:
164.第二响应模块,用于响应于用户的业务操作,确定所述业务操作对应的第二目标业务域id;
165.第三确定模块,用于从所述目标知识图谱本体库中确定所述第二目标业务域id对应的子本体库,所述子本体库中各所述实体数据结构之间的关系的业务域属性为所述第二目标业务域id;
166.第四确定模块,用于从所述知识图谱中确定所述子本体库对应的子图谱;
167.第三执行模块,用于基于所述子图谱执行所述业务操作。
168.关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
169.在另一示例性实施例中,还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述方法的步骤。
170.图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(i/o)接口704,以及通信组件705中的一者或多者。
171.其中,处理器701用于控制该电子设备700的整体操作,以完成上述的知识图谱构建方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,简称sram),电可擦除可编程只读存储器(electrically erasable programmable read-only memory,简称eeprom),可擦除可编程只读存储器(erasable programmable read-only memory,简称eprom),可编程只读存储器(programmable read-only memory,简称prom),只读存储器(read-only memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中
屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。i/o接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g、4g、nb-iot、emtc、或其他5g等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:wi-fi模块,蓝牙模块,nfc模块等等。
172.在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的知识图谱构建方法。
173.在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的知识图谱构建方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的知识图谱构建方法。
174.在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的知识图谱构建方法的代码部分。
175.以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
176.另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
177.此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1