一种知识图谱扩充方法、装置、设备及存储介质与流程

文档序号:33489204发布日期:2023-03-17 19:52阅读:37来源:国知局
一种知识图谱扩充方法、装置、设备及存储介质与流程

1.本文属于计算机技术领域,具体涉及一种知识图谱扩充方法、装置、设备及存储介质。


背景技术:

2.知识图谱(knowledge graph,kg)是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示一个实体,每条边表示实体与实体之间的关系。它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,
3.知识图谱广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,从而更好的服务特定领域。
4.知识图谱对某领域存在的实体的覆盖往往是不全面的,或者随着时间的发展,知识图谱中收录的实体也会匹配不上社会的发展,因此实时性较差,导致知识图谱的实用性随着时间的发展在降低,因此,需要不断地扩充知识图谱。


技术实现要素:

5.针对现有技术的上述问题,本文的目的在于,提供一种知识图谱扩充方法、装置、设备及存储介质,能够实现知识图谱的扩充。
6.为了解决上述技术问题,本文的具体技术方案如下:
7.一方面,本文提供一种知识图谱扩充方法,所述方法包括:
8.获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据;
9.提取所述语料数据中的实体,以及所述实体之间的关联属性;
10.将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;
11.根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。
12.进一步地,所述获取与所述待扩充知识图谱相关的语料数据,包括:
13.确定所述知识图谱的所属知识领域;
14.在所述知识领域中获取所述语料数据。
15.进一步地,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,包括:
16.将所述语料数据中的文本数据进行分词处理,得到词语集合;
17.根据预设实体命名模型对所述词语集合中词语进行实体识别,并对实体识别后的词语进行实体标注处理,从而获得所述语料数据中的实体;
18.对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性。
19.进一步地,所述对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性,包括:
20.对标注后的词语进行句法分析,获得所述文本数据中词语之间的依存关系;
21.根据所述依存关系,对所述标注后的词语进行依存句法分析,获得所述文本数据中的关系三元组,所述关系三元组包括两个实体和表示所述两个实体关系的关系词;
22.判断所述关系词是否在预设关系词库中;
23.若是,则根据所述关系词确定所述两个实体之间的关联属性。
24.进一步地,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,还包括:
25.提取所述语料数据中图数据中的实体信息,所述实体信息包括实体本体、实体连接关系和实体对应的数值;
26.根据预设实体命名模型对所述实体本体进行实体识别,并对实体识别后的实体本体进行标注处理;
27.根据所述实体连接关系,确定所述图数据中实体之间的关联属性;
28.根据标注后的实体和所述实体的关联属性,得到所述语料数据中的实体,以及所述实体之间的关联属性。
29.作为可选地,所述关联属性包括实体上下游关系和/或分类关系。
30.进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合,包括:
31.确定所述语料数据中的实体集合和所述知识图谱中的实体集合的交集,并将所述交集确定为所述第一实体集合。
32.进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
33.确定所述知识图谱对应的指标库;
34.提取所述第一实体集合中的在所述图数据存在数值的实体,并将所述实体标记为候选实体;
35.将所述候选实体在所述图数据中的数值标记为第一数值,以及将所述候选实体在指标库中的数值标记为第二数值;
36.比对所述候选实体的所述第一数值和所述第二数值;
37.若比对一致,则将所述候选实体保留在所述第一实体集合中;
38.若比对不一致,则将所述候选实体移除所述第一实体集合。
39.进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
40.确定所述语料数据的实体集合中去除第一实体集合的第二实体集合;
41.根据预设语义库,依次将所述第二实体集合中的实体与所述知识图谱中的实体集合中的实体进行匹配,其中所述预设语义库为以下中一个或多个:近义词库和同义词库;
42.将匹配上的所述第二实体集合中的实体加入所述第一实体集合中,以更新所述第一实体集合。
43.进一步地,所述根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中,包括:
44.根据所述第一实体集合和所述关联属性,从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体;
45.根据所述语料数据,统计在所述语料数据中生成所述第一实体和所述待扩充实体之间关联属性的次数;
46.判断所述次数是否超过次数阈值;
47.若是,则将所述待扩充实体扩充到所述知识图谱中。
48.进一步地,所述若是,则将所述待扩充实体扩充到所述知识图谱中,包括:
49.获取所述知识图谱的构建规则;
50.根据所述构建规则,以及所述第一实体和所述待扩充实体的关联属性,确定所述待扩充实体在所述知识图谱中的位置关系;
51.根据所述位置关系,将所述第一实体和所述待扩充实体连接。
52.另一方面,本文还提供一种知识图谱扩充装置,所述装置包括:
53.语料数据获取模块,用于获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据,所述语料数据包括文本数据和图数据;
54.提取模块,用于提取所述语料数据中的实体,以及所述实体之间的关联属性;
55.匹配模块,用于将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;
56.扩充模块,用于根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。
57.另一方面,本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的方法。
58.最后,本文还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的方法。
59.采用上述技术方案,本文所述的一种知识图谱扩充方法、装置、设备及存储介质,通过对待扩充知识图谱相关语料数据的分析,提取所述语料数据中的实体,以及实体之间的关联属性,然后将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中,本文能快速准确的进行待扩充知识图谱的扩充,从而丰富了知识图谱,提高了所述知识图谱的实用性和时效性。
60.为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
91.现有技术中,知识图谱服务各个领域的作用越来越大,网络数据爆炸增长的时代,知识图谱凭借其卓越的语义处理技术和互联性,增强搜索效率,完善用户体验。但是在构建完知识图谱后很难对其进行有效的补充和更新,造成了知识图谱的实时性较差,实用性也越来越低。
92.为了解决上述问题,本说明书实施例提供了一种知识图谱扩充方法,如图1所示,为实施所述方法的知识图谱扩充系统,其中所述系统包括扩充装置10、第一数据库20和第二数据库30;所述扩充装置10可以与所述第一数据库20和所述第二数据库30分别建立交互联系。其中所述第一数据库20可以为指标库,并存储有根据所述指标库为构建的知识图谱,所述第二数据库30可以为与所述指标库相关的数据库,即所述第二数据库30中数据所属知识领域和所述第一数据库20中数据所属知识领域相关,因此所述扩充装置10可以通过提取所述第二数据库30中的数据对所述第一数据库20中的知识图谱进行扩充,具体是:所述扩充装置10从所述第二数据库30中提取与所述知识图谱相关联的语料数据,比如知识图谱为汽车领域,所述语料数据可以属于材料领域,所述扩充装置10通过提取所述语料数据中的与所述知识图谱相关的实体,并扩充至所述知识图谱中,从而实现对所述知识图谱的扩充。
93.具体地,本文实施例提供了一种知识图谱扩充方法,能够实现对知识图谱的快速扩充。图2是本文实施例提供的一种知识图谱扩充方法的步骤示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示,所述方法可以包括:
94.s101:获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据;
95.s102:提取所述语料数据中的实体,以及所述实体之间的关联属性;
96.s103:将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;
97.s104:根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。
98.可以理解为,在确定待扩充知识图谱的基础上,通过获取提供扩充实体的语料数据,进而对语料数据提取实体以及实体之间的关系属性,这样就能确定所述语料数据中的实体集合,以及不同实体之间的关系,然后再对所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;所述第一实体集合,即为所述语料数据和所述待扩充知识图谱中重合的实体。然后以所述第一实体集合中的实体为基础,从所述语料
数据中提取与所述第一实体集合中的实体相关联的待扩充实体,所述待扩充实体就是能够扩充到所述待扩充知识图谱上的实体。最后根据所述关联属性将所述待扩充实体扩充到所述待扩充知识图谱上,从而实现了所述待扩充知识图谱的扩充。
99.所述待扩充知识图谱可以为通过现有的资料提前构建的,现有的资料可以为数据库、指标库或其他存储数据的载体,另外,所述待扩充知识图谱可以为某一单独知识领域的图数据结构,比如汽车领域,也可以为多个呈相关关系的知识领域的图数据结构,比如汽车领域和材料领域,所述待扩充知识图谱的构建过程可以为常用的技术手段,在本说明书实施例中不做限定。
100.所述关联属性可以为实体之间的上下游关系或分类关系,比如“汽车-玻璃”、“手机-芯片”可以为上下游关系;再比如“神经系统药物-精神兴奋药”、“精神兴奋药-抗抑郁药”可以为上下层级关系或分类关系。而知识图谱实际上是把不同实体之间的关系通过连接的方式确定下来,因此为了实现对知识图谱的扩充,也需要知道扩充到知识图谱中的实体和至少一个其他实体(即知识图谱中的较早的实体)之间的关系,这样才能添加到知识图谱中,本文通过对所述关联属性的确定,即可确定所述语料数据中存在的不同实体之间的关系,这样就得到了将所述语料数据中的实体扩充到知识图谱中的前提条件,从而便于快速的将所述语料数据中的实体扩充到所述知识图谱中。
101.在本说明书实施例中,所述语料数据的获取很大程度上影响着所述待扩充知识图谱的扩充效果,因此,为了实现更好的扩充,作为可选地,所述获取与所述待扩充知识图谱相关的语料数据,包括:
102.确定所述知识图谱的所属知识领域;
103.在所述知识领域中获取所述语料数据。
104.其中,所述知识领域可以为具有特征相关性的实体的集合,以汽车领域为例,构建得到的知识图谱中的实体可以有“变速器”、“车灯”、“方向盘”、“后视镜”、“座椅”、“底盘”、“发动机”等,所述语料数据所属的知识领域可以与所述知识图谱的所属知识领域相关联,比如当所述知识图谱所属知识领域为汽车领域,所述语料数据的知识领域可以为材料领域,例如,汽车后视镜材料可以为玻璃,在知识图谱中可以存在“后视镜
”‑“
玻璃”这样的实体关系,由于知识图谱中的“玻璃”和语料数据中的“玻璃”一致,在语料数据中可以提取出“玻璃”和“硅材料”的实体关联关系,因此可以通过“玻璃”这一实体可以将语料数据中的“硅材料”扩充到由汽车领域的构建的知识图谱中,因此通过对语料数据的选择,可以提高对所述待扩充知识图谱的扩充可靠性。
105.进一步实施例中,可以根据用户的需求扩充相应的语料资料,以公司a为例,通过其公司内部数据可以构建得到知识图谱,随着公司发展也会产生更多的数据,因此可以定期获取公司a产生的数据(公司年报、公告、生产数据等数据),并通过定期获取的数据对所述知识图谱进行扩充。另外也可以获取第三方数据,比如券商研报等数据对公司a中的知识图谱进行扩充。
106.另一实施例中,还可以通过网络爬虫技术获取指定网页或指定时间段内的数据,从而实现对所述知识图谱进行可靠的扩充,所述语料数据来源在本说明书实施例中不做限定。
107.在本说明书实施例中,如图3所示,所述提取所述语料数据中的实体,以及所述实
体之间的关联属性,包括:
108.s201:将所述语料数据中的文本数据进行分词处理,得到词语集合;
109.s202:根据预设实体命名模型对所述词语集合中词语进行实体识别,并对实体识别后的词语进行实体标注处理,从而获得所述语料数据中的实体;
110.s203:对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性。
111.在实际工作中,可以对文本数据中的标点符号进行清洗,比如逗号、句号等,然后通过分词器对所述清洗后的文本数据进行分词处理,比如,清洗后的文本数据中有一段文本为“后视镜是一种汽车配件”,经过分词处理可以得到“后视镜”,“是”,“一种”,“汽车”和“配件”。所述分词器可以采用开源的jieba工具。
112.在得到分词处理的词语之后,可以采用预设实体命名模型对每个词语进行实体识别,确定每个词语的语义信息,其中所述预设命名模型可以为ner(name entity recognition)模型,可有效识别所述文本数据中的人名、地名、机构名等词语信息,从而确定每个词语所表达的实体信息,为了有效的通过不同实体之间连接词或关系词的含义,来确定不同实体之间的关联关系,可以根据句法分析和依存句法分析,得到所述实体之间的关联属性。
113.本说明书实施例中,所述对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性,包括:
114.对标注后的词语进行句法分析,获得所述文本数据中词语之间的依存关系;
115.根据所述依存关系,对所述标注后的词语进行依存句法分析,获得所述文本数据中的关系三元组,所述关系三元组包括两个实体和表示所述两个实体关系的关系词;
116.判断所述关系词是否在预设关系词库中;
117.若是,则根据所述关系词确定所述两个实体之间的关联属性。
118.可以理解为,通过本步骤中句法分析和依存句法分析,结合分词处理后标注的实体信息,可以快速确定不同实体之间的关联属性,所述依存关系为两个实体之间相互作用,不可分离,比如文本“后视镜是一种汽车配件”中,“后视镜”和“汽车”存在依存关系,而且两个不可缺少,缺少“后视镜”,在该文本中“汽车”没有了含义,可以通过设置不同的根实体(root),进而确定依赖该根实体的其他实体,通过句法分析得到不同实体之间的依存关系,示例性地,可以通过自然语言处理算法(比如stanford core nlp算法)训练得到句法分析模型,进而通过该训练得到的句法分析模型对已经标注处理的词语进行句法分析得到不同实体之间的依存关系。在依存关系分析基础上,就能通过依存句法分析获得文本数据中的关系三元组,所述关系三元组即为能够直接确定两个实体之间的关系,通过提取其中的关系词,即可得到所述关系三元组中两个实体之间的关系属性。
119.所述预设关系词库中的关系词能表示实体之间的关系属性特征,比如“包含”、“是一种”、“上游产品”、“设有”等表示上下游关系的词汇,需要说明的是,所述预设关系词库的设置可以与所述待扩充知识图谱的构建规则相匹配,比如所述待扩充知识图谱是以产品上下游关系构建的,则所述预设关系词库就可以包括表示上下游关系的词语,从而能够从语料数据中确定与所述待扩充知识图谱匹配的实体。在一些其他实施例中,所述预设关系词库还可以有其他的设置方式,在本说明书实施例中不做限定。
120.在通过语料数据中的文本数据确定不同实体之间的关系属性基础上,还可以通过对图数据进行实体和实体之间的关系属性的提取,作为可选地,如图4所示,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,还包括:
121.s301:提取所述语料数据中图数据中的实体信息,所述实体信息包括实体本体、实体连接关系和实体对应的数值;
122.s302:根据预设实体命名模型对所述实体本体进行实体识别,并对实体识别后的实体本体进行标注处理;
123.s303:根据所述实体连接关系,确定所述图数据中实体之间的关联属性;
124.s304:根据标注后的实体和所述实体的关联属性,得到所述语料数据中的实体,以及所述实体之间的关联属性。
125.所述图数据可以与所述文本数据相匹配,比如在研报中摘要和正文为文本数据,研报中的图为图数据,这样通过对所述图数据的分析可以实现对文本数据提取内容的补充,当所述图数据中存在树状图时,可以通过提取树状图中的实体本体信息,以及不同实体之间的连接关系,当所述图数据中存在数值时,可以提取获得相应实体的数值,这样可以在文本数据的基础上,进一步扩充语料数据中的实体信息。
126.进一步实施例中,所述实体连接关系可以表示不同实体之间的关联关系,作为可选地,可以通过图数据中不同实体之间的连接箭头,确定实体的关联关系,比如在图中出现汽车

后视镜,则可以确定“汽车”和“后视镜”之间的连接关系,其中汽车为下游产品,后视镜为上游产品。
127.所述预设实体命名模型可以为ner(name entity recognition)模型。
128.对图数据提取时可以采用光学字符识别(optical character recognition,ocr)技术,在一些其他实施例中,也可以采用机器学习来实现,具体的实现方式在本说明书实施例中不做限定。
129.需要说明的是,在通过图数据获得全部实体和实体之间的关联属性后,还可以将由文本数据获得全部实体和实体之间的关联属性,与由图数据获得全部实体和实体之间的关联属性进行融合,得做最终所述语料数据的实体和实体之间的关联属性。
130.在本说明书实施例中,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合,包括:
131.确定所述语料数据中的实体集合和所述知识图谱中的实体集合的交集,并将所述交集确定为所述第一实体集合。
132.通过上述步骤可知,所述第一实体集合中的实体为所述语料数据和所述知识图谱重合的实体,因此通过对所述语料数据中的实体集合和所述知识图谱中的实体集合交集处理即可得到所述第一实体集合。
133.在本说明书实施例中,如图5所示,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
134.s401:确定所述知识图谱对应的指标库;
135.s402:提取所述第一实体集合中的在所述图数据存在数值的实体,并将所述实体标记为候选实体;
136.s403:将所述候选实体在所述图数据中的数值标记为第一数值,以及将所述候选
实体在指标库中的数值标记为第二数值;
137.s404:比对所述候选实体的所述第一数值和所述第二数值;
138.s405:若比对一致,则将所述候选实体保留在所述第一实体集合中;
139.s406:若比对不一致,则将所述候选实体移除所述第一实体集合。
140.可以理解为,本说明书实施例通过所述图数据中的数据进一步筛选第一实体集合中的实体,比如当出现一词多义时,通过交集处理则很难将一词多义的两个词筛选出来。具体地,先确定知识图谱对应的指标库,通过所述指标库则可以确定不同实体对应的数值,需要说明的是,不同的指标下可以存在同一个实体,即同一个实体也可以对应多个数值,比如汽车-车窗-玻璃-200元,汽车-前挡风-玻璃-500元,因此针对“玻璃”可以有200,500两个数值。
141.示例性地,可以先从所述第一实体集合中确定存在数值的实体,比如为苹果,知识图谱对应的指标库中苹果对应的数值为6000,因此可以确定该苹果为苹果手机;而通过所述图数据中确定苹果对应的数值为2.5,可以为确定该苹果为水果,因此2.5和6000差别较大,比对不一致,可以确定二者不是一个东西,因此需要将“苹果”这一实体从所述第一实体集合中移除。
142.再次需要说明的是,由于实体对应的数值可以存在浮动情况(比如苹果手机价格根据型号不同也会不同),但是其平均值或数值的范围一般保证稳定的范围,因此在比对时,可以设置一定的偏离阈值,当所述第一数值进而所述第二数值的偏离值在所述偏离阈值范围内时,则可以确定二者比对一致;若二者偏离值不在所述偏离阈值范围内时,则可以确定二者比对不一致,所述偏离阈值的设置根据实际情况设置,在本说明书实施例中不做限定。
143.为了确保移除实体的可靠性,对移除的实体可以再次通过人工识别,避免发生实体移除错误的情况。
144.除了上述步骤中对一词多义情况的处理,还可以存在同义词或近义词的情况,在进行交集处理时反而不能进行正确的处理,将同义词或近义词没有放入第一实体集合中,因此为了提高第一实体集合的准确性,作为可选地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
145.确定所述语料数据的实体集合中去除第一实体集合的第二实体集合;
146.根据预设语义库,依次将所述第二实体集合中的实体与所述知识图谱中的实体集合中的实体进行匹配,其中所述预设语义库为以下中一个或多个:近义词库和同义词库;
147.将匹配上的所述第二实体集合中的实体加入所述第一实体集合中,以更新所述第一实体集合。
148.可以理解为,通过对语料数据中除第一实体集合的其他实体集合与知识图谱中的实体集合进行同义词或近义词匹配,从而可以确定存在同义词或近义词的实体,该部分实体可以被放入第一实体集合中,从而提高了所述第一实体集合的可靠性和准确定。
149.其中近义词库和同义词库可以根据所述知识图谱所属的知识领域自定义设置,比如汽车领域,则可以根据经验设置汽车领域内各个实体相应的同义词或近义词,具体的设置方式在本说明书实施例中不做限定。
150.在本说明书实施例中,所述根据所述第一实体集合和所述关联属性,依次从所述
语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中,包括:
151.根据所述第一实体集合和所述关联属性,从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体;
152.根据所述语料数据,统计在所述语料数据中生成所述第一实体和所述待扩充实体之间关联属性的次数;
153.判断所述次数是否超过次数阈值;
154.若是,则将所述待扩充实体扩充到所述知识图谱中。
155.可以理解为,本步骤是在确定与所述第一实体集合中的实体相关联的待扩充实体的基础上,再对所述待扩充实体进一步的筛选,以确保待扩充实体是可靠的和准确性,可以通过确定生成所述第一实体和所述待扩充实体之间关联属性的次数,作为所述待扩充实体是否可靠的依据,比如第一实体集合中存在实体“玻璃”,通过所述“玻璃”在所述语料数据中的关联属性可以确定“玻璃”的(原材料)下游产品为“硅材料”,因此将所述“硅材料”作为待扩充实体,通过在语料数据中统计生成“玻璃-硅材料”这一关系属性的次数,比如为5次,即可通过该次数与次数阈值(比如为3次)进行比较,可以确定所述“硅材料”这一实体符合扩充要求,可以将所述“硅材料”扩充到所述知识图谱中。
156.需要说明的是,生成所述第一实体和所述待扩充实体之间关联属性的次数可以为在单个句子中确定所述第一实体和所述待扩充实体之间关联属性的次数,即所述第一实体和所述待扩充实体需要存在依存关系。比如在不同的段落或句子中,可以存在第一实体和所述待扩充实体两个词语,但是它们在这种情况下不存在依存关系,因此不能生成它们之间关联属性。
157.为了进一步确保扩充的准确性,还可以将次数超过次数阈值的待扩充实体发送到人工审核处,当人工审核通过后可以将所述待扩充实体扩充到所述知识图谱中,从而增加了知识图谱中新的实体关系(比如层级关系或产业链关系)等。
158.进一步实施例中,在扩充时可以有以下步骤:
159.获取所述知识图谱的构建规则;
160.根据所述构建规则,以及所述第一实体和所述待扩充实体的关联属性,确定所述待扩充实体在所述知识图谱中的位置关系;
161.根据所述位置关系,将所述第一实体和所述待扩充实体连接。
162.其中,所述构建规则可以为所述知识图谱构建时实体的位置设置规则和连接设置规则,这样通过第一实体和所述待扩充实体的关联属性(即上下游关系或层级关系)来确定所述待扩充实体在所述知识图谱中的位置关系,然后将所述第一实体和所述待扩充实体连接,从而实现了所述待扩充实体的扩充。
163.本说明书实施例提供的知识图谱扩充方法,通过对待扩充知识图谱相关语料数据的分析,提取所述语料数据中的实体,以及实体之间的关联属性,然后将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中,本文能快速准确的进行待扩充知识图谱的扩充,从而丰富了知识图谱,提高了所述知识图谱的实用性和时
效性。
164.基于同一发明构思,本说明书实施例还提供一种知识图谱扩充装置,如图6所示,所述装置包括:
165.语料数据获取模块100,用于获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据,所述语料数据包括文本数据和图数据;
166.提取模块200,用于提取所述语料数据中的实体,以及所述实体之间的关联属性;
167.匹配模块300,用于将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;
168.扩充模块400,用于根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。
169.通过上述装置所取得的有益效果和上述方法所取得的有益效果一致,本说明书实施例中不做赘述。
170.如图7所示,为本文实施例提供的一种计算机设备,本文中的知识图谱扩充装置可以为本实施例中的计算机设备,执行上述提供的方法,所述计算机设备702可以包括一个或多个处理器704,诸如一个或多个中央处理单元(cpu),每个处理单元可以实现一个或多个硬件线程。计算机设备702还可以包括任何存储器706,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器706可以包括以下任一项或多种组合:任何类型的ram,任何类型的rom,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备702的固定或可移除部件。在一种情况下,当处理器704执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备702可以执行相关联指令的任一操作。计算机设备702还包括用于与任何存储器交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
171.计算机设备702还可以包括输入/输出模块710(i/o),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714))。一个具体输出机构可以包括呈现设备716和相关联的图形用户接口(gui)718。在其他实施例中,还可以不包括输入/输出模块710(i/o)、输入设备712以及输出设备714,仅作为网络中的一台计算机设备。计算机设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
172.通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
173.对应于图2-图5中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
174.本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图2至图5所示的方法。
175.应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序
的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
176.还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
177.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
178.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
179.在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
180.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
181.另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
182.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
183.本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1