知识图谱补全方法、装置、设备及介质与流程

文档序号:30836713发布日期:2022-07-22 23:16阅读:116来源:国知局
知识图谱补全方法、装置、设备及介质与流程

1.本公开涉及通信领域,具体而言,涉及一种知识图谱补全方法、装置、计算机设备及计算机可读存储介质。


背景技术:

2.知识图谱是一种通过大量实体与实体间关系形成的语义网络,其旨在构建一个结构化信息的数据库,将世界上的具象事物(如人名、地名、机构名等专有名词)与抽象概念表示为实体,将实体之间的交互与联系表示为关系。实体与实体之间的关系构成一张巨大的图,其中实体是图中的节点,而关系则作为图中的边。
3.而对于多个不同的实体之间是否存在关联,成为知识图谱能够进一步应用的前提,进而就需要提供一种能够支持在知识图谱上进行未知信息推理的知识图谱补全机制。


技术实现要素:

4.为解决上述技术问题,本技术的实施方式提供了一种知识图谱补全方法、装置、计算机设备及计算机可读存储介质,以提高知识图谱补全的效率。
5.第一方面,本技术提供一种知识图谱补全方法,包括:获取待补全知识图谱,其中,待补全知识图谱中包括目标节点、目标关系以及预识别节点;对目标节点的目标节点向量以及目标关系的目标关系向量进行融合,得到融合向量;以及对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵;根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,将节点匹配度满足预设要求的预识别节点作为候选节点;对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵;根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,将关系匹配度满足预设要求的候选节点作为有效节点;将目标关系作为目标节点和有效节点之间的关系,以对待补全知识图谱进行补全处理。
6.根据本发明优选实施方式,对目标节点的目标节点向量以及目标关系的目标关系向量进行融合之前,还包括:获取目标节点的节点属性信息以及节点类型信息;对节点属性信息和节点类型信息中的每个字符以及每个字符的位置进行向量转化处理,得到节点属性向量和节点类型向量;对节点属性向量和节点类型向量进行融合,得到目标节点向量。
7.根据本发明优选实施方式,在对节点属性向量和节点类型向量进行融合,得到目标节点向量之后,还包括:获取目标节点对应的邻接矩阵和度矩阵;根据邻接矩阵和度矩阵对目标节点向量进行卷积处理,得到卷积后的目标节点向量;将卷积后的目标节点向量作为目标节点的目标节点向量。
8.根据本发明优选实施方式,对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵,包括:获取每个预识别节点的权重系数,根据权重系数对每个预识别节点的预识别节点向量进行加权计算;对加权计算后的每个预识别节点向量进行拼接,得到n维预识别节点融合矩阵;其中,n为预识别节点的数量。
9.根据本发明优选实施方式,根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,包括:将融合向量映射至预识别节点融合矩阵中,得到目标节点针对每个预识别节点的节点匹配分数;对节点匹配分数进行归一化处理,得到目标节点针对每个预识别节点的节点匹配度。
10.根据本发明优选实施方式,对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵,包括:获取每个候选节点的权重系数,根据权重系数对每个候选节点的候选节点向量进行加权计算;对加权计算后的每个候选节点向量进行拼接,得到m维候选节点融合矩阵;其中,m为候选节点的数量。
11.根据本发明优选实施方式,根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,包括:将融合向量映射至候选节点融合矩阵中,得到目标节点以及目标关系针对每个候选节点的关系匹配分数;对关系匹配分数进行归一化处理,得到目标节点以及目标关系针对每个候选节点的关系匹配度。
12.第二方面,本技术提供一种知识图谱补全装置,包括:图谱获取模块,配置为获取待补全知识图谱,其中,待补全知识图谱中包括目标节点、目标关系以及预识别节点;融合向量获取模块,配置为对目标节点的目标节点向量以及目标关系的目标关系向量进行融合,得到融合向量;以及对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵;候选节点确定模块,配置为根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,将节点匹配度满足预设要求的预识别节点作为候选节点;候选节点向量融合模块,配置为对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵;有效节点确认模块,配置为根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,将关系匹配度满足预设要求的候选节点作为有效节点;图谱补全模块,配置为将目标关系作为目标节点和有效节点之间的关系,以对待补全知识图谱进行补全处理。
13.第三方面,本技术提供一种计算机设备,计算机设备包括存储器和处理器;存储器,用于存储计算机程序;处理器,用于执行的计算机程序并在执行的计算机程序时实现上述知识图谱补全方法的步骤。
14.第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现上述知识图谱补全方法的步骤。
15.本技术实施方式公开的知识图谱补全方法、装置、计算机设备及计算机可读存储介质,通过包含目标节点信息以及目标关系信息的融合向量计算与预设识别节点之间的节点匹配度,以进行第一次筛选操作,得到与目标节点存在关系的候选节点。然后,再根据融合向量计算与候选节点之间的关系匹配度,以进行第二次筛选操作,得到与目标节点存在目标关系的有效节点,进而将目标关系作为目标节点与有效节点之间的关系对待补全知识图谱进行关系补全,以通过分段推理的方法提高关系补全的准确性以及效率。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这
些附图获得其他的附图。在附图中:
17.图1是本技术一示例性实施例提供的知识图谱补全方法的应用环境示意图;
18.图2是本技术一示例性实施例提供的知识图谱补全方法的流程图;
19.图3是本技术一示例性实施例提供的一种知识图谱的示意图;
20.图4是本技术一示例性实施例提供的对待补全知识图谱进行关系补全的示意图;
21.图5是本技术一示例性实施例提供的获取目标节点向量的流程图;
22.图6是本技术一示例性实施例提供的获取有效节点的示意图;
23.图7是本技术一示例性实施例公开的知识图谱补全方法的数据流程图;
24.图8是本技术一示例性实施例提供的知识图谱补全装置的示意性框图;
25.图9是本技术一示例性实施例提供的计算机设备的示意性框图。
具体实施方式
26.这里将详细地对示例性实施方式执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施方式中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
27.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
28.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
29.还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
30.知识图谱用于描述现实世界中各种实体或者各种概念之间的关系,已经被广泛地应用于自动问答、信息抽取、个性化推荐、数据分析等领域。虽然知识图谱可以提供高质量的结构化数据,但是现阶段的知识图谱是通过人工或者半自动的方法所建立的,通常不是完整的,因此需要将知识图谱进行补全。
31.知识图谱的关系补全是图数据领域一个重要的环节,主要过程为给定一个已知的知识图谱,对该已知的知识图谱内的节点间可能遗漏的关系进行补全。传统的图谱关系挖掘和补全大多基于专家经验进行人工梳理,效率低且门槛高,特别是对于经济领域的知识图谱的关系补全,由于节点关系数量庞大,且错综复杂,极大地增加了知识图谱补全的推理难度。
32.为解决上述问题,本技术实施方式提出了一种知识图谱补全方法、装置、计算机设备及计算机可读存储介质,提高了对知识图谱补全的效率以及准确性。
33.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施方式及实施方式中的特征可以相互组合。
34.图1示出了本技术示例性实施方式的运行环境的一种系统架构示意图,参考图1所
示,该系统可以包括终端110、服务端120。终端110和服务端120之间通过网络通信连接,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
35.终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述图像处理方法的实施环境还包括其他终端。本技术实施例对终端的数量和设备类型不加以限定。
36.服务端120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务端120用于为终端110运行的应用程序提供后台服务。
37.可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark-up language,html)、可扩展标记语言(extensible markup language,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocol security,ipsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
38.可选地,服务端120承担主要知识图谱补全工作,终端110承担次要知识图谱补全工作;或者,服务端120承担次要知识图谱补全工作,终端110承担主要知识图谱补全工作;或者,服务端120或终端110分别可以单独承担知识图谱补全工作。
39.请参阅图2,图2为本技术实施方式提供的知识图谱补全方法的一个流程示意图。该知识图谱补全方法可以应用于图1所示的实施环境,并由该实施环境中的服务端120具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。如图2所示,该方法包括步骤s210至步骤s260。
40.步骤s210,获取待补全知识图谱,其中,待补全知识图谱中包括目标节点、目标关系以及预识别节点。
41.本技术实施例中的待补全知识图谱是指需要进行关系补全的知识图谱,目标节点是指需要进行目标关系补全的节点,预识别节点是指基于目标节点和目标关系需要进行知识图谱补全计算的对象。
42.知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体对象-关联关系-实体对象”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。如图3所示,其为本技术实施例中的一种知识图谱的示意图。如果两个节点之间存在关系,他们就会被一条无向边连接在一起,两个节点即为实体对象,两个节点之
间的边即为关联关系。也就是说,图3中的各个节点就是实体对象,实体对象与实体对象之间的边即关联关系。例如,图3中的“a省”、“b市”、“产量x”、“平均价格y”等都是实体对象。而关联关系用于连接不同的实体对象,如图3中的“地区”、“经济指标1”、“经济指标2”等。
43.示例性的,可以随机选取待补全知识图谱中的节点以及关系进行组合,以得到目标节点以及目标关系;也可以根据待补全知识图谱中每个节点对应的边的数量,或者每个节点的节点类型进行目标节点的选取,然后根据目标节点以及目标关系的选取;也可以获取用户的输入操作得到目标节点以及目标关系,本技术对此不做具体限制。
44.示例性的,预识别节点可以是多个,例如将待补全知识图谱中的某一类型的节点均作为预识别节点,或者将待补全知识图谱中除目标节点之外的其它节点均作为预识别节点;预识别节点也可以是单个,例如随机选取待补全知识图谱中的某一节点均作为预识别节点,本技术对此不做具体限制。
45.步骤s220,对目标节点的目标节点向量以及目标关系的目标关系向量进行融合,得到融合向量;以及对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵。
46.其中,对目标节点、目标关系以及预识别节点进行编码处理得到目标节点向量、目标关系向量以及预识别节点向量,编码处理是指将离散变量表达为连续变量。
47.示例性的,将目标节点、目标关系以及预识别节点输入编码网络中,以使编码网络对目标节点、目标关系以及预识别节点进行编码处理,输出目标节点向量、目标关系向量以及预识别节点向量。例如该编码网络可以采用transe网络,也可以采用其他网络模型,例如mtranse网络,本技术对此不做具体限定。以transe网络为例,对目标节点、目标关系以及预识别节点进行编码处理的过程就是指:把目标节点、目标关系以及预识别节点翻译成embedding词向量,以embedding词向量作为目标节点向量、目标关系向量以及预识别节点向量。
48.示例性的,对目标节点向量以及目标关系向量进行融合,得到融合向量,使融合向量中包含目标节点的信息以及目标关系的信息。对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵,使预识别节点融合矩阵中包含每个预识别节点的信息。
49.示例性的,对目标节点向量和目标关系向量进行融合可以采用如下公式(1):
50.公式(1)、
51.其中,e
ij
为融合向量,代表第i个节点,rj代表第j类关系,f代表一种融合方式,例如向量拼接,加权计算等,本技术对此不做具体限制。
52.步骤s230,根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,将节点匹配度满足预设要求的预识别节点作为候选节点。
53.其中,候选节点是指识别到的待补全知识图谱中可能与目标节点存在关系的节点,节点匹配度用于表征预识别节点和目标节点之间存在关联关系的可能性,节点匹配度越高,则预识别节点和目标节点之间存在关联关系的可能性越高,节点匹配度越低,则预识别节点和目标节点之间存在关联关系的可能性越低。
54.本技术实施例中,通过对融合向量和预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度。其中,节点匹配度满足预设要求的预识别节点可以是节点匹配度
大于等于节点匹配度阈值的预识别节点;也可以对节点匹配度进行排序,节点匹配度满足预设要求的预识别节点可以是在排序结果中节点匹配度最大的预识别节点。
55.可选的,节点匹配度阈值可以是设定的固定阈值,也可以是动态阈值,例如,根据当前的待补全知识图谱的补全情况、目标节点的信息、目标关系的信息、预识别节点的数量、每个预识别节点的信息中的至少一者动态计算节点匹配度阈值,以使得到的节点匹配度阈值更加精准,进而使筛选得到的候选节点更加准确。待补全知识图谱的补全情况是指待补全知识图谱与补全目标的差距,补全目标可以是设定的知识图谱的相关参数,如每个节点的度等,补全目标也可以是预设的知识图谱补全方法的执行次数,如待补全知识图谱共10个节点,2个关系,则预设的知识图谱补全方法的执行次数可以是20,以遍历每个节点和关系之间的组合。节点的信息是指该节点的相关参数,如节点的类型、节点的属性、节点的度等信息。关系的信息是指该关系的相关参数,如关系的类型、关系的属性等信息。
56.通过将节点匹配度满足预设要求的预识别节点作为候选节点,以对预识别节点进行第一次筛选,且节点匹配度是根据融合向量和预识别节点融合矩阵计算得到,使得在计算目标节点与每个预识别节点之间是否存在关联关系时,考虑了目标关系的信息以及每个预识别节点的信息,以使得到的节点匹配度更加准确。
57.步骤s240,对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵。
58.其中,候选节点的候选节点向量可以与该候选节点对应的预识别节点向量一致,即对预识别节点以及候选节点使用相同的编码方法进行编码;候选节点的候选节点向量也可以与该候选节点对应的预识别节点向量不一致,即对预识别节点以及候选节点使用不同的编码方法进行编码,本技术对此不做具体限制。
59.示例性的,对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵,使候选节点融合矩阵中包含每个候选节点的信息。
60.步骤s250,根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,将关系匹配度满足预设要求的候选节点作为有效节点。
61.其中,有效节点是指和目标节点存在目标关系的节点,关系匹配度用于表征候选节点和目标节点之间存在目标关系的可能性,关系匹配度越高,则候选节点和目标节点之间存在目标关系的可能性越高,关系匹配度越低,则候选节点和目标节点之间存在目标关系的可能性越低。
62.本技术实施例中,通过对融合向量和候选节点融合矩阵计算目标节点和目标关系与预识别节点之间的关系匹配度。其中,关系匹配度满足预设要求的候选节点可以是关系匹配度大于等于关系匹配度阈值的候选节点;也可以对关系匹配度进行排序,关系匹配度满足预设要求的候选节点可以是在排序结果中关系匹配度最大的候选节点。
63.其中,关系匹配度阈值可以是设定的固定阈值,也可以是动态阈值,例如,根据当前的待补全知识图谱的补全情况、目标节点的信息、目标关系的信息、候选节点的数量、候选节点的信息中的至少一者动态计算关系匹配度阈值,以使得到的关系匹配度阈值更加精准,进而使筛选得到的有效节点更加准确。
64.通过将关系匹配度满足预设要求的预识别节点作为有效节点,以对候选节点进行第二次筛选,且关系匹配度是根据融合向量和候选节点融合矩阵计算得到,使得在计算目标节点以及目标关系与每个候选节点之间是否存在关联关系时,考虑了每个预识别节点的
信息,以使得到的关系匹配度更加准确。
65.步骤s260,将目标关系作为目标节点和有效节点之间的关系,以对待补全知识图谱进行补全处理。
66.其中,对待补全知识图谱进行补全处理是指将目标节点与有效节点之间利用无向边连接在一起,且该无向边代表目标关系。
67.示例性的,请参阅图4,图4为对待补全知识图谱进行关系补全的示意图。如图4所示,待补全知识图谱包括节点a1、节点a2、节点a3、节点b1、节点b2、关系1以及关系2。然后获取待补全知识图谱的目标节点为节点a1,目标关系为关系1,且预识别节点包括节点a2、节点a3、节点b1以及节点b2。然后根据节点a1和关系1对应的融合向量计算目标节点和预识别节点之间的节点匹配度,根据节点匹配度筛选得到的候选节点包括节点a2以及节点a3。再然后根据节点a1和关系1对应的融合向量计算目标节点和候选节点之间的关系匹配度,根据关系匹配度筛选得到的有效节点包括节点a2。因此,对节点a2以及节点a1之间添加无向边,且该无向边代表关系1,以得到进行补全处理后的知识图谱。
68.可以理解的是,可以对待补全知识图谱中每个的节点以及关系重复上述关系补全过程。例如,将节点a2作为目标节点,关系1作为目标关系,节点a1、节点a3、节点b1、节点b2作为预识别节点,对节点a2以及关系1进行推理后,节点a2以及节点a3之间存在关系1,对节点a2以及节点a3之间添加无向边,且该无向边代表关系1。将节点a1作为目标节点,关系2作为目标关系,节点a2、节点a3、节点b1、节点b2作为预识别节点,对节点a1以及关系2进行推理后,节点a1以及节点b1之间存在关系2,对节点a1以及节点b1之间添加无向边,且该无向边代表关系2。将节点a2作为目标节点,关系2作为目标关系,节点a1、节点a3、节点b1、节点b2作为预识别节点,对节点a2以及关系2进行推理后,节点a2以及节点b2之间存在关系2,对节点a2以及节点b2之间添加无向边,且该无向边代表关系2,最终得到每个节点均进行补全处理后的知识图谱。
69.通过对每个节点以及关系进行关系补全,以使补全后得到的知识图谱更加准确,避免节点之间存在关系遗漏,以提高对待补全知识图谱进行关系补全的全面性。
70.本技术实施例通过将节点匹配度满足预设要求的预识别节点作为候选节点,以对节点进行第一次筛选,然后再将关系匹配度满足预设要求的候选节点作为有效节点,以对节点进行第二次筛选,以将目标关系作为目标节点与有效节点之间的关系对待补全知识图谱进行关系补全,进而通过分段推理的方法提高关系补全的准确性以及效率。
71.请参阅图5,图5是另一示例性实施例示出的一种知识图谱补全的流程图。如图5所示,在一示例性的实施例中,步骤s220中对目标节点的目标节点向量以及目标关系的目标关系向量进行融合之前,还可以包括如下步骤:
72.步骤s510,获取目标节点的节点属性信息以及节点类型信息。
73.其中,目标节点包括节点属性信息以及节点类型信息,节点属性信息是指该目标节点的指代对象,节点类型信息是指该目标节点的指代对象所属的类别,如图3中的节点“a省”的节点属性信息为“a省”,节点类型信息为地区节点。
74.步骤s520,对节点属性信息和节点类型信息中的每个字符以及每个字符的位置进行向量转化处理,得到节点属性向量和节点类型向量。
75.此时,对于节点属性信息和节点类型信息中的任一个字符,该字符在节点属性信
息和节点类型信息中的位置,可以是该字符在其所属的文本内容中的位置。
76.本技术实施例中,对于节点属性信息和节点类型信息中的每一个字符,可以将该字符在所属的文本内容中的位置进行向量转化处理,得到该字符的位置向量,并拼接该字符的位置向量和字向量,得到该字符的字符目标向量。
77.可以对节点属性信息和节点类型信息中的各字符的字符目标向量进行融合特征提取,得到节点属性向量和节点类型向量,使得节点属性向量和节点类型向量包含每个字符的位置和语义,从而使得文本向量可以更好的表达目标节点的信息。
78.其中,融合特征提取可以是将该字符的位置向量拼接在该字符的字向量之前或者之后,当然,在实际执行的过程中,也可以不采用拼接位置向量和字向量的方法,而是将位置向量和字向量组成的集合,视作第一目标向量,在此不做限定。
79.步骤s530,对节点属性向量和节点类型向量进行融合,得到目标节点向量。
80.示例性的,在将节点属性向量和节点类型向量进行融合时,常见的融合方式有:特征向量拼接,点乘,加权求和等等,本技术在此不做具体限定。
81.例如,获取节点属性向量和节点类型向量的权重系数,根据该权重系数对节点属性向量和节点类型向量进行加权求和,得到目标节点向量,即目标节点向量包括该目标节点中节点的属性信息以及类型信息,则该目标节点向量能够准确地表征该目标节点,以便后续根据问目标节点向量进行准确地关系补全处理。
82.在一些实施方式中,在对节点属性向量和节点类型向量进行融合,得到目标节点向量之后,还包括:获取目标节点对应的邻接矩阵和度矩阵;根据邻接矩阵和度矩阵对目标节点向量进行卷积处理,得到卷积后的目标节点向量;将卷积后的目标节点向量作为目标节点的目标节点向量。
83.其中,邻接矩阵表示待补全知识图谱中节点之间的关系,通过n阶方阵表示,n为节点数量,该方阵中有连接的节点间的值为1,其它地方的值都为0。度矩阵是对角阵,对角上的元素为各个节点的度,节点的度表示和该节点相关联的边的数量。
84.本技术实施例中通过将邻接矩阵、度矩阵和目标节点向量输入卷积网络中,以使该卷积网络对目标节点向量进行卷积处理,输出卷积后的目标节点向量。例如,卷积网络为图卷积网络(graph convolutional networks,gcn),将邻接矩阵、度矩阵和目标节点向量输入gcn中进行卷积处理,卷积处理可以采用如下公式(2):
85.公式(2)、
86.其中,h
(l)
为第l层的目标节点向量,h
(l+1)
为对第l层的目标节点向量进行一次卷积处理后的目标节点向量,d为每个节点特征向量的维度,a为邻接矩阵,w
(l)
为第l层的权重参数矩阵,σ为非线性激活函数,例如relu。
87.通过对目标节点进行卷积处理,使得到的卷积处理后的目标节点向量融入了关系层面的信息,即经过一次卷积操作使每个节点信息会与周围有一度连接的节点信息进行交互,经过多次卷积操作,即使每个节点信息会与周围有二度及其以上的节点信息进行交互,使得到的卷积后的目标节点向量中的信息更加丰富,进而方便后续进行关系补全处理。
88.示例性的,请参阅图6,对待补全知识图谱中的各个目标节点进行卷积处理,以使目标节点之间进行信息交互,得到每个目标节点的目标节点向量,以及对待补全知识图谱
中的各个目标关系进行编码,得到每个目标关系的目标关系向量。然后,选取当前需要进行推理的目标节点以及目标关系,进而获取该目标节点的目标节点向量以及该目标关系的目标关系向量,对目标节点向量以及目标关系向量进行融合,得到融合向量。进一步的,待补全知识图谱包括多种类型的节点,如图6中有j种类型的节点,选取指定类型的节点作为预识别节点,以根据融合向量对预识别节点进行计算,得到候选节点,然后根据融合向量对候选节点进行计算,得到有效节点。
89.在一示例性的实施例中,对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵的过程,可以包括如下步骤:获取每个预识别节点的权重系数,根据权重系数对每个预识别节点的预识别节点向量进行加权计算,对加权计算后的每个预识别节点向量进行拼接,得到n维预识别节点融合矩阵;其中,n为预识别节点的数量。
90.其中,每个预识别节点的权重系数可以是设定的固定值,如每个预识别节点的权重系数相同,则每个预识别节点的权重系数为1除以预识别节点的数量;每个预识别节点的权重系数也可以是动态确定的值,例如,根据每个预识别节点的度、每个预识别节点的属性信息、每个预识别节点的类型信息、每个预识别节点与目标节点之间的相似度等中的至少一者动态计算每个预识别节点的权重系数,以使得到的每个预识别节点的权重系数更加精准,进而使筛选得到的候选节点更加准确。
91.例如,预识别节点包括“a节点”、“b节点”以及“c节点”,对每个预识别节点均进行编码处理,得到每个预识别节点的预识别节点向量,然后根据每个预识别节点的度确认每个预识别节点包的权重系数,如“a节点”的度为3,“b节点”的度为1,“c节点”的度为1,则“a节点”的权重系数为0.2,“b节点”的权重系数为0.4,“c节点”的权重系数为0.4,然后在对每个预识别节点的预识别节点向量进行加权拼接,得到3维的预识别节点融合矩阵,3为预识别节点的数量。
92.在一示例性的实施例中,根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,包括:将融合向量映射至预识别节点融合矩阵中,得到目标节点针对每个预识别节点的节点匹配分数;对节点匹配分数进行归一化处理,得到目标节点针对每个预识别节点的节点匹配度。
93.通过将融合向量映射至预识别节点融合矩阵中,得到映射后的向量,该映射后的向量为每个预识别节点对应的节点匹配分数。
94.其中,归一化处理是指将节点匹配分数按比例缩放,使之落入一个小的特定区间,例如,可以采用如下公式(3)得到节点匹配度:
95.公式(3)、
96.其中,为第i个节点和第j类关系对于预识别节点的节点匹配度,sigmoid为归一化处理函数,wn为n维预识别节点融合矩阵,n为预识别节点的数量,e
ij
为融合向量。
97.进一步的,根据节点匹配度阈值对预识别节点进行筛选,得到候选节点,可以采用如下公式(4)进行筛选:
98.公式(4)、
99.其中,k1代表选定类型的预识别节点的索引,即仅在这些类型的节点下进行判断,
为第i个目标节点和第j类目标关系对于预识别节点的节点匹配度,n为预识别节点的数量,n为当前判断的预识别节点的序号,t1为预设的节点匹配度阈值,s为选取节点匹配度大于或等于节点匹配度阈值的候选节点。
100.在一示例性的实施例中,步骤s240中对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵,可以包括如下步骤:获取每个候选节点的权重系数,根据权重系数对每个候选节点的候选节点向量进行加权计算;对加权计算后的每个候选节点向量进行拼接,得到m维候选节点融合矩阵;其中,m为候选节点的数量。
101.其中,每个候选节点的权重系数可以是设定的固定值,如每个候选节点的权重系数相同,则每个候选节点的权重系数为1除以候选节点的数量;每个候选节点的权重系数也可以是动态确定的值,例如,根据每个候选节点的度、每个候选节点的属性信息、每个候选节点的类型信息、每个候选节点与目标节点之间的相似度等中的至少一者动态计算每个候选节点的权重系数,以使得到的每个候选节点的权重系数更加精准,进而使筛选得到的候选节点更加准确。
102.获取每个候选节点的权重系数,然后对每个候选节点的候选节点向量进行加权计算,对加权计算后的每个候选节点向量进行拼接,得到m维的候选节点融合矩阵,m为候选节点的数量。
103.例如,预识别节点包括“a节点”、“b节点”以及“c节点”,对预设节点进行筛选后得到的候选节点包括“b节点”以及“c节点”,则对候选节点“b节点”以及“c节点”对应的节点向量进行加权拼接,得到2维的候选节点向量,2为候选节点的数量。
104.在一示例性的实施例中,步骤s250中根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,包括:将融合向量映射至候选节点融合矩阵中,得到目标节点以及目标关系针对每个候选节点的关系匹配分数;对关系匹配分数进行归一化处理,得到目标节点以及目标关系针对每个候选节点的关系匹配度。
105.通过将融合向量映射至候选节点融合矩阵中,得到映射后的向量,该映射后的向量为每个候选节点对应的关系匹配分数。
106.其中,归一化处理是指将关系匹配分数按比例缩放,使之落入一个小的特定区间,例如,可以采用如下公式(5)得到节点匹配度:
107.公式(5)、
108.其中,为第i个节点和第j类关系对于候选节点的关系匹配度,sigmoid为归一化处理函数,wm为m维候选节点融合矩阵,m为候选节点的数量,e
ij
为融合向量。
109.进一步的,根据关系匹配度阈值对候选节点进行筛选,得到有效节点,可以采用如下公式(6)进行筛选:
110.公式(6)、
111.其中,k2代表筛选后得到的候选节点的索引,为第i个目标节点和第j类目标关系对于候选节点的关系匹配度,m为候选节点的数量,m为当前判断的候选节点的序号,t2为预设的关系匹配度阈值,s为选取关系匹配度大于关系匹配度阈值的有效节点,即得到的有
效节点与目标节点之间存在目标关系。
112.在一些实施方式中,有效节点是通过调用训练完成的补全模型对待补全知识图谱进行图谱补全预测得到的;方法还包括:获取样本知识图谱三元组,样本知识图谱三元组包括样本目标节点、样本目标关系和样本有效节点;将样本目标节点和样本目标关系输入补全模型中进行图谱补全预测处理,得到补全模型输出的预测有效节点;根据预测有效节点和样本有效节点之间的差异,修正补全模型的网络参数,得到训练完成的补全模型。
113.示例性的,样本知识图谱三元组包括正样本和负样本,本实施例中的正样本是指正确的三元组,在样本知识图谱中已经构建好的三元组。然后,本实施例将正样本中的样本目标节点、样本目标关系或样本有效节点进行随机替换,生成负样本,即负样本为事实不成立的样本。例如,正样本的样本知识图谱三元组为(节点a1,关系1,节点b1),则可以对该样本知识图谱三元组的节点a1进行随机替换,得到的负样本可以包括(节点a2,关系1,节点b1)、(节点a3,关系1,节点b1)等。
114.进一步的,将正样本和负样本输入补全模型中进行图谱补全预测处理,得到补全模型输出的预测结果。例如,每组样本包括一个正样本和多个负样本,对于正样本的样本标签可以为1,则对于负样本的样本标签可以为0,如正样本为(节点a1,关系1,节点b1),负样本为(节点a2,关系1,节点b1)、(节点a3,关系1,节点b1)等。在对补全模型进行训练过程中,将关系1以及节点b1作为已知信息,以使补全模型根据关系1以及节点b1预测其它节点(如节点a1、节点a2、节点a3)与节点b1存在关系1的概率,并将输出的概率作为预测结果。其中,补全模型预测其它节点与节点b1存在关系1的概率的具体实施方式可以参见上述图2中的步骤s210至步骤s250,本技术在此不做赘述。
115.然后,根据预测结果和样本标签之间的差异,更新补全模型的网络参数,得到训练完成的补全模型。例如,将正样本和负样本输入补全模型中的第一预测网络进行候选节点预测,得到第一预测网络输出的候选节点,然后将候选节点输入补全模型中的第二预测网络进行有效节点预测,得到第二预测网络输出的有效节点。其中,对于第一预测网络以及第二预测网络分别设置有不同的损失函数l1以及l2。
116.其中,可以采用交叉熵损失函数计算预测结果和样本标签之间的差异,可以理解的是,还可以采用triplet loss损失函数(三重损失函数),或者还可以采用对数函数等其他损失函数计算预测结果和样本标签之间的差异,本技术对此不做限制。
117.示例性的,第一预测网络的损失函数可以采用如下公式(7):
118.公式(7)、
119.其中,l1为第一预测网络计算节点匹配度,并根据节点匹配度筛选得到候选节点过程的损失函数,y为样本标签,样本标签的取值是1或0,p为预测结果,n为预识别节点的数量,m为候选节点的数量,i为目标节点的数量,j为目标关系的类别。
120.第二预测网络的损失函数公式可以采用如下公式(8):
121.公式(8)、
122.其中,l2为第二预测网络计算关系匹配度,并根据关系匹配度筛选得到有效节点过程的损失函数,l为最终损失函数,y为样本标签,样本标签的取值是1或0,p为预测结果,n为预识别节点的数量,m为候选节点的数量,i为目标节点的数量,j为目标关系的类别。
123.则补全模型的目标损失函数公式可以采用如下公式(9):
124.公式(9)、l=l1+l2125.根据第一预测网络以及第二预测网络各自对应的损失函数值调整第一预测网络以及第二预测网络的参数,直至第一预测网络以及第二预测网络收敛,得到更新后的训练完成的补全模型。其中,第一预测网络以及第二预测网络收敛目标可以为:损失函数的损失函数值收敛,以保证第一预测网络以及第二预测网络对输入的目标节点以及目标关系进行处理,得到的实际输出值以及目标输出值之间的误差收敛。
126.在一些实施方式中,请参阅图7,图7为本技术一实施例公开的知识图谱补全方法的数据流程图。如图7所示,通过gcn网络对目标节点向量以及节点之间的信息进行卷积处理,得到卷积后的目标节点向量,其中,节点之间的信息为目标节点对应的邻接矩阵和度矩阵。对目标节点向量以及目标关系向量进行融合,得到融合向量。然后,将该融合向量映射至预识别节点融合矩阵中,得到候选节点。进一步的,再将该融合向量映射至候选节点融合矩阵中,得到有效节点,并对有效节点以及目标节点之间进行目标关系的补全。
127.本技术实施方式公开的知识图谱补全方法,通过包含目标节点信息以及目标关系信息的融合向量计算与预设识别节点之间的节点匹配度,以进行第一次筛选操作,得到与目标节点存在关系的候选节点。然后,再根据融合向量计算与候选节点之间的关系匹配度,以进行第二次筛选操作,得到与目标节点存在目标关系的有效节点,进而将目标关系作为目标节点与有效节点之间的关系对待补全知识图谱进行关系补全,以通过分段推理的方法提高关系补全的准确性以及效率。
128.请参阅图8,图8是本技术一实施方式提供的一种知识图谱补全装置800的示意框图,该知识图谱补全装置800可以配置于服务端或终端中,用于执行前述的知识图谱补全方法。
129.如图8所示,知识图谱补全装置800包括:图谱获取模块810、融合向量获取模块820、候选节点确定模块830、候选节点向量融合模块840、有效节点确认模块850以及图谱补全模块860。
130.图谱获取模块810,配置为获取待补全知识图谱,其中,待补全知识图谱中包括目标节点、目标关系以及预识别节点;
131.融合向量获取模块820,配置为对目标节点的目标节点向量以及目标关系的目标关系向量进行融合,得到融合向量;以及对每个预识别节点的预识别节点向量进行融合,得到预识别节点融合矩阵;
132.候选节点确定模块830,配置为根据融合向量以及预识别节点融合矩阵计算目标节点与预识别节点之间的节点匹配度,将节点匹配度满足预设要求的预识别节点作为候选节点;
133.候选节点向量融合模块840,配置为对每个候选节点的候选节点向量进行融合,得到候选节点融合矩阵;
134.有效节点确认模块850,配置为根据融合向量以及候选节点融合矩阵计算目标节点与候选节点之间的关系匹配度,将关系匹配度满足预设要求的候选节点作为有效节点;
135.图谱补全模块860,配置为将目标关系作为目标节点和有效节点之间的关系,以对待补全知识图谱进行补全处理。
136.在一些实施方式中,基于前述方案,知识图谱补全装置800还包括目标节点属性及类型信息获取单元、向量转化单元和属性及类型融合单元。
137.目标节点属性及类型信息获取单元,配置为获取目标节点的节点属性信息以及节点类型信息;
138.向量转化单元,配置为对节点属性信息和节点类型信息中的每个字符以及每个字符的位置进行向量转化处理,得到节点属性向量和节点类型向量;
139.属性及类型融合单元,配置为对节点属性向量和节点类型向量进行融合,得到目标节点向量。
140.在一些实施方式中,基于前述方案,知识图谱补全装置800还矩阵获取单元以及卷积单元。
141.矩阵获取单元,配置为获取目标节点对应的邻接矩阵和度矩阵;
142.卷积单元,配置为根据邻接矩阵和度矩阵对目标节点向量进行卷积处理,得到卷积后的目标节点向量,以将卷积后的目标节点向量作为目标节点的目标节点向量。
143.在一些实施方式中,基于前述方案,融合向量获取模块820包括预识别节点权重系数获取单元和预识别节点向量拼接单元。
144.预识别节点权重系数获取单元,配置为获取每个预识别节点的权重系数,根据权重系数对每个预识别节点的预识别节点向量进行加权计算;
145.预识别节点向量拼接单元,配置为对加权计算后的每个预识别节点向量进行拼接,得到n维预识别节点融合矩阵;其中,n为预识别节点的数量。
146.在一些实施方式中,基于前述方案,候选节点确定模块830包括第一映射单元和节点匹配度获取单元。
147.第一映射单元,配置为将融合向量映射至预识别节点融合矩阵中,得到目标节点针对每个预识别节点的节点匹配分数;
148.节点匹配度获取单元,配置为对节点匹配分数进行归一化处理,得到目标节点针对每个预识别节点的节点匹配度。
149.在一些实施方式中,基于前述方案,候选节点向量融合模块840候选节点权重系数获取单元和候选节点向量拼接单元。
150.候选节点权重系数获取单元,配置为获取每个候选节点的权重系数,根据权重系数对每个候选节点的候选节点向量进行加权计算;
151.候选节点向量拼接单元,配置为对加权计算后的每个候选节点向量进行拼接,得到m维候选节点融合矩阵;其中,m为候选节点的数量。
152.在一些实施方式中,基于前述方案,有效节点确认模块850包括第二映射单元和关系匹配度获取单元。
153.第二映射单元,配置为将融合向量映射至候选节点融合矩阵中,得到目标节点以及目标关系针对每个候选节点的关系匹配分数;
154.关系匹配度获取单元,配置为对关系匹配分数进行归一化处理,得到目标节点以及目标关系针对每个候选节点的关系匹配度。
155.需要说明的是,上述实施例所提供的知识图谱补全装置与上述实施例所提供的知识图谱补全方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施
例中进行了详细描述,此处不再赘述。上述实施例所提供的知识图谱补全装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处不对此进行限制。
156.本技术的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务端计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
157.图9示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
158.需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
159.如图9所示,电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于:上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。
160.其中,存储单元存储有程序代码,程序代码可以被处理单元910执行,使得处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
161.存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)921和/或高速缓存存储单元922,还可以进一步包括只读存储单元(rom)923。
162.存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924,这样的程序模块925包括但不限于:操作系统、一个或者多个应用程序、其它程序模块和程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
163.总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
164.电子设备900也可以与一个或多个外部设备970(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备900交互的设备通信,和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口950进行。并且,电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备900的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器和数据备份存储系统等。
165.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在该计算机程序被处理单元910执行时,执行本技术的系统中限定的各种功能。
166.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是
电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
167.在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
168.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。
169.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
170.本技术的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的知识图谱补全方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
171.本技术的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的知识图谱补全方法。
172.上述内容,仅为本技术的较佳示例性实施例,并非用于限制本技术的实施方案,本领域普通技术人员根据本技术的主要构思和精神,可以十分方便地进行相应的变通或修改,故本技术的保护范围应以权利要求书所要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1