基于实体概念的知识图谱补全、推演、存储方法及装置与流程

文档序号:20030201发布日期:2020-02-28 10:17阅读:345来源:国知局
基于实体概念的知识图谱补全、推演、存储方法及装置与流程

本发明涉及知识图谱技术领域,尤其涉及一种基于实体概念的知识图谱补全、推演、存储方法及装置。



背景技术:

知识图谱对于诸多自然语言处理任务而言已经成为了一项重要资源,但是目前的知识图谱普遍面临“不完备”缺陷。为了解决这个问题,很多基于表示学习的知识图谱实体推理预测方法被提出:实体推理预测研究,旨在给定一个实体和一个关系,预测三元组中缺失的实体。例如,给定(h,r,?),预测尾实体t;或给定(?,r,t),预测头实体h。

相关技术中,基于翻译模型的知识图谱实体推理预测方法仅利用结构信息而忽略知识图谱中所蕴含的语义信息及其所表达的先验知识。



技术实现要素:

本发明实施例提供一种基于实体概念的知识图谱补全、推演、存储方法及装置,用以解决现有技术中对知识图谱实体推理预测算法仅利用结构信息而忽略知识图谱中所蕴含的语义信息及其所表达的先验知识的缺陷问题。

第一方面,本发明实施例提出一种基于实体概念的知识图谱补全、推演、存储方法,包括:

确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;

根据所述实体的多个概念向量,确定所述实体的实体向量;

根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

遍历所述知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。

根据本发明的一些实施例,所述确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,包括:

初始化所述知识图谱中所述实体的概念向量和所述关系向量;

基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;

根据已知三元组,训练所述目标函数,并根据随机梯度下降的反向传播技术,确定所述知识图谱中所述实体的概念向量和所述关系向量。

进一步的,所述基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数,包括:

构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

根据公式1-2,构建所述目标函数:

其中,δ表示三元组,h表示头实体,t表示尾实体,r表示关系,表示所述头实体的条件概率,表示所述尾实体的条件概率,表示所述关系的条件概率,(h,r,t)∈δ表示正例,(h′,r′,t′)∈δ′表示负例。

更进一步的,所述构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,包括:

构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

构建所述三元组的似然概率;

基于所述三元组的似然概率和所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率。

在本发明的一些实施例中,所述构建所述三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,包括:

确定所述三元组中头实体的概念集合、尾实体的概念集合;

根据所述三元组中头实体的概念集合、尾实体的概念集合,构建所述三元组中关系的头概念集合和关系的尾概念集合;

根据所述三元组中关系的头概念集合和所述关系的尾概念集合,构建所述三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

基于所述三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建所述三元组中头实体的先验概率、所述尾实体的先验概率、所述关系的先验概率。

在本发明的一些实施例中,所述构建所述三元组的似然概率,包括:

根据公式3-4构建所述三元组的似然概率:

fr(hi,tj)=||hi+r-tj||公式4,

其中,|ch|表示头实体的概念数量,|ct|表示尾实体的概念数量,{w{h,1},…,w{h,|ch|}}表示头实体的随机变量,表示尾实体的随机变量,hi表示头实体的第i个概念,tj表示尾实体的第j个概念,hi表示头实体的第i个概念向量,tj表示尾实体的第j个概念向量,r表示关系向量。

第二方面,本发明实施例还提出一种基于实体概念的知识图谱补全、推演、存储装置,包括:

向量确定单元,用于确定知识图谱中与所述实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,并根据所述实体的多个概念向量,确定所述实体的实体向量;

计算单元,用于根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

推测单元,用于遍历所述知识图谱中的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测所述未知向量对应的实体或关系,以补全所述知识图谱。

根据本发明的一些实施例,所述向量确定单元,用于:

初始化所述知识图谱中所述实体的概念向量和所述关系向量;

基于所述三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;

根据已知三元组,训练所述目标函数,并根据随机梯度下降的反向传播技术,确定所述知识图谱中所述实体的概念向量和所述关系向量。

第三方面,本发明实施例还提出一种基于实体概念的知识图谱补全、推演、存储设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的方法的步骤。

第四方面,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的方法的步骤。

采用本发明实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1是本发明实施例中基于实体概念的知识图谱补全、推演、存储方法的流程图;

图2是本发明实施例中基于实体概念的知识图谱补全、推演、存储方法的流程图;

图3是本发明实施例中基于实体概念的知识图谱补全、推演、存储装置结构示意图;

图4是本发明实施例中基于实体概念的知识图谱补全、推演、存储设备结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

第一方面,本发明实施例提出一种基于实体概念的知识图谱补全、推演、存储方法,如图1所示,所述方法包括:

s101,确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;

可以理解的是,知识图谱中的每个实体均具有多个概念,这里的“概念”的含义是表征实体的所属类目。例如,在三元组(david_beckham,place_of_birth,london)中,davidbeckham的概念是“person”,而在三元组(david_beckham,player_of,manchester_united)中,davidbeckham的概念是“player”或者“athlete”。与实体描述、词法类别以及其他文本化信息等其他语义信息相比,实体概念更加简洁、具体而且噪声较少。

该步骤中,将知识图谱中每个实体的每个概念均用一个向量表示,每个关系用一个向量表示,即每个实体对应一个概念向量的集合,每个关系对应一个向量。

s102,根据实体的多个概念向量,确定实体的实体向量;

例如,实体的实体向量可以用实体的多个概念向量的加权和表示。

s103,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

例如,假设未知三元组中的头实体向量和尾实体向量已确定,关系向量还未知,则可以通过尾实体向量减去头实体向量来计算关系向量;假设未知三元组中的头实体向量和关系向量已确定,尾实体向量还未知,则可以通过头实体向量加关系向量来计算尾实体向量;假设未知三元组中的关系向量和尾实体向量已确定,头实体向量还未知,则可以通过尾实体向量减去关系向量来计算头实体向量。

需要说明的是,这里的“未知向量”即为知识图谱中待补全的元素(实体或关系)所对应的向量,“已知向量”即为确定的实体向量或关系向量。

s104,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

例如,假设未知向量是实体向量,则遍历知识图谱中已经确定的实体向量,找出一个与计算出来的未知向量余弦相似度最高的实体向量,该实体向量对应的实体可以认为是未知三元组中缺失的元素;假设未知向量是关系向量,则遍历知识图谱中已经确定的关系向量,找出一个与计算出来的未知向量余弦相似度最高的关系向量,该关系向量对应的关系可以认为是未知三元组中缺失的元素。

采用本发明实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。

在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。

根据本发明的一些实施例,确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,可以包括:

初始化知识图谱中实体的概念向量和关系向量。可以理解的是,将知识图谱中每个实体的每个概念向量化并设置一个初始向量值,同样的,将每个关系也向量化并设置一个初始向量值。

基于三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数。这里的“条件概率”可以理解为后验概率。可以理解的是,目标函数是关于条件概率的。

根据已知三元组,训练目标函数,并根据随机梯度下降的反向传播技术,确定知识图谱中实体的概念向量和关系向量。可以理解的是,将已知三元组中的实体向量、关系向量代入目标函数,通过目标函数的输出值来调整各个概念向量、各个关系向量,以及目标函数中的参数值,最终目标函数达到理想状态时的各个概念向量、各个关系向量为最终确定的概念向量、关系向量。

在该实施例中,通过引入条件概率来构造目标函数,充分考虑到三元组中各个元素之间的约束关系,使得目标函数表达更准确,在进行实体或关系预测的过程中,可以基于三元组中缺失元素(实体或关系)的先验概率对候选实体进行剪枝,进而缩小选择范围以提高效率。

进一步的,基于三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数,包括:

构建三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

根据公式1-2,构建目标函数:

其中,δ表示三元组,h表示头实体,t表示尾实体,r表示关系,表示头实体的条件概率,表示尾实体的条件概率,表示关系的条件概率,(h,r,t)∈δ表示正例,(h′,r′,t′)表示负例。

更进一步的,构建三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,包括:

构建三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

构建三元组的似然概率;

基于三元组的似然概率和三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率。

例如,当未知三元组(h,r,?)中的尾实体t未知时,基于贝叶斯理论,尾实体的条件概率可以表示为:其中,为似然概率,为尾实体的先验概率。

在本发明的一些实施例中,构建三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,包括:

确定三元组中头实体的概念集合、尾实体的概念集合。实体(头实体和尾实体)的概念集合可以通过知识图谱确定或通过高质量词汇语义知识库probase获取。

根据三元组中头实体的概念集合、尾实体的概念集合,构建三元组中关系的头概念集合和关系的尾概念集合;

根据三元组中关系的头概念集合和关系的尾概念集合,构建三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

基于三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率。

例如,对于三元组(h,r,t),定义关系r的头概念集合为:定义关系r的尾概念集合为:其中,表示出现在关系r头实体位置上的实体集合,表示出现在关系r尾实体位置上的实体集合。

关系与头实体的语义相似度,可以表示为:

关系与尾实体的语义相似度,可以表示为:

头实体与尾实体的语义相似度,可以表示为:

尾实体的先验概率可以表示为:

头实体的先验概率可以表示为:

关系的先验概率可以表示为:

其中,αhead、αtail和arelaion是权重。

在本发明的一些实施例中,构建三元组的似然概率,包括:

根据公式3-4构建三元组的似然概率:

其中,|ch|表示头实体的概念数量,|ct|表示尾实体的概念数量,表示头实体的随机变量,表示尾实体的随机变量,hi表示头实体的第i个概念,tj表示尾实体的第j个概念,hi表示头实体的第i个概念向量,tj表示尾实体的第j个概念向量,r表示关系向量。

下面参照图2以一个具体的实施例详细描述根据本发明实施例的基于实体概念的知识图谱补全、推演、存储方法。值得理解的是,下述描述仅是示例性说明,而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。

实体或者关系的“一词多义(实体或者关系在不同的三元组中表现不同的语义、拥有不同的属性)”是知识图谱实体/关系推理预测及知识图谱补全研究所面临的主要障碍之一。例如,在三元组(david_beckham,place_of_birth,london)中,davidbeckham是一个“person”;在三元组(david_beckham,player_of,manchester_united)中,davidbeckham是一个“player”或者“athlete”。这种普遍的现象导致对向量表示的困难。相关技术中,大部分针对这种“一词多义”现象的工作注重使用线性转换来对同一实体在不同三元组中的不同语义进行建模,但是这些工作仅仅将每个实体表示为单一向量——无法感知实体的“不确定性”和“多样性”语义。

另外,相关技术中的补全方法中忽略了知识图谱中已有三元组的先验概率,大多数工作最优化向量表示的最大似然估计,很少有工作讨论后验概率(此类工作通过包含一个先验分布来优化目标函数)。特别地,以往研究本质上最大化概率但是,当预测三元组(h,r,?)中缺失的尾实体t的时候,头实体h和关系r是已知的,而且很显然二者会影响对尾实体t的选择。因此,预测尾实体t的后验概率相比起是一个对优化目标的更准确的表达。

基于对相关技术的分析,本发明实施例提出一种基于实体概念的知识图谱补全、推演、存储方法,如图2所示,所示方法包括:

s201,确定各个已知三元组中头实体的概念集合、尾实体的概念集合;

s202,初始化知识图谱中每个实体的各个概念向量和每个关系向量;

s203,根据各个已知三元组中头实体的概念集合、尾实体的概念集合,构建各个已知三元组中关系的头概念集合和关系的尾概念集合;

s204,根据各个已知三元组中关系的头概念集合和关系的尾概念集合,构建各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

s205,基于各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建各个三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

s206,构建各个已知三元组的似然概率;

s207,基于各个已知三元组的似然概率和各个已知三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

s208,根据各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;

s209,训练目标函数,并根据随机梯度下降的反向传播技术,确定知识图谱中每个实体的各个概念向量和每个关系向量;

s210,根据每个实体的各个概念向量,确定每个实体的实体向量;

s211,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

s212,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

采用本发明实施例,将以实体概念信息为代表的语义信息引入知识图谱补全研究中,实现“一词多义”实体的向量化表示,研究缺失元素后验概率的估计并构造目标函数,以提高目标函数的表达准确性。在进行实体预测的时候,可以基于三元组中缺失实体的先验概率对候选实体进行剪枝,进而缩小选择范围以提高效率。

需要说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

第二方面,如图3所示,本发明实施例还提出一种基于实体概念的知识图谱补全、推演、存储装置1,包括:

向量确定单元10,用于确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量,并根据实体的多个概念向量,确定实体的实体向量。

可以理解的是,知识图谱中的每个实体均具有多个概念,这里的“概念”的含义是表征实体的所属类目。例如,在三元组(david_beckham,place_of_birth,london)中,davidbeckham的概念是“person”,而在三元组(david_beckham,player_of,manchester_united)中,davidbeckham的概念是“player”或者“athlete”。与实体描述、词法类别以及其他文本化信息等其他语义信息相比,实体概念更加简洁、具体而且噪声较少。

向量确定单元10可以将知识图谱中每个实体的每个概念均用一个向量表示,每个关系用一个向量表示,即每个实体对应一个概念向量的集合,每个关系对应一个向量。

计算单元20,用于根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量。

例如,假设未知三元组中的头实体向量和尾实体向量已确定,关系向量还未知,计算单元20可以执行尾实体向量减去头实体向量来计算关系向量;假设未知三元组中的头实体向量和关系向量已确定,尾实体向量还未知,计算单元20可以执行头实体向量加关系向量来计算尾实体向量;假设未知三元组中的关系向量和尾实体向量已确定,头实体向量还未知,计算单元20可以执行尾实体向量减去关系向量来计算头实体向量。

需要说明的是,这里的“未知向量”即为知识图谱中待补全的元素(实体或关系)所对应的向量,“已知向量”即为确定的实体向量或关系向量。

推测单元30,用于遍历知识图谱中的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

例如,假设未知向量是实体向量,推测单元30可以遍历知识图谱中已经确定的实体向量,找出一个与计算出来的未知向量余弦相似度最高的实体向量,该实体向量对应的实体可以认为是未知三元组中缺失的元素;假设未知向量是关系向量,推测单元30可以遍历知识图谱中已经确定的关系向量,找出一个与计算出来的未知向量余弦相似度最高的关系向量,该关系向量对应的关系可以认为是未知三元组中缺失的元素。

采用本发明实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。

在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。

根据本发明的一些实施例,向量确定单元10,可以用于:

初始化知识图谱中实体的概念向量和关系向量。可以理解的是,将知识图谱中每个实体的每个概念向量化并设置一个初始向量值,同样的,将每个关系也向量化并设置一个初始向量值。

基于三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数。这里的“条件概率”可以理解为后验概率。可以理解的是,目标函数是关于条件概率的。

根据已知三元组,训练目标函数,并根据随机梯度下降的反向传播技术,确定知识图谱中实体的概念向量和关系向量。可以理解的是,将已知三元组中的实体向量、关系向量代入目标函数,通过目标函数的输出值来调整各个概念向量、各个关系向量,以及目标函数中的参数值,最终目标函数达到理想状态时的各个概念向量、各个关系向量为最终确定的概念向量、关系向量。

在该实施例中,通过引入条件概率来构造目标函数,充分考虑到三元组中各个元素之间的约束关系,使得目标函数表达更准确,在进行实体或关系预测的过程中,可以基于三元组中缺失元素(实体或关系)的先验概率对候选实体进行剪枝,进而缩小选择范围以提高效率。

进一步的,向量确定单元10,可以用于:

构建三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

根据公式1-2,构建目标函数:

其中,δ表示三元组,h表示头实体,t表示尾实体,r表示关系,表示头实体的条件概率,表示尾实体的条件概率,表示关系的条件概率,(h,r,t)∈δ表示正例,(h′,r′,t′)∈δ′表示负例。

更进一步的,向量确定单元10,可以用于:

构建三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

构建三元组的似然概率;

基于三元组的似然概率和三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率。

例如,当未知三元组(h,r,?)中的尾实体t未知时,基于贝叶斯理论,尾实体的条件概率可以表示为:其中,为似然概率,为尾实体的先验概率。

在本发明的一些实施例中,向量确定单元10,可以用于:

确定三元组中头实体的概念集合、尾实体的概念集合。实体(头实体和尾实体)的概念集合可以通过知识图谱确定或通过高质量词汇语义知识库probase获取。

根据三元组中头实体的概念集合、尾实体的概念集合,构建三元组中关系的头概念集合和关系的尾概念集合;

根据三元组中关系的头概念集合和关系的尾概念集合,构建三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

基于三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率。

例如,对于三元组(h,r,t),定义关系r的头概念集合为:定义关系r的尾概念集合为:其中,表示出现在关系r头实体位置上的实体集合,表示出现在关系r尾实体位置上的实体集合。

关系与头实体的语义相似度,可以表示为:

关系与尾实体的语义相似度,可以表示为:

头实体与尾实体的语义相似度,可以表示为:

尾实体的先验概率可以表示为:

头实体的先验概率可以表示为:

关系的先验概率可以表示为:

其中,αhead、αtail和αrelaion是权重。

在本发明的一些实施例中,向量确定单元10,可以用于:

根据公式3-4构建三元组的似然概率:

fr(hi,tj)=||hi+r-tj||公式4,

其中,|ch|表示头实体的概念数量,|ct|表示尾实体的概念数量,表示头实体的随机变量,表示尾实体的随机变量,hi表示头实体的第i个概念,tj表示尾实体的第j个概念,hi表示头实体的第i个概念向量,tj表示尾实体的第j个概念向量,r表示关系向量。

第三方面,本发明实施例还提出一种基于实体概念的知识图谱补全、推演、存储设备1000,如图4所示,包括:存储器1010、处理器1020及存储在所述存储器1010上并可在所述处理器1020上运行的计算机程序,如图1所示,所述计算机程序被所述处理器1020执行时实现如下方法步骤:

s101,确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;

可以理解的是,知识图谱中的每个实体均具有多个概念,这里的“概念”的含义是表征实体的所属类目。例如,在三元组(david_beckham,place_of_birth,london)中,davidbeckham的概念是“person”,而在三元组(david_beckham,player_of,manchester_united)中,davidbeckham的概念是“player”或者“athlete”。与实体描述、词法类别以及其他文本化信息等其他语义信息相比,实体概念更加简洁、具体而且噪声较少。

该步骤中,将知识图谱中每个实体的每个概念均用一个向量表示,每个关系用一个向量表示,即每个实体对应一个概念向量的集合,每个关系对应一个向量。

s102,根据实体的多个概念向量,确定实体的实体向量;

例如,实体的实体向量可以用实体的多个概念向量的加权和表示。

s103,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

例如,假设未知三元组中的头实体向量和尾实体向量已确定,关系向量还未知,则可以通过尾实体向量减去头实体向量来计算关系向量;假设未知三元组中的头实体向量和关系向量已确定,尾实体向量还未知,则可以通过头实体向量加关系向量来计算尾实体向量;假设未知三元组中的关系向量和尾实体向量已确定,头实体向量还未知,则可以通过尾实体向量减去关系向量来计算头实体向量。

需要说明的是,这里的“未知向量”即为知识图谱中待补全的元素(实体或关系)所对应的向量,“已知向量”即为确定的实体向量或关系向量。

s104,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

例如,假设未知向量是实体向量,则遍历知识图谱中已经确定的实体向量,找出一个与计算出来的未知向量余弦相似度最高的实体向量,该实体向量对应的实体可以认为是未知三元组中缺失的元素;假设未知向量是关系向量,则遍历知识图谱中已经确定的关系向量,找出一个与计算出来的未知向量余弦相似度最高的关系向量,该关系向量对应的关系可以认为是未知三元组中缺失的元素。

采用本发明实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。

进一步的,如图2所示,所述计算机程序被所述处理器1020执行时实现如下方法步骤:

s201,确定各个已知三元组中头实体的概念集合、尾实体的概念集合;

s202,初始化知识图谱中每个实体的各个概念向量和每个关系向量;

s203,根据各个已知三元组中头实体的概念集合、尾实体的概念集合,构建各个已知三元组中关系的头概念集合和关系的尾概念集合;

s204,根据各个已知三元组中关系的头概念集合和关系的尾概念集合,构建各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

s205,基于各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建各个三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

s206,构建各个已知三元组的似然概率;

s207,基于各个已知三元组的似然概率和各个已知三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

s208,根据各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;

s209,训练目标函数,并根据随机梯度下降的反向传播技术,确定知识图谱中每个实体的各个概念向量和每个关系向量;

s210,根据每个实体的各个概念向量,确定每个实体的实体向量;

s211,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

s212,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,如图1所示,所述程序被处理器执行时实现如下方法步骤:

s101,确定知识图谱中与实体的多个概念一一对应的多个概念向量以及与关系对应的关系向量;

可以理解的是,知识图谱中的每个实体均具有多个概念,这里的“概念”的含义是表征实体的所属类目。例如,在三元组(david_beckham,place_of_birth,london)中,davidbeckham的概念是“person”,而在三元组(david_beckham,player_of,manchester_united)中,davidbeckham的概念是“player”或者“athlete”。与实体描述、词法类别以及其他文本化信息等其他语义信息相比,实体概念更加简洁、具体而且噪声较少。

该步骤中,将知识图谱中每个实体的每个概念均用一个向量表示,每个关系用一个向量表示,即每个实体对应一个概念向量的集合,每个关系对应一个向量。

s102,根据实体的多个概念向量,确定实体的实体向量;

例如,实体的实体向量可以用实体的多个概念向量的加权和表示。

s103,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

例如,假设未知三元组中的头实体向量和尾实体向量已确定,关系向量还未知,则可以通过尾实体向量减去头实体向量来计算关系向量;假设未知三元组中的头实体向量和关系向量已确定,尾实体向量还未知,则可以通过头实体向量加关系向量来计算尾实体向量;假设未知三元组中的关系向量和尾实体向量已确定,头实体向量还未知,则可以通过尾实体向量减去关系向量来计算头实体向量。

需要说明的是,这里的“未知向量”即为知识图谱中待补全的元素(实体或关系)所对应的向量,“已知向量”即为确定的实体向量或关系向量。

s104,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

例如,假设未知向量是实体向量,则遍历知识图谱中已经确定的实体向量,找出一个与计算出来的未知向量余弦相似度最高的实体向量,该实体向量对应的实体可以认为是未知三元组中缺失的元素;假设未知向量是关系向量,则遍历知识图谱中已经确定的关系向量,找出一个与计算出来的未知向量余弦相似度最高的关系向量,该关系向量对应的关系可以认为是未知三元组中缺失的元素。

采用本发明实施例,通过将语义信息中层次更高的“概念”信息(表征所属类目)引入到知识图谱表示学习中,并将概念信息与知识图谱中已有的结构知识充分融合,可以有效提高知识图谱向量化建模结果的准确率和表达能力,可在知识图谱实体预测、知识表示与推演、知识图谱补全等诸多应用中广泛适用。

进一步的,如图2所示,所述程序被处理器执行时实现如下方法步骤:

s201,确定各个已知三元组中头实体的概念集合、尾实体的概念集合;

s202,初始化知识图谱中每个实体的各个概念向量和每个关系向量;

s203,根据各个已知三元组中头实体的概念集合、尾实体的概念集合,构建各个已知三元组中关系的头概念集合和关系的尾概念集合;

s204,根据各个已知三元组中关系的头概念集合和关系的尾概念集合,构建各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度;

s205,基于各个已知三元组中关系与头实体的语义相似度、关系与尾实体的语义相似度、头实体与尾实体的语义相似度,构建各个三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率;

s206,构建各个已知三元组的似然概率;

s207,基于各个已知三元组的似然概率和各个已知三元组中头实体的先验概率、尾实体的先验概率、关系的先验概率,构建各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率;

s208,根据各个已知三元组中头实体的条件概率、尾实体的条件概率、关系的条件概率,构建目标函数;

s209,训练目标函数,并根据随机梯度下降的反向传播技术,确定知识图谱中每个实体的各个概念向量和每个关系向量;

s210,根据每个实体的各个概念向量,确定每个实体的实体向量;

s211,根据未知三元组的头实体向量、尾实体向量、关系向量中的任意两个已知向量,计算未知向量;

s212,遍历知识图谱中确定的实体向量或关系向量,确定与计算的未知向量余弦相似度最高的实体向量或关系向量,并推测未知向量对应的实体或关系,以补全知识图谱。

在本发明的一些实施例中,本实施例所述计算机可读存储介质包括但不限于为:rom、ram、磁盘或光盘等。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

需要说明的是,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1