一种向量约束嵌入转换的知识图谱推理方法与流程

文档序号:12121228阅读:633来源:国知局
一种向量约束嵌入转换的知识图谱推理方法与流程

本发明属于知识表示和知识发现以及人工智能领域,特别涉及一种知识发现的推理方法。



背景技术:

近年来,随着大数据时代的到来,大量的知识图谱已经被构建起来,并且有关知识图谱的研究与应用的话题也非常丰富,在学术界和工业界引起广泛的关注。

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,主要采用(head,relation,tail)三元组形式描述,head是头实体,tail是尾实体,relation是关系(下面分别简写为h、r和t),以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。

随着时间和新知识的增加,知识图谱的丰富性和完善性受到了一定制约,因此,需要对知识图谱进行扩展学习推理。现有对知识图谱的学习和推理方法有:基于向量嵌入转换算法、基于张量分解推理算法、基于路径推理算法等。上述多种推理学习算法中,由于向量嵌入转换模型简单,参数较少,因此成为目前研究的主要方向。

现有的向量嵌入转换算法中,存在构造训练模型时,尚未考虑利用实体间的关系语义类型的缺点,忽略了关系语义类型的合理性。例如关系r是“出生于”,那么头实体h通常是指人物或动物,尾实体t通常是指地点或者时间。如果能满足这样语义类型的三元组(h,r,t),则认为是符合语义含义类型。

针对此问题,本发明由此产生。



技术实现要素:

本发明的目的,在于提供一种向量约束嵌入转换的知识图谱推理方法,其可提高知识发现的推理准确性,提高预测精度。

为了达成上述目的,本发明的解决方案是:

一种向量约束嵌入转换的知识图谱推理方法,包括如下步骤:

步骤1,获取知识图谱中每个关系和实体的语义类型;

步骤2,将实体集和关系集嵌入到低维连续向量空间,并进行规范化;

步骤3,将规范化后的实体集与关系集,按照原来的三元组对应关系映射到相应的向量矩阵中;

步骤4,在低维连续空间中,计算知识图谱中每个三元组的得分损失函数值,构造训练模型;

步骤5,对满足关系语义类型的被打乱的三元组进行训练模型的优化;

步骤6,对步骤5进行循环,直至满足循环结束条件;

步骤7,对下一个三元组进行计算,重复步骤4至步骤6,直至全部三元组都计算完成,输出训练模型中相应的实体集和关系集。

上述步骤1中,获取的语义类型包括知识图谱中的三元组集、实体集、关系集,以及实体的类型、关系类型、满足关系语义类型的集合。

上述步骤2中,将满足三元组的实体集和关系集嵌入到低维连续向量空间处理,在向量空间中,把关系看作是实体间向量平移转换。

上述步骤4中,还包括对每个三元组构造一个被打乱的三元组进行组合训练,被打乱的三元组是按照先固定三元组的头实体和关系,用实体集的全部实体来替代尾实体;然后,固定三元组的尾实体和关系,用实体集的全部实体来替代头实体,形成被打乱的三元组集;对于前述被打乱的三元组,检查其是否符合关系语义类型的约束,不符合关系语义类型约束的三元组直接过滤掉。

上述步骤4中,三元组的得分损失函数用公式:fr(h,t)=||h+r-t||2表示,代表在向量空间中各个向量的欧式距离,其中,h、r和t分别表示三元组的头实体、尾实体和关系。

上述步骤5中,采用随机梯度下降法对训练模型进行优化处理,其公式为:

其中,fr(h,t)=||h+r-t||2表示三元组在低维向量空间的向量转换得分损失函数,fr(h',t')=||ehr+r-etr||2表示构造被打乱的三元组得分损失函数,γ表示边界调整参数,ehr、etr分别表示满足关系语义类型的头实体和尾实体,(h',r,t')∈Sr表示所构造被打乱三元组满足关系r的语义类型。

上述步骤5中,对随机梯度下降法的公式设定如下约束条件:

其中,ε表示实体集,表示关系集,εhr和εtr分别表示满足关系r语义类型的头实体和尾实体,h'、t'分别表示被取代的头实体和尾实体,Sr表示满足关系r语义类型约束的三元组,S'表示被打乱的三元组集合,γ>0。

上述步骤6中,循环结束条件指达到最大迭代次数或L小于给定阈值。

上述最大迭代次数为500次,给定阈值为0.001。

采用上述方案后,本发明在构造被打乱的三元组中,增加了关系语义类型的约束条件,使得构建的训练模型满足语义类型,实现了减少训练模型中毫无意义的三元组计算,从而达到训练模型更加精确,并且提高了模型训练速度,主要应用于知识图谱的学习和推理过程,达到丰富和拓展知识图谱的目的。

附图说明

图1是本发明知识图谱实体嵌入(embedding)低维空间的示意图;

图2是本发明的流程图。

具体实施方式

以下将结合附图,对本发明的技术方案进行详细说明。

如图2所示,本发明提供一种向量约束嵌入转换的知识图谱推理方法,包括如下步骤:

步骤1,获取每个关系和实体的语义类型

为了能构建实体间关系语义类型的约束模型,首先需要获取相关的实体关系语义类型,包含知识图谱中的三元组集、实体集、关系集,以及实体的类型、关系类型、满足关系语义类型的集合,将其作为推理算法的输入。现有的一些大规模知识图谱中提供了关于实体和关系的语义类型,例如,WordNet中为每一个实体提供了简短、概要的定义,并记录不同实体之间的语义关系;Freebase为每个实体提供了相应的领域、类型和主题。因此我们可以获得满足关系语义类型的头实体集εhr和尾实体集εtr

步骤2,将实体集和关系集嵌入到低维连续向量空间,并进行规范化

配合图1所示,将步骤1中提取的实体集、关系集、关系语义类型集和三元组集中,满足三元组的实体集和关系集嵌入(embedding)到低维连续向量空间处理,在向量空间中,把关系看作是实体间向量平移转换。

在本实施例中,设置的低维连续空间的维数为80,并对实体集和关系集进行规范化处理,如:e←e/||e||,r←r/||r||,其中||e||和||r||表示实体向量和关系向量的欧式距离。

步骤3,将规范化后的实体集与关系集,按照原来的三元组对应关系映射到相应的向量矩阵中;

步骤4,在低维连续空间中,计算知识图谱中每个三元组的得分损失函数值,构造训练模型

为了使训练模型具有鲁棒性,对每个三元组构造一个被打乱的三元组进行组合训练,被打乱的三元组是按照先固定三元组的头实体和关系,用实体集的全部实体来替代尾实体;然后,固定三元组的尾实体和关系,用实体集的全部实体来替代头实体,形成被打乱的三元组集。对于前述被打乱的三元组,需要检查其是否符合关系语义类型的约束,不符合关系语义类型约束的三元组直接过滤掉,重新构造被打乱的三元组。通过对构造的三元组进行关系语义类型的约束,使得所构造的三元组符合实际的语义信息,避免产生大量缺失关系语义信息的三元组。模型损失函数计算公式如式(1)所示:

fr(h,t)=||ehr+r-etr||2 (1)

其中,ehr表示在向量空间中满足关系r语义类型的头实体,etr表示满足关系r语义类型的尾实体。在模型损失函数公式(1)中,对于一个三元组(ehr,r,etr)而言,如果在向量空间中ehr+r越趋近于etr,则损失函数值就越小,表明该三元组是正确的可能性较大,否则,如果损失函数值就越大,表明该三元组是错误的可能性越大。其形式如式(2)和式(3)所示:

其中三元组的得分损失函数可以用公式:fr(h,t)=||h+r-t||2表示,代表在向量空间中各个向量的欧式距离。如果知识图谱中存在着(h,r,t)三元组,则认为在低维向量空间中应该有h+r≈t(加粗表示embedding后的实体和关系)。即头实体h加上关系向量转换r能接近于尾实体t,对于正确的三元组,其损失函数值较小,错误三元组的损失函数值较大。

步骤5,对满足关系语义类型的被打乱的三元组进行训练模型的优化

在本实施例中,为了使训练模型能够尽快收敛,采用随机梯度下降法对训练模型进行优化处理,其公式为:

其中,fr(h,t)=||h+r-t||2表示三元组在低维向量空间的向量转换得分损失函数,fr(h',t')=||ehr+r-etr||2表示构造被打乱的三元组得分损失函数,γ表示边界调整参数,ehr、etr分别表示满足关系语义类型的头实体和尾实体,(h',r,t')∈Sr表示所构造被打乱三元组满足关系r的语义类型,可通过设置γ为0.0001、0.001、0.01进行调整。

为了能使训练模型达到理想学习结果,更好区分正确和错误的三元组,模型采用基于边界(margin-based)的调整进行机器学习,在构造被打乱的三元组时,通过增加约束条件,使得被打乱三元组满足关系r的语义类型,对式(4)做了如式(5)所示的几个约束条件:

其中,ε表示实体集,表示关系集,εhr和εtr分别表示满足关系r语义类型的头实体和尾实体,h'、t'分别表示被取代的头实体和尾实体,Sr表示满足关系r语义类型约束的三元组,S'表示被打乱的三元组集合,γ>0是为了调整训练模型边界而设置的参数。

步骤6,对步骤5进行循环,在达到最大迭代次数或L小于给定阈值时结束循环;在本实施例中,设定最大迭代次数为500次,给定阈值为0.001;

步骤7,对下一个三元组进行计算,重复步骤4至步骤6,直至全部三元组都计算完成,输出训练模型中相应的实体集和关系集。

综合上述,本发明首先获取每个关系和实体的语义类型;然后在构造打乱的随机三元组时,即在固定头实体和关系时,所选择的尾实体必须满足关系r的语义类型,或者是固定关系和尾实体时,所选择的头实体也应满足关系r的语义类型,以此去除那些不符合关系r语义类型三元组组合,减少不必要的三元组数量,提高模型预测准确率;最后为了使模型能尽快收敛,采用随机梯度下降法对模型的收敛性进行优化。本发明通过在训练过程中对随机打乱的三元组进行关系语义类型约束,限定被打乱三元组必须满足给定关系r的语义类型,排除缺失关系语义类型的三元组。

本发明以3个简单的实验来验证所提供推理方法的有效性。

验证数据集基于两个通用知识图谱:WordNet和FreeBase,分别是WordNet的两个子集:WN11和WN18,以及Freebase的两个子集:FB15K和FB13。实验评价指标为Mean Rank(排在正确实体前的平均实体个数)和HITS@10(%)(正确实体排在前10%的个数),其中Mean Rank的值越小,HITS@10值越大,模型预测准确性越高。

1)针对链接预测实验,在数据集WN18中,Mean Rank的值为209,HITS@10值为92.8%,而在FB15K中,Mean Rank的值为79,HITS@10值为78.6%。

2)针对不同关系类型预测实验,在FB15K中,对于一对一(1-1)、一对多(1-N)、多对多(N-N),其HITS@10值分别为82.1%、90.3%和79.3%。

3)在三元组分类实验中,不同数据集中有不同的预测准确率,WN11的准确率为87.6%,FB13的准确率为86.4%,FB15K的准确率为88.7%。

通过上述3个实验验证,可以看出本发明在知识图谱推理方法中的可行性,能够使推理获得较高的准确率和精度,较好满足实际应用的需要。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1