一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质

文档序号:35671735发布日期:2023-10-07 20:47阅读:40来源:国知局
一种基于多任务学习的知识图谱链接预测方法、计算机设备及存储介质与流程

本发明涉及知识图谱补全。


背景技术:

1、知识图谱结构上是大型的、图结构的数据库,通常利用关系数据库维护一张巨大的三元组表来管理数据,它以三元组(h,r,t)的形式存储数据,其中h表示头实体、t表示尾实体、r表示关系。知识图谱作为人工智能领域中的一个重要研究方向,已在金融、医疗、搜索等多个领域得到广泛应用。随着人们对知识图谱的深入研究,研究人员发现知识图谱中普遍存在信息缺失的问题。如:在freebase数据集中,超过70%的个人信息没有出生地信息、超过99%的个人缺少种族信息等。如果采用人工的方式向知识图谱中添加新信息,成本很高,难以满足实际需求。链接预测方法是一种知识图谱补全技术,可以根据知识图谱中已经存在的三元组的信息预测知识图谱的缺失信息。

2、现有的链接预测模型根据其构建方式可以大致分为线性模型、语义匹配模型和卷积神经网络模型。其中:

3、线性模型,将关系看作从头实体到尾实体的平移,通过计算关系平移后的头实体嵌入向量和尾实体嵌入向量的距离来评估三元组的真实性,距离越大,三元组的真实性越低。线性模型的优点是结构简单;缺点是表达能力有限,难以处理复杂情况。

4、语义匹配模型,通过计算实体和关系在向量空间中潜在语义的评分来评价三元组的真实性。语义匹配模型的优点是结构清晰;缺点是随着实体嵌入向量和关系嵌入向量维度的增大,模型的参数量也会随之不断增加。卷积神经网络模型,通过卷积、池化等操作捕获头实体和关系之间的复杂交互,进而生成蕴含头实体信息和关系信息的嵌入向量,最后将嵌入向量输入softmax函数得到实体集合中每个实体的预测得分,取得分最高的实体作为模型的输出。卷积神经网络模型的优点是预测尾实体的准确度高;缺点是interacte等模型对实体嵌入向量和关系嵌入向量进行重塑,破坏了嵌入向量的语义信息,导致三元组中的平移特性被破坏。


技术实现思路

1、本发明解决interacte模型存在的平移特性被破坏的问题。本发明提供以下技术方案:一种基于多任务学习的知识图谱链接预测方法,包括:

2、步骤1:对知识图谱数据集进行预处理生成逆关系三元组,将所述得到的逆关系三元组的知识图谱数据集作为输入,所述得到的逆关系三元组的知识图谱数据集划分为训练集、验证集和测试集;

3、步骤2:构建基于多任务学习的知识图谱链接预测模型,所述模型包含图卷积编码器、多任务框架、interacte解码器和线性模型解码器模块;

4、步骤3:对步骤2中所述多任务学习的知识图谱链接预测模型在步骤1的训练集上进行迭代训练;

5、步骤4:将所述验证集中待预测逆关系三元组的头实体和关系输入到步骤3中优化的的基于多任务学习的知识图谱链接预测模型中,得到interacte模型作为解码器的全部尾实体的预测得分,使用mrr指标评估模型的性能,保存所有迭代中mrr指标最高的模型参数;

6、步骤5:加载步骤4的模型参数,将测试集中待预测三元组的头实体和关系输入加载模型参数的模型中,得到interacte模型作为解码器的全部尾实体的预测得分,将预测得分最高的尾实体作为输出。

7、进一步的,提供一种优选实施方式,所述步骤1具体包括以下步骤:

8、步骤1.1:从知识图谱数据集中依次提取三元组;

9、步骤1.2:对步骤1.1得到的三元组进行预处理生成逆关系三元组,并将逆关系三元组添加到知识图谱数据集中;

10、步骤1.3:将知识图谱数据集划分为训练集、验证集和测试集。

11、进一步的,提供一种优选实施方式,将所述知识图谱数据集按照8:1:1的比例划分为训练集、验证集与测试集。

12、进一步的,提供一种优选实施方式,所述步骤2具体还包括以下步骤:

13、步骤2.1:对于给定三元组中的头实体嵌入向量和关系嵌入向量,使用的实体-关系嵌入组合,得到蕴含关系信息的实体嵌入向量;

14、步骤2.2:将步骤2.1中生成的实体嵌入向量通过图卷积神经网络聚合信息,得到新的实体嵌入向量;

15、步骤2.3:将步骤2.2中得到的实体嵌入向量和关系嵌入向量输入多任务学习框架中,得到两组向量,每组各自包含特定的实体嵌入向量和关系嵌入向量,将两组嵌入向量分别输入interacte模型和线性模型中;

16、步骤2.4:采用interacte模型和线性模型作为解码器分别得到实体集合中每个实体的预测得分。

17、进一步的,提供一种优选实施方式,所述步骤2.1中实体-关系嵌入组合具体为:

18、eo=wreo+eo

19、其中,eo∈rd为头实体嵌入向量,er∈rd为关系嵌入向量,wr是与关系相关的参数矩阵,wr∈rd。

20、进一步的,提供一种优选实施方式,所述步骤2.2中得到新的实体嵌入向量具体为:

21、

22、其中,n(v)是节点v的出边的近邻集合。节点u为节点v的相邻节点,二者通过关系r相互连接。其中,eu为节点u的初始嵌入向量,wr是与关系相关的参数矩阵,wr∈rd。

23、进一步的,提供一种优选实施方式,所述步骤2.4中取得预测得分的具体方法为:

24、p(h,r,t)=|wrhh+r-wrtt|

25、其中,h,t,r∈rd,wrh与wrt为嵌入矩阵。

26、

27、其中,es表示头实体的嵌入、eo表示尾实体的嵌入、er表示关系的嵌入,vec(·)表示将张量变换为向量,*表示深度卷积。ω表示卷积滤波器。w是一个权重矩阵。f和g分别表示relu函数和sigmoid函数。eo为依次用实体集合中每个实体的进行替换得到对应的预测得分。

28、进一步的,提供一种优选实施方式,所述步骤3具体包括以下步骤:

29、步骤3.1:将步骤1中训练集的数据输入到步骤2中所述模型中,分别得到实体集合中每个实体的预测得分;

30、步骤3.2:分别计算预测评分值与真实值之间的差值来获得损失值,对损失值求和作为模型的损失值;

31、步骤3.3:通过反向传播的方式进行参数优化,训练得到基于多任务学习的知识图谱链接预测模型。

32、方案三、一种计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行以上任意一项所述的方法实现。

33、方案四、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现以上任一项所述的方法的步骤实现。

34、本发明的有益之处在于:

35、为了更好的利用三元组中的关系信息,本发明首先采用了一种实体关系交互方法将关系信息融入到实体嵌入向量中。

36、除此之外,针对interacte模型破坏了三元组中平移特性的问题,本发明对于给定三元组在将图卷积神经网络作为编码器的基础上,将经过图卷积神经网络聚合信息的实体嵌入向量和关系嵌入向量输入多任务学习框架中,生成两组向量,之后将两组嵌入向量分别输入interacte模型和本文提出的线性模型中,同时使用interacte模型和线性模型作为解码器,通过共享模型的底层参数的方式,将平移特性有效的融合到卷积神经网络模型中,使得interacte模型能够捕获平移特性,进而提升模型性能。

37、本发明所述的基于多任务学习的知识图谱链接预测方法适用于知识图谱补全领域,实现根据知识图谱中已经存在的头实体和关系信息预测缺失的尾实体的功能;通过扩大模型的参数空间,解决interacte等模型在卷积阶段对实体嵌入向量和关系嵌入向量进行重塑,破坏了嵌入向量的结构,导致三元组中实体和关系之间的平移特性被破坏的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1