一种多信息感知的知识图谱实体对齐方法

文档序号:36264301发布日期:2023-12-06 05:07阅读:33来源:国知局
一种多信息感知的知识图谱实体对齐方法

本发明属于知识图谱实体对齐,具体涉及一种多信息感知的知识图谱实体对齐方法。


背景技术:

1、知识图谱本质上是一种大规模语义网络的知识库,它以结构化的方式存储了大量关于现实世界的事实。随着人工智能的发展和应用,知识图谱已经在信息检索、推荐系统、知识推理和基于知识的问答系统中发挥重要作用。但是单一的知识图谱覆盖度比较有限,很难去满足各种知识需求的应用。因此将不同知识图谱融合为一个规模更大、覆盖度更广的知识图谱是一个必要的过程。然而不同知识图谱是由不同组织根据不同数据源所构建的,存在着较大异构性,给知识融合带来了许多挑战。实体对齐是知识融合中最基础并且最重要的技术,是提高知识图谱质量的关键步骤。

2、实体对齐目的在不同知识图谱中找到指代现实世界中同一对象的两个等价实体,它能够让多个知识图谱进行互补,从而提高知识图谱的质量。目前主流的实体对齐方法是基于表示学习的实体对齐方法,主要分为基于翻译模型的实体对齐方法和基于图神经网络的实体对齐方法。基于翻译模型的方法将关系解释为从其头部实体嵌入到其尾部实体的翻译,这种方法关注细粒度的关系语义,只能处理一对一的关系,不能处理复杂的图结构,同时只关注了实体的局部信息,不能很好的捕捉全局信息。基于图神经网络的方法通过递归聚合实体的邻居来获得实体的嵌入表示,能够更好的捕捉节点之间的结构信息。但是目前基于图神经网络的实体对齐方法大多只关注了知识图谱中单一的结构信息来获得实体的嵌入表示,针对知识图谱中的关系信息、名称信息、属性信息并没得到充分的利用,忽略了关系信息、属性信息在实体对齐中发挥的重要作用,会影响实体的嵌入表示,导致对齐性能不佳。同时这些方法在实体对齐阶段采用局部对齐策略来独立地为每个实体选择局部最优的匹配结果,这种局部对齐策略并不是最优策略。

3、另外,知识图谱中存在大量的结构信息不够丰富的实体,即长尾实体,这些实体往往只有一到两个相连接的实体,信息利用不充分也会导致这些长尾实体在对齐阶段不能很好的达成匹配。同时,上述方法在对齐阶段采用的局部匹配策略会出现多个实体和同一个实体进行对齐的情况,导致多个实体之间的对齐冲突,也会影响最终实体对齐的性能。


技术实现思路

1、针对知识融合过程中不同知识图谱存在较大异构性的问题,提出一种多信息感知的知识图谱实体对齐方法,具体为一种能够集成知识图谱中实体名称、结构信息、属性信息、关系信息的实体对齐方法,利用多种信息进行优化来改善实体的嵌入表示,同时考虑了实体的全局结构特征和局部结构特征,并且通过采用全局对齐策略来解决对齐冲突问题,使实体达成一对一的稳定匹配,提高知识图谱中实体对齐的准确度。

2、一种多信息感知的知识图谱实体对齐方法,具体包括以下步骤:

3、步骤1:首先从公开数据集中获取两个异构的知识图谱kg1和kg2作为数据集,具体包括实体的关系三元组、属性三元组、实体名称信息以及两个知识图谱之间预先对齐的实体对;

4、步骤2:利用步骤1获取的实体名称信息获得实体的初始嵌入表示;

5、知识图谱中实体名称信息包含丰富的语义信息,能够帮助捕捉实体的上下文语义信息,因此利用知识图谱中实体名称信息作为初始实体的嵌入初始化来代替随机初始化;先将数据集中非英语的实体名称翻译成英语,然后使用预训练的glove词向量得到知识图谱中实体的名称信息嵌入表示作为实体的初始嵌入表示;

6、步骤3:利用实体的初始嵌入表示来得到近似关系的嵌入表示作为关系的初始嵌入表示;

7、关系所连接的头实体和尾实体在一定程度上反应关系的语义信息,因此将关系相连接的头实体的平均嵌入表示和尾实体的平均嵌入表示连接起来,作为关系的初始嵌入表示,关系r被计算如下:

8、

9、其中concat(·)是串联两个向量表示,|hi|和|ti|分别表示关系ri相连的头实体和尾实体的集合;和表示头实体和尾实体的初始嵌入表示;

10、步骤4:利用关系的初始嵌入进行学习,得到新的关系嵌入表示;

11、将知识图谱中的实体和关系信息构造关系图来进一步学习关系的嵌入表示;关系图中将所有的关系作为节点,实体作为图中的边信息,两个关系信息之间共享头实体或者尾实体则存在一条边连接两个关系;利用注意力机制来实现权重的不同分配,计算不同关系节点之间的注意力分数,然后使用注意力分数进行关系节点的邻域聚合:

12、

13、

14、其中ri是关系的初始嵌入表示,是关系节点ri的邻居节点集合,w是可训练参数,ar是将输入映射为标量的全连接层,xr是经过注意力层输出的关系嵌入表示,σ是激活函数relu;

15、步骤5:利用步骤4学习到的关系嵌入表示来计算不同实体之间的权重从而进行实体的邻域信息聚合得到关系感知的实体嵌入表示;

16、使用关系嵌入表示帮助实体进行嵌入学习得到关系感知的实体表示,设计了改进的注意力机制来捕捉不同关系对于实体特征的影响,利用关系信息来区分实体不同邻域信息的重要性,帮助实体更好的捕捉邻域信息;在注意力机制中引入了步骤4中学习到的关系即利用两个节点之间的连线的嵌入表示,考虑实体和关系之间的依赖关系,使用两个实体之间的关系嵌入来计算两个实体之间的注意力分数,根据得到的注意力分数进行邻域聚合得到实体的嵌入表示:

17、

18、

19、其中是实体ei的一阶邻居集合,是注意力层输出的关系嵌入表示,q是一个单层全连接网络,σ是激活函数relu,xe是关系感知的实体表示;

20、步骤6:利用名称初始化的实体嵌入表示和学习到的关系感知的实体嵌入表示结合得到融入实体名称信息的关系感知实体嵌入表示;

21、将实体名称和关系感知的实体表示进行结合;由于实体名称对实体对齐提供了重要的证据,因此为了保留实体名称信息将初始化的实体嵌入表示和关系感知的实体表示相结合来保留证据:

22、x=α*xe+xinit (6)

23、α是权重参数,xe是注意力层输出的关系感知的实体表示;

24、步骤7:将步骤6得到的实体嵌入输入到带有highway gates机制的图卷积网络中去进一步学习知识图谱中的结构信息;

25、使用带有highway gates的两层图卷积网络进一步来学习知识图谱中的结构信息;将步骤6中得到的实体嵌入表示输入到两层gcn中来更新节点的特征优化嵌入表示,第l层gcn的输入是实体嵌入表示n是实体的个数,d是实体嵌入的维度,第1层输出计算如下:

26、

27、其中σ是一个激活函数,是带有自连接的邻接矩阵,i是单位矩阵,是的对角度矩阵,w(l)是特定层可训练权重矩阵;

28、为了控制噪声的传播和误差积累,减少对邻域聚合过程的影响,在两个gcn层之间应用了highway gates机制:

29、

30、x(l+1)=t(x(l)·x(l+1)+(1-t(x(l)))·x(l) (9)

31、其中x(l)是l+1层的输入,和分别是第l层变换门t(x(l))的权重矩阵和偏置向量,σ是sigmoid函数,·是元素乘法;

32、步骤8:将学习到的关系嵌入表示融入到步骤7中学习到的实体的嵌入表示中得到联合关系的实体嵌入表示;

33、对于每个实体,将实体相连的关系信息整合到一个关系上下文向量中,将前面得到的实体嵌入表示和关系上下文表示进一步结合,得到联合关系信息的实体表示,具体来说对于每个实体e,它的联合关系的实体表示计算为:

34、

35、xjoint=concat(e,re) (11)

36、其中e是gcn层输出的实体的嵌入表示,re是与实体e所有相连接的关系的表示集,f(·)是求和函数,是实体e作为头实体时连接的关系,是实体e作为尾实体时连接的关系;

37、步骤9:计算不同实体之间相似度,根据基于边距的损失函数进行训练更新模型参数;

38、联合关系的实体嵌入表示xjoint,通过嵌入表示计算不同实体之间的相似度,对于一个实体对(ei,ej),其中ei∈e1并且ej∈e2,采用曼哈顿距离来计算实体之间的相似度:

39、d(ei,ej)=∥xei-xej∥1 (12)

40、对于实体对齐任务,首先构造负样本,然后使用正负样本去进行训练,采用梯度下降的算法来更新模型中的权重参数,让正样本中的两个向量表示距离越来越小,同时让负样本中的两个向量表示距离越来越大,基于边距的损失函数定义为:

41、

42、其中γs>0是个边距超参数,l是对齐实体集合,l′是负采样实体集合,采用的采样策略不是随机抽样而是对于每个正样本(p,q),根据曼哈顿距离来选择p(或q)最近的125个实体来替换q(或p)作为负样本;

43、步骤10:利用联合损失函数进行联合训练;经过训练后得到基于结构信息的实体嵌入表示,利用曼哈顿距离计算不同实体的相似度得到结构嵌入相似度矩阵;

44、基于transe方法将关系信息看作从头实体到尾实体翻译过程的启发,设计了类似transe的正则化器进一步对细粒度关系语义建模:

45、

46、其中t1和t2分别是kg1和kg2的关系三元组集合,h和t是关系三元组中的头实体和尾实体的嵌入表示,r是头实体和尾实体之间的关系表示,wr是可训练参数,从实体空间到关系空间的转换矩阵;

47、因此为了更好地共同学习实体和关系的嵌入表示,将基于边距的损失函数和细粒度关系语义建模进行加权求和得到最终的联合损失函数,首先利用基于边距的损失函数训练一定轮次,再利用加权求和的联合损失函数进行联合训练,其中联合损失函数定义如下:

48、le=ls+β*lt (15)

49、其中β是一个权重系数,用来平衡结构嵌入损失和正则化的损失;

50、经过训练后得到基于结构信息的实体嵌入表示,利用曼哈顿距离计算不同实体的相似度得到结构嵌入相似度矩阵;

51、步骤11:利用知识图谱中的属性信息来得到属性感知的实体对齐嵌入表示;利用曼哈顿距离计算不同实体的相似度得到属性嵌入相似度矩阵;

52、引入了实体的属性三元组信息,将属性嵌入和结构嵌入分开训练,直接采用两层图卷积网络来学习属性信息的嵌入,计算过程如下:

53、

54、其中σ是一个激活函数,是带有自连接的邻接矩阵,i是单位矩阵,是的对角度矩阵,是实体的属性特征嵌入表示,用实体关于属性的独热编码表示来进行初始化作为第一层的输入,是特定层可训练权重矩阵;

55、同样采用曼哈顿距离来计算属性嵌入之间的相似度,以及采用同样的负采样策略构造负样本进行训练,属性嵌入部分基于边距的损失函数定义如下:

56、

57、其中γa>0是个边距超参数,l是对齐实体集合,l′是负采样实体集合;

58、经过训练后得到基于属性信息的实体嵌入表示,利用曼哈顿距离计算不同实体的相似度得到属性嵌入相似度矩阵;

59、步骤12:将结构嵌入相似度矩阵和属性嵌入相似度矩阵进行加权求和得到最终的相似度矩阵用于实体对齐;

60、通过结构嵌入网络和属性嵌入网络,分别得到了两个kg中每个实体的结构嵌入和属性嵌入,然后根据曼哈顿距离分别构建结构嵌入相似度矩阵和属性嵌入相似度矩阵,最后将两个相似度矩阵进行加权求和得到实体之间的最终相似度矩阵如下:

61、simjoint(ei,ej)=μ*sims(ei,ej)+(1-μ)*sima(ei,ej) (18)

62、其中sims(ei,ej)是结构嵌入相似度矩阵,sima(ei,ej)是属性嵌入相似度矩阵,μ是平衡结构嵌入和属性嵌入相似度矩阵的超参数,用来调节两个相似度矩阵的比重;

63、步骤13:根据得到的最终相似度矩阵中相似度值进行全局实体对齐;考虑双向匹配的策略来保证一对一的稳定匹配,使用延迟接受算法,每个源实体选定相似度最高的目标实体作为临时对齐结果,然后目标实体从与之匹配的实体中选择相似度最高的形成双向全局匹配对作为匹配结果;

64、所述延迟接受算法具体为:

65、第一步:根据相似度矩阵得到源知识图谱中的所有实体和目标知识图谱中所有实体的相似度值,按照相似度大小达成临时匹配,即源实体u1和目标实体v1,源实体u2和目标实体v1,源实体u3和目标实体v2都形成临时匹配;

66、第二步:目标实体去选择与其相似度最高的实体达成匹配,因此源实体u1和目标实体v1达成双向匹配;

67、第三步:没有达成匹配的源实体与尚未达成双向匹配的目标实体中相似度最高的实体形成临时匹配,源实体u2根据相似度矩阵与目标实体v2形成新的临时匹配,最终目标实体v2选择和相似度最高的源实体u2达成双向匹配;

68、第四步:将第三步的过程进行循环计算,最终源实体u3和目标实体v3进行双向匹配,从而使两个知识图谱之间的实体都形成一对一的稳定匹配。

69、本发明有益技术效果:

70、本发明提出了一种集成知识图谱中多种信息的实体对齐方法,充分利用了知识图谱中的多种信息来改善对齐效果。本发明通过构建关系图来学习关系的嵌入,提出改进的图注意力网络来改善实体的嵌入学习过程,具体来说用学习到的关系嵌入表示来计算实体邻域信息的注意力得分,用得到的注意力分数进行实体的邻域结构信息聚合。然后进一步整合实体名称信息、结构信息、关系信息和属性信息来相互补充;设计了类似transe的正则化器来同时关注实体的全局结构特征和局部结构特征,联合优化实体的嵌入表示。采用延迟接受算法进行全局实体对齐,提高实体对齐准确度。

71、与现有方法相比,本发明提出的方法使用了知识图谱中实体名称信息、结构信息、关系信息、属性信息,利用关系信息帮助实体捕捉邻域信息,充分考虑了知识图谱中的有用信息,有效的优化了实体的嵌入表示。同时采用全局实体对齐策略达成一对一的稳定匹配,提高了实体对齐准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1