一种基于图表示学习的联合嵌入实体对齐系统

文档序号:31474780发布日期:2022-09-10 00:11阅读:84来源:国知局
一种基于图表示学习的联合嵌入实体对齐系统

1.本发明涉及知识图谱技术领域,具体是涉及一种基于图表示学习的联合嵌入实体对齐系统。


背景技术:

2.现有方法中有基于图神经网络的实体对齐方法。其具体步骤包括数据预处理,对两个需对齐的知识图谱和已有对齐种子进行数据预处理,处理结果作为下一步的输入;构建图神经网络模型,将与处理结果输入图卷积神经网络,对两个需对齐的知识图谱利用图神经网络统一建模,得到知识图谱中实体的向量化表示;基于贪心算法搜索相关量空间中实体向量表示与实体语义相似度最高的实体,作为对齐实体。
3.信息利用不充分体现在对于知识图谱来说,它包含关系三元组和属性三元组两种三元组。已有的实体对齐方法仅使用了其关系三元组中的结构信息,故在对齐过程中很容易出现由于信息量不足而导致的错误对齐。不管是结构信息还是关系信息,它们都是包含在关系三元组中,知识图谱中还有大量的属性三元组,其中也包含了语义信息。
4.对种子集依赖度过高方面,种子集就是一些预先对齐好的实体集合,可以用做实体对齐的训练数据。种子对齐实体数量越多,最后的实体对齐效果就越好,故现有的实体对齐方法对种子集的依赖度很高,种子集的数量与质量会在很大程度上影响实体对齐结果。


技术实现要素:

5.针对现有技术存在的不足,本发明实施例的目的在于提供一种基于图表示学习的联合嵌入实体对齐系统,以解决上述背景技术中的问题。
6.为实现上述目的,本发明提供如下技术方案:
7.一种基于图表示学习的联合嵌入实体对齐系统,包括扩充种子集模块,通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果,
8.所述扩充种子集模块工作步骤如下:
9.步骤一:首先获得联合嵌入实体对齐模块;
10.步骤二:根据嵌入计算所有实体嵌入间的距离,并设置距离阈值来进行筛选;
11.步骤三:实体距离低于阈值的实体对被认为是可信对齐实体,将其加入种子集,更新种子集后再次进行结构嵌入训练,获得新对齐实体;
12.步骤四:迭代进行这一过程,直至迭代后新产生的对齐实体数量小于一个定值m,停止迭代;以及
13.所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入,随后将三者联合从而获得实体对齐结果。
14.作为本发明进一步的方案,所述扩充种子集模块包括距离阈值筛选实体,所述距
离阈值筛选实体通过实体间的相似度进行筛选,而实体间的相似度通过实体嵌入间的距离反映,通过设置距离阈值来过滤掉相似度过低的实体。
15.作为本发明进一步的方案,所述扩充种子集模块包括相互最近实体,所述相互最近实体对于两个实体e1和e2,仅当两个实体互相是距离对方最近的实体,并且实体间的距离小于阈值时,才认为两个实体是对齐的,公式表述如下:
[0016][0017][0018]
d(e1,e2)《θ
ꢀꢀ
(3)。
[0019]
作为本发明进一步的方案,所述扩充种子集模块包括重新初始化,所述重新初始化在每一次迭代完成后,重新初始化所有实体嵌入,并使用上一次迭代后的新的种子集重新开始训练。
[0020]
作为本发明进一步的方案,所述重新初始化每次种子集更新完成后,即可开始下一轮的迭代,将新对齐实体加入种子集后,将已对齐的实体从待对齐实体集合中去除。
[0021]
作为本发明进一步的方案,所述联合嵌入实体对齐模块采用gcn对知识图谱进行结构嵌入,即使用gcn将实体表示为低维向量空间中的向量,gcn模型由多层gcn堆叠组成,每层gcn拥有输入和输出,输入即为gcn中每个节点的初始向量表示,输出是每个节点经过更新后的向量表示,首层gcn为输入层,其输入为两个知识图谱的实体向量,每个实体看作一个节点,而后每层gcn的输出会作为下一层gcn的输入,最后一层gcn的输出即为整个gcn模型的输出,也是实体的最终向量表示。
[0022]
作为本发明进一步的方案,所述联合嵌入实体对齐模块对于实体关系,考虑关系三元组(h,r,t)中的关系r会连接若干个头尾实体,故将头实体平均结构嵌入和尾实体平均结构嵌入连接得到关系r的结构嵌入:
[0023][0024]
而后根据结构向量计算出所有关系的向量表示,其中所有e作为头实体的三元组中的关系嵌入记为集合所有e作为尾实体的三元组中的关系嵌入记为集合与求和即可得到e的所有关系表示re:
[0025][0026]
而后进一步计算e的结构-关系联合嵌入:
[0027]zs,r
=[zs||re]
ꢀꢀ
(6)
[0028]
获得联合嵌入后,使用基于间隔的排序损失函数继续进行训练。
[0029]
作为本发明进一步的方案,所述联合嵌入实体对齐模块对于实体属性,采用gcn对知识图谱进行属性嵌入,输入层节点使用实体关于属性的one-hot向量进行初始化。
[0030]
综上所述,本发明实施例与现有技术相比具有以下有益效果:
[0031]
(1)本发明对关系三元组包含的结构信息和关系信息,以及属性三元组包含的属性信息都进行了建模。使用两层gcn堆叠对知识图谱的结构与属性进行嵌入,为了解决结构
嵌入信息丢失的问题,使用高速网络来控制信息传输,还使用了实体名称对实体的节点表示进行初始化。根据关系和实体之间的语义关联,借助实体的结构嵌入表示出关系嵌入,并与结构嵌入联合训练,使用最终的结构-关系-属性联合嵌入进行实体对齐;
[0032]
(2)本发明使用少量种子集进行训练,并将其扩充,从而降低实体对齐方法对种子集的依赖,提高实体对齐效果。为获得高质量的种子集,本发明采用了设置阈值和相互最近实体策略来筛选对齐实体,还采用了重新初始化策略来降低错误传播。
[0033]
为更清楚地阐述本发明的结构特征和功效,下面结合附图与具体实施例来对本发明进行详细说明。
附图说明
[0034]
图1为发明实施例的系统整体流程图。
[0035]
图2为发明实施例中联合嵌入实体对齐流程图。
[0036]
图3为发明实施例中gcn结构图。
[0037]
图4为发明实施例中highway网络结构图。
具体实施方式
[0038]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0039]
以下结合具体实施例对本发明的具体实现进行详细描述。
[0040]
在一个实施例中,一种基于图表示学习的联合嵌入实体对齐系统,参见图1~图2,扩充种子集模块,通过扩充种子集模块中扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐模块中联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果,
[0041]
所述扩充种子集模块工作步骤如下:
[0042]
步骤一:首先获得联合嵌入实体对齐模块;
[0043]
步骤二:根据嵌入计算所有实体嵌入间的距离,并设置距离阈值来进行筛选;
[0044]
步骤三:实体距离低于阈值的实体对被认为是可信对齐实体,将其加入种子集,更新种子集后再次进行结构嵌入训练,获得新对齐实体;
[0045]
步骤四:迭代进行这一过程,直至迭代后新产生的对齐实体数量小于一个定值m,停止迭代;以及
[0046]
所述联合嵌入实体对齐模块分别对结构、关系和属性进行嵌入,随后将三者联合从而获得实体对齐结果。
[0047]
进一步的,参见图1~图2,所述扩充种子集模块包括距离阈值筛选实体,所述距离阈值筛选实体通过实体间的相似度进行筛选,而实体间的相似度通过实体嵌入间的距离反映,通过设置距离阈值来过滤掉相似度过低的实体。
[0048]
进一步的,参见图1~图2,所述扩充种子集模块包括相互最近实体,所述相互最近实体对于两个实体e1和e2,仅当两个实体互相是距离对方最近的实体,并且实体间的距离小于阈值时,才认为两个实体是对齐的,公式表述如下:
[0049][0050][0051]
d(e1,e2)《θ
ꢀꢀ
(3)。
[0052]
进一步的,参见图1~图2,所述扩充种子集模块包括重新初始化,所述重新初始化在每一次迭代完成后,重新初始化所有实体嵌入,并使用上一次迭代后的新的种子集重新开始训练。
[0053]
进一步的,参见图1~图2,所述重新初始化每次种子集更新完成后,即可开始下一轮的迭代,将新对齐实体加入种子集后,将已对齐的实体从待对齐实体集合中去除。
[0054]
进一步的,参见图1~图2,所述联合嵌入实体对齐模块采用gcn对知识图谱进行结构嵌入,即使用gcn将实体表示为低维向量空间中的向量,gcn模型由多层gcn堆叠组成,每层gcn拥有输入和输出,输入即为gcn中每个节点的初始向量表示,输出是每个节点经过更新后的向量表示,首层gcn为输入层,其输入为两个知识图谱的实体向量,每个实体看作一个节点,而后每层gcn的输出会作为下一层gcn的输入,最后一层gcn的输出即为整个gcn模型的输出,也是实体的最终向量表示。
[0055]
进一步的,参见图1~图2,所述联合嵌入实体对齐模块对于实体关系,考虑关系三元组(h,r,t)中的关系r会连接若干个头尾实体,故将头实体平均结构嵌入和尾实体平均结构嵌入连接得到关系r的结构嵌入:
[0056][0057]
而后根据结构向量计算出所有关系的向量表示,其中所有e作为头实体的三元组中的关系嵌入记为集合所有e作为尾实体的三元组中的关系嵌入记为集合与求和即可得到e的所有关系表示re:
[0058][0059]
而后进一步计算e的结构-关系联合嵌入:
[0060]zs,r
=[zs||re]
ꢀꢀ
(6)
[0061]
获得联合嵌入后,使用基于间隔的排序损失函数继续进行训练。
[0062]
进一步的,参见图1~图2,所述联合嵌入实体对齐模块对于实体属性,采用gcn对知识图谱进行属性嵌入,输入层节点使用实体关于属性的one-hot向量进行初始化。
[0063]
在本实施例中,输入是两个知识图谱和一个种子集,首先通过扩充种子集部分对种子集进行半监督的迭代扩充,然后作为新的训练数据输入到联合嵌入实体对齐部分,训练完成后计算所有实体间距离,使用贪心策略获得实体对齐结果。
[0064]
联合嵌入流程图如图2所示,包括:
[0065]
步骤1,将两个知识图谱和种子集输入到模型;
[0066]
步骤2,使用两层gcn与两层highway网络交叉堆叠进行结构嵌入;
[0067]
步骤3,根据实体结构嵌入计算出实体的关系嵌入;
[0068]
步骤4,将实体的结构嵌入和关系嵌入联合,并对结构-关系联合嵌入进行训练;
[0069]
步骤5,使用两层gcn堆叠进行属性嵌入;
[0070]
步骤6,将实体的结构-关系联合嵌入与属性嵌入联合,得到实体的结构-关系-属性联合嵌入;
[0071]
步骤7,根据结构-关系-属性联合嵌入计算所有实体间距离,生成实体距离矩阵;
[0072]
步骤8,根据实体距离矩阵,使用贪心策略找到距离最近的实体,获得所有实体对齐结果。
[0073]
本发明主要包括两大模块,分别是扩充种子集模块,联合嵌入实体对齐模块。本发明的详细技术方案如下:
[0074]
1.扩充种子集模块。其整体流程是:首先获得实体嵌入,而后根据嵌入计算所有实体嵌入间的距离,并设置距离阈值来进行筛选,实体距离低于阈值的实体对被认为是可信对齐实体,将其加入种子集,更新种子集后再次进行结构嵌入训练,获得新对齐实体,迭代进行这一过程,直至迭代后新产生的对齐实体数量小于一个定值m,停止迭代。
[0075]
实体嵌入阶段,考虑到迭代要重复进行多轮,且这一阶段的嵌入仅用来发现新对齐的实体,只要模型达到大致收敛即可。结构信息是知识图谱中最重要的信息,仅使用结构嵌入可以获得一个较为准确的实体嵌入,故为了尽量降低模型的复杂度,本发明在这一阶段仅对实体进行结构嵌入。
[0076]
对齐实体筛选,扩充种子集中的关键步骤在于筛选出新对齐实体,将其加入种子集,要保证筛选出的实体对具有高置信度才能有效指导后续的实体对齐过程。本发明使用了以下几种策略来保证筛选出的实体对的可信度。
[0077]
1)距离阈值
[0078]
实体间的相似度是筛选实体的依据,实体相似度越高,两个实体越有可能是对齐的。而实体间的相似度可以通过实体嵌入间的距离反映出来,因此可以通过设置距离阈值来过滤掉相似度过低的实体,来提升新对齐实体的可靠性,阈值设置越低,新产生的实体可靠性就越高。但过低的阈值会导致新产生的对齐实体对数量过少,起不到扩充种子集的作用,故需要将阈值设置为一个较为平衡的值。
[0079]
2)相互最近实体
[0080]
为尽量减错误的传播,本发明采用相互最接近实体筛选策略,即对于两个实体e1和e2,仅当两个实体互相是距离对方最近的实体,并且实体间的距离小于阈值时,才认为两个实体是对齐的。公式表述如下:
[0081][0082][0083]
d(e1,e2)《θ
ꢀꢀ
(3)
[0084]
3)重新初始化
[0085]
设定阈值和相互最近实体策略虽然可以提升筛选实体对的准确度,但也不能完全保证筛选出的所有实体对都是正确对齐的。每一次迭代后得到的新对齐实体中很有可能含有错误对齐的实体,这些错误对齐的实体会直接影响到实体嵌入表示的准确性,如果继续使用这些实体嵌入进行训练就会导致错误在后续的对齐过程中不断传播,影响最终的对齐结果。为尽可能降低这种错误传播,本文提出一种重新初始化的策略,在每一次迭代完成
后,重新初始化所有实体嵌入,并使用上一次迭代后的新的种子集重新开始训练。使用这种策略可以尽可能避免错误对齐实体在实体嵌入中的传播。
[0086]
每次种子集更新完成后,即可开始下一轮的迭代,需要注意的一点是,将新对齐实体加入种子集后,为防止一对多或多对一的对齐情况发生,需要将已对齐的实体从待对齐实体集合中去除。
[0087]
2.联合嵌入实体对齐模块。其首先分别对结构、关系和属性进行嵌入,而后将三者联合从而获得实体对齐结果。
[0088]
对于实体结构,本发明采用gcn对知识图谱进行结构嵌入,即使用gcn将实体表示为低维向量空间中的向量,也称嵌入。gcn模型由多层gcn堆叠组成,每层gcn拥有输入和输出,输入即为gcn中每个节点的初始向量表示,输出是每个节点经过更新后的向量表示。首层gcn为输入层,其输入为两个知识图谱的实体向量,每个实体看作一个节点,而后每层gcn的输出会作为下一层gcn的输入,最后一层gcn的输出即为整个gcn模型的输出,也是实体的最终向量表示。在实际建模时,本文将两个知识图谱合并作为一整个图g作为gcn的输入,同时使用实体名称的预训练英语词嵌入glove.840b.300d作为gcn输入层节点的向量表示,使用highway门来控制gcn中的噪声传播,最后使用基于间隔的排序损失函数作为目标函数,可以使得对齐实体间的距离尽可能小,同时尽量使正例实体对(正确对齐实体)距离小于负例实体对间距离(错误对齐实体)。
[0089]
对于实体关系,考虑关系三元组(h,r,t)中的关系r会连接若干个头尾实体,故将头实体平均结构嵌入和尾实体平均结构嵌入连接得到关系r的结构嵌入:
[0090][0091]
而后根据结构向量计算出所有关系的向量表示,其中所有e作为头实体的三元组中的关系嵌入记为集合所有e作为尾实体的三元组中的关系嵌入记为集合与求和即可得到e的所有关系表示re:
[0092][0093]
而后进一步计算e的结构-关系联合嵌入:
[0094]zsr
=[zs||re]
ꢀꢀ
(6)
[0095]
获得联合嵌入后,使用基于间隔的排序损失函数继续进行训练。
[0096]
对于实体属性,本发明同样采用gcn对知识图谱进行属性嵌入。其输入层节点使用实体关于属性的one-hot向量进行初始化。
[0097]
结构和关系嵌入通过联合训练的方法结合到一起,而属性嵌入则是单独训练的,无需与结构和关系进行联合训练。直接将训练后得到的属性嵌入与结构关系联合嵌入连接,从而得到最终的联合嵌入。
[0098]
获得所有实联合体嵌入后,计算实体间的曼哈顿距离,使用贪心策略寻找对齐实体。
[0099]
本发明的工作原理是:
[0100]
实体能够进行对齐主要是基于以下假设:与对齐实体相邻的实体也有可能是对齐的。也就是说,实体对齐是具有传递性的,因此在知识图谱中,如果能预先知道一部分对齐
实体,就可以推断出新的对齐实体;
[0101]
利用了知识图谱中蕴含的信息,对关系三元组包含的结构信息和关系信息,以及属性三元组包含的属性信息都进行了建模;该方法还使用半监督学习思想,使用少量种子集进行训练,并将其扩充,从而降低对种子集的依赖,提高实体对齐效果。
[0102]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1