一种面向时序知识图谱的无监督实体对齐方法及装置

文档序号:33091450发布日期:2023-01-31 23:11阅读:184来源:国知局
一种面向时序知识图谱的无监督实体对齐方法及装置

1.本发明属于知识图谱实体对齐技术领域,尤其涉及一种面向时序知识图谱的无监督实体对齐方法及装置。


背景技术:

2.近年来,知识图谱作为表示现实对象结构化信息的工具,在语义搜索、推荐系统和问答系统中的应用越来越广泛。为了对不同来源的知识图谱进行融合以弥补其不完整性,首先要对齐来自不同知识图谱但指向同一现实对象的实体,即“实体对齐”。
3.时序知识图谱通过引入时间信息扩展了传统的知识图谱,近期受到了越来越多的关注。大多数现有的基于嵌入的实体对齐方法并没有考虑时序知识图谱中额外的时间信息,容易导致具有相似邻域结构但对应于不同时间信息的实体的错误对齐。将时间信息纳入实体对齐的过程可以显著提高时序知识图谱实体对齐的性能。因此,设计一种面向时序知识图谱的高效的实体对齐方法已经成为学术界和工业界的迫切需要。
4.在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:首先,现有的研究只是为每个时间信息创建嵌入方法,以增强图学习过程,并没有充分利用时间信息在时序知识图谱中的优势,导致实体对齐准确度有限。此外,现有方法忽视了代表真实时间段的时间信息在时序知识图谱中是天然对齐的这一特性,过度依赖于预先对齐的实体对作为训练数据,而这一过程需要大量人力,导致实体对齐效率低下。


技术实现要素:

5.针对现有技术的不足,本技术实施例的目的是提供一种面向时序知识图谱的无监督实体对齐方法及装置,无需额外对齐数据的方式实现准确、高效的实体对齐,提高实体对齐的准确度及效率。
6.根据本技术实施例的第一方面,提供一种面向时序知识图谱的无监督实体对齐方法,包括:s11:获取两个时序知识图谱,每个所述时序知识图谱包括若干含有时间信息的四元组;s12:根据每个所述时序知识图谱中的实体和对应的时间信息,通过图卷积式前向传递的方式,构建两个时间特征矩阵;s13:根据所述两个时间特征矩阵,采用双向策略生成两个实体对齐矩阵,并通过所述两个实体对齐矩阵以匹配的方式无监督地获得预对齐的伪标签;s14:利用所述时间信息扩展图神经网络模型,以时序知识图谱的四元组为训练数据集、以所述预对齐的伪标签未训练数据标签,对扩展后的图神经网络模型进行训练,得到关系特征矩阵;s15:采用加权方式融合所述关系特征矩阵和两个时间特征矩阵,得到融合的规范化实体对齐矩阵;
s16:利用所述规范化实体对齐矩阵得到两个时序知识图谱之间的距离,并通过最小化所述距离,得到对应的实体对齐矩阵,从而得到实体对齐结果。
7.进一步地,步骤s11中,四元组,表示主体实体在时间间隔内与对象实体有关系。
8.进一步地,步骤s12中,对每个所述时序知识图谱进行如下操作,从而构建两个时间特征矩阵:s21:提取实体与时间的二部图作为初步的时间特征矩阵;s22:根据不同关系类型的占比为知识图谱构建带有权重的关系邻接矩阵;s23:基于所述时间特征矩阵和关系邻接矩阵,通过图卷积式前向传递,聚合来自邻居实体的信息,以补充时间特征,得到聚合后的时间特征矩阵。
9.进一步地,步骤s13包括:s31:对所述两个时间特征矩阵,分别在正向和反向初步推导出两个实体对齐矩阵;s32:在两个实体对齐矩阵中分别标识与实体相似度最高的对应实体,从而得到若干实体对,若得到的实体对在双向策略中相互匹配,则取得该实体对为预对齐的伪标签。
10.进一步地,步骤s14包括:s41:初始化一个可学习的嵌入向量;s42:使用负样本采样方法构造损失函数;s43:利用所述嵌入向量,通过添加时间信息扩展图神经网络模型,构建用于学习知识图谱结构特征的多层图神经网络模型;s44:将所述预对齐的伪标签作为训练数据标签,训练多层图神经网络模型直至所述损失函数完全收敛,得到关系特征矩阵。
11.进一步地,步骤s15中,融合的规范化实体对齐矩阵,其中为融合权重,和分别为两个时序知识图谱的时间特征矩阵,和分别为按照实体拆分后的两个时序知识图谱的关系特征矩阵。
12.进一步地,步骤s16包括:利用所述规范化实体对齐矩阵,通过关系特征和时间特征得到的关系距离和时间距离;选用wl图核算法分别为关系距离和时间距离设置权重,通过加权求和得到两个时序知识图谱之间的距离;在预定范围内搜索使所述距离最小的融合权重,从而确定对应的实体对齐矩阵,得到实体对齐结果。
13.根据本技术实施例的第二方面,提供一种面向时序知识图谱的无监督实体对齐装置,包括:获取模块,用于获取两个时序知识图谱,每个所述时序知识图谱包括若干含有时间信息的四元组;
构建模块,用于根据每个所述时序知识图谱中的实体和对应的时间信息,通过图卷积式前向传递的方式,构建两个时间特征矩阵;预对齐模块,用于根据所述两个时间特征矩阵,采用双向策略生成两个实体对齐矩阵,并通过所述两个实体对齐矩阵以匹配的方式无监督地获得预对齐的伪标签;训练模块,用于利用所述时间信息扩展图神经网络模型,以时序知识图谱的四元组为训练数据集、以所述预对齐的伪标签未训练数据标签,对扩展后的图神经网络模型进行训练,得到关系特征矩阵;融合模块,用于采用加权方式融合所述关系特征矩阵和两个时间特征矩阵,得到融合的规范化实体对齐矩阵;对齐模块,用于利用所述规范化实体对齐矩阵得到两个时序知识图谱之间的距离,并通过最小化所述距离,得到对应的实体对齐矩阵,从而得到实体对齐结果。
14.根据本技术实施例的第三方面,提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
15.根据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
16.本技术的实施例提供的技术方案可以包括以下有益效果:由上述实施例可知,本技术针对时序知识图谱构建了能够充分利用时间信息的无监督实体对齐方法。本方法将时序知识图谱的实体对齐问题转化为图匹配问题,分别将时间特征和关系特征独立编码到嵌入矩阵中。一方面,对时间特征的编码充分利用了时间信息在时序知识图谱中的优势,提高了实体对齐的准确性。另一方面,利用时间特征矩阵以无监督的形式为两个知识图谱生成预对齐的伪标签,在此基础上训练图神经网络模型以编码关系特征,不再需要人工标记已知对齐的实体对,提高了实体对齐的效率。
17.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
19.图1是根据一示例性实施例示出的一种面向时序知识图谱的无监督实体对齐方法的流程图。
20.图2是根据一示例性实施例示出的步骤s12中每个时序知识图谱进行的子步骤的流程图。
21.图3是根据一示例性实施例示出的无监督实体对齐过程的示意图。
22.图4是根据一示例性实施例示出的步骤s13的流程图。
23.图5是根据一示例性实施例示出的步骤s14的流程图。
24.图6是根据一示例性实施例示出的步骤s16的流程图。
25.图7是根据一示例性实施例示出的一种面向时序知识图谱的无监督实体对齐装置的框图。
26.图8是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
27.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。
28.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
29.应当理解,尽管在本技术可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
30.图1是根据一示例性实施例示出的一种面向时序知识图谱的无监督实体对齐方法的流程图,如图1所示,该方法可以包括以下步骤:s11:获取两个时序知识图谱,每个所述时序知识图谱包括若干含有时间信息的四元组;s12:根据每个所述时序知识图谱中的实体和对应的时间信息,通过图卷积式前向传递的方式,构建两个时间特征矩阵;s13:根据所述两个时间特征矩阵,采用双向策略生成两个实体对齐矩阵,并通过所述两个实体对齐矩阵以匹配的方式无监督地获得预对齐的伪标签;s14:利用所述时间信息扩展图神经网络模型,以时序知识图谱的四元组为训练数据集、以所述预对齐的伪标签未训练数据标签,对扩展后的图神经网络模型进行训练,得到关系特征矩阵;s15:采用加权方式融合所述关系特征矩阵和两个时间特征矩阵,得到融合的规范化实体对齐矩阵;s16:利用所述规范化实体对齐矩阵得到两个时序知识图谱之间的距离,并通过最小化所述距离,得到对应的实体对齐矩阵,从而得到实体对齐结果。
31.由上述实施例可知,本技术针对时序知识图谱构建了能够充分利用时间信息的无监督实体对齐方法。本方法将时序知识图谱的实体对齐问题转化为图匹配问题,分别将时间特征和关系特征独立编码到嵌入矩阵中。一方面,对时间特征的编码充分利用了时间信息在时序知识图谱中的优势,提高了实体对齐的准确性。另一方面,利用时间特征矩阵以无监督的形式为两个知识图谱生成预对齐的伪标签,在此基础上训练图神经网络模型以编码关系特征,不再需要人工标记已知对齐的实体对,提高了实体对齐的效率。
32.在s11的具体实施方式,获取两个时序知识图谱,每个所述时序知识图谱包括若干
含有时间信息的四元组;具体地,本发明可以应用于国际事件、医疗事件的信息整合等多个实际领域。不失一般性地,本发明将时序知识图谱表示为,其中是一组实体,是一组关系,是时间间隔的集合,是一组四元组,且四元组,表示主体实体在时间间隔内与对象实体有关系。表示为,包含开始时间点和结束时间点。和可能相等也可能不等。例如,在国际事件领域中,实体可以是国际人物与国家的集合,其中一组四元组可以表示为(人物a, 到访, 国家b, [2019.12.9, 2019.12.9]);在医疗事件领域中,实体可以是患者、科室与医院的集合,其中一组四元组可以表示为(小明, 住院,医院c, [2015.10.1, 2015.10.6])。定义时序知识图谱的表示后,输入源时序知识图谱和目标时序知识图谱,分别记为和,并表示为和,其中表示两个知识图谱中一组重叠的时间间隔。利用时间信息的实体对齐任务旨在找到从到的一对一实体映射,即。
[0033]
在s12的具体实施方式,根据每个所述时序知识图谱中的实体和对应的时间信息,通过图卷积式前向传递的方式,构建两个时间特征矩阵;具体地,由于存在孤立的实体集合,与预对齐的实体对位于不同的连接组件中,导致对齐信息难以传播到此类实体的嵌入中。基于要对齐的和共享同样时间间隔集合,本发明做出以下假设:如果两个实体和在与其相关的四元组之间重叠的时间间隔较多,则和很可能指向同一现实对象。在本步骤中,如图2所示,对每个所述时序知识图谱可以进行如下子步骤,从而构建两个时间特征矩阵:s21:提取实体与时间的二部图作为初步的时间特征矩阵;在一实施例中,如图3中的(a)所示,针对其中实体和时间间隔挖掘稀疏特征,提取一个二部图。对于二部图中的每项,有,其中是包含实体和时间间隔的四元组数量。得到此二部图作为实体集合的时间邻接矩阵。
[0034]
s22:根据不同关系类型的占比为知识图谱构建带有权重的关系邻接矩阵;具体地,为了利用不同关系类型对知识图谱的影响,按照不同关系类型的占比构建关系邻接矩阵。具体来说,对于每个,,其中表示与实体相邻的实体集合,是和之间的关系集合,和表示所有四元组的数量和包含关系的四元组的数量。
[0035]
s23:基于所述时间特征矩阵和关系邻接矩阵,通过图卷积式前向传递,聚合来自
邻居实体的信息,以补充时间特征,得到聚合后的时间特征矩阵;具体地,为了在利用时间特征的同时充分利用邻域信息,聚合来自邻居实体的信息以插补时间特征。在一实施例中,如图3中的(a)所示,通过l层图卷积式的前向传递,得到聚合后的时间特征矩阵:,其中l是一个超参数,表示图卷积的层数,一般设置为1至3之间;,是跳的关系邻接矩阵,由知识图谱的四元组直接得到。
[0036]
在s13的具体实施方式,根据所述两个时间特征矩阵,采用双向策略生成两个实体对齐矩阵,并通过所述两个实体对齐矩阵以匹配的方式无监督地获得预对齐的伪标签;具体地,如图4所示,此步骤可以包括以下子步骤:s31:对所述两个时间特征矩阵,分别在正向和反向初步推导出两个实体对齐矩阵;具体地,输入两个时序知识图谱聚合的时间特征矩阵和,分别在正向和反向初步推导出实体对齐矩阵和。
[0037]
s32:在两个实体对齐矩阵中分别标识与实体相似度最高的对应实体,从而得到若干实体对,若得到的实体对在双向策略中相互匹配,则取得该实体对为预对齐的伪标签;具体地,在和中分别标识与实体相似度最高的另一知识图谱中对应实体,若得到的实体对在和中相互匹配,则取得该实体对为预对齐的伪标签。
[0038]
在s14的具体实施方式,利用所述时间信息扩展图神经网络模型,以时序知识图谱的四元组为训练数据集、以所述预对齐的伪标签未训练数据标签,对扩展后的图神经网络模型进行训练,得到关系特征矩阵;具体地,如图5所示,此步骤可以包括以下子步骤:s41:初始化一个可学习的嵌入向量;具体地,为了提高收敛速度,选用glorot初始化方法进行初始化,使用作为实体的初始化的维可学习嵌入向量。
[0039]
s42:使用负样本采样方法构造损失函数;具体地,采用负样本采样方法构造损失函数为,其中是lse的平滑因子,,被定义为标准化的三元组损失函数。
[0040]
s43:利用所述嵌入向量,通过添加时间信息扩展图神经网络模型,构建用于学习知识图谱结构特征的多层图神经网络模型;具体地,用额外的时间嵌入信息来扩展原本的实体和关系嵌入模型,形成整体的
三方面嵌入方法,构建用于学习知识图谱结构特征的l层图神经网络模型,共同学习包括实体、关系、时间三者的信息。对于每个嵌入向量,有,其中、、分别表示对应实体、关系和时间间隔的向量,和分别表示实体周围的关系集合和时间间隔集合。
[0041] s44:将所述预对齐的伪标签作为训练数据标签,训练多层图神经网络模型直至所述损失函数完全收敛,得到关系特征矩阵。
[0042]
具体地,在本技术的无监督方法中,不存在预先已知对齐的实体对。因此在一实施例中,如图3中的(b)所示,以时序知识图谱的四元组为训练数据集,输入步骤s13中生成的预对齐伪标签作为训练数据标签,训练图神经网络模型直至所述损失函数完全收敛,得到关系特征矩阵,该关系特征矩阵为最后一轮训练的输出。
[0043]
在s15的具体实施方式,采用加权方式融合所述关系特征矩阵和两个时间特征矩阵,得到融合的规范化实体对齐矩阵;具体地,由于时间特征矩阵和关系特征矩阵从不同的编码器获得,对实体对齐结果的影响也不同,因此引入融合权重以平衡两个特征的影响,定义融合的规范化实体对齐矩阵:,其中,和由步骤s14得到的关系特征矩阵按照两个知识图谱的实体拆分而得到。
[0044]
在s16的具体实施方式,利用所述规范化实体对齐矩阵得到两个时序知识图谱之间的距离,并通过最小化所述距离,得到对应的实体对齐矩阵,从而得到实体对齐结果。
[0045]
具体地,如图6所示,此步骤可以包括以下子步骤:步骤s61:利用所述规范化实体对齐矩阵,通过关系特征和时间特征得到的关系距离和时间距离;具体地,和分别是通过关系特征和时间特征测量的两个知识图谱的距离,其中为源时序知识图谱的关系邻接矩阵,为目标时序知识图谱的关系邻接矩阵,为源时序知识图谱的时间邻接矩阵,为目标时序知识图谱的时间邻接矩阵,由步骤s21-s23中得到。
[0046]
步骤s62:选用wl图核算法分别为关系距离和时间距离设置权重,通过加权求和得到两个时序知识图谱之间的距离;具体地,由于两个知识图谱可能是非同构的,且关系邻接矩阵、和时间邻接矩阵、是分别单独构造的,因此要为其分配不同的权重,知识图谱间的最终距离可以表示
为:,其中和是基于邻接矩阵同构按照wl图核算法计算的权重。
[0047]
步骤s63:在预定范围内搜索使所述距离最小的融合权重,从而确定对应的实体对齐矩阵,得到实体对齐结果。
[0048]
具体地,具体地,在范围内搜索,使所定义距离最小。在一实施例中,如图3中的(c)所示,同时得到最优的融合权重值和实体对齐矩阵。最后通过找到实体对齐矩阵中每个实体对应的最大值,确定实体对齐结果。
[0049]
在医疗事件的信息整合领域中,可以通过本方法对不同来源的知识图谱执行对齐任务。例如,在来源于挂号部门和来源于心胸外科科室的知识图谱中,患者小明均存在(小明, 就诊, 心胸外科, [2015.10.1, 2015.10.1])和(小明, 住院,医院c, [2015.10.1, 2015.10.6])等多个完全相同的四元组信息,则可以通过本方法最终将两个知识图谱的此实体进行对齐。并且,通过此方法可以避免将在不同时间具备同样就诊记录的同名实体进行错误对齐。
[0050]
与前述的面向时序知识图谱的无监督实体对齐方法的实施例相对应,本技术还提供了面向时序知识图谱的无监督实体对齐装置的实施例。
[0051]
图7是根据一示例性实施例示出的一种面向时序知识图谱的无监督实体对齐装置框图。参照图7,该装置可以包括:获取模块21,用于获取两个时序知识图谱,每个所述时序知识图谱包括若干含有时间信息的四元组;构建模块22,用于根据每个所述时序知识图谱中的实体和对应的时间信息,通过图卷积式前向传递的方式,构建两个时间特征矩阵;预对齐模块23,用于根据所述两个时间特征矩阵,采用双向策略生成两个实体对齐矩阵,并通过所述两个实体对齐矩阵以匹配的方式无监督地获得预对齐的伪标签;训练模块24,用于利用所述时间信息扩展图神经网络模型,以时序知识图谱的四元组为训练数据集、以所述预对齐的伪标签未训练数据标签,对扩展后的图神经网络模型进行训练,得到关系特征矩阵;融合模块25,用于采用加权方式融合所述关系特征矩阵和两个时间特征矩阵,得到融合的规范化实体对齐矩阵;对齐模块26,用于利用所述规范化实体对齐矩阵得到两个时序知识图谱之间的距离,并通过最小化所述距离,得到融合权重,从而得到实体对齐结果。
[0052]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0053]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本技术方案的目的。本领域普通技术人员在不付
出创造性劳动的情况下,即可以理解并实施。
[0054]
相应的,本技术还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的面向时序知识图谱的无监督实体对齐方法。如图8所示,为本发明实施例提供的一种面向时序知识图谱的无监督实体对齐方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图8所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
[0055]
相应的,本技术还提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如上述的面向时序知识图谱的无监督实体对齐方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
[0056]
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0057]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1