一种基于异质图神经网络的图谱频繁关系模式挖掘方法

文档序号:30181041发布日期:2022-05-26 13:20阅读:240来源:国知局
一种基于异质图神经网络的图谱频繁关系模式挖掘方法

1.本发明涉及异质图神经网络技术领域,特别涉及一种基于异质图神经网络的图谱频繁关系模式挖掘方法。


背景技术:

2.知识图谱是一种反映客观世界实体之间关系的语义网络,蕴含丰富的关系模式,根据这些关系模式又可总结出实体与概念之间的类属关系以及概念与概念之间的上下位关系,从而完善概念知识图谱。例如附图1所示,在图谱中存在大量“主演”、“导演”相关三元组,这些信息经挖掘后可以获得一般性的知识前提,在图谱中表现为频繁出现的关系结构,为实体类型的预测(判断含有“主演”、“导演”等关系的某实体可能是某部电影等)以及知识推理(某部电影的主演与导演可能存在“合作”关系等)、推荐系统(可能对某电影导演的另一部电影感兴趣)和智能问答(了解某个演员参演过的电影)等各类任务打下基础。
3.针对传统遍历算法复杂度高、计算困难的特点,图挖掘技术为我们提供一种新的解决思路。相较于传统的同质图,具有不同类型节点(实体)和边(关系)的异质图,例如知识图谱等蕴含信息更多,也有更高的落地价值。然而由于异质图天然的复杂性,目前流行的挖掘技术难以获得知识图谱中频繁出现的交互关系以及高阶的语义信息,导致部分信息丢失,对部分子任务产生影响。那么如何从大量信息中既快又好地挖掘频繁出现的关系模式成为目前亟待解决的问题。


技术实现要素:

4.针对上述存在的问题,本发明提出了一种基于异质图神经网络的图谱频繁关系模式挖掘方法,本发明以知识图谱作为切入点,重点挖掘实体之间频繁出现的关系信息以及重要的关系路径/模式。建立了一个能够描述节点附近范围内边信息的预处理图神经网络模型d-hgmat(dual-channel auto encoder with heterogeneous graph multi-headed attention translational network)。重点设计有关异质图结构中边的类型、方向、以及结构等信息的特征表达模型,利用多头注意力机制扩大感受野,并提出特征结构平移机制实现全局角度下图结构的感知,从而完成图谱频繁关系模式的挖掘。
5.为了实现上述目的,本发明所采用的技术方案如下:
6.一种基于异质图神经网络的图谱频繁关系模式挖掘方法,其特征在于,包括以下步骤:
7.步骤1:获取待学习有向异质图gh(v,e);
8.步骤2:构建异质图神经网络模型;
9.步骤3:将异质图gh(v,e)输入到构建好的异质图神经网络模型,挖掘频繁出现的关系模式;
10.步骤4:基于步骤3得到的关系模式进行实体类型预测或知识推理。
11.进一步地,步骤2构建的异质图神经网络模型包括特征输入层、双通道自动编码
层、多头注意力层以及特征结构平移层;
12.所述特征输入层为异质图神经网络模型的输入端,用于将边或关系的类别、方向信息映射到同一空间并进行节点级别的表示;
13.所述双通道自动编码层连接在特征输入层之后,用于对特征进行筛选并降维;
14.所述多头注意力层连接在双通道自动编码层后,用于接收降维后的结果,其引入多头注意力机制通过消息传递获得一定范围内的结构信息,实现该范围内的结构感知;
15.所述特征结构平移层连接在多头注意力层后,其是基于传统卷积神经网络的平移不变性得出的特征结构平移机制,用于输出异质图中的频繁模式以及各结构的分布。
16.进一步地,所述特征输入层将边或关系相关信息映射到同一空间并进行节点级别的表示的具体步骤为:针对异质图中某个非孤立节点nodei而言,从nodei指出的边用向量outi表示,指向nodei的边用向量ini表示,出边存在的每一种状态,即在outi的相应位置将该状态置为1,入边同理,将最后将outi与ini按行拼接为一个2n维的新向量,并记为veci;针对孤立节点,其向量以全零表示;最终将输入的不同类型的异质边映射到同一空间中。
17.进一步地,所述双通道自动编码层采用单层全连接神经网络作为自动编码器,该自动编码层包括两个通道,其中通道一用于对节点的出边out向量编码,通道二用于对节点的入边in向量编码,所述出边out向量和入边in向量编码后的结果分别记为out

与in

,将节点i的out

与in

按行拼接为新向量vec
′i即可输入下一层,且该自动编码器的自动编码过程包括:
18.步骤1:针对每一个节点node,将输入向量设为其中对应out向量的第i位编码位,对应边类型为ri,且将每个节点当做一个样本;
19.步骤2:利用所述单层全连接神经网络中的隐藏层将输出向量进行非线性变换,最终还原成n维解码向量
20.步骤3:采用梯度下降法对所述单层全连接神经网络进行训练,使用relu函数作为激活函数,使用最小均方误差作为损失函数,当与之间的差距最小时,得到中间权重
21.步骤4:将各节点node再次依次输入编码端,经隐藏层处理后得到k(k≤n)维隐层输出其中即为某个节点特征筛选以及降维后的结果。
22.进一步地,所述多头注意力层包括针对出边的注意力机制和针对入边的注意力机制,且出边和入边的操作类似,针对出边:
23.使用权重矩阵a
ij
表示邻居节点对目标节点的消息传递权重,其公式定义为:
[0024][0025]
其中,a为变换权重向量,k为变换权重矩阵,out
′i表示节点i的出边特征,||表示连接操作符,n(i)表示节点i的邻居节点,包含节点i自身,激活函数使用leakyrelu函数,其泄露值取0.2;
[0026]
通过对消息传递权重a
ij
的学习,可得目标节点向量更新公式为:
[0027]
out
″i=σ(∑
k∈n(i)aik
kout
′k)(2)
[0028]
其中,out
″i表示经更新后节点i的出边特征向量;
[0029]
针对入边的操作类似,将结果进行拼接得到输出结果,如式(3)所示:
[0030]
vec
″i=out
″i||in
″i=σ(∑
k∈n(i)aik
kout
′k)||σ(∑
k∈n(i)a′
ikk′
in
′k)(3),
[0031]
其中,vec

表示出边和入边拼接结果,a

ik
表示编码后的变换权重向量,k

表示编码后的变换权重矩阵。
[0032]
进一步地,所述平移不变性是指:任意两点a、b在式及式下具有的平移不变性,其中m、n由编码权重矩阵w与多头注意力转换矩阵a经式(4)、(5)计算得出,使相同结构仍保持统一表示,m、n在某次模型训练中保持不变,并且:
[0033][0034][0035]
其中,σ1、σ2均为w
·wt
经特征值分解后得到的对角阵,σ1的对角线元素由小到大排列,σ2的对角线元素由大到小排列,q1、q2为特征变换矩阵。
[0036]
进一步地,所述特征结构平移层通过遍历所有节点特征向量vec
″i,计算节点之间在m、n矩阵下的平移系数,得到平移系数矩阵,结果记为矩阵tm与tn,且tm和tn为对称矩阵,tm(i,j)表示节点i与节点j之间在m矩阵下的平移系数,对矩阵tm和tn中相同的非0值进行统计,若两两节点之间平移系数相同,且满足式(4)和式(5)传递性质,则节点i与节点j所在结构存在相同的出边或入边。
[0037]
本发明的有益效果是:
[0038]
本发明提出的异质图神经网络模型利用多通道编码层与多头注意力层保留原始边的类型、方向、结构等信息;并提出模型的平移不变性,在多头注意力层后加入特征结构平移层,获得频繁出现的异质结构并保留,完全不同的结构则表达为0。仿真实验结果表明本模型可在知识图谱中完成频繁关系模式挖掘任务,同时在时间效率上具有明显优势,关注边与结构信息,主要适用于边类型较多、蕴含重要结构特征的异质图。基于该模型,我们可以更快速有效地获取异质图里的频繁模式,在此基础上可以继续完成实体类型的预测、知识推理、智能问答等多种基于知识图谱的自然语言处理任务。
附图说明
[0039]
图1为知识图谱中的频繁关系模式;
[0040]
图2为本发明提出的异质图神经网络模型框架示意图;
[0041]
图3为以含有四种类型边的异质图为例展现输入表示过程;
[0042]
图4为自动编码过程示意图;
[0043]
图5为本发明的异质图神经网络模型不变性证明图;
[0044]
图6为特征结构平移层的主要结构示意图;
[0045]
图7为不同方法在同一环境下的运行时间。
具体实施方式
[0046]
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
[0047]
本发明提出一种基于异质图神经网络的图谱频繁关系模式挖掘方法模型d-hgmat,模型框架如图2所示。该模型关注异质图边及结构信息的保留,由特征输入层、双通道自动编码层、多头注意力层以及特征结构平移层组成。
[0048]
所述特征输入层用于将不同类型的异质边映射到同一空间中;
[0049]
所述双通道自动编码层旨在对特征进行筛选并降维;
[0050]
所述多头注意力层通过引入多头注意力机制扩大节点的感受野;
[0051]
所述特征结构平移层灵感来源于卷积神经网络的平移不变性,并从全局层面出发利用特征的平移不变性挖掘频繁出现的异质结构。下面对每一层进行介绍。
[0052]
一、特征输入层
[0053]
该层是模型的输入端,主要将输入该模型的有向异质图(例如知识图谱gh(v,e))的边(关系)的类别、方向信息映射到同一空间并进行节点级别的表示。针对知识图谱gh(v,e)这类有向异质图而言,v是由有限个不同类型的顶点构成,e由有限种不同类型的边构成。假设边集合e中存在n种不同的元素,定义两个n维空间向量out和in,均利用n个状态寄存器记录n种不同类型的边,每种类型的边均有独立的编码位。
[0054]
针对异质图中某个非孤立节点nodei而言,从nodei指出的边用向量outi表示,指向nodei的边用向量ini表示。出边存在的每一种状态,即在outi的相应位置将该状置为1,入边同理。最后将outi与ini按行拼接为一个2n维的新向量,记为veci。
[0055]
如图3所示,以含有四种类型边的异质图为例,节点i含有两条出边与四条入边,出边类型分别为r1、r3,入边类型分别为r1、r2、r3和r4。最终的节点表示为8维向量,前4位表示节点指出的结构信息,后4位表示指入的结构信息,以节点作为边和结构信息的表示媒介。
[0056]
针对孤立节点,其向量以全零表示。除了孤立节点,其余节点都至少与一条边关联,因此任何有向异质图,若不考虑孤立顶点,节点附近关系信息可以由其边集完全表示。
[0057]
二、双通道自动编码层
[0058]
知识图谱中存在海量关系,独热表示会面临“维度爆炸”等问题。为了完成特征筛选以及降维等工作,该模型在输入层后加入一个基于边信息的双通道节点自动编码层,旨在尽可能多地保留原始信息,同时使维数降低。
[0059]
自动编码器(auto encoder)常被用来处理高维复杂数据,以传统的全连接神经网络作为基础。一般由两个部分组成,即编码器端(encoder)与解码器端(decoder),编码器端对应编码函数h=f(x),解码器端对应解码函数r=g(h)。自动编码器设置输入端和输出端数据相同,隐藏层用来学习彼此相关的输入特征。近些年,其改进版本逐步提出,例如变分自编码器、去噪自编码器和融减自编码器等。由于异质图中目标节点的指入边与指出边是不相关的,基于此提出多通道自动编码层,分别针对出边结构与入边结构。
[0060]
本模型为了最大化保留原始信息,使用单层全连接神经网络作为自动编码器。且
其包括两个通道,通道一用于对节点的上一层的n维空间向量出边out向量编码,通道二用于对节点的入边in向量编码,各通道输入端与输出端的维数均为n。以通道一为例,自动编码过程如图4所示。其具体包括以下几步:
[0061]
(1)针对每一个节点node,输入向量设为其中对应out的第i位编码位,对应边类型为ri,且该模型将每一个节点视为一个样本;
[0062]
(2)利用隐藏层对输入向量进行非线性变换,最终还原成n维解码向量
[0063]
(3)输入向量与解码向量应尽可能一致,需要对该神经网络进行训练优化。采用梯度下降法对其进行训练,激活函数使用表达能力更强的relu函数,使用最小均方误差作为损失函数,期望与之间的差距最小,最终得到中间权重与以及各层的偏置等信息;
[0064]
(4)将样本再次经编码端输入,得到k(k≤n)维隐层输出得到k(k≤n)维隐层输出即为某个节点特征筛选以及降维后的结果。
[0065]
虽然特征提取过程基于整体误差最小的准则,但模型更侧重其降维能力,产生的损失仍需要在下文考虑消除。将每个节点的out和in分别利用通道一和通道二进行训练,两者编码后的结果分别记为out

与in

,将节点i的out

与in

按行拼接为新向量vec
′i,作为降维后的结果输入下一层中。
[0066]
三、多头注意力层
[0067]
由于异质图节点之间可能存在一跳或多跳的关系,节点与节点之间的关系也可能受到邻居节点的影响。据此模型引入多头注意力机制,旨在通过消息传递获得若干跳节点范围内的结构信息。多头注意力层可以有效扩大节点的感受野,通过多层的信息传递实现上述范围内的结构感知。本发明基于双头注意力机制分别对出边和入边分别建模,为特征结构挖掘提供基础。
[0068]
与双通道自动编码层类似,首先考虑针对出边的注意力机制。使用权重矩阵a
ij
表示邻居节点对目标节点的消息传递权重,定义公式如(1)所示:
[0069][0070]
式中,a为变换权重向量,k为变换权重矩阵,out
′i表示节点i的出边特征,由上一步自动编码获得,||表示连接操作符,n(i)表示节点i的邻居节点(包含节点i自身),激活函数使用比relu函数修正效果更好的leakyrelu函数,其中leakyrelu函数的泄露值一般取0.1至0.2,本模型统一取0.2。
[0071]
通过对消息传递权重a
ij
的学习,可得目标节点向量更新公式:
[0072]
out
″i=σ(∑
k∈n(i)aik
kout
′k)(2)
[0073]
式中:out
″i表示经更新后节点i的出边特征向量,针对入边的操作类似,将结果进行拼接得到输出结果,如式(3)所示:
[0074]
vec
″i=out
″i||in
″i=σ(∑
k∈n(i)aik
kout
′k)||σ(∑
k∈n(i)a′
ikk′
in
′k)(3)
[0075]
经过一次多头注意力层后,节点可以接收到来自其邻居的信息,经过该层若干次叠加,可以扩大节点层面的感受野,节点层面上可以感知附近区域内的信息,完成节点嵌入与局部结构表示的等价性。
[0076]
该过程可以用矩阵vec

=vec

·
a表示,其中a是多头注意力转换矩阵。若仅考虑实体节点的一阶结构,即只关注节点的一阶关系,则多头注意力层可以不予添加,此时双通道自动编码层后连接特征结构平移层。
[0077]
四、特征结构平移层
[0078]
本模型最终目标是在全局角度下获得一些频繁出现的关系模式。其从传统卷积神经网络的平移不变性中获得灵感,提出模型的特征结构平移机制,构建特征结构平移层,从而从全局角度挖掘频繁出现的结构信息并保留。
[0079]
已知卷积神经网络具有平移不变性,即某区域的特征经过平移,在各层中的某些表达也是一致的。原因在于卷积神经网络被定义为特征检测器,经过卷积层与池化层后特征的相对位置不会发生变化,即使目标发生平移,仍能提取平移之后的特征。以此作为出发点,如附图5所示,相同的结构在多层后仍保留某些相同的计算特性,据此构建特征结构平移层,从而加速计算,提升模型挖掘频繁结构的能力。
[0080]
(1)证明平移不变性
[0081]
假设在异质图中a、b节点存在相同结构,其利用节点独热表示后向量分别为veca、vecb,分别由outa、ina与outb、inb构成,其满足式(6):
[0082][0083]
式(6)的值与相似结构的边数有关,该式的结果应为相似结构的总边数之和。反之,异质图中完全不相同的结构(任意一条出边或入边皆不相同)的vec向量经式(6)计算结果应等于0。
[0084]
式(6)经自动编码层与多头注意力层后,可转化为式(7),其中w是编码权重矩阵,a是多头注意力转换矩阵:
[0085][0086]
该式受到自编码器损失影响,由于编码过程w与添加注意力过程a是可见的,可构建m、n代入式(7)从而减少二者对最终结果影响,得式(8)、(9):
[0087][0088]
[0089]
以a、b为例,初始独热向量veca与vecb重合的部分记为veco,可推出式(10):
[0090][0091]
由于(vec
a-veco)、(vec
b-veco)与veco两两之间相互正交,式(10)最终化简为式(11):
[0092][0093]
由于m的模不为0,则veco不为零向量时,显然结果也不为0。若a与b不存在相似结构,则veco为零向量,则结果也为0。记式(11)为a与b在m矩阵下的平移系数,若存在c与a、b结构相同,则则的结果也与式(11)相同。图谱中多次出现的相同结构,他们之间平移系数均是一致的,即相同结构的平移系数具有传递性,同理可得a与b在n矩阵下的平移系数。
[0094]
(2)结论
[0095]
根据上述平移不变性的证明可得出结论:任意两点a、b在式及式下具有平移不变性,其中m、n由编码权重矩阵w与多头注意力转换矩阵a经式(4)、(5)计算得出,两式旨在减少编码过程产生的误差,同时降低注意力层带来的计算复杂度,使相同结构仍保持统一表示,m、n在某次模型训练中保持不变。
[0096]
本模型利用平移系数的传递性质,设计特征结构平移层用于获得频繁出现的异质图结构,主要结构如附图6所示。可以看出,该层从全局角度考量局部结构的相似性,通过遍历所有节点特征向量vec
″i,计算节点之间在m、n矩阵下的平移系数,得到平移系数矩阵,结果记为矩阵tm与tn。该矩阵是一个对称矩阵,tm(i,j)表示节点i与节点j之间在m矩阵下的平移系数。该层运算均以矩阵形式完成,可通过并行加速提升挖掘能力。
[0097]
对矩阵中相同的非0值进行统计,若两两节点之间平移系数相同,且满足传递性质,其所在结构可能存在相同的出边或入边。针对平移层提出以下操作以获得每种结构(即相同的出边或入边结构)出现的频次:
[0098]
(1)仅考虑tm、tn对称矩阵上半部分n(n+1)/2个元素,对角线元素表示各节点自身结构。在非对角线元素中统计非0元素出现频次;
[0099]
(2)在tm矩阵中,将相同非0元素对应节点集合分别记为β1,β2,β3,

,βn;
[0100]
(3)在tn矩阵中,再次考察β1,β2,β3,

,βn等集合中的元素,判断两两之间是否存在传递性,若存在则认为这些节点存在相同结构;若某些节点不符合传递性质,则将该节点从集合中删去除,经过筛选后的集合记为β
′1,β
′2,β
′3,


′n;
[0101]
(4)分别按元素个数排列β
′i集合,即可获得出现较频繁的结构以及相对应的节点位置。若需要搜寻某结构在图谱中的出现位置,只需要针对该结构中心节点进行特征建模,得到平移系数后在两个矩阵中搜索即可。
[0102]
实施例
[0103]
为进一步验证本发明提出的算法在模拟多目标跟踪场景中的有效性,进行相关的仿真实验。
[0104]
1、实验方法
[0105]
先在几个知识图谱子集中进行模型验证,并与传统遍历方法比较相同关系模式提取效率;再利用链接预测任务对该模型特征表达能力进行评价,并对结果进行分析。
[0106]
2、数据集选择
[0107]
为了保证自编码训练效果,数据集需要达到一定规模。本发明使用两个知识图谱子集fb15k-237、wn18rr对该模型进行验证,两者分别代表两种异质图:
[0108]
(1)fb15k-237数据集:是大型知识库freebase的子集,包含237种关系和14k种实体。其关系(边)种类较多,实体(节点)之间的联系较频繁,展现比较稠密。
[0109]
(2)wn18rr数据集:是大型知识库wordnet的子集,包含18种关系和40k种实体。相较于fb15k-237数据集,wn18rr有更多的实体(节点),但关系(边)种类非常少,关系较为稀疏。
[0110]
3、关系模式提取
[0111]
根据本文提出的d-hgmat模型,从两个数据集fb15k-237、wn18rr中找出频繁关系模式。经验证,该模型与apriori、传统遍历算法的挖掘结果相同,并给出最频繁的几种关系模式实例,如表1所示。
[0112]
表1频繁关系模式挖掘结果实例
[0113][0114]
从效率层面分析,不同方法在同一环境下的运行时间如附图7所示。
[0115]
4、链接预测任务
[0116]
本发明将该模型运用到链接预测任务中以验证其在特征表达中的能力。针对链接预测任务,本发明将关系表示定义为节点向量表示之差的归一化平均,如式(12)所示:
[0117]
vec

edge
=∑αi(vec

out-vec

in
)(12)
[0118]
式中:αi是经softmax归一化后的权值,由头尾节点总边数决定。通过与传统联合表示学习方法比较,最终实验结果对比如表2所示。
[0119]
表2不同模型链接预测效果对比
[0120][0121]
5、实验结果分析
[0122]
实验结果表明,该模型可在知识图谱中完成频繁关系模式挖掘任务,同时在时间效率上具有明显优势,在两个图谱上平均时间效能提升53.15%。在链接预测任务中,传统方法往往对边和结点的表示进行联合学习,本发明利用节点级别的嵌入表示反映局部结构信息,利用头尾节点信息差表示关系特征,最终实验结果表明该模型更适合含有边类型较多的异质图中(fb15k-237),当异质边种类较少时(wn18rr)表现不佳,原因在于编码位减少,导致特征表达能力不足。总体而言,在fb15k-237数据集上的各项评价参数上与其他联合表示学习方法类似,整体结果比较稳定,较r-gcn等模型有所提升。该模型在wn18rr数据集上表现不佳,仅mean rank(mr)指标优于其他模型,最主要原因是数据集仅含有11种关系,因此在输入端建模时最多只有22位信息编码,表达能力欠佳。
[0123]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1