一种基于图注意力和条件随机场的知识图谱噪声修复方法

文档序号:32742016发布日期:2022-12-30 19:24阅读:44来源:国知局
一种基于图注意力和条件随机场的知识图谱噪声修复方法

1.本发明涉及知识图谱修复的技术领域,尤其涉及一种基于图注意力和条件随机场的知识图谱噪声修复方法。


背景技术:

2.知识图谱作为一种语义网络,它的主要目标是描述真实世界中存在的各种实体、概念和属性以及它们之间的关系。现如今,知识图谱在自动问答、个性化推荐、决策支持、信息检索、自然语言处理等人工智能任务方面起着越来越重要的作用。然而,很多知识图谱并不能满足下游任务的需求,其中一个很重要的原因是因为这些知识图谱存在噪声问题。噪声问题出现的原因是由于知识图谱的建立要经过知识抽取、实体对齐、质量评估等步骤,而这些步骤是由人类或机器完成的,很难杜绝噪声三元组的出现。噪声三元组指的是存在错误实体或关系的三元组。噪声三元组修复指的是选择知识图谱内或外的实体或关系,来替换噪声三元组的错误实体或关系。
3.现有的噪声三元组修正分别从三元组的内部、关系路径和邻域中提取特征来修正噪声三元组。如bordes等人将关系看作头实体到尾实体的翻译,通过不断调整头实体、尾实体和关系的嵌入向量,尽可能使头实体向量加上尾实体向量约等于关系向量。但是这些方法忽略了知识图谱内与三元组相关的其他特征,这限制了它们处理复杂关系和修复三元组的能力。fasoulis等人不仅考虑了三元组的内部的特征,还考虑了三元组的头实体到尾实体之间的关系路径中的特征。然而,关系路径中的信息并不全面,而且并非所有的三元组都拥有关系路径。鉴于绝大多数的三元组都拥有邻域,deepak等人用从三元组的邻居组成的局部图中提取更丰富的语义特征对三元组打分的方法。但这类方法没有将关系作为局部图的节点,忽视了关系的邻域。上述三类方法的共同问题是:(1)每修正一个噪声三元组,都要遍历整个知识图谱,这极大地增加了模型的复杂度。(2)如果三元组存在一个以上的错误元素,这些方法的准确率会下降,并且它们的时间复杂度会更高。(3)上述模型不能很好地区分知识图谱中噪声与非噪声特征,随着知识图谱中的噪声增加,它们的效果很容易受到影响。


技术实现要素:

4.针对现有知识图谱噪声修复方法的复杂度大,准确率不高的技术问题,本发明提出一种基于图注意力和条件随机场的知识图谱噪声修复方法,提取噪声三元组的邻域中最有效的非噪声特征来修复该三元组,提高修复知识图谱中噪声的准确度和速度,从而提高知识图谱质量。
5.为了达到上述目的,本发明的技术方案是这样实现的:一种基于图注意力和条件随机场的知识图谱噪声修复方法,其步骤如下:
6.步骤一、根据待修复的噪声三元组寻找其各个元素的邻居节点组成邻域,根据邻域构建噪声三元组的局部图;
7.步骤二、图注意力模型利用注意力衰退机制从局部图中学习噪声三元组的邻域特征,得到所有实体和关系的特征矩阵;
8.步骤三、条件随机场通过学习局部图中各个节点的特征矩阵以及节点的类型,从局部图中选择合适的节点替换噪声三元组;
9.步骤四、输出修复后的三元组。
10.所述局部图中包括头实体s、尾实体o、关系r以及知识图谱中与s,r,o有关联的其他元素n
ij
,即局部图g={s,r,o,n
ij
}。
11.所述图注意力模型将局部图中的节点的多阶邻域信息通过注意力衰退算法整合到节点的特征矩阵中,得到节点的特征矩阵,即节点的新的嵌入表示;并从待噪声三元组及其邻域节点所组成的局部图g中,将所有的n个实体加入到集合e中,所有的m个关系加入到关系集合r中;集合e中的元素可作为头实体和/或尾实体,所述条件随机场从头实体集合、关系集合r、尾实体集合中选择合适的元素修复噪声三元组的元素。
12.所述步骤一的实现方法为:利用transe模型得到三元组f={s,r,o}的初始嵌入矩阵{h1,h2,h3};找到三元组f的邻域,组成局部图g={h1,h2,h3,......,h
l
},其中,hi为图的节点的初始嵌入矩阵,节点是实体或关系,l表示图中节点的最大数量。
13.所述步骤二图注意力模型的实现方法为:初始化路径数量n=n,若n=0,按照邻域节点的类型,添加到实体集合e和关系集合r中,否则计算邻域结点的邻域特征,并根据邻域节点的类型,添加到实体集合e和关系集合r中;其中n为噪声三元组中实体的个数。
14.所述注意力衰退机制的实现方法为:使用leakyrelu()激活函数对相关系数e(i,j)进行激活,经过归一化后得到中心节点hi和节点hj的注意力系数α(i,j)为:
[0015][0016]
其中,softmax()表示归一化函数,表示激活函数,exp表示指数函数;
[0017]
中心节点hi的特征为
[0018]
将初始嵌入矩阵加入到中心节点hi的特征中得到特征矩阵:
[0019][0020]
引入多个相互独立的注意力头,将各个注意力头的输出结果取平均,得到中心节点hi的邻域矩阵:
[0021]
其中,head表示注意力头的数量;σ(
·
)是激活函数,

表示hadamard乘积,w3和w4均为参数矩阵,w2为参数矩阵,χ(i,j)为平衡参数;且mj表示中心节点hi的邻居节点hj出现的次数;mi为中心节点hi的所有邻居节点的数量,β表示超参数,max[
·
]表示取最大值函数。
[0022]
所述相关系数e(i,j)的计算方法为:
[0023]
e(i,j)=a
t
·
μ
l
·
([w1·hi
||w1·hj
]),j∈ni且μ
l
=μ0·
θ
l-1

[0024]
其中,[
·
||
·
]表示对局部图g中的中心节点hi和节点hj的变换后的特征的拼接,a为前馈神经网络,w1为参数矩阵,ni为节点hi的邻居的数量,μ
l
表示第l跳邻居节点hj对于中心节点hi的注意力衰退系数,μ0为注意力衰退系数μ
l
的初始值,θ表示一个介于0和1之间的超参数。
[0025]
所述条件随机场从实体集合e和关系集合r中,选择合适的实体和关系修复噪声三元组f,实施方法为:
[0026]
以矩阵的形式表示条件随机场,引进特殊的起点和终点状态标记y0=start、y4=stop分别表示状态序列y的开始与终止状态,并定义状态序列和观测序列分别为:
[0027]
y={y0=start,y1=s∈s,y2=r∈r,y3=o∈o,y4=stop};x={x1=s,x2=r,x3=o};
[0028]
状态序列y是从头实体集合e、关系集合r和尾实体集合中抽取的不同元素所组成的状态序列,状态序列y中的每一个状态都是实体或关系;
[0029]
在输入的实体和关系集合给定的情况下,被预测的状态序列y的概率为:
[0030]
d(x)={di(y
i-1
,yi|x)};
[0031][0032][0033]
其中,d是m
×
n阶的矩阵,m是状态y
i-1
的取值数量,n是状态yi的取值数量,矩阵di(y
i-1
,yi|x)代表状态y
i-1
的m种取值到状态yi的n种取值的转移概率;z(x)是归一化因子,tk为转移特征,且表示从状态y
i-1
的取值到状态yi的条件概率;s
l
是状态特征,表示当前位置是状态yi的概率;k∈[1,k]表示转移特征的个数;l∈[1,l]表示状态特征的个数,l、k分别表示转移特征和状态特征的总数量;i∈[1,3]表示位置序号;λk和μ
l
是对应的权值;
[0034]
计算条件概率p
ω
(y|x),取能使非规范化的条件概率p
ω
(y|x)最大的sk,rk,ok替换原三元组中的三元素,即:
[0035]
p
ω
(y1=sk,y2=rk,y3=ok|x)=max[p
ω
(y|x)]
[0036]
其中,max[
·
]表示最大值函数。
[0037]
所述条件概率通过多个矩阵的乘积来表示:
[0038]

[0039]
其中,z
ω
(x)表示规范化因子,是以y0=start为起点,以y4=stop为终点通过状态的所有y1,y2,y3的非规范化概率d1(x)、d2(x)、d3(x)、d4(x)之和;且p
ω
(y|x)∈[0,1]。
[0040]
所述转移特征和状态特征分别为:
[0041]
tk(y
i-1
,yi,x,i)=g(y
i-1
)
·
g(yi)
·
γ;
[0042]
λk=α(y
i-1
,yi);
[0043]sl
(yi,x,i)=g(yi);
[0044]
[0045][0046]
其中,γ为惩罚项,当状态y
i-1
和yi的取值都为三元组的原始元素时,γ=γ0=1,表示tk(y
i-1
,yi,x,i)不受任何惩罚;当状态y
i-1
和yi的取值只有一个为三元组的原始元素时,γ=γ1<1表示对tk(y
i-1
,yi,x,i)进行轻微惩罚;当状态y
i-1
和当yi的取值都不为三元组的原始元素时,对tk(y
i-1
,yi,x,i)进行严厉惩罚;α(y
i-1
,yi)表示状态y
i-1
,yi在图中的注意力系数的l2范数;g(yi)表示状态yi在集合中被抽到概率,s
l
(yi,x,i)表示状态特征,表示当前位置是状态yi的概率;μ
l
表示状态yi的邻域特征矩阵的l2范数;
[0047]
引入了crf的转移矩阵代表了状态之间转移的非规范化概率为:
[0048]
d1(x)=d1(y0,y1|x)=[d1(y0,s0|x),d1(y0,s1|x),......,d1(y0,s
p
|x)];
[0049][0050][0051]
d4(x)=d4(y3,y4|x)=[d4(o0,y4|x),d4(o1,y4|x),......,d4(o
p
,y4|x)]。
[0052]
且得分为:
[0053][0054]
损失函数且
[0055][0056]
其中,δ2是边际常数,d是原始的三元组集合,是被损坏的三元组的集合。
[0057]
与现有技术相比啊,本发明的有益效果:
[0058]
1)本发明提出了一种编码器-解码器模型,采用图注意力模型作为编码器,采用条件随机场作为解码器;图注意力模型学习三元组的邻域特征并输出,条件随机场从三元组的邻域中挑选出合适的特征修复噪声三元组。
[0059]
2)本发明提出的图注意力-条件随机场从噪声三元组的邻域中选择合适的元素修复噪声三元组中的元素,而不是像传统的噪声修正方法,从整个知识图谱中寻找元素来修复噪声三元组中的元素,以提高修复噪声的效率。
[0060]
3)本发明可以修复绝大部分类型的噪声三元组,尤其是当噪声三元组存在多个错误元素时,并在知识图谱噪声修复实验中取得了良好的效果。
附图说明
[0061]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0062]
图1为一个存在噪声三元组的知识图谱的子集示意图。
[0063]
图2为本发明的流程图。
[0064]
图3为本发明条件随机场的处理流程图。
[0065]
图4为在添加了20%噪声的数据集fb15k上本发明与基线方法的对比示意图。
[0066]
图5为在添加了20%噪声的数据集nell995上本发明与基线方法的对比示意图。
具体实施方式
[0067]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0068]
如图1所示,知识图谱中存在噪声三元组f1={教师,属于,数学}和f2={大学生,教授,学生}。三元组f1和f2中存在一个或多个的错误实体或错误关系,比如三元组f1的头实体“教师”可能是错误的,正确的头实体可能是“线性代数”;或者三元组f1的关系“属于”可能是错误的,正确的关系可能是“专业”;或者三元组f1的尾实体“数学”可能是错误的,正确的关系可能是“职工”。如果能从知识图谱中挑选正确的实体和关系替换三元组f1和f2的实体或关系,即可完成三元组修正,比如“线性代数”替换三元组f1的头实体“教师”,使用“专业”替换三元组f1的关系“属于”,或者使用“学生”替换三元组f1的尾实体“数学”。
[0069]
待修复三元组f1的元素“教师”、“属于”、“数学”,以及在知识图谱中与三个元素有关联的所有元素可以组成一个局部图g={s,r,o,n
ij
},其中头实体s=“教师”,关系r=“属于”,尾实体o=“数学”,n
ij
是知识图谱中与s,r,o有关联的其他元素。那么节点(头实体)s的一阶邻居节点组成的一阶邻域s1={n
11
,n
12
,r,o},二阶邻居节点组成的二阶邻域s2={n
21
,n
23
,n
24
},依次类推。其中,n
11
、n
12
、n
21
、n
23
、n
24
是知识图谱中与头实体s有关联的其他元素,又称为邻居节点。
[0070]
在局部图中,节点s的邻域对节点s有影响,但节点s的不同阶的邻域对节点s的影响是不同的。一般来说,节点s的一阶邻域节点对节点s的影响,肯定要大于二阶邻域节点对节点s的影响,以此类推。首先,图注意力模型将节点s的多阶邻域信息整合到节点的特征矩阵中,得到节点s的特征矩阵,即节点s的新的嵌入表示s

。对节点r、o以及其他节点n
ij
也执行相同的步骤,得到关系r和尾实体o及其他节点n
ij
的新的嵌入表示r

、o

和n

ij
。然后,从待修正三元组f及其邻域节点所组成的局部图g中,将所有的n个实体加入到集合e中,所有的m个关系加入到集合r中。因为,集合e中的元素可以作为三元组的头实体也可以作为尾实体,所以令s=t=e,其中,s为头实体集合,t为尾实体集合。然后,条件随机场从三个集合中选择合适的元素修复噪声三元组的元素,并与真实的非噪声三元组进行对比。
[0071]
以下为实施例:
[0072]
本发明使用知识图谱噪声检测的基准数据集fb15k和nell995,它们分别从freebase和nell知识库中抽取的信息构成。表1列出了它们的统计数据,通过表1可以看出fb15k数据集拥有较多的关系数量,因此它拥有更复杂的关系特征;而nell955数据集拥有较多的实体数量,因此它拥有更复杂的实体特征。
[0073]
表1基准数据集的统计数据
[0074][0075]
为了评估模型的性能,需要在上述的数据集中添加噪声。基本的方法是:对于给定一个正三元组(h,r,t),随机切换其中一个实体或关系以形成一个负三元组(h

,r,t)、(h,r,t

)或(h,r

,t)作为噪声。按照这个方法,对每个基准数据集都构造了含有10%、20%、40%噪声的数据集。这些有噪声的数据集与原数据集共享相同的实体集、关系集、验证集和测试集,并且生成的所有噪声都被融合到原始训练集中。
[0076]
如图2所示,本实施例一种基于图注意力和条件随机场的知识图谱噪声修复方法,包括如下步骤:
[0077]
步骤s1、根据待修复的噪声三元组f寻找其各个元素的邻居节点组成邻域,根据邻域组成局部图。
[0078]
初始化知识图谱中的实体和关系,利用transe模型得到三元组f={s,r,o}的初始嵌入矩阵{h1,h2,h3}。找到三元组f的邻域,组成局部图g={h1,h2,h3,......,h
l
},其中,hi为图的节点的初始嵌入矩阵,节点可能是实体也可能是关系,l表示图中节点的最大数量。
[0079]
步骤s2、图注意力模型利用注意力衰退机制从局部图中学习三元组的邻域特征,得到所有实体和关系的特征矩阵。
[0080]
本发明对于数量为e的噪声三元组f,找到三元组f的所有邻域中的节点。初始化三元组数量t=t,遍历所有的噪声三元组。若e=0,结束程序,否则遍历该三元组的邻域节点,数量为n。初始化路径数量n=n。若n=0,按照邻域节点的类型,添加到实体集合e和关系集合r中,否则计算邻域结点的邻域特征,并根据邻域节点的类型,添加到实体集合e和关系集合r中。
[0081]
注意力机制的实现方法为:
[0082]
s21、将局部图g中的每一个节点hi分别作为中心节点,其他节点都是节点hi的邻居节点,且将每个节点自身也视作自己的邻居。然后,计算中心节点hi和每个邻居节点之间的相关系数:
[0083]
e(i,j)=a
t
·
μ
l
·
([w1·hi
||w1·hj
]),j∈ni(1)
[0084]
且μ
l
=μ0·
θ
l-1
(2)
[0085]
其中,式(1)中的[
·
||
·
]表示对中心节点hi和节点hj的变换后的特征进行了拼接,a为前馈神经网络,w1为参数矩阵,ni为节点hi的邻居的数量。式(1)和(2)中的μ
l
表示注意力衰退系数,它表示在对于给定的中心节点hi的情况下,第l跳邻居节点hj对于中心节点hi的影响力,注意力衰退系数μ
l
初始化为μ0,而μ0=1。式(2)中的θ表示一个介于0和1之间超参数。
[0086]
s22、对相关系数e(i,j)使用leakyrelu函数激活,经过归一化后得到中心节点hi和节点hj的注意力系数α(i,j),计算方式如下所示:
[0087][0088]
其中,softmax()表示归一化函数,leakyrelu()表示激活函数,exp表示指数函数。
[0089]
对于中心节点hi来说,邻居节点hj可能不止出现一次,为了防止高频邻居和低频邻居的权重相差太大而导致的不平衡问题,本发明采用了一种平衡参数,定义如下:
[0090][0091]
其中,mj表示中心节点hi的邻居节点hj出现的次数;mi为中心节点hi的所有邻居节点的数量,β=0.1表示一个超参数。max[
·
]表示取最大值函数。
[0092]
s24、将中心节点hi与所有邻居节点的平衡参数加权求和,得到中心节点hi的特征:
[0093][0094]
其中,w2为参数矩阵。
[0095]
s25、将初始嵌入矩阵加入到中心节点hi的特征中得到特征矩阵,计算方式如下所示:
[0096][0097]
其中,σ(
·
)是激活函数,

表示hadamard乘积,w3和w4为参数矩阵。
[0098]
s26、引入多个相互独立的注意力头,将各个注意力头分别学习节点的邻域特征。然后将各个注意力头的输出结果采用取平均的策略,计算方式如下所示:
[0099][0100]
其中,head=10,表示注意力头的数量。
[0101]
s27、按照上述步骤,可以得到三元组f={s,r,o}的每个元素的邻域矩阵h

(s)、h

(r)和h

(o)以及元素的每个邻居的邻域矩阵。
[0102]
步骤s3、在条件随机场中,选择合适的实体或关系替换三元组f中的实体或关系。
[0103]
条件随机场从实体集合e和关系集合r中,选择合适的实体和关系修复噪声三元组f,如图3所示,具体实施方法如下:
[0104]
s31、按照节点类型分别添加到头实体集合e、关系集合r和尾实体集合o中,于是得到头实体集合s={s0,s1,......,s
p
},关系集合r={r0,r1,......,rq},尾实体集合o={o0,o1,
……
,o
p
}。其中,p和q分别表示实体的数量和关系的数量。s0、r0、o0分别表示f自身的头实体、关系和尾实体,即s0=s、r0=r、o0=o。
[0105]
s32、选择以矩阵的形式表示条件随机场,同时引进特殊的起点和终点状态标记y0=start,y4=stop,分别表示状态序列y的开始与终止状态,状态y0和y4取值始终为1,并定义状态序列和观测序列分别为:
[0106]
y={y0=start,y1=s∈s,y2=r∈r,y3=o∈o,y4=stop}(8)
[0107]
x={x1=s,x2=r,x3=o}(9)
[0108]
状态序列y是从头实体集合e、关系集合r和尾实体集合o这三个集合中抽取的不同元素所组成的状态序列,状态序列y中的每一个状态都是实体或关系。观测序列x=[x1,x2,x3]是输入的集合s、r和o。
[0109]
s33、在输入的实体和关系集合给定的情况下,被预测的状态序列y的条件概率为
[0110]
d(x)={di(y
i-1
,yi|x)}(10)
[0111][0112][0113]
其中,式(10)中的d是m
×
n阶的矩阵,m是状态y
i-1
的取值数量,n是状态yi的取值数量,每一个状态都是从集合中选择的实体或关系。式(11)的矩阵di(y
i-1
,yi|x)代表了状态y
i-1
的m种取值到状态yi的n种取值的转移概率。式(13)中的z(x)是归一化因子,tk为转移特征,依赖于当前和前一个位置,表示从状态y
i-1
的取值到状态yi的条件概率。式(12)中的s
l
是状态特征,表示当前位置是状态yi的概率;k∈[1,k]表示转移特征的个数;l∈[1,l]表示状态特征的个数,l、k分别表示转移特征和状态特征的总数量;i∈[1,3]表示位置序号;λk和μ
l
是对应的权值,它们的取值将在下面介绍。
[0114]
s34、为了是条件随机场尽量只替换三元组其中的一个元素,尽可能不同时替换原三元组的两个元素,甚至是全部的元素,本发明将转移特征和状态特征定义为:
[0115]
tk(y
i-1
,yi,x,i)=g(y
i-1
)
·
g(yi)
·
γ(13)
[0116]
λk=α(y
i-1
,yi)(14)
[0117]sl
(yi,x,i)=g(yi)(15)
[0118][0119][0120]
其中,式(13)和(17)中的γ为惩罚项,当状态y
i-1
和yi的取值都为三元组的原始元素时,γ=γ0=1,表示tk(y
i-1
,yi,x,i)不受任何惩罚;当状态y
i-1
和yi的取值只有一个为三元组的原始元素时,γ=γ1<1,表示对tk(y
i-1
,yi,x,i)进行轻微惩罚;当状态y
i-1
和当yi的取值都不为三元组的原始元素时,对tk(y
i-1
,yi,x,i)进行严厉惩罚。式(14)中的α(y
i-1
,yi)表示状态y
i-1
,yi在图中的注意力系数的l2范数,如式(3)所示。式(15)中的g(yi)表示状态yi在集合中被抽到概率,s
l
(yi,x,i)表示状态特征,表示当前位置是状态yi的概率。式(16)中的μ
l
表示状态yi的邻域特征矩阵的l2范数。
[0121]
s35、本发明引入了crf的转移矩阵,代表了状态之间转移的概率,形式如下:
[0122]
d1(x)=d1(y0,y1|x)=[d1(y0,s0|x),d1(y0,s1|x),......,d1(y0,s
p
|x)](18)
[0123][0124][0125]
d4(x)=d4(y3,y4|x)=[d4(o0,y4|x),d4(o1,y4|x),......,d4(o
p
,y4|x)](21)
[0126]
s36、对于输入的实体或关系的集合,被预测的状态序列的非规范化概率可以通过多个矩阵的乘积来表示,计算方式如下:
[0127][0128][0129]
其中,式(22)中的p
ω
(y|x)表示条件概率。式(22)和(23)中的z
ω
(x)表示规范化因子,是以y0=start为起点,以y4=stop为终点通过状态的所有y1,y2,y3的非规范化概率d1(x)、d2(x)、d3(x)、d4(x)之和。并且p
ω
(y|x)∈[0,1],即p
ω
(y|x)越接近1,状态y越接近真实的三元组。
[0130]
s37、取能使非规范化概率p
ω
(y|x)最大的sk,rk,ok来替换原三元组中的三元素。
[0131]
p
ω
(y1=sk,y2=rk,y3=ok|x)=max[p
ω
(y|x)](24)
[0132]
其中,max[
·
]表示最大值函数。
[0133]
本发明将模型的得分和损失函数定义如下:
[0134][0135][0136][0137]
其中,式(26)中的δ2是边际常数,δ2=0.2,式(26)和(27)中的d是原始的三元组集合,是被损坏的三元组的集合。通过神经网络的对损失函数的优化和更新,修复后的噪声三元组与正确三元组越来越接近,直到修复后的噪声三元组等于真实的三元组。
[0138]
s4、输出修复后的三元组。
[0139]
图4和图5分别展示了上述方法在添加了20%噪声的数据集fb15k、nell995上,本发明提出的图注意力-条件随机场与最先进的基线方法transe、prge、ckrl、scan、kbgan的召回率-准确率的曲线。通过图4和图5中数据可以明显看出:(1)在数据集fb15k上,当召回率为10%、50%、90%时,图注意力-条件随机场的准确率比其他基线方法提高了3.5~16.7%、4.0%~24.9%、7.5%~35.5%。(2)在数据集nell995上,当召回率为10%、50%、90%时,图注意力-条件随机场的准确率比基线方法提高了2.9%~12.8%、3.0%~23.8%、8.9%~42.6%。(3)在数据集fb15k上,图注意力-条件随机场的召回率-准确率曲
线下的面积为0.838,比其他基线方法提高了5.8%~36.9%。(4)在数据集nell995上,图注意力-条件随机场的召回率-准确率曲线下的面积为0.794,比其他基线方法提高了7.0%~52.4%。实验结果证实了本发明提出图注意力-条件随机场在修复噪声时拥有更好的效果,可以进一步提高知识图谱质量,从而提高用户体验。
[0140]
本发明用以修复知识图谱存在的噪声三元组,步骤为:首先,将噪声三元组中的实体和关系及其邻居组成一个无向图,图的节点是知识图谱中的实体或关系;然后,利用transe算法对图中的节点进行嵌入化表示。然后,根据不同的邻居对节点的不同的重要程度,图注意力模型根据注意力衰退机制,将邻居节点的信息聚合到节点的特征矩阵中。最后,条件随机场通过学习各个节点的特征矩阵以及节点的类型,从无向图中选择合适的节点修复噪声三元组。相比于从整个知识图谱中寻找元素来修复噪声三元组中的传统方法,本发明从无向图中选择合适的元素替换三元组中的元素,因为无向图的规模远远小于知识图谱的规模,所以本发明提出的图注意力-条件随机场模型比传统方法拥有更高的效率和更好的效果,可以进一步提高知识图谱质量,从而提高用户体验。
[0141]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1