本技术涉及人工智能,尤其涉及一种知识图谱自动纠错方法、控制装置、设备和存储介质。
背景技术:
1、在卡奥斯赋能的化工园区项目中,由于化工园区中企业多,物料种类繁多,关系错综复杂等,在构建图谱过程中发现,极容易出现错误节点等噪声问题,会导致严重影响图谱产业链查询、推理分析的准确性和有效性。
2、目前,对于知识图谱的纠错研究主要集中在基于规则方法或者基于知识图谱嵌入损失的方法进行纠错。
3、传统的基于规则方法的图谱纠错,需要大量人工的工作,并且构建专业领域规则还需领域专家,这种方法的成本比较高,且规则库维护和运营也需要耗费不少精力。
4、传统的基于知识图谱嵌入的方法虽然减少了对人工和领域专家的依赖,但是其在训练时所需的负样本,一般由随机简单替换三元组中的头部或者尾部实体生成,这种简单负采样策略无法适应复杂的实际场景,导致在实际生产环境中纠错的效果不佳。
技术实现思路
1、本技术提供一种知识图谱自动纠错方法、控制装置、设备和存储介质,用以解决传统的基于知识图谱嵌入的方法无法适应复杂实际场景,导致在实际生产环境中纠错的效果不佳的问题。
2、第一方面,本技术提供一种知识图谱自动纠错方法,包括:
3、根据园区知识图谱g生成园区整体超图,以及根据所述园区内各个企业的企业知识图谱g,生成每个企业对应的企业局部超图;
4、构造所述园区知识图谱g的三元组(h,r,t)的目标负例,利用所述目标负例获得所述三元组的初始向量表示(h,r,t);
5、根据所述园区整体超图获取园区超图节点的全局嵌入表示xi,以及根据所述企业局部超图获取企业超图节点的全局嵌入表示yi;
6、根据所述初始向量表示(h,r,t)得到kg嵌入损失,根据所述全局嵌入表示xiyi获取超图损失;
7、根据所述kg嵌入损失和所述超图损失获取所述三元组(h,r,t)的联合置信度评分,并根据所述联合置信度评分进行图谱自动纠。
8、在一种可能的实施方式中,所述构造所述园区知识图谱g的三元组(h,r,t)的目标负例,包括:
9、对所述三元组(h,r,t)中的实体进行替换处理,得到所述三元组(h,r,t)的候选负例;
10、通过word2vec模型训练得到企业节点词向量表示xi和与物料节点词向量表示yi
11、获取园区知识图谱中的企业节点在向量空间中的平均嵌入表示:
12、获取园区知识图谱中的物料节点在向量空间的平均嵌入表示:
13、当满足条件和满足条件时,将所述候选负例作为所述目标负例。
14、其中n:园区知识图谱中企业节点个数,m:园区知识图谱中物料节点个数,β1:第一阀值;β2:第二阀值,ai:园区知识图谱中企业节点的替换节点的词向量表示,bi:园区知识图谱中物料节点的替换节点的词向量表示。
15、在一种可能的实施方式中,所述利用所述目标负例获得所述三元组的初始向量表示(h,r,t),包括:
16、将所述目标负例三元组的关系和对应的原始三元组中的关系初始化为符合正态分布的随机向量
17、将所述目标负例三元组的头实体和对应的原始三元组中的头实体初始化为符合正态分布的随机向量
18、将所述目标负例三元组的尾实体和对应的原始三元组中的尾实体初始化为符合正态分布的随机向量
19、通过bi-lstm模型训练得到所述三元组的初始向量表示(h,r,t)。
20、在一种可能的实施方式中,所述根据所述园区整体超图获取园区超图节点的全局嵌入表示xi,包括:
21、拼接所述初始向量表示(h,r,t),获取所述园区整体超图的节点嵌入qi:qi=(hi;ri;ti);
22、获取qi与相邻的k个节点中每个节点qj的第一相关性分数:αij=qi*qj,其中,j=1...k,k为正整数;
23、根据所述与第三阀值μ,得到其中,所述
24、根据所述和所述qi,通过sigmoid函数获取所述园区超图节点的全局嵌入表示xi:其中,σ∈(0,1);
25、所述根据所述企业局部超图获取企业超图节点的全局嵌入表示yi,包括:
26、初始化所述企业局部超图节点嵌入pi;
27、获取pi与相邻的k个节点中每个节点pj的第二相关性分数:βij=pi*pj,其中,j=1...k,k为正整数;
28、对所述第二相关性分数进行归一化处理,得到归一化处理后的第二相关性系数
29、根据所述与所述第三阀值μ,得到其中,所述
30、根据所述和所述pj,通过sigmoid函数获取所述企业超图节点的全局嵌入表示yi:
31、在一种可能的实施方式中,所述根据所述全局嵌入表示xiyi获取超图损失,包括:
32、获取所述xi与所述yi的第三相关性分数cos(xi,yi);
33、获取所述园区整体超图与每个所述企业局部超图的损失函数:
34、
35、获取所述园区整体超图与所有所述企业局部超图的损失函数:
36、
37、其中,c:企业局部超图中节点数量,d:园区企业数量,τ:超参数,用于控制损失函数对正负例敏感性。
38、在一种可能的实施方式中,所述根据所述初始向量表示(h,r,t)得到kg嵌入损失,包括:
39、基于transd模型训练初始向量表示(h,r,t),得到评分函数定义为:
40、
41、其中,mrh=rphpt+i为头实体投影到关系空间的投影矩阵,mrt=rptpt+i为尾实体投影到关系空间的投影矩阵,i为单位矩阵,rp、hp、tp为头实体、关系、尾实体对应的投影向量。
42、在一种可能的实施方式中,所述根据所述kg嵌入损失和所述超图损失获取所述三元组(h,r,t)的联合置信度评分,包括:
43、根据所述kg嵌入损失与所述超图损失,得到联合置信度评分:
44、com(h,r,t)=σ(cos(xi,yi)-λfr(h,t))
45、其中,所述λ用来权衡嵌入损失与超图损失的贡献权重,σ为sigmoid函数将联合置信度评分映射至(0,1)区间,所述联合置信度评分越趋近于0则所述三元组(h,r,t)为异常三元组的概率越大。
46、在一种可能的实施方式中,所述根据所述联合置信度评分进行图谱自动纠错,包括:
47、随机保留联合置信度评分低于第四阈值的三元组中的两个元素,获取三个空槽二元组;
48、在知识图谱中搜索填补空槽的三元组,填补所述空槽二元组,得到备选三元组;获取所述备选三元组的联合置信度评分,选取联合置信度评分最高且高于所述第四阈值的备选三元组,替换所述联合置信度评分低于第四阈值的三元组。
49、第二方面,本技术提供一种知识图谱自动纠错的控制装置,包括:
50、生成模块,用于根据园区知识图谱g生成园区整体超图,以及根据所述园区内各个企业的企业知识图谱g,生成每个企业对应的企业局部超图;
51、获取模块,用于构造所述园区知识图谱g的三元组(h,r,t)的目标负例,利用所述目标负例获得所述三元组的初始向量表示(h,r,t);
52、所述获取模块,还用于根据所述园区整体超图获取园区超图节点的全局嵌入表示,以及根据所述企业局部超图获取企业超图节点的全局嵌入表示;
53、所述获取模块,还用于根据所述初始向量表示(h,r,t)得到kg嵌入损失,根据所述全局嵌入表示获取超图损失;
54、控制模块,用于根据所述kg嵌入损失和所述超图损失获取所述三元组(h,r,t)的联合置信度评分,并进行图谱自动纠错。
55、在一种可能的实施方式中,所述获取模块,还用于对所述三元组(h,r,t)中的实体进行替换处理,得到所述三元组(h,r,t)的候选负例;
56、通过word2vec模型训练得到企业节点词向量表示xi和与物料节点词向量表示yi;
57、获取园区知识图谱中的企业节点在向量空间中的平均嵌入表示:
58、
59、当满足条件和满足条件时,将所述候选负例作为所述目标负例。
60、其中n:园区知识图谱中企业节点个数,m:园区知识图谱中物料节点个数,β1:第一阀值;β2:第二阀值,ai:园区知识图谱中企业节点的替换节点的词向量表示,bi:园区知识图谱中物料节点的替换节点的词向量表示。
61、在一种可能的实施方式中,所述获取模块,还用于将所述目标负例三元组的关系和对应的原始三元组中的关系初始化为符合正态分布的随机向量
62、将所述目标负例三元组的头实体和对应的原始三元组中的头实体初始化为符合正态分布的随机向量
63、将所述目标负例三元组的尾实体和对应的原始三元组中的尾实体初始化为符合正态分布的随机向量
64、通过bi-lstm模型训练得到所述三元组的初始向量表示(h,r,t)。
65、在一种可能的实施方式中,所述获取模块,还用于拼接所述初始向量表示(h,r,t),获取所述园区整体超图的节点嵌入qi:qi=(hi;ri;ti);
66、获取qi与相邻的k个节点中每个节点qj的第一相关性分数:αij=qi*qj,其中,j=1...k,k为正整数;
67、对所述第一相关性分数进行归一化处理,得到归一化处理后的第一相关性系数
68、根据所述与第三阀值μ,得到其中,所述
69、根据所述和所述qi,通过sigmoid函数获取所述园区超图节点的全局嵌入表示xi:其中,σ∈(0,1);
70、所述根据所述企业局部超图获取企业超图节点的全局嵌入表示yi,包括:
71、初始化所述企业局部超图节点嵌入pi;
72、获取pi与相邻的k个节点中每个节点pj的第二相关性分数:βij=pi*pj,其中,j=1...k,k为正整数;
73、对所述第二相关性分数进行归一化处理,得到归一化处理后的第二相关性系数
74、根据所述与所述第三阀值μ,得到其中,所述
75、根据所述和所述pj,通过sigmoid函数获取所述企业超图节点的全局嵌入表示yi:
76、在一种可能的实施方式中,所述获取模块,还用于获取所述xi与所述yi的第三相关性分数cos(xi,yi);
77、获取所述园区整体超图与每个所述企业局部超图的损失函数:
78、
79、获取所述园区整体超图与所有所述企业局部超图的损失函数:
80、
81、其中,c:企业局部超图中节点数量,d:园区企业数量,τ:超参数,用于控制损失函数对正负例敏感性。
82、在一种可能的实施方式中,所述获取模块,还用于基于transd模型训练初始向量表示(h,r,t),得到评分函数定义为:
83、
84、其中,mrh=rphpt+i为头实体投影到关系空间的投影矩阵,mrt=rptpt+i为尾实体投影到关系空间的投影矩阵,i为单位矩阵,rp、hp、tp为头实体、关系、尾实体对应的投影向量。
85、在一种可能的实施方式中,所述控制模块,还用于根据所述kg嵌入损失和所述超图损失获取所述三元组(h,r,t)的联合置信度评分:
86、com(h,r,t)=σ(cos(xi,yi)-λfr(h,t))
87、其中,所述λ用来权衡嵌入损失与超图损失的贡献权重,σ为sigmoid函数将联合置信度评分映射至(0,1)区间,所述联合置信度评分越趋近于0则所述三元组(h,r,t)为异常三元组的概率越大。
88、在一种可能的实施方式中,所述控制模块,还用于根据所述联合置信度评分进行图谱自动纠错,包括:
89、随机保留联合置信度评分低于第四阈值的三元组中的两个元素,获取三个空槽二元组;
90、在知识图谱中搜索填补空槽的三元组,填补所述空槽二元组,得到备选三元组;获取所述备选三元组的联合置信度评分,选取联合置信度评分最高且高于所述第四阈值的备选三元组,替换所述联合置信度评分低于第四阈值的三元组。
91、第三方面,本技术提供一种电子设备,至少一个处理器和存储器,其中;
92、所述存储器用于存储计算机执行指令;
93、所述至少一个处理器用于执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面所述的知识图谱自动纠错方法。
94、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的知识图谱自动纠错方法。
95、本技术提供的一种知识图谱自动纠错方法、控制装置、设备和存储介质,实现了如下技术效果:
96、1、通过生成化工园区整体超图与企业局部超图,从整体与局部的角度构造对比学习数据,从而保持整体与局部的高度一致性。
97、2、根据本技术的对比学习数据构建超图损失函数,结合超图损失和kg嵌入损失获取三元组的联合置信度评分,提高其在实际生产环境中的纠错效果。