一种基于图谱表示学习的知识表示学习方法与流程

文档序号:18833933发布日期:2019-10-09 04:26阅读:334来源:国知局
一种基于图谱表示学习的知识表示学习方法与流程

本发明涉及知识图谱表示学习领域,具体涉及一种基于图谱表示学习的知识表示学习方法。



背景技术:

传统的知识图谱表示学习方法大多数都基于翻译模型,例如transe模型将每个三元组实例中的关系看作从头实体到尾实体的翻译,通过数学形式上的约束来对实体和关系建模,将它们映射到相同的向量空间中,这类方法注重实体与实体之间通过关系进行转换的翻译过程,学习得到的表示保留的主要是存在直接关系的实体之间的联系,而没有直接关系的实体之间的语义关联信息丢失严重。后续有很多在此基础上的改进工作,例如将实体和关系映射到不同的空间、结合概念图挖掘语义关系等方法,这类知识图谱表示学习方法能够挖掘的关联关系受目标函数的限制,主要捕获的依然是实体之间的翻译关系,而实体本身的上下文语义关联信息通过这种方式仍然难以捕获。有些工作也尝试在知识图谱中采用图谱表示学习方法,但是这些工作忽略了实体之间的关系本身包含的信息,更没有考虑将推理规则(谓词)融合进来,因此丢失了大量的关联信息,导致学习得到的表示质量不佳。



技术实现要素:

针对现有技术中的上述不足,本发明提供的一种基于图谱表示学习的知识表示学习方法解决了现有知识图谱表示学习方法质量差的问题。

为了达到上述发明目的,本发明采用的技术方案为:

提供一种基于图谱表示学习的知识表示学习方法,其包括以下步骤:

s1、基于知识图谱三元组和谓词获取标准图;

s2、根据标准图获取知识图谱实体与关系的向量表示;

s3、将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。

进一步地,步骤s1的具体方法包括以下子步骤:

s1-1、获取知识图谱(h,r,t)和谓词集合u,将((hi,rp,tj),uf,(hi,rq,tj))表示为实体(hi,rp,tj)与实体(hi,rq,tj)关系之间的推理过程,即推理规则;其中h为头实体集合,hi∈h;r为尾实体集合,rp∈r,rq∈r;t为关系集合,tj∈t;

s1-2、根据公式

v=h∪t∪r∪u

获取顶点集合v,将头实体、尾实体、关系和谓词均作为标签,按照顶点集合v中的位置统一编号得到标签编号查询表;

s1-3、将用编号表示的三元组(idh,idr,idt)拆分为二元组(idh,idr)和二元组(idr,idt);其中idh,idr和idt分别为头实体、尾实体和关系的编号;

s1-4、对于存在推理规则的实体,根据其编号生成二元组(idr,idu)和二元组(idu,idr');其中idu为推理规则谓词的编号;idr和idr'分别为存在推理规则的两个实体的尾实体编号;

s1-5、将得到的所有二元组作为标准图中顶点与顶点之间的关系,并将二元组构成的集合作为标准图的边集,得到标准图。

进一步地,步骤s2的具体方法包括以下子步骤:

s2-1、根据标准图构建邻接矩阵,并将邻接矩阵的每一行作为一个顶点的初始向量表示;

s2-2、采用自编码器对顶点的初始向量表示进行重构得到顶点的低维向量表示,即知识图谱实体与关系的向量表示,并将所有顶点的低维向量表示组合成矩阵y;其中自编码器包括编码部分和解码部分,编码部分的表达式为:

yi(1)=σ(w(1)xi+b(1))

yi(k)=σ(w(k)yi(k-1)+b(k)),k=2,3,...,k

k为编码部分中神经网络的层数;w(k)为第k层神经网络的权重;b(k)为第k层神经网络的偏置;σ(·)为激活函数;xi为第i个顶点的初始向量表示,即邻接矩阵的第i行;yi(1)为输入为第i个顶点的初始向量对应的第1层神经网络的输出;yi(k-1)为输入为第i个顶点的初始向量对应的第k-1层神经网络的输出;yi(k)为输入为第i个顶点的初始向量对应的第k层神经网络的输出;对于第i个顶点的初始向量,编码部分的最终输出为yi(k),yi(k)∈y;解码部分通过最小化解码损失并在损失函数中增加拉普拉斯映射作为约束条件来训练自编码器,解码部分为编码部分的逆操作,用于还原编码内容。

进一步地,步骤s3的具体方法包括以下子步骤:

s3-1、将深度学习分类任务的标签作为目标实体,获取目标实体的标签集l={l1,l2,...,lm},其中m为标签总数;lm为第m类标签,m=1,2,...,m;

s3-2、根据标签集l中的各个标签从标签编号查询表获取对应的标签编号;

s3-3、根据步骤s3-2中获取的标签编号从矩阵y中获取所有对应标签的向量;

s3-4、计算步骤s3-3中得到的向量之间的欧氏距离,进而得到标签集l中各个标签之间的相似度,并将标签li与标签lj之间的相似度表示为三元组(li,lj,sij),其中sij为标签li与标签lj之间的相似度;

s3-5、以目标实体中的标签为顶点、标签之间的相似度为边构建概率图gl;

s3-6、将概率图gl表示为邻接矩阵g,对邻接矩阵g的每一行进行归一化获取一阶转移矩阵al1,进而得到t阶转移矩阵alt

s3-7、根据公式

获取目标实体的图关联矩阵grm;其中w(t)为递减权重函数。

本发明的有益效果为:本发明给出了将知识图谱转化为标准图的途径,将知识图谱中的实体关系均视为标准图中的顶点,此外还采用谓词扩充关联关系,进一步丰富顶点上下文,以便于应用图谱表示学习模型学习得到质量更好的向量表示,将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。本方法结合了实体之间的关系本身包含的信息,并将推理规则(谓词)融合进来,因此容纳了大量的关联信息,使得学习得到的表示质量更佳。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

如图1所示,该基于图谱表示学习的知识表示学习方法包括以下步骤:

s1、构建转化层,基于知识图谱三元组和谓词获取标准图;

s2、构建模型层,根据标准图获取知识图谱实体与关系的向量表示;

s3、构建接口层,将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。

步骤s1的具体方法包括以下子步骤:

s1-1、获取知识图谱(h,r,t)和谓词集合u,将((hi,rp,tj),uf,(hi,rq,tj))表示为实体(hi,rp,tj)与实体(hi,rq,tj)关系之间的推理过程,即推理规则;其中h为头实体集合,hi∈h;r为尾实体集合,rp∈r,rq∈r;t为关系集合,tj∈t;

s1-2、根据公式

v=h∪t∪r∪u

获取顶点集合v,将头实体、尾实体、关系和谓词均作为标签,按照顶点集合v中的位置统一编号得到标签编号查询表;

s1-3、将用编号表示的三元组(idh,idr,idt)拆分为二元组(idh,idr)和二元组(idr,idt);其中idh,idr和idt分别为头实体、尾实体和关系的编号;

s1-4、对于存在推理规则的实体,根据其编号生成二元组(idr,idu)和二元组(idu,idr');其中idu为推理规则谓词的编号;idr和idr'分别为存在推理规则的两个实体的尾实体编号;

s1-5、将得到的所有二元组作为标准图中顶点与顶点之间的关系,并将二元组构成的集合作为标准图的边集,得到标准图。

步骤s2的具体方法包括以下子步骤:

s2-1、根据标准图构建邻接矩阵,并将邻接矩阵的每一行作为一个顶点的初始向量表示;

s2-2、采用自编码器对顶点的初始向量表示进行重构得到顶点的低维向量表示,即知识图谱实体与关系的向量表示,并将所有顶点的低维向量表示组合成矩阵y;其中自编码器包括编码部分和解码部分,编码部分的表达式为:

yi(1)=σ(w(1)xi+b(1))

yi(k)=σ(w(k)yi(k-1)+b(k)),k=2,3,...,k

k为编码部分中神经网络的层数;w(k)为第k层神经网络的权重;b(k)为第k层神经网络的偏置;σ(·)为激活函数;xi为第i个顶点的初始向量表示,即邻接矩阵的第i行;yi(1)为输入为第i个顶点的初始向量对应的第1层神经网络的输出;yi(k-1)为输入为第i个顶点的初始向量对应的第k-1层神经网络的输出;yi(k)为输入为第i个顶点的初始向量对应的第k层神经网络的输出;对于第i个顶点的初始向量,编码部分的最终输出为yi(k),yi(k)∈y;解码部分通过最小化解码损失并在损失函数中增加拉普拉斯映射作为约束条件来训练自编码器,解码部分为编码部分的逆操作,用于还原编码内容。

步骤s3的具体方法包括以下子步骤:

s3-1、将深度学习分类任务的标签作为目标实体,获取目标实体的标签集l={l1,l2,...,lm},其中m为标签总数;lm为第m类标签,m=1,2,...,m;

s3-2、根据标签集l中的各个标签从标签编号查询表获取对应的标签编号;

s3-3、根据步骤s3-2中获取的标签编号从矩阵y中获取所有对应标签的向量;

s3-4、计算步骤s3-3中得到的向量之间的欧氏距离,进而得到标签集l中各个标签之间的相似度,并将标签li与标签lj之间的相似度表示为三元组(li,lj,sij),其中sij为标签li与标签lj之间的相似度;

s3-5、以目标实体中的标签为顶点、标签之间的相似度为边构建概率图gl;

s3-6、将概率图gl表示为邻接矩阵g,对邻接矩阵g的每一行进行归一化获取一阶转移矩阵al1,进而得到t阶转移矩阵alt

s3-7、根据公式

获取目标实体的图关联矩阵grm;其中w(t)为递减权重函数。

在具体实施过程中,模型层采用半监督深层模型对标准图进行图谱表示学习,得到实体与关系的表示;其中半监督深层模型采用无监督学习方式重构每个顶点的邻域结构并保留局部特性,采用拉普拉斯映射通过监督学习方式将一阶相似性作为监督信息学习图的全局特性。

由于半监督深层模型层具有高度非线性关系,在参数空间中会存在很多局部最优解,因此本方法采用深度置信网络来对参数进行预训练或者采用莱维飞行的仿生学方法(即将带有衰减的莱维分布)作为学习率的权重跳出局部最优解。采用公式

l=lauto-encoder+αllaplaction-eigenmaps+vlreg

获取最小目标函数l;其中lreg为l2范数正则化项,为解码部分的权重矩阵;α和v均为调节参数;lauto-encoder为编码器的损失函数;llaplacian-eigenmaps为根据相似顶点在重构过程中映射到嵌入空间的距离给以相应的惩罚的损失函数;

bi为惩罚函数;⊙为哈达马乘积;n为顶点的个数;为自编码器中解码部分还原得到的邻域结构;为l2范数;

j为第j个顶点;yj(k)为自编码器的最终输出;xij为第i个顶点和第j个顶点间的连接关系,对应初始邻接矩阵的第i行第j列。

在本发明的一个实施例中,还可以将接口层的输出端与深度学习的softmax层衔接,softmax层输出各个标签下的分类概率,目标实体的图关联矩阵grm反映的先验知识实际上就是根据各个分类标签之间的相似度或者转移概率,将softmax层输出的概率向量记为h并表示为横向量,将其与目标实体的图关联矩阵grm相乘得到的结果即各个标签下新的分类概率,其可以直接影响最终的分类结果进而影响损失函数的计算,故相乘结果可作为分类结果。

综上所述,本发明给出了将知识图谱转化为标准图的途径,将知识图谱中的实体关系均视为标准图中的顶点,此外还采用谓词扩充关联关系,进一步丰富顶点上下文,以便于应用图谱表示学习模型学习得到质量更好的向量表示,将深度学习分类任务的标签作为目标实体,根据知识图谱实体与关系的向量表示,基于相似性度量计算目标实体间的相似度,得到目标实体的图关联矩阵。本方法结合了实体之间的关系本身包含的信息,并将推理规则(谓词)融合进来,因此容纳了大量的关联信息,使得学习得到的表示质量更佳。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1