一种基于张量的知识图谱表示学习方法及系统与流程

文档序号：18030180发布日期：2019-06-28 22:34阅读：394来源：国知局

本发明涉及知识表示学习领域，更具体地说，涉及一种基于张量的知识图谱表示学习的方法及系统。

背景技术：

随着科技的高速发展，大数据时代的到来，信息消费逐渐成为了人们生活中不可或缺的一部分，但是人的精力有限，为了让机器能够更快更好更多地帮助人们收集知识、理解知识以及处理知识，知识表示学习技术应运而生，而结构化的知识图谱包含了大量的语义信息，知识图谱的表示学习是智能问答、智能对话、web搜索、语义分析和语义推理等任务中的重要组成部分。知识图谱表示学习不仅是学术界的一个研究热点，在nlp领域也受到了重点的关注。

知识图谱表示学习在人工智能领域中的应用，可以更好地满足人们对信息的消费，智能问答系统、对话系统、语义搜索系统的应用，提高了人们获取信息的效率，同时，基于大数据的知识推理可以作为人们决策的重要辅助信息。

虽然知识图谱表示学习在很多领域有广泛的应用，各种各样的表示学习方法也被提出，例如有基于知识图谱纯结构的transe，还有融合实体描述信息的dkrl等。但是目前的知识图谱表示学习方法还存在着很多问题。首先是知识推理的准确性不高，这让表示学习在实际应用中很难发挥作用，其次是目前的很多知识图谱都是靠人工搭建起来的，无论是wekipedia还是freebase，还不够完整，需要用知识图谱补全来解决知识图谱中数据稀缺问题。

技术实现要素：

本发明要解决的技术问题在于，针对现有技术中知识推理的准确性不高，这让表示学习在实际应用中很难发挥作用，以及目前的很多知识图谱都是靠人工搭建起来的，还不够完整，需要用知识图谱补全来解决知识图谱中数据稀缺问题的技术缺陷，提供基于张量的知识图谱表示学习方法及系统。

本发明解决其技术问题，所采用的基于张量的知识图谱表示学习方法，包含如下步骤：

s1、对知识图谱进行预处理，生成每个实体的掩码矩阵se；

s2、获取表示知识图谱全部语义信息的张量r；

s3、每个实体通过自身掩码矩阵se分别与张量r相乘，获得每个实体的语义张量；

s4、为每一种语义信息设定一个对应的映射向量v，通过各个{v}的作用，分别将各个实体的语义张量映射到对应的各个语义空间中，得到相对应语义空间中的向量表达e；

s5、对在各个语义空间中存在关系的各个实体三元组进行训练，得到知识图谱表示学习的模型，所述模型用于输入头实体和关系，输出对应的尾实体；其中对于任意一个语义空间r对应的任意实体三元组(e1，r，e2)，训练使得e1+r与e2一致，即e1+r≈e2；其中，e1代表头实体，e2代表尾实体，e1和e2之间的关系r对应的向量空间即为所述语义空间。

优选地，在本发明的基于张量的知识图谱表示学习方法的步骤s1中，生成的实体掩码矩阵包含了局部网络结构信息，具体步骤如下：

(1)设定掩码矩阵维度：获取知识图谱包含的关系种类总数m，实体掩码矩阵为对角矩阵，维度为m×m；

(2)计算一阶实体掩码矩阵：在知识图谱中，对任意一个实体，每遍历一条与该实体直接相连的边，就在实体对应的一阶掩码矩阵中对应的位置从零开始每次累加1；

(3)计算二阶实体掩码矩阵：在知识图谱中，对任意一个实体，每遍历一条与该实体二跳相连的边，就在实体对应的二阶掩码矩阵中对应的位置从零开始每次累加0.5；

(4)将每个实体对应的一阶掩码矩阵与二阶掩码矩阵加到一块儿得到最终的实体掩码矩阵。

优选地，在本发明的基于张量的知识图谱表示学习方法中，所述实体对应的一阶掩码矩阵或二阶矩阵中对应的位置具体是指：

对于任意实体，与其直接相连的边共有k条，这k条边包含：k1条关系r1、k2条关系r2、…、km条关系rm，其中k1+k2+…+km＝k，则掩码矩阵中第n行第n列的元素为kn，n＝1、2、…及m；

对于任意实体，与其二跳相连的边共有p条，这p条边包含：p1条关系r1、p2条关系r2、…、pm条关系rm，其中p1+p2+…+pm＝p，n＜m，则掩码矩阵中第n行第n列的元素为kn/2，n＝1、2、…及m。

优选地，在本发明的基于张量的知识图谱表示学习方法的步骤s3中，利用张量对实体进行表示，是将实体的各种层面的语义信息分部在指定的安放位置。

根据本发明的另一方面，本发明为解决其技术问题，所采用的基于张量的知识图谱表示学习系统，其特征在于，包含如下步骤：

预处理模块，用于对知识图谱进行预处理，生成每个实体的掩码矩阵se；

张量获取模块，用于获取表示知识图谱全部语义信息的张量r；

语义张量获取模块，用于每个实体通过自身掩码矩阵se分别与张量r相乘，获得每个实体的语义张量；

向量获取模块，用于为每一种语义信息设定一个对应的映射向量v，通过各个{v}的作用，分别将各个实体的语义张量映射到对应的各个语义空间中，得到相对应语义空间中的向量表达e；

模型训练模块，用于对在各个语义空间中存在关系的各个实体三元组进行训练，得到知识图谱表示学习的模型，所述模型用于输入头实体和关系，输出对应的尾实体；其中对于任意一个语义空间r对应的任意实体三元组(e1，r，e2)，训练使得e1+r与e2一致；其中，e1代表头实体，e2代表尾实体，e1和e2之间的关系r对应的向量空间即为所述语义空间。

优选地，在本发明的基于张量的知识图谱表示学习系统中，预处理模块中，生成的实体掩码矩阵包含了局部网络结构信息，具体步骤如下：

(1)设定掩码矩阵维度：获取知识图谱包含的关系种类总数m，实体掩码矩阵为对角矩阵，维度为m×m；

(4)将每个实体对应的一阶掩码矩阵与二阶掩码矩阵加到一块儿得到最终的实体掩码矩阵。

优选地，在本发明的基于张量的知识图谱表示学习系统中，所述实体对应的一阶掩码矩阵或二阶矩阵中对应的位置具体是指：

优选地，在本发明的基于张量的知识图谱表示学习系统中，语义张量获取模块中，利用张量对实体进行表示，是将实体的各种层面的语义信息分部在指定的安放位置。

以往的知识图谱表示学习方法往往只考虑了实体的描述信息、图片信息、上下文关键词以及上位词等信息，这些信息是不完整的。本发明从图的角度，将每个实体的局部网络结构信息赋予了实体，是实体信息更加全面和充分。实体局部网络结构信息的添加弥补了实体结构上表达的不足，解决了因结构信息不足导致知识图谱做语义推理准确率低的问题。一般来讲文字是不可进行数学运算的，这让计算机很难处理。本发明将文字转换为张量及向量形式，让文字可以进行数学运算。知识图谱的基本组成单元是实体和关系，本发明将实体与关系转化到数值空间中，并且实体与实体之间的语义关系仍旧能在数值空间中体现。本发明从图的角度将每个实体的局部网络结构信息作为实体信息的一部分，让实体信息更完善，并以张量的形式对实体进行表示，将实体不同层面的语义信息指定在语义张量指定的位置，可以是实体的表示更具体更精确。从而让知识图谱的表示得到了网络结构信息的补充，更加全面完整。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是基于张量的知识图谱表示学习方法一实施例的具体步骤图；

图2是本发明的基于张量的知识图谱表示学习的掩码矩阵生成示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，其为本发明的基于张量的知识图谱表示学习方法一实施例的具体步骤图。知识图谱表示学习的目的是将三元组中的实体和关系映射到低维连续的实值空间中，本实施例所采用的基于张量的知识图谱表示学习方法包含如下步骤：

s1、对知识图谱进行预处理，生成每个实体的掩码矩阵se。生成的实体掩码矩阵包含了局部网络结构信息，具体步骤如下：

(1)设定掩码矩阵维度：获取知识图谱包含的关系种类总数m，实体掩码矩阵为对角矩阵，维度为m×m；

(4)将每个实体对应的一阶掩码矩阵与二阶掩码矩阵加到一块儿得到最终的实体掩码矩阵。

优选地，实体对应的一阶掩码矩阵或二阶矩阵中对应的位置具体是指：

下述将结合图2，对上述原理做具体说明。

(1)首先统计出整个图谱中一共有r1、r2、r3、…、r6等6种关系，设定实体掩码矩阵的维度为6×6，且为对角矩阵；

(2)实体a的一阶关系一共有5个，包括2个r2、2个r3、1个r4。因此实体a的一阶掩码矩阵se中：se(1，1)＝0，se(2，2)＝2，se(3，3)＝2，se(4，4)＝1，se(5，5)＝0，se(6，6)＝0；

(3)实体a的二阶关系一共有6个，包括1个r1，1个r3、2个r4、2个r5，1个r6。因此实体a的二阶掩码矩阵se中：se(1，1)＝0.5，se(2，2)＝0，se(3，3)＝0.5，se(4，4)＝1，se(5，5)＝1，se(6，6)＝0.5；

(4)实体的掩码矩阵为一阶掩码矩阵与二阶掩码矩阵的和：se(1，1)＝0.5，se(2，2)＝2，se(3，3)＝2.5，se(4，4)＝2，se(5，5)＝1，se(6，6)＝0.5。

s2、获取表示知识图谱全部语义信息的张量r。

s3、每个实体通过自身掩码矩阵se分别与张量r相乘，获得每个实体的语义张量。步骤s3中，与现有的知识图谱表示学习方法不同的是，本发明利用张量对实体进行表示，将实体的各种层面的语义信息分部在指定的安放位置。

s4、为每一种语义信息设定一个对应的映射向量v，通过各个{v}的作用，分别将各个实体的语义张量映射到对应的各个语义空间中，得到相对应语义空间中的向量表达e。

s5、对在各个语义空间中存在关系的各个实体三元组进行训练，得到知识图谱表示学习的模型，所述模型用于输入头实体和关系，输出对应的尾实体；其中对于任意一个语义空间r对应的任意实体三元组(e1，r，e2)，训练使得e1+r与e2一致；其中，e1代表头实体，e2代表尾实体，e1和e2之间的关系r对应的向量空间即为所述语义空间。

关于语义空间以及语义张量，语义空间指的是某个关系对应的向量空间，语义张量指的是实体的张量表示，它是映射到语义空间之前的张量，包含了多个语义信息。例如，(小明，父亲，张三)，(小明，班主任，李四)，小明的实体张量包含了“父亲”“班主任”等语义信息，而关系“父亲”、“班主任”分别有对应的语义空间。

根据本发明的另一方面，本发明为解决其技术问题，所采用的基于张量的知识图谱表示学习系统，其特征在于，包含如下步骤：

预处理模块，用于对知识图谱进行预处理，生成每个实体的掩码矩阵se；

张量获取模块，用于获取表示知识图谱全部语义信息的张量r；

语义张量获取模块，用于每个实体通过自身掩码矩阵se分别与张量r相乘，获得每个实体的语义张量；

优选地，在本发明的基于张量的知识图谱表示学习系统中，预处理模块中，生成的实体掩码矩阵包含了局部网络结构信息，具体步骤如下：

(1)设定掩码矩阵维度：获取知识图谱包含的关系种类总数m，实体掩码矩阵为对角矩阵，维度为m×m；

(4)将每个实体对应的一阶掩码矩阵与二阶掩码矩阵加到一块儿得到最终的实体掩码矩阵。

优选地，在本发明的基于张量的知识图谱表示学习系统中，所述实体对应的一阶掩码矩阵或二阶矩阵中对应的位置具体是指：

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董理君;赵东阳;康晓军;李新川;李圣文;梁庆中;郑坤;姚宏;刘超
技术所有人：中国地质大学（武汉）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。