一种知识图谱表示学习方法

文档序号:9865625阅读:737来源:国知局
一种知识图谱表示学习方法
【技术领域】
[0001] 本发明设及自然语言处理W及知识图谱领域,特别设及一种知识图谱表示学习方 法。
【背景技术】
[0002] 随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信 息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日 益迫切,如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。
[0003] 知识图谱将世界上所有人物、地名、书名、球队名等专有名词与事物表示为实体, 将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系 作为桥梁的Ξ元关系组。例如,北京是中国的首都运一知识,在知识图谱中则利用Ξ元组关 系(北京,是……首都,中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的 实体,消除语言多义性的干扰,同时能够展现目标实体与其它相关实体之间更深更广的内 在联系,被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大, 且实体与关系每日都在变化与增加,难W人工维护与挖掘新的信息,对知识图谱的表示与 自动补全是当今重要的研究热点。
[0004] 知识图谱实体数量巨大,网络结构稀疏性严重。而近年来在知识图谱的研究上取 得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向 量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图 谱表示学习方法在学习时将实体之间的关系和实体的特性混为一谈,使用同一种模型进行 建模,无法精确的表示实体、关系和特性之间的相互联系。

【发明内容】

[0005] 有鉴于此,本发明的发明目的是:解决现有技术中存在的无法精确表示实体、关系 和特性之间联系的问题,W提高知识图谱表示的质量。
[0006] 为达到上述目的,本发明的技术方案具体是运样实现的:
[0007] 本发明提供了一种知识图谱表示学习方法,该方法包括:利用实体向量与关系向 量之间基于平移的模型,定义关系Ξ元组化ead,relation, tail)中实体向量与关系向量之 间的相互关联;利用神经网络分类模型,定义特性Ξ元组(entity,at化化ute,value)中实 体向量与特性向量之间的相互关联;通过评价函数将实体向量、关系向量和特性向量关联 起来,并最小化评价函数,W学习实体向量、关系向量和特性向量,达到优化目标。
[000引由上述的技术方案可见,本发明将关系和特性区分对待,所W知识图谱采用关系 Ξ元组和特性Ξ元组的形式来表示知识。因此,本发明采用实体向量与关系向量之间基于 平移的模型,来表示关系Ξ元组中的实体向量和关系向量之间的相互关联;采用神经网络 分类模型,来表示特性Ξ元组中的实体向量和特性向量之间的相互关联;然后通过评价函 数将实体向量、关系向量和特性向量关联起来,并优化该评价函数,在达到优化目标时,就 可w同时学习到知识图谱中的每个实体向量、关系向量和特性向量,从而精确的表示实体、 关系和特性之间的相互联系。
【附图说明】
[0009] 图1为知识图谱中包含关系Ξ元组和特性Ξ元组的示例图。
[0010] 图2为本发明知识图谱表示学习方法的流程示意图。
[0011] 图3a为根据现有技术知识图谱表示学习方法得到的Ξ元组表示知识的示例图。
[0012] 图3b为根据本发明知识图谱表示学习方法得到的Ξ元组表示知识的示例图。
【具体实施方式】
[0013] 为使本发明的目的、技术方案、及优点更加清楚明白,W下参照附图并举实施例, 对本发明进一步详细说明。
[0014] 现有技术中,并不区分关系和特性,将特性也作为关系的一种,知识图谱主要采用 (实体1,关系,实体2 )Ξ元组的形式来表示知识,即采用关系Ξ元组化ead,relation, tail) 来表示。因此现有技术中只采用一种模型来表示关系Ξ元组中的实体向量和关系向量之间 的相互关联,知识图谱表示学习方法在学习时将实体之间的关系和实体的特性无法区分 开,无法精确的表示实体、关系和特性之间的相互联系。
[0015] 本发明将关系和特性区分对待,所W知识图谱采用关系Ξ元组和特性Ξ元组的形 式来表示知识。关系Ξ元组用化ead,relation,tai 1)来表示,关系用来连接两个实体,亥I]画 两个实体之间的关联。特性Ξ元组用(entity,at化化ute,value)来表示,每个特性-值(a, V)用来刻画对应实体的内在特性。在知识图谱中,关系Ξ元组中节点表示实体,连边表示关 系;特性Ξ元组中连边表示特性,连边的一端节点表示实体,连边的另一端节点表示该实体 的特性值。图1为知识图谱中包含关系Ξ元组和特性Ξ元组的示例图。其中,圆圈表示的节 点"克林顿"与"希拉里'都为实体,他们之间的连边为"妻子"关系。另外,我们可W看到,两 个实体各自都有属于自己的特性,如"职业","性别","出生地"等,对于实体"克林顿"职业 的特性值为美国总统,对于实体"希拉里"职业的特性值为美国国务卿。
[0016] 实施例一
[0017] 本发明公开了一种知识图谱表示学习方法,其流程示意图如图2所示,该方法包 括:
[0018] 步骤21、利用实体向量与关系向量之间基于平移的模型,定义关系Ξ元组化ead, relation, tail)中实体向量与关系向量之间的相互关联。
[0019] 其中,利用实体向量与关系向量之间基于平移的模型,定义关系Ξ元组中实体向 量与关系向量之间的相互关联的方法包括:
[0020] S211、定义关系Ξ元组概率为
[0021] h表示知识图谱中任意实体
曼关系Ξ元组概率函数的归一化 因子,指遍历知识图谱中所有实体h,使得归一化因子为1。
是softmax函数。
[0022] S212、利用实体向量与关系向量之间基于平移的模型,定义衡量关系r和实体对 化,t)之间相互联系的函数g。
[0023] 实体向量与关系向量之间基于平移的模型可W有多种,例如,TransE和化ansR等, 如果采用的是TransE的能量函数,那么g可W定义为:
[0024] g(h,r,t)=-| |h+r-t| |Li/L2+bi
[0025] 如果采用的是TransR的能量函数,那么g可W定义为:
[0026] g(h,r,t)=-| |hMr+r-tMr| |Li/L2+bi
[0027] 其中,LI为LI范式,L2为L2范式,Mr为TransR模型中与关系相关的投影矩阵,bi为一 个偏置常数,用于使得g函数返回值的均值保持在0左右。
[0028] 需要说明的是,本发明实施例中将关系Ξ元组概率表示为P化|r,t,X),还可W用P (t |;r,h,X)或p(;r |h,t,X)代替。X为;r,h,t的向量表示。
[00巧]步骤22、利用神经网络分类模型,定义特性Ξ元组(entity,at化ibute,value)中 实体向量与特性向量之间的相互关联。
[0030] 其中,利用神经网络分类模型,定义特性Ξ元组中实体向量与特性向量之间的相 互关联的方法包括:
[0031] S221、定义第一特性Ξ元组概率为
[0032] :表示知识图谱中任意实体:
是第一特性Ξ元组概率函数的归一化因 子,指遍历知识图谱中所有实体e,使得归一化因子为1。
是softmax函数。
[0033] S222、利用神经网络分类模型,定义衡量特性-值(a, V)和实体e之间相互联系的函 数k。
[0034] 当神经网络分类模型为单层神经网络模型时,k(e,a,v)=-||f(eWa+ba)-Vav| |l1/L2 +b2;Wa和ba为单层神经网络模型中的模型参数;Mf(eWa+ba)-Vav||Ll/L2表示将实体e的表示 向量通过一个单层的神经网络模型投影到对应特性a的子空间中,然后计算投影后的向量 和对应特性值V的表示向量之间的相似度;b2为一个偏置常数,用于使得k函数返回值的均 值保持在0左右。
[0035] 步骤23、通过评价函数将实体向量、关系向量和特性向量关联起来,并最小化评价 函数,W学习实体向量、关系向量和特性向量,达到优化目标。
[0036] 具体包括:
[0037] S231、定义评价函数为 0(X) = log(P(S,Y|X))+yC(X);
[0038] S232、最小化所述评价函数,学习得到知识图谱中每个实体向量、关系向量和特性 向量。最小化评价函数的方法可w有多种,可w采用随机梯度下降的方法,等等。
[0039] S表示知识图谱中所有关系Ξ元组的集合,Y表示知识图谱中所有特性Ξ元组的集 合,P(S,Y|X)表示知识图谱中所有关系Ξ元组概率和所有特性Ξ元组概率的乘积;特性Ξ 元组概率为第一特性Ξ元组概率;
[0040] 丫为超参数,用于控制惩罚项的权重;CU)为惩罚函数,用于防止参数学习过拟 合,惩罚函数c(x)定义如下:
[0041]
其中,[x] +=max(0,x)表示一个输入为X,返回值为0与X之间较大的数的函数。
[0042] 需要说明的是,最小化评价函数的过程就是达到优化目标的过程。如果关系Ξ元 组概率函数中的g,采用的是化ansE模型,则最小化评价函数的过程中,通过不断调整h、r和 t化ead、relation和tail的向量),使P(S |X)中的每个化+!)尽可能与t相等,旨化+r = t。如果 第一特性Ξ元组概率函数中的k,采用的是单层神经网络模型,则最小化评价函数的过程 中,通过不断调整e、a和v(entity,attribute和value的向量),使得Ρ(Υ IX)中每个实体e对 应特性a的取值V概率为100 %。
[0043] 由此,学习得到知识图谱中每个实体向量、关系向量和特性向量。图3a为根据现有 技术知识图谱表示学习方法得到的Ξ元组表示知识的示例图。图3b为根据本发明知识图谱 表示学习方法得到的Ξ元组表示知识的示例图。图3a中,不区分实体的关系和特性,仍然把 特性作为关系的一种,知识图谱采用(实体1,关系,实体2)Ξ元组的形式来表示知识。而图 3b中,区分实体的关系和特性,知识图谱采用关系Ξ元组和特性Ξ元组的形式来表示知识。 从图3b中可W看出,e6、e7、e8和e9为特性值,e6、e7属于一种特性A1的取值,e8和e9属于另 一种特性A2的取值,具体地,特性Ξ元组中,实体el对应特性A1的取值为e6;实体e2对应特 性A1的取值为e6;实体e3对应特性A1的取值为e7;实体e3对应特性A2的取值为e8;实体e5对 应特性A2的取值为e8;实体e4对应特性A2的取值为e9。同时关系Ξ元组中,实体el与实体e3 的关系是rl;实体el与实体e2的关系是巧;实体e2与实体e4的关系是r4;实体e3与实体e4的 关系是r3;实体e3与实体e5的关系是实体e4与实体e5的关系是r4。由此可W看出,图3a 的现有技术和图3b的本发明相比,本发明的知识图谱表示学习方法,可W精确地表示出实 体、关系和特性之间的相互联系。
[0044] 实施例二
[0045] 由于本发明的知识图谱表示学习方法将关系和特性区分对待,进一步地,可W考 虑特性之间的相互联系。
[0046] 本发明实施例二的知识图谱表示学习方法包
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1