一种获取知识图谱向量化表示的方法以及装置的制造方法

文档序号:10471096阅读:861来源:国知局
一种获取知识图谱向量化表示的方法以及装置的制造方法
【专利摘要】本发明公开一种获取知识图谱向量化表示的方法以及装置。其中,所述方法包括:根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中存在的实体,得到实体标注的文本语料;基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示。本发明不仅能提高关系的表示能力,而且还能有效地解决知识图谱稀疏性带来的表示效果不足的问题。
【专利说明】
-种获取知识图谱向量化表示的方法从及装置
技术领域
[0001] 本发明设及语义万维网领域,具体地,设及一种获取知识图谱向量化表示的方法 W及装置。
【背景技术】
[0002] 语义万维网是当前万维网的扩展,含有精确语义信息的数据的网络是语义万维网 的核屯、。万维网之父Tim Berners-Lee提出的开放链接数据项目化inking Open Data Project)旨在构建运样一个数据网络,语义知识库是构成该数据网络的根本。
[0003] 在语义万维网环境下,知识图谱的向量化表示计算旨在将知识图谱中的实体表示 成一个分布的、低维度的向量,进一步赋予知识图谱可计算的性质,已被证明在知识图谱补 充、文本分类和信息抽取上有重要提升作用。将知识图谱的关系视为一个翻译操作,TransE 是第一个简单、高效的知识图谱表示学习方法,TransH和化ansR分别通过超平面映射和向 量空间变换进一步允许一个实体在给定不同的关系时拥有不同的嵌入表示,使一对多、多 对一和多对多关系的表示能力进一步提高。
[0004] 然而,现有的知识图谱向量化表示计算中仍存在如下问题:
[0005] 1、一对多、多对一和多对多关系的表示能力低下:TransH和化ansR从模型的角度 对TransE进行优化,没有扩展表示学习中可用的信息来源,对关系表示能力的提高有限。
[0006] 2、知识图谱稀疏性导致表示效果不足:Tran S E、化an sH和化an S R均从知识图谱的 结构关系中对嵌入表示进行学习,受限于当前知识图谱通常比较稀疏,表示学习的效果依 然无法令人满意。

【发明内容】

[0007] 本发明的目的是提供一种获取知识图谱向量化表示的方法W及装置。其中,所述 方法不仅能够提高一对多、多对一 W及多对多关系的表示能力,而且还能有效地解决知识 图谱稀疏性带来的表示效果不足的问题。
[000引为了实现上述目的,本发明提供一种获取知识图谱向量化表示的方法。所述方法 包括:
[0009] 根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图 谱中存在的实体,得到实体标注的文本语料;
[0010] 基于所述文本语料,构建由词和实体组成的共现网络,W将所述辅助文本语料的 文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示;
[0011] 根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进 行建模,得到所述知识图谱的嵌入表示模型;
[0012] 使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的 嵌入表示。
[0013] 可选地,所述实体标注工具为W下中的至少一者:
[0014] AIDI、TAGMEW 及 Wikify!。
[0015] 可选地,所述基于所述文本语料,构建由词和实体组成的共现网络,W将所述辅助 文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入 表示,包括:
[0016] 根据所述共现网络分别定义一元文本上下文和二元文本上下文;
[0017] W所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所 述共现网络中任意一点的词向量嵌入表示;
[0018] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
[0019] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表 /J、- 〇
[0020] 可选地,所述根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入 表示分别进行建模,得到所述知识图谱的嵌入表示模型,包括:
[0021] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所 述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
[0022] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关 系的嵌入表示模型;
[0023] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的 嵌入表示模型。
[0024] 可选地,所述使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中 实体和关系的嵌入表示,包括:
[0025] 根据所述嵌入表示模型定义基于边缘的损失函数;
[0026] 使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得 到所述知识图谱中实体和关系的嵌入表示。
[0027] 相应地,本发明还提供一种获取知识图谱向量化表示的装置。所述装置包括:
[0028] 标注单元,用于根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语 料中属于知识图谱中存在的实体,得到实体标注的文本语料;
[0029] 构建单元,用于基于所述文本语料,构建由词和实体组成的共现网络,W将所述辅 助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌 入表示;
[0030] 建模单元,用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌 入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
[0031] 训练单元,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱 中实体和关系的嵌入表示。
[0032] 可选地,所述实体标注工具为W下中的至少一者:
[0033] AIDI、TAGMEW 及 Wikify!。
[0034] 可选地,所述构建单元,具体用于:
[0035] 根据所述共现网络分别定义一元文本上下文和二元文本上下文;
[0036] W所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所 述共现网络中任意一点的词向量嵌入表示;
[0037] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
[0038] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
[0039] 可选地,所述建模单元,具体用于:
[0040] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所 述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
[0041] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关 系的嵌入表示模型;
[0042] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的 嵌入表示模型。
[0043] 可选地,所述训练单元,具体用于:
[0044] 根据所述嵌入表示模型定义基于边缘的损失函数;
[0045] 使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得 到所述知识图谱中实体和关系的嵌入表示。
[0046] 通过上述技术方案,采用文本辅助的方法,在知识图谱的实体和关系嵌入表示建 模过程中,引入文本上下文嵌入表示,使得一种关系在给定不同的实体对时可W拥有不同 的表示,大大提高对一对多、多对一和多对多关系的表示能力。另一方面,文本上下文嵌入 表示的引入,极大地丰富了现有知识图谱的信息,有效解决了知识图谱稀疏性带来的表示 效果不足的问题。
【附图说明】
[0047] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W 根据运些图获得其他的附图。
[0048] 图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图;
[0049] 图2是本发明一实施例提供的知识图谱向量化表示计算的示意图;
[0050] 图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。
【具体实施方式】
[0051] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0052] 图1是本发明一实施例提供的获取知识图谱向量化表示的方法的流程图。如图1所 示,本发明一实施例提供的获取知识图谱向量化表示的方法包括:
[0053] 在步骤S101中,根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语 料中属于知识图谱中存在的实体,得到实体标注的文本语料。
[0化4]对于辅助文本语料,形式化表示为一个由词组成的有序序列2>=〈w,...w,...w,,,〉,其 中wi表示单个的词,m为该有序序列的长度。给定知识图谱,形式化表示为一个由Ξ元组组 成的集合κ每={辉,iV):},其中化,r,t)表示一个语义Ξ元组,h和t分别表示头实体和尾实 体,r表示头实体和尾实体之间的关系。
[0055] 给定辅助文本语料巧,使用实体标注工具自动地在给定辅助文本语料巧中标注知 识图谱eg中存在的实体,得到实体标注的文本语幹巧=〈λ-,.. 〉。其中,XI表示巧中的 一个词或者KG中的一个实体。由于多个连续的词可能被标注为一个实体,巧'的长度m'小 于巧的长度m。通用的实体标注工具均可用于W上的实体标注,如AIDI、TAGME和Wi ki f y!等, 也即是实体标注工具为W下中的至少一者:AIDI、TAGMEW及Wikify!。
[0056] 接着,在步骤S102中,基于所述文本语料,构建由词和实体组成的共现网络,W将 所述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上 下文嵌入表示。
[0057] 具体地,该步骤包括:根据所述共现网络分别定义一元文本上下文和二元文本上 下文;W所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共 现网络中任意一点的词向量嵌入表示;根据所述一元文本上下文和所述词向量嵌入表示定 义一元文本上下文嵌入表示;根据所述二元文本上下文和所述词向量嵌入表示定义二元文 本上下文嵌入表示。
[005引给定实体标注的文本语料?r,构建一个由词和实体组成的共现网络0 = (Λ^,y),w 将文本信息和实体信息进行关联。其中,J εΛ'表示共现网络中的点,为一个词或者一个实 体,>^€^表示点XI和点xj之间的共现频率,而且共现网络构造中的共现窗口设置为5。 [0化9]基于共现网络e=(;r,;y),分别定义一元文本上下文和二元文本上下文。具体地, 给定共现网络梦中任意一点XI,考虑到其邻居节点可W反映其上下文信息,因此,XI的一元 文本上下文η(Χι)定义为其在共现网络g中关联程度较高的邻居节点:
[0060] n(xi) = {xj|yij>0} (1)
[0061] 其中,Θ表示共现频率的阔值。图2是本发明一实施例提供的知识图谱向量化表示 计算的示意图。如图2所示,n(Avata;r) = {f ilm,movie ,directed巧帖(James_Came;ron)= {director}分别掲示了头实体和尾实体的背景知识。类似地,给定共现网络g中任意两点xi 和Xj,该两点的二元文本上下文11(^,刮)定义为二者的公共邻居节点:
[006^ n(xi,xj) = {xk|xken(xi) nn(xj)} (2)
[0063] 如图2所示,n(Ava1:a;r,James_Came;ron) = {direct}描述了两个实体之间"direct" Γ导演")的隐含关系。
[0064] 由于共现网络g和实体标注的文本语料巧同构,W语料公为输入,采用化ip-gram Word2Vec进行词嵌入表示学习,进而对于共现网络g中的任意一点xi得到一个k维的词向量 嵌入表示。根据上述对文本上下文的定义,给定共现网络g中任意一点XI,其一元文本上下 文嵌入表示η (XI)定义为η (XI)中词向量嵌入表示的加权平均向量:
[00 化]
[0066] 若η(χι)为空,则η(χι)为零向量0。类似地,给定网络中任意两点XI和xj,其二元文 本上下文嵌入表示η (xi,xj)定义为η (xi,xj)中词向量嵌入表示的加权平均向量:
[0067]
[0068] 其中公共邻居节点X k的权重定义为y 1 k和y J k的最小值,
%所有权重之和。若n(xi,xj)为空,则n(xi,xj)为零向量 0。
[0069] 紧接着,在步骤S103中,根据所述文本上下文嵌入表示对所述知识谱图中实体和 关系的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型。
[0070] 具体地,该步骤包括:采用基于线性变换的方法、基于空间变换的方法或基于超平 面映射的方法变换所述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型; 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的嵌入 表示模型;根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的 嵌入表示模型。
[0071] 基于上述所得的文本上下文嵌入表示,分别对知识图谱中实体和关系的嵌入表示 进行建模,定义基于翻译方法的模型优化目标。更为具体地,实体的嵌入表示模型定义为该 实体的一元文本上下文嵌入表示的线性变换:
[0074] 其中,£和?分别表示头实体h和尾实体t的嵌入表示模型,A是一个kXk的矩阵,h和 t分别表示偏置向量。类似地,关系r的嵌入表示模型定义为头实体h和尾实体t的二元文本 上下文嵌入表示的线性变换:
[0075]
[0076] 其中,?表示关系的嵌入表示模型,B是一个kXk的矩阵,r表示偏置向量。
[0077] 进一步地,实体/关系(知识图谱)的嵌入表示模型的目标为ii + i兰?,该模型的优 化即最小化W下损失函数:
[007引
[0079] 对于实体/关系(知识图谱)的嵌入表示模型中的向量和权重矩阵作规范化限制, 包括:II h II2 < 1、II r II2 < 1、II η (h) All 2 < 1、II t II2 < 1、II η (t) All 2 < 1、II η (h , t) ΒΙΙ2 < 1、
[0080] 为了进一步提高对一对多、多对一和多对多关系的表示能力,可W令实体在给定 不同的关系时拥有不同的嵌入表示,包括基于超平面映射的方法和基于空间变换的方法。
[0081] 其中,基于超平面映射的方法将实体嵌入表示和i首先映射到向量Wr对应的超平 面上,得到映射后的嵌入表示
其损失函数为 基于空间变换的方法使用变换矩阵Mr将实体嵌入表示h和?首先
3 映射另一个向量空间,得到变换后的嵌入表牙
岸损失函数为
[0082] 最后,在步骤S104中,使用随机梯度下降法训练所述嵌入表示模型,得到所述知识 图谱中实体和关系的嵌入表示。
[0083] 具体地,该步骤包括:根据所述嵌入表示模型定义基于边缘的损失函数;使用随机 梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所述知识图谱中 实体和关系的嵌入表示。
[0084] 根据上述所得的知识图谱的嵌入表示模型,定义基于边缘的损失函数为:
[0085]
[0086] 其中,max( ·,·)表示两个输入的最大值,丫表示边缘值,S表示知识图谱中已知 的正确的Ξ元组集合,化/,r,t〇e^是通过采用随机替换方法从化,r,t)eS中生成的错 误的Ξ元组集合,f化,r,t)表示损失函数。训练过程采用随机梯度下降的方法,使得上述损 失函数(9)最小化,从而得到知识图谱中实体和关系的嵌入表示。
[0087] 采用本发明实施例提供的方法进行了实验,具体实验过程如下:
[0088] 1、数据集介绍。实验采用2个在知识图谱表示学习中使用的通用数据集,其中WN11 来源于由词的义项组成的知识图谱W 0 r d N e t,F B15 K来源于实体组成的世界知识图谱 化eeBase。数据集的相关信息如表1所示。
[0089] 表1数据集相关统计
[0090]
[0091] 辅助文本语料采用2015年8月的维基百科词条描述文本,共包括4,919,463篇文 档。实体标注仅W维基百科中已标注的超链接作为候选,若维基百科所标注链接和给定知 识图谱中实体的名称相同,则标注为实体,否则不予标注。
[0092] 2、实验设置。实验评测使用知识图谱表示学习中的通用评测任务一一链接预测: 即给定一个实体(头实体或尾实体)和一个关系,预测缺失的另一个实体(尾实体或头实 体)。链接预测任务首先对所有候选实体通过计算损失函数值的大小进行排序,进而W正确 的实体所在位置作为评测指标,包括平均排序和前10命中率。平均排序(Mean Rank)即正确 实体排序位置的平均值,前10命中率化its@10)即正确实体排序位置位居前10的百分比。考 虑到除了该正确实体外,其他实体也可能构成正确的Ξ元组,W上指标会低估表示学习的 性能。进一步对实体排序列表中除该正确实体W外其他构成正确Ξ元组的实体过滤,得到 矫正的评估指标。我们将未矫正的评估指标记为原始指标(Raw),矫正后的评估指标记为过 滤指标(Filter)。易知,更低的平均排序和更高的前10命中率体现了更优秀的表示学习方 法。
[0093] 3、实验结果与分析
[0094] 采用W上数据集和实验设置,同当前知识图谱表示学习主流方法化ansE、TransH 和化ansR进行对比。除了基于线性变换的文本辅助的知识图谱表示学习方法,本
【申请人】还 实现了基于超平面映射和基于空间变换的文本辅助的知识图谱表示学习方法,分别将线 性变换方法、超平面映射方法和空间变换方法记为TEKE_E、T邸E_H和TEKE_R。其中,unif和 bern表示知识图谱表示学习中通用的两种错误训练Ξ元组样本生成策略。
[0095] 如表2、表3所示,为链接预测任务的评测结果。在WN18数据集上,本发明实施例提 供的方法明显优于对比方法。在FB15K上,本发明实施例提供的方法在前10命中率上明显优 于对比方法,考虑到平均排序易受个别极端靠后排序的影响,认为前10命中率更能体现方 法的效果对比。
[0096] 表2 WN18结果分析
[0097]
[009引
[0099]
[0100] -对多、多对一和多对多关系的表示能力对比分析。对于FB15K数据集,分析得到 包含一对一、一对多、多对一和多对多关系比例分别为24.2%、22.9%、28.9%和24.0%。如 表4、表5所示,分别为预测头实体和预测尾实体的前10命中率对比分析。可知当待预测的实 体可能为多个时(预测头实体时多对一和多对多关系,W及预测尾实体时一对多和多对多 关系),本发明实施例提供的方法大幅度提高了前10命中率,而仅仅在一对一关系上有轻 微的降幅。
[0101] 表4预测头实体前10命中率分析(%)
[0105] 知识图谱稀疏性对表示学习效果的影响。基于FB15K数据集,随机抽取3,000实体 及其相关的Ξ元组,进而得到数据集FB3K和2,238个测试Ξ元组W及2,106个验证Ξ元组。 在FB3K的基础上,进一步随机扩充3,000个实体得到FB服数据集,类似地在FB服的基础上得 到FB9K数据集。FB3K、FB服和FB9K平均每个实体相关的Ξ元组分别为6.45、12.56和18.58 个,其稀疏程度逐步降低。为了公平对比,基于FB3K的3,000实体集合和2,238个测试Ξ元 组,对比分析了化ansE和TEKE_E在平均排序上的效果,如表6所示,当知识图谱稀疏程度降 低时,知识表示的效果逐步上升,本发明实施例提供的方法的效果均优于对比方法,且在知 识图谱稀疏性强时提升更加明显。
[0106] 表6知识图谱稀疏性对表示学习效果的影响
[0107]
[0108] 本发明实施例通过采用文本辅助的方法,在知识图谱的实体和关系嵌入表示建 模过程中,引入文本上下文嵌入表示,使得一种关系在给定不同的实体对时可W拥有不同 的表示,大大提高对一对多、多对一和多对多关系的表示能力。另一方面,文本上下文嵌入 表示的引入,极大地丰富了现有知识图谱的信息,有效解决了知识图谱稀疏性带来的表示 效果不足的问题。
[0109] 对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域 技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施 例,某些步骤可W采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书 中所描述的实施例均属于优选实施例,所设及的动作并不一定是本发明实施例所必须的。
[0110] 图3是本发明一实施例提供的获取知识图谱向量化表示的装置的结构示意图。如 图3所示,本发明一实施例提供的获取知识图谱向量化表示的装置包括:
[0111] 标注单元201,用于根据预设的知识图谱,使用实体标注工具标注辅助文本语料中 存在的实体,得到实体标注的文本语料;
[0112] 构建单元202,用于基于所述文本语料,构建由词和实体组成的共现网络,W将所 述辅助文本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下 文嵌入表示;
[0113] 建模单元203,用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系 的嵌入表示分别进行建模,得到所述知识图谱的嵌入表示模型;
[0114] 训练单元204,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图 谱中实体和关系的嵌入表示。
[0115] 在本发明一实施例中,所述实体标注工具为W下中的至少一者:
[0116] AIDI、TAGMEW 及 Wikify!。
[0117] 在本发明一实施例中,所述构建单元202,具体用于:
[011引根据所述共现网络分别定义一元文本上下文和二元文本上下文;
[0119] W所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所 述共现网络中任意一点的词向量嵌入表示;
[0120] 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示;
[0121] 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。
[0122] 在本发明一实施例中,所述建模单元203,具体用于:
[0123] 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所 述实体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型;
[0124] 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关 系的嵌入表示模型;
[0125] 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的 嵌入表示模型。
[01 %]在本发明一实施例中,所述训练单元204,具体用于:
[0127]根据所述嵌入表示模型定义基于边缘的损失函数;
[01%]使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得 到所述知识图谱中实体和关系的嵌入表示。
[0129] 对于本发明一实施例提供的获取知识图谱向量化表示的装置中还设及的具体细 节已在本发明一实施例提供的获取知识图谱向量化表示的方法中作了详细的描述,在此不 再寶述。
[0130] 应当注意的是,在本发明的系统的各个部件中,根据其要实现的功能而对其中的 部件进行了逻辑划分,但是,本发明不受限于此,可W根据需要对各个部件进行重新划分或 者组合,例如,可W将一些部件组合为单个部件,或者可W将一些部件进一步分解为更多的 子部件。
[0131] 本发明的各个部件实施例可硬件实现,或者W在一个或者多个处理器上运行 的软件模块实现,或者W它们的组合实现。本领域的技术人员应当理解,可W在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的系统中的一些或者全部部 件的一些或者全部功能。本发明还可W实现为用于执行运里所描述的方法的一部分或者全 部的设备或者装置程序(例如,计算机程序和计算机程序产品)。运样的实现本发明的程序 可W存储在计算机可读介质上,或者可W具有一个或者多个信号的形式。运样的信号可W 从因特网网站上下载得到,或者在载体信号上提供,或者W任何其他形式提供。
[0132] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未 列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个运样的 元件。本发明可W借助于包括有若干不同元件的硬件W及借助于适当编程的计算机来实 现。在列举了若干装置的单元权利要求中,运些装置中的若干个可W是通过同一个硬件项 来具体体现。单词第一、第二、W及第Ξ等的使用不表示任何顺序。可将运些单词解释为名 称。
[0133] W上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通 技术人员,在不脱离本发明的精神和范围的情况下,还可W做出各种变化和变型,因此所有 等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
【主权项】
1. 一种获取知识图谱向量化表示的方法,其特征在于,所述方法包括: 根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中属于知识图谱中 存在的实体,得到实体标注的文本语料; 基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本 信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示; 根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建 模,得到所述知识图谱的嵌入表示模型; 使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入 表不。2. 根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述实体标注 工具为以下中的至少一者: AIDI、TAGME 以及 Wikify!。3. 根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述基于所述 文本语料,构建由词和实体组成的共现网络,以将所述辅助文本语料的文本信息和所述知 识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表示,包括: 根据所述共现网络分别定义一元文本上下文和二元文本上下文; 以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共 现网络中任意一点的词向量嵌入表示; 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示; 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。4. 根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述根据所述 文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表示分别进行建模,得到所述知 识图谱的嵌入表示模型,包括: 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实 体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型; 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的 嵌入表不模型; 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入 表不模型。5. 根据权利要求1所述的获取知识图谱向量化表示的方法,其特征在于,所述使用随机 梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实体和关系的嵌入表示,包括: 根据所述嵌入表示模型定义基于边缘的损失函数; 使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所 述知识图谱中实体和关系的嵌入表示。6. -种获取知识图谱向量化表示的装置,其特征在于,所述装置包括: 标注单元,用于根据待处理的知识图谱,使用实体标注工具标注给定辅助文本语料中 属于知识图谱中存在的实体,得到实体标注的文本语料; 构建单元,用于基于所述文本语料,构建由词和实体组成的共现网络,以将所述辅助文 本语料的文本信息和所述知识图谱的实体信息进行关联,进而学习得到文本上下文嵌入表 示; 建模单元,用于根据所述文本上下文嵌入表示对所述知识谱图中实体和关系的嵌入表 示分别进行建模,得到所述知识图谱的嵌入表示模型; 训练单元,用于使用随机梯度下降法训练所述嵌入表示模型,得到所述知识图谱中实 体和关系的嵌入表不。7. 根据权利要求6所述的获取知识图谱向量化表示的装置,其特征在于,所述实体标注 工具为以下中的至少一者: AIDI、TAGME 以及 Wikify!。8. 根据权利要求6所述的获取知识图谱向量化表示的装置,其特征在于,所述构建单 元,具体用于: 根据所述共现网络分别定义一元文本上下文和二元文本上下文; 以所述文本语料为输入,采用Skip-gram Word2Vec进行词嵌入表示学习,得到所述共 现网络中任意一点的词向量嵌入表示; 根据所述一元文本上下文和所述词向量嵌入表示定义一元文本上下文嵌入表示; 根据所述二元文本上下文和所述词向量嵌入表示定义二元文本上下文嵌入表示。9. 根据权利要求6所述的获取知识图谱向量化表示的装置,其特征在于,所述建模单 元,具体用于: 采用基于线性变换的方法、基于空间变换的方法或基于超平面映射的方法变换所述实 体的一元文本上下文嵌入表示,得到所述实体的嵌入表示模型; 采用基于线性变换的方法变换所述实体的二元文本上下文嵌入表示,得到所述关系的 嵌入表不模型; 根据所述实体的嵌入表示模型和所述关系的嵌入表示模型得到所述知识图谱的嵌入 表不模型。10. 根据权利要求6所述的获取知识图谱向量化表示的装置,其特征在于,所述训练单 元,具体用于: 根据所述嵌入表示模型定义基于边缘的损失函数; 使用随机梯度下降法训练所述嵌入表示模型,使得所述损失函数最小化,从而得到所 述知识图谱中实体和关系的嵌入表示。
【文档编号】G06F17/27GK105824802SQ201610197184
【公开日】2016年8月3日
【申请日】2016年3月31日
【发明人】李涓子, 王志刚
【申请人】清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1