面向开放网络知识库的实体间关系推断方法及系统的制作方法

文档序号:6539122阅读:181来源:国知局
面向开放网络知识库的实体间关系推断方法及系统的制作方法
【专利摘要】本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。
【专利说明】面向开放网络知识库的实体间关系推断方法及系统
【技术领域】
[0001]本发明涉及开放网络知识库,尤其涉及开放网络知识库中实体间关系推断的方法。
【背景技术】
[0002]知识库(Knowledge Base)是知识工程中一种结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储,组织,管理和使用的互联关系的知识片集合。这些知识片包括与领域相关的理论知识,实时数据,由专家经验得到的启发式知识,如某领域内有相关定义,定理和运算法则以及常识性知识等。知识库的主要作用有以下几点:知识库使信息和知识有序化,是知识库对信息组织的首要贡献;知识库加快知识和信息的流动,有利于知识共享与交流;知识库还有利于实现不同组织的协作与沟通;知识库可以帮助企业实现对客户知识的有效管理。但是普通的知识库有知识类型简单,内容单一,专业性较强等缺点,而面向开放网络的知识库是通过对于开放网络中的各种知识进行抽取,提炼,分析,最终构建一个知识内容丰富,结构统一的知识网络。
[0003]基于开放网络知识库的实体间关系推断,对于知识库的丰富与完善、潜在知识的挖掘具有重要意义。在基于开放网络知识库的关系推理中,知识库实体类型主要有人物、事件、组织机构、地点等,而它们之间的关系类型则十分多样化。针对不同的实体类型,所关注的关系也是不同的,对于人物实体之间,常见关系有亲人及朋友关系;对于人与组织机构之间,常见关系有工作单位、毕业院校;对于组织机构之间,常见关系有下属机构、相关机构等。这些已知的实体间的关系在原始的知识网络中比较稀疏,而实际上实体间还存在大量的隐含关系,可以通过知识库中已有的知识和关系,来发掘这些隐含关系。最常用的挖掘方法是基于规则的方法,即通过对已有知识的分析,制定合适的推断规则,最终由这些规则推出实体间的关系。但这种方法由人工来制定规则,工作量很大且能制定的规则数量有限,涵盖范围较小,具有较大的局限性。有研究者提出了基于实体间的路径关系进行推断的方法,该方法可省去复杂的人为制定规则的过程,自动学习到推理规则来对实体间的关系进行推理,但当实体间路径数量较少,或实体间关系信息缺乏时,这种方法的推断效果会非常差。

【发明内容】

[0004]因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的面向开放网络知识库的实体间关系推断方法。
[0005]本发明的目的是通过以下技术方案实现的:
[0006]一方面,本发明提供了一种面向开放网络知识库的实体间关系推断方法,包括:
[0007]步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;
[0008]步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;
[0009]步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体。
[0010]上述方法中,所述步骤3可包括:
[0011]步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;
[0012]步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;
[0013]步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;
[0014]步骤34,基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;
[0015]步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
[0016]上述方法中,所述开放式网络知识库可以以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径。
[0017]上述方法中,所述训练实体对集合中还可包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。
[0018]上述方法中,所述步骤31可包括:
[0019]步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于I的路径的概率值构成的;其中I为大于I的自然数;
[0020]步骤312)基于所构造的训练数据集来训练关系路径模型。
[0021]上述方法中,所述步骤311)中,可以下面的迭代的方式计算所述两个实体之间某条路径的概率值:
[0022]对于实体对(s,e),若存在长度为m的路径=Path=R1R2...Rm,m≤1,则从实体s以路径Path到达实体e的概率Ps,path(e)为:
【权利要求】
1.一种面向开放网络知识库的实体间关系推断方法,所述方法包括: 步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集; 步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对; 步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体。
2.根据权利要求1所述的方法,其中所述步骤3包括: 步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率; 步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分; 步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率; 步骤34,基于所述目标 关系对应的显著属性集,计算每个候选实体的属性相似度得 分; 步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
3.根据权利要求1所述的方法,其中所述开放式网络知识库以图的形式来表示,图中的节点表不知识库中的实体,图中的边表不实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径。
4.根据权利要求1所述的方法,所述训练实体对集合中还包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。
5.根据权利要求2所述的方法,所述步骤31包括: 步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于I的路径的概率值构成的;其中I为大于I的自然数; 步骤312)基于所构造的训练数据集来训练关系路径模型。
6.根据权利要求5所述的方法,所述步骤311)中,以下面的迭代的方式计算所述两个实体之间某条路径的概率值: 对于实体对(s,e),若存在长度为m的路径=Path=R1R2...Rm, m ( 1,则从实体s以路径Path到达实体e的概率Ps,path(e)为: α、= Σ Ps,PatlAe)-p(e\e'lRi)

e'^Path'
其中,Path’=R1R2...Rlrt ;P(e|e,; R1) =R1 (e', e) / | R1 (e',.) | 表示从节点 e’ 以关系 R1达到节点e的概率,R1W,e)代表是否存在实体e’以关系R1达到实体e,如果存在则为1,否则为O ;.代表任意实体;如果e=s,则Ps,path(e)=l。
7.根据权利要求5所述的方法,所述步骤312)中所述关系路径模型为逻辑回归模型、线性回归模型、支持向量机模型或朴素贝叶斯模型。
8.根据权利要求2所述的方法,所述步骤32包括:基于训练好的关系路径模型来计算所述候选实体集中每个候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
9.根据权利要求5所述的方法,所述步骤32包括: 对于所述候选实体集中每个候选实体,构造由该候选实体与所述目标实体构成的实体对的路径特征向量;并根据该路径特征向量,利用训练好的关系路径模型来计算该候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
10.根据权利要求2所述的方法,所述步骤33包括:。 步骤331)根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集; 步骤332)基于所构造的训练数据集来训练关系属性模型; 其中,所述步骤331)包括: 找出训练实体对集合中各个实体的所有出现过的属性作为候选属性,构成候选属性集; 对于训练实体对集合中每个实体对,构造属性特征向量,该属性特征向量的每个维度对应候选属性集中的每个候选属性;其中对于每个候选属性,若该实体对的两个实体均含有这个属性,且属性值相同,则将该候选属性对应的维度值置为1,否则将该属性对应的维度值置为O ;所述训练数据集中包括训练实体对集合中所有实体对的属性特征向量。
11.根据权利要求10所述的方法,所述步骤33中所述目标关系对应的显著属性集由从候选属性集中选择的其相应概率较大的若干个候选属性组成,其中每个候选属性的相应概率为根据训练好的关系属性模型计算的、对于该候选属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率。
12.根据权利要求2或11所述的方法,所述步骤34包括: 对于候选实体集中每个候选实体,基于所述显著属性集构造由目标实体与该候选实体构成的实体对的属性特征向量;其中该属性特征向量的每个维度对应与所述显著属性集中的每个属性;对于显著属性集中的每个属性,若目标实体与该候选实体同时存在该属性且属性值相同,则该属性对应的维度值为1,否则为O ; 计算该属性特征向量与标准属性向量的相似度来作为该候选实体的属性相似度得分;其中,所述标准属性征向量为相对于显著属性集,维度值全为I的属性特征向量。
13.根据权利要求2所述的方法,所述步骤35包括: 步骤351)对每个候选实体的关系路径得分和属性相似度得分进行线性加权,以得到每个候选实体的综合评分; 步骤352)从所述候选实体集中选出其综合评分高的候选实体作为所推断的与该目标实体存在所述目标关系的实体。
14.根据权利要求13所述的方法,所述步骤352)中,若训练实体对集合中存在丰富的关系路径信息,关系路径得分的权重设置为大于属性相似度得分的权重;若训练实体对集合中实体属性信息更丰富,则关系路径得分的权重设置为小于属性相似度得分的权重。
15.一种面向开放网络知识库的实体间关系推断系统,所述系统包括: 用于根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集的装置; 用于根据待推断的目标关系构造训练实体对集合的装置,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对; 用于基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目 标关系的候选实体的装置。
【文档编号】G06N5/04GK103824115SQ201410072412
【公开日】2014年5月28日 申请日期:2014年2月28日 优先权日:2014年2月28日
【发明者】程学旗, 王元卓, 赵泽亚, 贾岩涛, 冯凯, 熊锦华, 许洪波 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1