一种知识图谱的数据处理方法和装置与流程

文档序号:12124057阅读:274来源:国知局
一种知识图谱的数据处理方法和装置与流程

本发明涉及数据处理的技术领域,特别是涉及一种知识图谱的数据处理方法和一种知识图谱的数据处理装置。



背景技术:

知识图谱也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法和计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。其把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来。

随着知识图谱研究的发展,知识图谱能够很好的辅助自然语言处理及语义分析。但随着知识的积累,知识图谱的数据量增大,结构越来越复杂,要进行准确的语义分析需要进行查询逻辑与规则不断添加与构建。当知识图谱构建时信息部分缺失,知识信息不全时,使用规则进行补全知识图谱是非常困难繁琐的。



技术实现要素:

鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种知识图谱的数据处理方法和相应的一种知识图谱的数据处理方法装置。

为了解决上述问题,本发明实施例公开了一种知识图谱的数据处理方法,所述知识图谱包括初始实体及其它实体,所述初始实体及其它实体具有类别信息及关系信息,所述方法包括:

从所述其它实体中选定当前处理的目标实体;

获取所述初始实体的第一特征向量,以及,获取所述目标实体的第二特征向量;

依据所述第一特征向量和所述第二特征向量,计算所述目标实体对应的特征值;

确定所述特征值中的最大特征值;

针对所述最大特征值,采用其对应的第一特征向量和第二特征向量更新所述初始实体及其它实体的类别信息及关系信息。

优选地,所述初始实体和其它实体分别具有对应的词向量数据,所述从所述其它实体中选定当前处理的目标实体的步骤包括:

采用所述初始实体的词向量数据,以及,所述其它实体的词向量数据,计算转移概率值;

判断所述转移概率值是否大于第一预设阈值;

当所述转移概率值大于第一预设阈值时,确定所述转移概率值对应的其它实体为目标实体。

优选地,所述依据所述第一特征向量和所述第二特征向量,计算所述目标实体对应的特征值的步骤包括:

依据所述第一特征向量和第二特征向量,计算所述目标实体对应的条件概率值;

累乘所述条件概率值,获得累乘条件概率值;

针对所述累乘条件概率值进行取对数操作,获得对数条件概率值;

累加所述对数条件概率值,获得特征值。

优选地,所述针对所述最大特征值,采用其对应的第一特征向量和第二特征向量,更新所述初始实体及其它实体的类别信息及关系信息的步骤包括:

针对所述最大特征值,获取其对应的第一特征向量和第二特征向量;

依据所述第一特征向量和第二特征向量,针对所述初始实体及其它实体标注类别信息。

依据所述第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息。

优选地,所述依据所述第一特征向量和第二特征向量,针对所述初始实体及其它实体标注类别信息的步骤包括:

采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第一分类器;

采用所述第一分类器,计算所述初始实体及其它实体的类别信息;

采用所述类别信息标注所述初始实体及其它实体。

优选地,所述依据所述第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息的步骤包括:

采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第二分类器;

采用所述第二分类器,计算所述初始实体及其它实体的关系信息;

将所述关系信息添加到所述初始实体及其它实体。

优选地,其特征在于,所述方法还包括:

针对非最大的特征值,更新其对应的第一特征向量和第二特征向量。

优选地,所述确定所述特征值中的最大特征值的步骤包括:

记录所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数;

判断所述执行次数是否大于第二预设阈值;

当所述次数大于第二预设阈值时,选取出所述特征值中的最大特征值。

本发明实施例还公开了一种知识图谱的数据处理装置,所述知识图谱包括初始实体及其它实体,所述初始实体及其它实体具有类别信息及关系信息,所述装置包括:

目标实体选定模块,用于从所述其它实体中选定当前处理的目标实体;

第一及第二特征向量获取模块,用于获取所述初始实体的第一特征向量,以及,获取所述目标实体的第二特征向量;

特征值计算模块,用于依据所述第一特征向量和所述第二特征向量,计算所述目标实体对应的特征值;

最大特征值确定模块,用于确定所述特征值中的最大特征值;

类别信息及关系信息更新模块,用于针对所述最大特征值,采用其对应的第一特征向量和第二特征向量更新所述初始实体及其它实体的类别信息及关系信息。

优选地,所述目标实体选定模块包括:

转移概率值计算子模块,用于采用所述初始实体的词向量数据,以及,所述其它实体的词向量数据,计算转移概率值;

第一预设阈值判断子模块,用于判断所述转移概率值是否大于第一预设阈值;

目标实体确定子模块,用于当所述转移概率值大于第一预设阈值时,确定所述转移概率值对应的其它实体为目标实体。

优选地,所述特征值计算模块包括:

条件概率值计算子模块,用于依据所述第一特征向量和第二特征向量,计算所述目标实体对应的条件概率值;

累乘条件概率值获得子模块,用于累乘所述条件概率值,获得累乘条件概率值;

对数条件概率值获得子模块,用于针对所述累乘条件概率值进行取对数操作,获得对数条件概率值;

特征值获得子模块,用于累加所述对数条件概率值,获得特征值。

优选地,所述第一及第二特征向量更新模块包括:

第一及第二特征向量提取子模块,用于针对所述最大特征值,提取出对应的第一特征向量和第二特征向量;

类别信息标注子模块,用于依据所述第一特征向量和第二特征向量,针对所述初始实体及其它实体标注类别信息。

关系信息添加子模块,用于依据所述第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息。

优选地,所述类别信息标注子模块包括:

第一分类器训练单元,用于采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第一分类器;

类别信息计算单元,用于采用所述第一分类器,计算所述初始实体及其它实体的类别信息;

类别信息标注单元,用于采用所述类别信息标注所述初始实体及其它实体。

优选地,所述关系信息添加子模块包括:

第二分类器训练单元,用于采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第二分类器;

关系信息计算单元,用于采用所述第二分类器,计算所述初始实体及其它实体的关系信息;

关系信息添加单元,用于将所述关系信息添加到所述初始实体及其它实体。

优选地,所述装置还包括:

第一及第二向量更新模块,用于针对非最大的特征值,更新其对应的第一特征向量和第二特征向量。

优选地,所述最大特征值确定模块包括:

执行次数记录子模块,用于记录所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数;

第二预设阈值判断子模块,用于判断所述执行次数是否大于第二预设阈值;

最大特征值选取子模块,用于当所述次数大于第二预设阈值时,选取出所述特征值中的最大特征值。

本发明实施例包括以下优点:

本发明实施例中,从所述多个其它实体中选定当前处理的目标实体;采用所述第一特征向量和第二特征向量,选取出最大的特征值,采用其对应的第一特征向量和第二特征向量更新所述初始实体及多个其它实体的类别信息及关系信息。本发明实施例中,将知识图谱中实体(点)和关系信息(边)的转化为向量化表示,将知识图谱中复杂的网络图形结构映射为低维的特征向量化表示,便于实体的类别信息和关系信息预测,以及更进一步进行更智能的语义分析与处理,将语义分析与处理自动化,不基于规则的构建,减少了人工维护成本,适用的范围更加广泛。

进一步地,本发明实施例依据所述第一特征向量和第二特征向量,针对初始实体及多个其它实体添加关系信息及类别信息,采用向量化表示知识图谱中的实体及关系信息,依据实体的向量化表示,可以自动补全实体的类别信息及给两个实体之间自动添加关系信息,大大地降低地维护知识图谱的工作量及维护成本。

附图说明

图1是本发明实施例的一种知识图谱的数据处理方法实施例一的步骤流程图;

图2是现有技术的一种知识图谱的示意图;

图3是本发明实施例的一种知识图谱的数据处理方法实施例二的步骤流程图;

图4A是本发明实施例的一种知识图谱的目标实体集合的第一示意图;

图4B是本发明实施例的一种知识图谱的目标实体集合的第二示意图;

图5是本发明实施例的一种知识图谱的数据处理装置实施例的结构框图。

具体实施方式

为使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心构思之一在于,将给定的知识图谱中的实体映射为低维的向量化表示,而后通过该向量向原有的知识图谱中实体或实体之间添加缺失的类别信息或关系信息,本发明实施例将知识图谱的实体用向量化表示,将知识图谱中复杂的网络图形结构映射为低维的向量化表示,而不通过规则表示,便于实体的类别信息和关系信息的预测。

参照图1,示出了本发明实施例的一种知识图谱的数据处理方法实施例一的步骤流程图,所述知识图谱可以包括初始实体及其它实体,所述初始实体及其它实体具有类别信息及关系信息,具体可以包括如下步骤:

步骤101,从所述其它实体中选定当前处理的目标实体;

知识图谱是由实体(点)及关系信息(边)构成,每个点具有对应的属性值,属性值可以包括类别信息,两点之间通过边连接,构建知识图谱的过程就是不断通过编写规则将点或边添加到知识图谱,使知识图谱不断地扩大。

对于给定的知识图谱,将知识图谱的一个实体,选定为初始实体,视为起点,知识图谱可以包括多个实体,除初始实体外,还有多个与初始实体相关联的其它实体。知识图谱旨在描述真实世界中存在的各种实体。其中,每个实体用一个全局唯一确定的ID(identifier,标识符)来表示。而在本发明实施例中通过特征向量表示实体。知识图谱中实体通过关系信息连接,每个实体分别具有对应的类别信息,类别信息用来刻画实体的内在特性,而关系信息用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体,而图中的边则由关系信息构成。

参照图2所示的现有技术中一种知识图谱的示例,知识图谱以实体“邓超”及“孙俪”为中心,其它的实体为与“邓超”、“孙俪”有关的影视作品。假设选定邓超为初始实体,表示为f(n),其它与“邓超”相连的实体为其它实体。例如,实体“邓超”的类别信息是演员,实体“邓超”与实体“孙俪”之间的关系信息为夫妻。

作为本发明具体应用的一种示例,可以通过计算转移概率值,从多个其它实体中选定当前处理的目标实体,通过计算转移概率值,选定当前处理的目标实体。转移概率值是可以表示实体之间的联系的权重的大小。转移概率值还可以是其他表示权重大小的值,例如,转移概率矩阵、邻接矩阵,当然,以上只是表示实体之间的关系信息的权重的大小的示例,任何可以表示实体之间的关系信息的权重的大小的值都可以作为转移概率值,本发明实施例对此不作具体的限制。

步骤102,获取所述初始实体的第一特征向量,以及,获取所述目标实体的第二特征向量;

本发明实施例中,在给定的知识图谱中所有的实体赋予一个初始向量,此初始向量可以为多维的数值,数值是随机赋予的,不能表示实体之间的联系及结构特征,但通过本发明实施例的方法后更新初始向量后,可以很好的表示不同实体之间的联系及结构特征,初始向量可以包括初始实体的第一特征向量,或目标实体的第二特征向量。初始实体的第一特征向量是人为设定的一个多维数的向量,目标实体的第二特征向量同样是人为设定的一个多维数的向量。

应用本发明实施例,可以将知识图谱中的初始实体定义为一个多维数的第一特征向量,维数可以是100维,也可以是50维,例如,定义的初始实体“邓超”的向量化表示f(n)为第一特征向量,即f(邓超)=[0.543,0.381,0.328…0.182],其中,维数为100维(第一特征向量中的数为100个),及假设目标实体为“孙俪”,则目标实体“孙俪”的第二特征向量表示为f(孙俪)=[0.337,0.169,0.401…0.403],其中,维数为100维。

当然,针对维数的设定可以由本领域技术人员依据实际情况来确定,本发明对此不作限制。

步骤103,依据所述第一特征向量和所述第二特征向量,计算所述目标实体对应的特征值;

在本发明具体应用的一种优选实施例中,可以依据所述第一特征向及第二特征向量,计算出以初始实体的第一特征向量的条件下目标实体的第二特征向量的条件概率值,因为一个在知识图谱中初始实体通常与多个目标实体相连,故可以得到多个不同目标实体的条件概率值,计算条件概率值的方法可以是使用softmax函数式表示,累乘所述条件概率值,得到一个多个条件概率值的乘值,对所述多个条件概率值的乘值取对数然后累加得到特征值。

步骤104,确定所述特征值中的最大特征值;

应用于本发明实施例,记录所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数,可以理解为得到特征值的个数,判断所述执行次数是否大于第二预设阈值,当所述次数大于第二预设阈值时,选取出所述特征值中的最大特征值。其中,第二预设阈值的设置为本领域技术人员根据实际情况而定,本发明实施例对此不作限制。

步骤105,针对所述最大特征值,采用其对应的第一特征向量和第二特征向量更新所述初始实体及多个其它实体的类别信息及关系信息。

在本发明实施例中,经由步骤103计算得到特征值后,可以通过不断调整第一特征向量及第二特征向量的每一维的值,从而得到不同的特征值。针对各特征值,选取出最大的特征值对应的第一特征向量及第二特征向量,作为初始实体及其他实体(目标实体)的向量化表示,因为在知识图谱中所有实体向量化表示后,如果所有实体的向量化表示能够很好的表达实体在知识图谱中的关系信息及结构特征,这时,实体“邓超”周围相邻的其它实体集合出现的条件概率值将是最大的。

因为特征值由条件概率经过特定运算得到,由此,可定义对图谱中所有实体n的最大化的特征值,特征值可以包括目标函数值。当的特征值不是最大时,代表此时对应的第一特征向量及第二特征向量不是最优解。

此时,需要继续调整(增大或减少)第一特征向量及第二特征向量中的一维或多维的数,得到不同的特征值,选取最大的特征值对应的第一特征向量值及多个第二特征向量值作为实体的向量化表示,否则,更新第一特征向量及第二特征向量的中,并返回依据第一特征向量和第二特征向量,计算目标实体对应的特征值的步骤。

需要说明的是,本发明实施例中可以设置一个迭代次数,选取出迭代次数内的最大的特征值,保证硬件的性能不受损害,迭代次数的设置可以由本领域技术人员依据实际情况来确定,本发明对此不作限制。

进一步地,选取出迭代次数内的最大特征值,提取出最大的特征值对应的第一特征向量及第二特征向量,通过第一特征向量及第二特征向量更新知识图谱中初始实体及多个其它实体的类别信息及关系信息,采用第一特征向量及第二特征向量及初始实体及多个其它实体的类别信息及关系信息,训练第一分类器及第二分类器,更新未知的类别信息及关系信息。

需要说明的是,本发明实施例中,可以通过两个特征向量之间的乘积可以表示两个实体之间的关系信息,还可以通过两个特征向量之间平均值或L1范数规范化或L2范数规范化表示两个实体之间的关系信息,本发明实施例对此不作任何的限制。

本发明实施例中,从多个其它实体中选定当前处理的目标实体;采用第一特征向量和第二特征向量,计算目标实体对应的特征值;若特征值不是最大,在调整其对应的第一特征向量和第二特征向量后,返回依据第一特征向量和第二特征向量,计算目标实体对应的特征值的步骤;选取出最大的特征值,采用其对应的第一特征向量和第二特征向量更新初始实体及多个其它实体的类别信息及关系信息。本发明实施例中,将知识图谱中实体(点)和关系信息(边)的转化为向量化表示,将知识图谱中复杂的网络图形结构映射为低维的特征向量化表示,便于实体的类别信息和关系信息预测,以及更进一步进行更智能的语义分析与处理,将语义分析与处理自动化,不基于规则的构建,减少了人工维护成本,适用的范围更加广泛。

参照图3,示出了本发明实施例的一种知识图谱的数据处理方法实施例二的步骤流程图,知识图谱包括初始实体及多个其它实体,初始实体及多个其它实体具有类别信息及关系信息,初始实体和其它实体分别具有对应的词向量数据,方法实施例二基本上是方法实施例一的扩展,具体可以包括如下步骤:

步骤201,采用所述初始实体的词向量数据,以及,所述其它实体的词向量数据,计算转移概率值;

本发明实施例中,获取初始实体的词向量数据及多个其它实体的词向量数据,按照特定公式计算多个转移概率值,词向量数据可以采用语言模型训练得到。常见的方法有n-gram模型、最大熵马尔科夫模型等,本发明实施例对此不作任何的限制。

步骤202,判断所述转移概率值是否大于第一预设阈值;

其中,第一预设阈值可以是人为设置的任何数值,例如,第一预设阈值可以设置为0,当转移概率值大于0时,执行步骤203的操作。

步骤203,当所述转移概率值大于第一预设阈值时,确定所述转移概率值对应的其它实体为目标实体;

具体而言,当有转移概率值大于第一预设阈值时,确定转移概率值对应的其它实体为目标实体,这样,便可以确定与初始实体有特定关联的目标实体。

步骤204,获取所述初始实体的第一特征向量,以及,获取所述目标实体的第二特征向量;

实际而言,获取预设定义的初始实体的第一特征向量及目标实体的第二特征向量,第一特征向量f(邓超)=[0.543,0.381,0.328…0.182],及假设目标实体为“孙俪”,则目标实体“孙俪”表示为第二特征向量f(孙俪)=[0.337,0.169,0.401…0.403]。

步骤205,所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值;

本发明实施例的一种优选实施例中,所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤包括以下子步骤:

子步骤S2051,依据所述第一特征向量和所述第二特征向量,计算所述目标实体对应的条件概率值;

子步骤S2052,累乘所述条件概率值,获得累乘条件概率值;

子步骤S2053,针对所述累乘条件概率值进行取对数操作,获得对数条件概率值;

子步骤S2054,累加所述对数条件概率值,获得特征值。

具体应用中,依据第一特征向及第二特征向量,计算出以初始实体的第一特征向量的条件下目标实体的第二特征向量的条件概率值,因为一个在知识图谱中初始实体通常与多个目标实体相连,故可以得到多个不同目标实体的条件概率值。

进一步地,累乘条件概率值,得到一个条件概率值的乘值,对条件概率值的乘值取对数然后累加,可以得到特征值,其中,特征值可以包括目标函数值。

步骤206,确定所述特征值中的最大特征值;

本发明实施例的一种优选实施例中,所述确定所述特征值中的最大特征值的子步骤包括:

子步骤S2061,记录所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数;

子步骤S2062,判断所述执行次数是否大于第二预设阈值;

子步骤S2063,当所述次数大于第二预设阈值时,选取出所述特征值中的最大特征值。

具体而言,记录步骤204的执行次数,当执行次数大于第二阈值时,可以获得多个特征值,从多个特征值中选取出最大特征值,进行下一步的操作。

步骤207,针对所述最大特征值,获取其对应的第一特征向量和第二特征向量;

步骤208,依据所述第一特征向量和第二特征向量,针对所述初始实体及其它实体标注类别信息;

本发明实施例中,依据第一特征向量和第二特征向量,针对初始实体及其它实体标注类别信息的步骤包括:

子步骤S2081,采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第一分类器;

子步骤S2081,采用所述第一分类器,计算所述初始实体及其它实体的类别信息;

子步骤S2083,采用所述类别信息标注所述初始实体及其它实体。

其中,第一分类器,可以为决策树、逻辑回归、朴素贝叶斯、神经网络等算法等,使用第一分类器训练初始实体及其它实体中的已知的类别信息,可以计算出初始实体及其它实体的类别信息。

步骤209,依据所述第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息。

本发明实施例中,依据第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息的步骤包括:

子步骤S2091,采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第二分类器;

子步骤S2092,采用所述第二分类器,计算所述初始实体及其它实体的关系信息;

子步骤S2093,将所述关系信息添加到所述初始实体及其它实体。

其中,第二分类器,可以为决策树、逻辑回归、朴素贝叶斯、神经网络等算法等,本发明实施例不作任何限制。使用第二分类器训练初始实体及其它实体中的已知的关系信息,可以计算出初始实体及其它实体的关系信息。将关系信息添加到知识图谱中的初始实体及其它实体。

本发明实施例的一种优选实施例中,所述方法还包括如下的步骤:

步骤S11,记录所述返回所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数;

步骤S12,判断所述执行次数是否大于第二预设阈值;

步骤S13,当所述次数大于第二预设阈值时,返回采用其对应的第一特征向量和第二特征向量更新所述初始实体及其它实体的类别信息及关系信息的步骤。

其中,第二预设阈值可以是人为设置的迭代次数,例如,执行计算目标实体对应的特征值的次数为100万次,则在100万次后停止运算,选取最大的特征值,提取对应的第一特征向量及第二特征向量作为知识图谱中的向量化表示。

本发明实施例中,采用初始实体的词向量数据,以及,其它实体的词向量数据,计算转移概率值;转移概率值大于第一预设阈值时,确定转移概率值对应的其它实体为目标实体;针对最大特征值,提取出对应的第一特征向量和第二特征向量;依据第一特征向量和第二特征向量,针对初始实体及其它实体标注类别信息,进一步地,依据第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息,采用向量化表示知识图谱中的实体及关系信息,依据实体的向量化表示,可以自动补全实体的类别信息及给两个实体之间自动添加关系信息,大大地降低地维护知识图谱的工作量及维护成本。

为使本领域的技术人员更好的理解本发明实施例,以下通过一个具体的示例进行说明。

一、知识图谱的向量化表示中目标函数的构建过程

要将知识图谱进行向量化表示,本发明实施例提出构造条件概率值最大化的目标函数,以具体图谱为例。

参照图2,示出了现有技术中的一种知识图谱,如图2所示影视知识图谱的一部分,可见邓超、孙俪与影视作品之间的关系及结构,当图中的实体被向量化表示,仍要隐含着知识图谱的信息及特征。以图中“邓超”这个实体为例,当图谱中所有的实体都被向量化表示,即实体“邓超”用f(邓超)进行向量化表示,实体“孙俪”用f(孙俪)进行向量化表示等,如果每个实体的向量化表示都能很好的体现每个实体在图谱中的结构特征和关系信息,那么通过每个实体的向量化表示计算出邓超周围的目标实体出现的条件概率值应该达到最大,即美人鱼,孙俪等其附近目标实体集合N(邓超),当图谱中所有实体向量化表示后,如果所有实体的向量化表示能够很好的表达实体在图谱中的结构特征,则实体“邓超”周围目标实体集合出现的条件概率值P(N(邓超)|f(邓超))将是最大的。由此,可定义对图谱中所有实体n的最大化目标函数值(特征值)maxfn∈Vlog P(N(n)|f(n))。而实体“邓超”周围的目标实体之间相互独立,即美人鱼与中国合伙人等是相互独立的,所以实体“邓超”周围的所有目标实体出现的条件概率值相互独立,则有

实体“邓超”的某个目标实体出现的条件概率值可用他们各自的特征向量实体乘的softmax函数表示。例如,

通用的给定知识图谱G=(V,E),V代表图中所有的实体,E代表图中所有的关系信息。类似词向量的skip-gram模型,一个词的出现概率与其上下文的词语相关。在计算图中实体的特征表示时,根据一个实体的目标实体集合出现的条件概率值定义最大化目标函数(特征值的函数):

其中f(n)是实体n的向量化表示,其维度为d,通过模型的训练最大化特征值(目标函数值)来调整f(n)的参数。这样,向量化表示模型就有个|V|×d个参数需要估计。N(n)是实体n的目标实体集合。P(N(n)|f(n))是当图谱中所有实体被向量化表示时,实体n的目标实体集合出现的条件概率值。若图谱中所有实体的向量化表示能够很好的表达每个实体在图谱中的关系与结构特征,则V中所有实体的目标实体集合的条件概率值将达到最大,即上述特征值(目标函数值)达到最大化。

二、知识图谱的实体的向量化表示

假设给定如图2的知识图谱,进行知识图谱向量化表示的过程如下:

1.初始化第一特征向量及第二特征向量

随机初始化图谱中所有实体的特征向量参数f(n),向量化表示维数d定为100,N(n)目标实体集合大小为k,训练迭代次数定义为iterations,随机初始化图谱中所有实体的100维向量化表示。

图谱中所有实体的向量化表示可随机初始化为100维的向量:

第一特征向量f(邓超)=[0.543,0.381,0.328…0.182]

第二特征向量f(孙俪)=[0.337,0.169,0.401…0.403]

第二特征向量……

第二特征向量……

2.知识图谱中所有实体中的目标实体集合的获取

最常见的图搜索算法是广度优先搜索(BFS)和深度优先搜索(DFS)。但是用BFS进行目标实体的采集易导致重复采样,图中大部分未遍历到。而用DFS进行目标实体的采集易导致采样得到的实体距离源实体过远,而失去代表性。本发明实施例采用一种综合BFS和DFS的采样方法。

参照图4A及图4B中的,定义目标实体集合的大小为k,N(n)即的大小为k。图谱中关系信息的转移概率值即采样实体v_(i-1)到下一个实体v_i的转移概率P(vi|vi-1),定义为两个词的归一化词向量相似度,词向量模型的获取是通过构建知识图谱的大语料训练获取,转移概率值越大,代表这两个实体的相关度越高,该目标实体的代表性越强,即向该目标实体转移的概率越大。本发明实施例使用余弦相似度来代表转移概率,式中的W是用于归一化转移概率值:

例如,要得到图中邓超和孙俪之间关系信息的转移概率,邓超的词向量为c(邓超)=[0.500,0.249,0.069…0.325],孙俪的词向量c(孙俪)=[0.196,0.121,0.207…0.843],代入上式

邓超和芈月传之间的转移概率,由于两实体间不存在关系信息,则

P(邓超│芈月传)=0

同理,可计算得到图谱中所有关系信息的转移概率。

目标实体集合N(n)采样流程:

(1)从初始实体n出发,根据实体输出的每条关系信息的转移概率值进行随机多项分布采样得到下一个实体,这样两个实体之间转移概率越大采样到该实体的可能性越大。

(2)从当前实体出发,进行新一轮的采样得到下一个实体,注意如果转移到N(n)中已经存在的采样的实体,该实体不被计数,从该实体出发继续重复采样过程。

(3)重复此过程一直到采样到k个实体,即得到目标实体集合N(n)。

参照图4A及图4B中的,示出本发明实施例中的二种不同的目标实体集合,其中,关系信息的转移概率值是根据词向量模型两个词的余弦相似度进行初始化的,如图4A所示,从实体“邓超”出发,使用随机多项分布采样可能的遍历顺序为邓超→孙俪→甄嬛传→孙俪→恶棍天使→邓超→美人鱼,则N(邓超)={孙俪,甄嬛传,恶棍天使,美人鱼}。图4B所示,在下一次迭代中同样从邓超出发,使用随机多项分布采样可能的遍历顺序为邓超→中国合伙人→邓超→美人鱼→邓超→孙俪→芈月传,则N(邓超)={中国合伙人,美人鱼,孙俪,芈月传}。一直进行iterations次迭代采样,得到iterations个不同N(邓超)的采样结果;同理,可以得到图谱中其他所有实体iterations个不同N(n)的采样结果。

3.调整实体的向量化表示f(n)参数最大化特征值(目标函数值)

由2采样得到每个实体的目标实体集合N(n),计算对应实体的目标实体集合的条件概率值P(N(n)|f(n)),进而得到特征值(目标函数值),利用随机梯度下降(Stochastic Gradient Descent,SGD)算法进行iterations次图谱中所有实体的向量化表示参数的迭代调整和优化,最大化特征值(目标函数值),使f(n)能够表示实体n在图谱中的结构特征与邻域实体之间的关系特征。

以实体“邓超”为例,假设在一次迭代中,使用2采样得到的目标实体集合为N(邓超)={孙俪,甄嬛传,恶棍天使,美人鱼},计算目标实体集合中每个实体的条件概率值如下:

计算实体“邓超”目标实体集合的条件概率值如下:

同理,可以计算出图谱中其他实体n的目标实体集合的条件概率值P(N(n)|f(n))。

进而得到目标函数(特征值的函数)∑n∈Vlog P(N(n)|f(n))。

使用随机梯度下降法SGD不断优化调整图谱中所有实体n的向量化表示f(n)使特征值(目标函数值)最大化。

进行iterations次迭代优化得到最终的知识图谱向量化表示模型,提取最大的目标函数值对应的第一特征向量及第二特征向量作为实体(初始实体或其它实体)的向量化表示,采用所述第一特征向量及第二特征向量进行实体的类别信息的补全或关系信息的添加。

进一步地,完成优化知识图谱向量化表示模型每个实体的向量化表示,得到每个实体的特征向量化表示后,两实体(u,v)间的关系信息可以向量化为e(u,v)=f(u)·f(v)和/或e(u,v)=(f(u)-f(v))/2和/或e(u,v)=|f(u)-f(v)|和/或e(u,v)=|f(u)-f(v)|^2。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图5,示出了本发明实施例的一种知识图谱的数据处理装置实施例的结构框图,所述知识图谱包括初始实体及多个其它实体,所述初始实体及多个其它实体具有类别信息及关系信息,具体可以包括如下模块:

目标实体选定模块301,用于从所述其它实体中选定当前处理的目标实体;

第一及第二特征向量获取模块302,用于获取所述初始实体的第一特征向量,以及,获取所述目标实体的第二特征向量;

特征值计算模块303,用于依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值;

最大特征值确定模块304,用于确定所述特征值中的最大特征值;

类别信息及关系信息更新模块305,用于针对所述最大特征值,采用其对应的第一特征向量和第二特征向量更新所述初始实体及其它实体的类别信息及关系信息。

优选地,所述目标实体选定模块包括:

转移概率值计算子模块,用于采用所述初始实体的词向量数据,以及,所述其它实体的词向量数据,计算转移概率值;

第一预设阈值判断子模块,用于判断所述转移概率值是否大于第一预设阈值;

目标实体确定子模块,用于当所述转移概率值大于第一预设阈值时,确定所述转移概率值对应的其它实体为目标实体。

优选地,其特征在于,所述特征值计算模块包括:

条件概率值计算子模块,用于依据所述第一特征向量和第二特征向量,计算所述目标实体对应的条件概率值;

累乘条件概率值获得子模块,用于累乘所述条件概率值,获得累乘条件概率值;

对数条件概率值获得子模块,用于针对所述累乘条件概率值进行取对数操作,获得对数条件概率值;

特征值获得子模块,用于累加所述对数条件概率值,获得特征值。

优选地,所述第一及第二特征向量更新模块包括:

第一及第二特征向量提取子模块,用于针对所述最大特征值,提取出对应的第一特征向量和第二特征向量;

类别信息标注子模块,用于依据所述第一特征向量和第二特征向量,针对所述初始实体及其它实体标注类别信息。

关系信息添加子模块,用于依据所述第一特征向量和第二特征向量,针对初始实体及其它实体添加关系信息。

优选地,所述类别信息标注子模块包括:

第一分类器训练单元,用于采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第一分类器;

类别信息计算单元,用于采用所述第一分类器,计算所述初始实体及其它实体的类别信息;

类别信息标注单元,用于采用所述类别信息标注所述初始实体及其它实体。

优选地,所述关系信息添加子模块包括:

第二分类器训练单元,用于采用所述初始实体及其它实体的第一特征向量和第二特征向量,训练第二分类器;

关系信息计算单元,用于采用所述第二分类器,计算所述初始实体及其它实体的关系信息;

关系信息添加单元,用于将所述关系信息添加到所述初始实体及其它实体。

本发明实施例的一种优选实施例中,所述装置还包括:

第一及第二向量更新模块,用于针对非最大的特征值,更新其对应的第一特征向量和第二特征向量。

优选地,所述最大特征值确定模块包括:

执行次数记录子模块,用于记录所述依据所述第一特征向量和第二特征向量,计算所述目标实体对应的特征值的步骤的执行次数;

第二预设阈值判断子模块,用于判断所述执行次数是否大于第二预设阈值;

最大特征值选取子模块,用于当所述次数大于第二预设阈值时,选取出所述特征值中的最大特征值。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种方法和一种装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1