一种实体对齐方法及装置与流程

文档序号:18060264发布日期:2019-07-03 03:02阅读:321来源:国知局
一种实体对齐方法及装置与流程

本申请涉及知识图谱技术领域,尤其涉及一种实体对齐方法及装置。



背景技术:

随着人工智能的不断发展和突破,知识图谱(knowledgegraph,简称kg)作为未来实现强人工智能的技术基石,受到了广泛关注。现阶段在构建知识图谱时,通常会从各大百科网站的半结构化文本中收集三元组,或者利用信息抽取技术从各种非结构化文本中抽取三元组,用于构建知识图谱,其中,存在两类三元组,一类是关系三元组、另一类是属性三元组。

由于各大百科以及各种来源的非结构化文本,对于实体本身、以及关系和属性的表达上存在语义鸿沟,因此,为了将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序之间的交互提供语义互操作性,学者们提出了语义集成这一研究课题。而实体对齐是语义集成的一个重要前提和技术手段,它的目标是将两个异构的知识图谱中指向现实世界中的同一对象的那些实体找出来。

但由于不同的知识图谱对于实体各方面信息以及实体间关系结构的表达差异性较大,所以实体对齐工作是非常具有挑战性的,而现有的实体对齐技术主要是基于实体间的关系进行实体对齐,但采用这种方式所得到实体对齐结果,还无法达到较高的准确性。



技术实现要素:

本申请实施例的主要目的在于提供一种实体对齐方法及装置,在将两个异构的知识图谱进行实体对齐时,能够提高实体对齐结果的准确性。

本申请实施例提供了一种实体对齐方法,包括:

在两个知识图谱中,确定已知的各个目标属性对,作为各个参考属性对;

根据各个参考属性对在两个知识图谱中筛选出各个目标实体对;

根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对,作为各个参考属性对,并继续执行所述根据各个参考属性对在两个知识图谱中筛选出各个目标实体对的步骤,直至无法筛选出目标实体对为止,形成第一实体对集合;

其中,所述目标属性对所包括的两个属性相同、且这两个属性分别属于两个知识图谱;所述目标实体对所包括的两个实体相同、且这两个实体分别属于两个知识图谱。

可选的,所述根据各个参考属性对在两个知识图谱中筛选出各个目标实体对,包括:

根据各个参考属性对各自所包括的两个属性的属性值,在两个知识图谱中筛选出各个目标实体对。

可选的,所述根据各个参考属性对各自所包括的两个属性的属性值,在两个知识图谱中筛选出各个目标实体对,包括:

在两个知识图谱中确定各个初始实体对,所述初始实体对具有至少一个参考属性对、且具有的每一参考属性对对应一属性值相似度,所述属性值相似度为对应参考属性对所包括的两个属性的属性值之间的相似度;

根据所述初始实体对的至少一个属性值相似度,判定所述初始实体对是否属于所述目标实体对。

可选的,所述根据所述初始实体对的至少一个属性值相似度,判定所述初始实体对是否属于所述目标实体对,包括:

计算所述初始实体对的至少一个属性值相似度的平均值;

若计算得到的平均值大于第一预设阈值,则判定所述初始实体对为所述目标实体对。

可选的,所述根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对,包括:

对于筛选出的各个目标实体对,将该目标实体对下的各个待选属性进行两两组合,得到每种组合下的待选属性对,所述待选属性对所包括的两个属性不属于已确定的各个目标属性对、且分别属于该目标实体对中的两个实体;

计算所述待选属性对所包括的两个属性的属性值之间的相似度;

若计算得到的相似度大于第二预设阈值,则判定所述待选属性对为新的目标属性对。

可选的,所述方法还包括:

利用预先训练得到的实体对齐模型,在两个知识图谱中筛选出各个目标实体对,形成第二实体对集合,所述实体对齐模型用于基于实体关系筛选实体对。

可选的,所述实体对齐模型是利用模型训练数据进行训练得到的,所述模型训练数据包括从所述第一实体对集合中筛选出的正确性高的目标实体对。

可选的,所述形成第二实体对集合之后,还包括:

合并所述第一实体对集合与所述第二实体对集合,形成第三实体对集合;

从所述第三实体对集合中剔除准确度低的目标实体对,作为第四实体对集合。

可选的,所述从所述第三实体对集合中剔除准确度低的目标实体对,包括:

对于同时属于所述第一实体对集合和所述第二实体对集合的目标实体对,根据该目标实体对的第一相似度和第二相似度,确定该目标实体对的最终相似度;

其中,所述第一相似度是在形成所述第一实体对集合时得到的该目标实体对所包括的两个实体之间的相似度,所述第二相似度是在形成所述第二实体对集合时得到的该目标实体对所包括的两个实体之间的相似度;

若该目标实体对的最终相似度小于第三预设阈值,则将该目标实体对从所述第三实体对集合中剔除。

可选的,所述确定该目标实体对的最终相似度,包括:

基于所述第一相似度和所述第二相似度各自的置信度,确定该目标实体对的最终相似度。

可选的,所述置信度是利用预先构建的回归模型在模型学习数据中学习得到的,所述模型学习数据包括从所述第一实体对集合中筛选出的正确性高的目标实体对。

本申请实施例还提供了一种实体对齐装置,包括:

参考属性对获取单元,用于在两个知识图谱中,确定已知的各个目标属性对,作为各个参考属性对;

目标实体对筛选单元,用于根据各个参考属性对在两个知识图谱中筛选出各个目标实体对;

参考属性对筛选单元,用于根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对,作为各个参考属性对;

目标实体对循环筛选单元,用于调用筛选出的参考属性对,并根据各个参考属性对在两个知识图谱中筛选出各个目标实体对,直至无法筛选出目标实体对为止,形成第一实体对集合;

其中,所述目标属性对所包括的两个属性相同、且这两个属性分别属于两个知识图谱;所述目标实体对所包括的两个实体相同、且这两个实体分别属于两个知识图谱。

可选的,所述目标实体对筛选单元,具体用于:

根据各个参考属性对各自所包括的两个属性的属性值,在两个知识图谱中筛选出各个目标实体对。

可选的,所述目标实体对筛选单元,包括:

初始实体确定子单元,用于在两个知识图谱中确定各个初始实体对,所述初始实体对具有至少一个参考属性对、且具有的每一参考属性对对应一属性值相似度,所述属性值相似度为对应参考属性对所包括的两个属性的属性值之间的相似度;

目标实体对确定子单元,用于根据所述初始实体对的至少一个属性值相似度,判定所述初始实体对是否属于所述目标实体对。

可选的,所述目标实体对确定子单元,包括:

相似度平均值计算模块,用于计算所述初始实体对的至少一个属性值相似度的平均值;

目标实体对确定模块,用于若计算得到的平均值大于第一预设阈值,则判定所述初始实体对为所述目标实体对。

可选的,所述参考属性对筛选单元,包括:

待选属性对获取子单元,用于对于筛选出的各个目标实体对,将该目标实体对下的各个待选属性进行两两组合,得到每种组合下的待选属性对,所述待选属性对所包括的两个属性不属于已确定的各个目标属性对、且分别属于该目标实体对中的两个实体;

属性相似度计算子单元,用于计算所述待选属性对所包括的两个属性的属性值之间的相似度;

目标属性对确定子单元,用于若计算得到的相似度大于第二预设阈值,则判定所述待选属性对为新的目标属性对。

基于上述技术方案,本申请具有以下有益效果:

本申请提供的实体对齐方法,通过迭代地执行两个筛选步骤获得第一实体对集合,而且,该两个步骤为:根据目标属性对在两个知识图谱中筛选出目标实体对,和根据目标实体对在两个知识图谱中筛选出新的目标属性对。由于第一实体对集合中的每个目标实体对均是通过不同实体之间的属性信息获得的,而且每个实体的属性信息能够更真实全面地代表该实体,因而,利用实体的属性信息进行实体对齐时,能够提高实体对齐结果的准确性。另外,由于目标属性对可以根据目标实体对从知识图谱中筛选得到,使得语义相同但表达方式不同的两个属性能够组成目标属性对,克服了因属性表达方式多样而无法对齐的问题,从而进一步提高实体对齐结果的准确性。此外,由于目标属性对和目标实体对均是在迭代过程中生成的,无需使用包括大量预先对齐的实体对的训练数据,克服了因训练数据质量低导致的实体对齐结果的准确性低的问题,从而提高了实体对齐结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的不同知识图谱的结构示意图;

图2为本申请方法实施例一提供的实体对齐方法的流程图;

图3为本申请实施例提供的迭代地筛选目标实体对的流程示例图;

图4为本申请方法实施例二提供的实体对齐方法的流程图;

图5为本申请方法实施例三提供的实体对齐方法的流程图;

图6为本申请实施例提供的第一种集合合并结果的示意图;

图7为本申请实施例提供的第二种集合合并结果的示意图;

图8为本申请方法实施例三提供的实体对齐方法的一种具体实施方式的流程示意图;

图9为本申请方法实施例三提供的实体对齐方法的一种具体实施方式的流程图;

图10为本申请装置实施例一提供的实体对齐装置的结构示意图。

具体实施方式

知识图谱可以用于描述不同实体之间的关系以及每个实体所具有的属性。其中,实体是指客观世界中存在的且可互相区分的事物,而且实体可以是人,也可以是物体实物,还可以是抽象概念。例如,“乔布斯”和“旧金山”都是实体。

不同实体之间的关系是指存在于两个实体之间的某种关联,例如,根据“乔布斯出生于旧金山”可知,实体“乔布斯”和实体“旧金山”之间是存在关联的,该关联具体是:“乔布斯”的出生地是“旧金山”。

实体所具有的属性是指实体自身所具有的某些特性,而且,每个属性涉及属性名和属性值。例如,根据“乔布斯的出生日期为1955年2月24日”可知,实体“乔布斯”所具有的属性是出生于1955年2月24日,其中,“出生日期”是属性名,“1955年2月24日”是属性值。

另外,在构建知识图谱时,通常会从各大百科网站的半结构化文本中收集三元组,或者利用信息抽取技术从各种非结构化文本中抽取三元组。其中,三元组可以采用统一的表示方式:(主语subject,谓语predicate,宾语object);而且,在某些情况下,三元组可以采用某种特殊的表示方式,其具体为:用于描述不同实体之间某种关联的关系三元组可以采用(实体entity,关系relation,实体entity)的表示方式,例如,“乔布斯出生在旧金山”可以用关系三元组(乔布斯,出生地,旧金山)进行表示;用于描述每个实体的某种属性的属性三元组可以采用(实体entity,属性attribute,值value)的表示方式,例如,“乔布斯的身高是188cm”可以用属性三元组(乔布斯,身高,188cm)进行表示。

然而,由于各大百科网站以及各种来源的非结构化文本,对于实体本身、以及关系和属性的表达上存在语义鸿沟,因此,为了将不同的知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序之间的交互提供语义互操作性,学者们提出了语义集成这一研究课题。而实体对齐是语义集成的一个重要前提和技术手段,它的目标是将两个异构的知识图谱中指向现实世界中的同一对象的那些实体找出来。然而,由于不同的知识图谱对于实体各方面信息以及实体间关系结构的表达差异性较大,所以实体对齐工作是非常具有挑战性的。

为了便于解释和理解,下面将结合图1对不同知识图谱中的实体表述差异进行说明,其中,图1为本申请实施例提供的不同知识图谱的结构示意图。

作为示例,图1包括第一知识图谱kg1和第二知识图谱kg2。其中,第一知识图谱kg1包括第一实体第二实体和第三实体第二实体和第三实体之间具有第一关系第一实体和第二实体之间具有第二关系例如,第二实体具有的属性信息和关系信息具体包括:“birth-time”为“1955-2-24”,“name”为“stevejobs”,“birth-place”为“sanfrancisco,california,usa”,“height”为“188cm”。第二知识图谱kg2包括第四实体第五实体和第六实体第五实体和第六实体之间具有第三关系第四实体和第五实体之间具有第四关系例如,第五实体具有的属性信息和关系信息具体包括:“birthdate”为“1955.02.24”,“name”为“stevejobs”,“birth-place”为“sanfrancisco”,“nickname”为“applegodfather”,“height”为“188centi-meter”。

根据图1可知,第二实体和第五实体均指向“乔布斯”这个人,但是,对于计算机来说,判断出“birth-time”和“birthdate”为同一属性、“sanfrancisco,california,usa”和“sanfrancisco”为同一实体、以及“188cm”和“188centi-meter”为相等的属性值均是十分困难的,如此导致了实体对齐工作是非常具有挑战性的。

在现有技术中,实体对齐方法通常是基于词向量嵌入(embedding)的思想进行的,下面将以两种常用的实体对齐方法为例进行说明。

第一种实体对齐方法是将知识图谱中的实体以及不同实体之间的关系映射到向量空间中,使得不同实体间的相似度可以通过计算向量间的距离获得,即,不依赖于任何文本信息,获取到实体在整个知识图谱上的深层结构信息,并基于此进行实体对齐。

第二种实体对齐方法是基于第一种实体对齐方法进行改进得到的,而且,该方法的改进之处为:根据不同实体之间的关系、每个实体的语义描述以及属性,获得每个实体的向量表示,如此在一定程度上克服了因第一种实体对齐方法仅考虑不同实体之间关系而导致的实体对齐结果准确性低的缺陷。

但是,经研究发现,上述两种实体对齐方法具有以下缺陷:

第一种实体对齐方法的缺陷是:由于该方法需要大量预先对齐的实体对作为训练数据,但是高质量训练数据的获取是十分艰难的,因而,该方法所用的训练数据的质量较低,从而导致该方法的实体对齐结果的准确性低。另外,由于知识图谱中的实体间关系具有稀疏性,也就是说,知识图谱中的每个实体与其他实体只有很少的联系,甚至没有联系(例如,知识图谱中的孤立实体),因此,只利用实体关系进行实体对齐,将导致实体对齐结果的准确性低。

第二种实体对齐方法的缺陷是:由于该方法是第一种实体对齐方法的改进方法,其仍具有第一种实体对齐方法的缺点。另外,在实体向量的构建过程中,为了绕开属性名及属性值表达的多样性,将属性值简化成了属性值类型(例如,日期类型、数字类型等),导致属性值中的噪声较大,从而没有有效的利用属性信息,进而导致实体对齐结果的准确性仍较低。

而本申请实施例在进行实体对齐时,有效的利用了属性信息,进而提升了实体对齐结果的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

方法实施例一

参见图2,该图为本申请方法实施例一提供的实体对齐方法的流程图。

本申请实施例提供的实体对齐方法,包括:

s201:在两个知识图谱中,确定已知的各个目标属性对,作为各个参考属性对。

s202:根据各个参考属性对在两个知识图谱中筛选出各个目标实体对。

s203:判断当前筛选出的目标实体对的个数是否为0,若是,则执行s206;若否,则执行s204。

s204:根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对。

s205:将筛选出的各个新的目标属性对,作为各个参考属性对,并返回执行s202。

s206:将已筛选出的所有目标实体对,形成第一实体对集合。

以上为本申请方法实施例一提供的实体对齐方法的具体执行步骤,为了便于理解和解释本申请方法实施例一提供的实体对齐方法,下面将依次介绍s201至s206的具体实施方式。

首先介绍s201的具体实施方式。

在s201中,每个目标属性对包括两个属性,其中,这两个属性相同,且这两个属性分别属于两个知识图谱。作为示例,第一目标属性对包括第一属性和第二属性,其中,第一属性和第二属性相同,而且,第一属性属于第一个知识图谱,第二属性属于第二个知识图谱。

另外,第一属性和第二属性相同可以是指第一属性的属性名以及属性值分别与第二属性的属性名以及属性值完全相同,也可以是指第一属性的属性名以及属性值分别与第二属性的属性名以及属性值的语义相同。

为了便于解释和理解目标属性对,下面将结合图1以及两个例子进行说明。

第一示例具体为:如图1所示,当第一属性是第二实体的一个属性,且第一属性的属性名为“name”,第一属性的属性值为“stevejobs”;而且,第二属性是第五实体的一个属性,且第二属性的属性名为“name”,第二属性的属性值为“stevejobs”时,由于第一属性的属性名以及属性值均和第二属性的属性名以及属性值完全相同,因而,第一属性和第二属性相同;而且,由于第二实体属于第一知识图谱kg1,且第五实体属于第二知识图谱kg2,因而,归属于第二实体的第一属性属于第一知识图谱kg1,归属于第五实体的第二属性属于第二知识图谱kg2,使得第一属性和第二属性分别属于不同的两个知识图谱。可见,由于第一属性的属性名以及属性值分别与第二属性的属性名以及属性值完全相同,而且第一属性与第二属性分别属于不同的两个知识图谱,因而,第一属性和第二属性组成一个目标属性对。

以上为第一示例的相关内容,在该示例中,以第一属性的属性名以及属性值分别与第二属性的属性名以及属性值完全相同为例对目标属性对进行介绍。

第二示例具体为:如图1所示,当第一属性是第二实体的一个属性,且第一属性的属性名为“birth-time”,第一属性的属性值为“1955-2-24”;而且,第二属性是第五实体的一个属性,且第二属性的属性名为“birthdate”,第二属性的属性值为“1955.02.24”时,由于属性名“birth-time”和“birthdate”均是表示出生日期,属性值“1955-2-24”和“1955.02.24”均是表示1955年2月24日,因而,第一属性的属性名以及属性值均和第二属性的属性名以及属性值的语义相同,使得第一属性和第二属性相同;而且,由于第二实体属于第一知识图谱kg1,且第五实体属于第二知识图谱kg2,因而,归属于第二实体的第一属性属于第一知识图谱kg1,归属于第五实体的第二属性属于第二知识图谱kg2,使得第一属性和第二属性分别属于不同的两个知识图谱。可见,由于第一属性的属性名以及属性值分别与第二属性的属性名以及属性值的语义相同,而且第一属性与第二属性分别属于不同的两个知识图谱,因而,第一属性和第二属性组成一个目标属性对。

以上为第二示例的相关内容,在该示例中,以第一属性的属性名以及属性值分别与第二属性的属性名以及属性值的语义相同为例对目标属性对进行介绍。

另外,已知的各个目标属性对可以是预先设定的属性对,也可以是预先利用预设算法获取的属性对。其中,预设算法可以是任一种能够确定目标属性对的算法,本申请实施例对此不做具体限定。

由于已知的各个目标属性对可以采用不同的获取方式,因而,s201相应的可以采用多种实施方式,下面将以一种实施方式为例进行说明。

作为一种实施方式,s201具体可以为:利用预设算法,在两个知识图谱中,确定已知的各个目标属性对,以便将各个目标属性对作为各个参考属性对。

以上为s201的具体实施方式,在该实施方式中,可以利用预设算法从两个知识图谱中确定各个目标属性对,并将确定的各个目标属性对作为各个参考属性对。

下面将介绍s202的具体实施方式。

在s202中,每个目标实体对包括两个实体,其中,这两个实体相同(即,这两个实体指代的内容相同),且这两个实体分别属于两个知识图谱。

作为示例,如图1所示,第二实体和第五实体均指代的是“乔布斯”这个人,而且第二实体属于第一知识图谱kg1,第五实体属于第二知识图谱kg2,因而,第二实体和第五实体可以组成目标实体对。

而且,在本申请实施例可以根据实体的属性信息确定第一实体和第二实体是否相同。

由于每个属性信息可以包括属性名和属性值,因而可以根据实体的每个属性的属性名以及属性值确定目标实体对。此时,为了进一步提高目标实体对的准确性,本申请提供了s202的一种实施方式,在该实施方式中,s202具体可以为:根据各个参考属性对各自所包括的两个属性的属性值,在两个知识图谱中筛选出各个目标实体对。

为了便于解释和理解上述提供的s202的实施方式,下面将结合图1进行说明。

作为示例,假设通过s201得到的各个参考属性对包括第一参考属性对和第二参考属性对。具体地,第一参考属性对包括第一属性和第二属性,其中,第一属性是第二实体的一个属性,第一属性的属性名为“birth-time”以及属性值为“1955-2-24”,第二属性是第五实体的一个属性,第二属性的属性名为“birthdate”以及属性值为“1955.02.24”;第二参考属性对包括第三属性和第四属性,其中,第三属性是第二实体的另一个属性,第三属性的属性名为“height”以及属性值为“188cm”,第四属性是第五实体的另一个属性,第四属性的属性名为“height”以及属性值为“188centi-meter”。

当上述假设成立时,则s202具体可以为:根据第一参考属性对中的第一属性的属性值“1955-2-24”和第二属性的属性值“1955.02.24”,以及第二参考属性对中的第三属性的属性值“188cm”和第四属性的属性值“188centi-meter”,在第一知识图谱kg1和第二知识图谱kg2中筛选出包括第二实体和第五实体的目标实体对。

需要说明的是,以上是以根据两个参考属性对筛选出目标实体对为例进行说明的,但是,在本申请中,参考属性对可以是至少一对,被筛选出的目标实体对也可以是至少一对,而且,根据至少一个参考属性对筛选出至少一个目标实体对的过程与上述实施方式相同,为了简要起见,在此不再赘述。

基于上述介绍的s202的一种实施方式,为了进一步提高目标实体对的准确性,进而提高实体对齐方法的准确性,本申请还提供了s202的另一种实施方式,在该实施方式中,s202具体可以包括步骤s2021-s2022:

s2021:在两个知识图谱中确定各个初始实体对。

初始实体对具有至少一个参考属性对、且具有的每一参考属性对对应一属性值相似度,该属性值相似度为对应参考属性对所包括的两个属性的属性值之间的相似度。

为了便于理解和解释初始实体对,下面将结合图3进行说明,其中,图3为本申请实施例提供的迭代地筛选目标实体对的流程示例图。

如图3所示,假设第一知识图谱kg1包括第一实体第二实体和第三实体第二知识图谱kg2包括第四实体第五实体和第七实体而且,表示第一知识图谱kg1中的第i个属性,表示第二知识图谱kg2中的第j个属性,i和j均为正整数;而且,第一参考属性对包括属性和属性且第一实体的属性和第四实体的属性的属性值相似度为0.78;第二参考属性对包括属性和属性且第一实体的属性和第四实体的属性的属性值相似度为0.90;第三参考属性对包括属性和属性且第一实体的属性和第四实体的属性的属性值相似度为0.85,以及第二实体的属性和第五实体的属性的属性值相似度为0.80;第四参考属性对包括属性和属性且第二实体的属性和第五实体的属性的属性值相似度为0.95;第五参考属性对包括属性和属性且第二实体的属性和第七实体的属性的属性值相似度为0.95。

当上述假设成立时,则可知在第一知识图谱kg1和第二知识图谱kg2中,第一实体和第四实体包括第一参考属性对、第二参考属性对和第三参考属性对这三对参考属性对;第二实体和第五实体包括第三参考属性对和第四参考属性对这两对参考属性对;第二实体和第七实体包括第五参考属性对这一对参考属性对。此时,s2021具体可以为:在第一知识图谱kg1和第二知识图谱kg2中确定第一实体和第四实体第二实体和第五实体以及第二实体和第七实体分别为初始实体对。

以上为s2021的具体实施方式,在该实施方式中,可以根据参考属性对,从两个知识图谱中确定各个初始实体对。

s2022:根据初始实体对的至少一个属性值相似度,判定该初始实体对是否属于目标实体对。

属性值相似度是指对应参考属性对所包括的两个属性的属性值之间的相似度。例如,在图3中,属性值相似度0.78表示第一实体的属性的属性值和第四实体的属性的属性值之间的相似度。

作为示例,当初始实体对包括n个属性值相似度时,则s2022具体可以为:根据初始实体对中的m个属性值相似度,判定该初始实体对是否属于目标实体对;其中,m为正整数,且m≤n。

作为一种实施方式,为了进一步提高目标实体对的准确性,进而提高实体对齐方法的准确性,s2022具体可以包括s2022a-s2022b:

s2022a:计算初始实体对的至少一个属性值相似度的平均值,作为该初始实体对的属性相似度。

属性相似度是指对应实体对所包括的两个实体的属性之间的相似度。例如,如图3所示,当第一初始实体对包括第一实体和第四实体时,则第一初始实体对的属性相似度可以表示第一实体的属性和第四实体的属性之间的相似度。

作为示例,当初始实体对包括n个属性值相似度时,则s2022a具体可以为:计算初始实体对的m个属性值相似度的平均值,并将该平均值作为该初始实体对的属性相似度;其中,m为正整数,且m≤n。

为了便于解释和理解,下面将结合图3并以m=n为例进行说明。

作为示例,当s2021提供的对图3进行的假设成立时,则可知第一初始实体对包括第一实体和第四实体且第一初始实体对包括0.78、0.90和0.85共三个属性值相似度;第二初始实体对包括第二实体和第五实体且第二初始实体对包括0.80和0.95共两个属性值相似度;第三初始实体对包括第二实体和第七实体且第三初始实体对包括0.3共一个属性值相似度。此时,s2022a具体可以为:计算0.78、0.90和0.85的平均值0.843,并将该平均值0.843作为第一初始实体对的属性相似度;计算0.80和0.95的平均值0.875,并将该平均值0.875作为第二初始实体对的属性相似度;计算0.3的平均值0.3,并将该平均值0.3作为第三初始实体对的属性相似度。

需要说明的是,以上是以m=n为例对s2022a进行说明的,但是,在本申请中,在s2022a中,m不仅可以等于n,还可以是小于n的任一正整数,而且,当m取不同值时,s2022a的执行过程均和上述示例相同,为了简要起见,在此不再赘述。

以上为s2022a的具体实施方式,在该实施方式中,可以计算初始实体对的至少一个属性值相似度的平均值,并将该平均值作为该初始实体对的属性相似度。

s2022b:若计算得到的初始实体对的属性相似度大于第一预设阈值,则判定该初始实体对为目标实体对。

第一预设阈值可以预先设定,例如,第一预设阈值可以预先根据应用场景设定。

作为示例,假设预先设定第一预设阈值为0.7时,则s2022b具体可以为:判断初始实体对的属性相似度是否大于第一预设阈值,若是,则确定该初始实体对是目标实体对;若否,则确定该初始实体对不是目标实体对。

为了便于解释和理解s2022b,下面将结合图3进行说明。

作为示例,当s2021提供的对图3进行的假设成立,而且第一初始实体对的属性相似度为0.843,第二初始实体对的属性相似度为0.875,第三初始实体对的属性相似度为0.3,而且预先设定第一预设阈值为0.7时,则s2022b具体可以为:由于0.843和0.875均大于0.7,因而,第一初始实体对的属性相似度和第二初始实体对的属性相似度均大于第一预设阈值,此时,可以判定第一初始实体对和第二初始实体对均为目标实体对。

以上为s2022b的具体实施方式,在该实施方式中,可以通过判断计算得到的初始实体对的属性相似度是否大于第一预设阈值,判定该初始实体对是否为目标实体对。

以上为s202的具体实施方式,在该实施方式中,可以根据各个参考属性对确定各个实体对的属性相似度,并根据各个实体对的属性相似度,从两个知识图谱中筛选出各个目标实体对。如此,由于每个实体的属性能够更真实全面地代表该实体,因而,根据实体对的属性相似度筛选出的目标实体对的准确性更高。

下面介绍s203的具体实施方式。

在s203中,当前筛选出的目标实体对是指在当前筛选周期中通过执行步骤s202筛选出的目标实体对。

由于本申请可以通过迭代地执行步骤s202至s205,实现对目标实体对的筛选过程,因而,本申请提供的目标实体对的筛选过程可以包括至少一个筛选周期。另外,在每个筛选周期内均可以通过判断在当前筛选周期中是否能够筛选出目标实体对,来确定是否继续进行下一个筛选周期,而且,该确定过程具体可以为:如果在当前筛选周期中能够筛选出至少一对目标实体对,则继续执行下一个筛选周期;如果在当前筛选周期中无法筛选出目标实体对,则结束目标实体对的筛选过程,并将在当前筛选周期之前的所有筛选周期中获得的目标实体对,形成第一实体对集合。

以上为s203的具体实施方式,在该实施方式中,可以通过判断当前筛选出的目标实体对的个数是否为0,确定是否继续执行下一个筛选周期。

下面介绍s204的具体实施方式。

在s204中,由于归属于同一目标实体对的两个实体的指代内容是相同的,而且每个实体均包括多个属性,因而,可以确定分别归属于该两个实体的具有相同语义的两个属性也是相同的。如此,可以根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对。

作为一种实施方式,s204具体可以包括步骤s2041-s2043:

s2041:对于筛选出的各个目标实体对,将该目标实体对下的各个待选属性进行两两组合,得到每种组合下的待选属性对。

待选属性对所包括的两个属性不属于已确定的各个目标属性对、且分别属于该目标实体对中的两个实体。

为了便于解释和理解待选属性对,下面将结合图3进行说明。

当s2021提供的对图3进行的假设成立,而且第一实体和第四实体为第一目标实体对时,则可以将第一实体的属性和属性以及第四实体的属性和属性作为第一目标实体对的待选属性,并将属性和属性分别与属性和属性进行两两组合,得到四组待选属性对:包括属性和属性的第一待选属性对、包括属性和属性的第二待选属性对、包括属性和属性的第三待选属性对、以及包括属性和属性的第四待选属性对。

另外,当第二实体和第五实体为第二目标实体对时,则可以将第二实体的属性和属性以及第五实体的属性和属性作为第二目标实体对的待选属性,并将属性和属性分别与属性和属性进行两两组合,得到四组待选属性对:包括属性和属性的第五待选属性对、包括属性和属性的第六待选属性对、包括属性和属性的第七待选属性对、以及包括属性和属性的第八待选属性对。

需要说明的是,上述是以根据第一目标实体对和第二目标实体对获取待选属性对的过程为例对s2041的具体实施方式进行解释和说明的,但是,在本申请中,不限定s2041只能采用上述实施方式,也可以其他的实施方式,为了简要起见,在此不再赘述。

s2042:计算待选属性对所包括的两个属性的属性值之间的相似度,作为该待选属性对的属性值相似度。

作为示例,当第一待选属性对包括属性和属性时,则s2042具体可以为:计算第一待选属性对中的属性的属性值和属性的属性值之间的相似度,作为第一待选属性对的属性值相似度。

s2043:若计算得到的待选属性对的属性值相似度大于第二预设阈值,则判定该待选属性对为新的目标属性对。

第二预设阈值可以预先设定,例如,第二预设阈值可以预先根据实际应用场景设定。

为了便于解释和理解s2043,下面将结合图3进行说明。

作为示例,当s2021提供的对图3进行的假设成立,而且第一待选属性对包括属性和属性且第一待选属性对的属性值相似度为0.8;第二待选属性对包括属性和属性且第二待选属性对的属性值相似度为0.2;第三待选属性对包括属性和属性且第三待选属性对的属性值相似度为0.1;第四待选属性对包括属性和属性且第四待选属性对的属性值相似度为0.15;第五待选属性对包括属性和属性且第五待选属性对的属性值相似度为0.2;第六待选属性对包括属性和属性且第六待选属性对的属性值相似度为0.3;第七待选属性对包括属性和属性且第七待选属性对的属性值相似度为0.85;第八待选属性对包括属性和属性且第八待选属性对的属性值相似度为0.13;而且第二预设阈值为0.6时,则由于只有第一待选属性对的属性值相似度0.8和第七待选属性对的属性值相似度0.85均大于第二预设阈值0.6,则可以确定:包括属性和属性的第一待选属性对和包括属性和属性的第七待选属性对均为新的目标属性对。

以上为s204的具体实施方式,在该实施方式中,可以根据筛选出的目标实体对获取至少一对待选属性对,并根据各个待选属性对的属性值相似度,确定该待选属性对是否为新的目标属性对,如此能够从已有的目标实体对中提取出新的目标属性对,以便于将该新的目标属性对作为参考属性对并继续进行下一筛选周期。

下面介绍s205的具体实施方式。

作为一种实施方式,当新的目标属性对的总数量为n个时,则s205具体可以为:将n个新的目标属性对作为n个参考属性对,以便根据该n个参考属性对在两个知识图谱中筛选出各个新的目标实体对。

为了便于解释和理解s205,下面将结合图3进行说明。

作为示例,当s2021提供的对图3进行的假设成立,而且包括属性和属性的第一待选属性对和包括属性和属性的第七待选属性对均为新的目标属性对时,则s205具体可以为:将包括属性和属性的第一待选属性对作为第六参考属性对,并将包括属性和属性的第七待选属性对作为第七参考属性对,以便后续能够在s202中根据第六参考属性对和第七参考属性对,在第一知识图谱kg1和第二知识图谱kg2中筛选出包括第三实体和第七实体的第三目标实体对。

以上为s205的具体实施方式,在该实施方式中,可以将筛选出的各个新的目标属性对,作为各个参考属性对,并返回执行s202,以便基于该参考属性对在下一筛选周期进行目标实体对的筛选。

下面介绍s206的具体实施方式

在s206中,已筛选出的所有目标实体对是指在所有筛选周期内筛选出来的目标实体对。

为了便于解释和理解s206,下面将结合图3进行说明。

作为示例,当s2021提供的对图3进行的假设成立,而且在第一个筛选周期内筛选出了包括第一实体和第四实体的第一目标实体对,以及包括第二实体和第五实体的第二目标实体对;在第二个筛选周期内筛选出了包括第二实体和第七实体的第三目标实体对时,则s206具体可以为:将第一目标实体对、第二目标实体对和第三目标实体对进行集合,得到第一实体对集合。

以上为s206的具体实施方式,在该实施方式中,可以将已筛选出的所有目标实体对进行集合,得到第一实体对集合。

以上为方法实施例一的具体实施方式,在该实施方式中,通过迭代地执行两个筛选步骤获得第一实体对集合,而且,该两个步骤为:根据目标属性对在两个知识图谱中筛选出目标实体对,和根据目标实体对在两个知识图谱中筛选出新的目标属性对。由于第一实体对集合中的每个目标实体对均是通过不同实体之间的属性信息获得的,而且每个实体的属性信息能够更真实全面地代表该实体,因而,利用实体的属性信息进行实体对齐时,能够提高实体对齐结果的准确性。另外,由于目标属性对可以根据目标实体对从知识图谱中筛选得到,使得语义相同但表达方式不同的两个属性能够组成目标属性对,克服了因属性表达方式多样而无法对齐的问题,从而进一步了提高实体对齐结果的准确性。此外,由于目标属性对和目标实体对均是在迭代过程中生成的,无需使用包括大量预先对齐的实体对的训练数据,克服了因训练数据质量低导致的实体对齐结果的准确性低的问题,从而提高了实体对齐结果的准确性。

以上方法实施例一提供的实体对齐方法,通过利用实体属性获取至少一对目标实体对,由于实体属性能够更真实全面地代表该实体,因而,提高了目标实体对的准确性,从而提高了实体对齐结果的准确性。

另外,为了进一步提高目标实体对的准确性,从而进一步提高实体对齐结果的准确性,还可以同时利用实体属性和实体关系获取目标实体对,因而,本申请还提供了另一种实体对齐方法,下面将结合附图进行解释和说明。

方法实施例二

方法实施例二是在方法实施例一的基础上进行的改进,为了简要起见,方法实施例二中与方法实施例一中内容相同的部分,在此不再赘述。

参见图4,该图为本申请方法实施例二提供的实体对齐方法的流程图。

本申请实施例提供的实体对齐方法,包括s401-s407:

需要说明的是,s401至s406与方法实施例一中的s201至s206相同,为了简要起见,在此不再赘述。

s407:利用预先训练得到的实体对齐模型,在两个知识图谱中筛选出各个目标实体对,形成第二实体对集合。

需要说明的是,本申请不限制s407的执行顺序,可以在s401-s406之前执行、或之后执行、或同步执行。

在s407中,实体对齐模型用于基于实体关系来筛选目标实体对,而且,实体对齐模型可以是任一种利用实体关系进行实体对筛选的模型。

作为示例,实体对齐模型可以是任一种基于词向量嵌入(embedding)的模型,而且,在该模型中,可以将每对实体对对应的关系三元组(h,r,t)映射至向量空间中得到以便利用不同实体之间的向量间距离衡量不同实体间的相似度,也就是,实体对的关系相似度。其中,h表示关系三元组的头实体;r表示关系三元组的头实体与关系三元组的尾实体之间的关系;t表示关系三元组的尾实体;表示关系三元组的头实体对应的向量;表示关系对应的向量;表示关系三元组的尾实体对应的向量。

实体对齐模型可以是预先利用模型训练数据进行训练得到的,该模型训练数据可以包括至少一对目标实体对,而且,模型训练数据来源广泛。其中,模型训练数据可以是由至少一对人工标注的目标实体对构成的训练数据集;模型训练数据也可以是由至少一对利用预设标注算法获得的目标实体对构成的训练数据,且预设标注算法可以预先设定。

为了便于解释和理解实体对齐模型,下面将以训练实体对齐模型的一种实施方式为例进行说明。

作为一种实施方式,为了提高实体对齐方法的效率以及准确性,上述预设标注算法可以是方法实施例一提供的任一种实体对齐方法(也就是,步骤s401至s406的任一种实施方式),因而,实体对齐模型的模型训练数据可以包括从第一实体对集合中筛选出的正确性高的目标实体对。

其中,第一实体对集合是由s406步骤生成的;而且,从第一实体对集合中筛选出的正确性高的目标实体对的过程具体可以为:首先,对于第一实体对集合中的每一目标实体对,确定该目标实体对的至少一个相同属性的属性值相似度的平均值,将该平均值作为目标实体对的对齐正确性;其次,将各个目标实体对的对齐正确性与预设正确性阈值进行比较,获取对齐正确性高于该预设正确性阈值的目标实体对,作为模型训练数据。

以上为s407的具体实施方式,在该实施方式中,可以利用由从第一实体对集合中筛选出的正确性高的目标实体对构成的模型训练数据,对实体对齐模型进行训练,并利用训练得到的实体对齐模型在两个知识图谱中筛选出各个目标实体对,形成第二实体对集合。

以上为方法实施例二提供的实体对齐方法的具体实施方式,在该实施方式中,当根据实体属性获取了第一实体对集合之后,还可以利用基于实体关系的实体对齐模型,在两个知识图谱中筛选出各个目标实体对,形成第二实体对集合。如此保证了最终获取的这些目标实体对既是基于实体属性又是基于实体关系获得的,从而提高了最终获取的目标实体对的准确性,进而提高了实体对齐结果的准确性和全面性。

以上方法实施例一和方法实施例二提供的实体对齐方法,可以根据实体属性和/或实体关系获得目标实体对。

另外,为了进一步提高实体对齐结果的准确性,还可以对目标实体对的属性相似度以及关系相似度进行综合评价,以便获得最终的目标实体对集合,因而,本申请还提供了又一种实体对齐方法,下面将结合附图进行解释和说明。

方法实施例三

方法实施例三是在方法实施例二的基础上进行的改进,为了简要起见,方法实施例三中与方法实施例二中内容相同的部分,在此不再赘述。

参见图5,该图为本申请方法实施例三提供的实体对齐方法的流程图。

本申请实施例提供的实体对齐方法,包括s501-s509:

需要说明的是,s501至s507与方法实施例二中的s401至s407相同,为了简要起见,在此不再赘述。

s508:合并第一实体对集合与第二实体对集合,形成第三实体对集合。

s509:从第三实体对集合中剔除准确度低的目标实体对,作为第四实体对集合。

以上为本申请方法实施例三提供的实体对齐方法的具体执行步骤,为了便于理解和解释本申请方法实施例三提供的实体对齐方法,下面将依次介绍s508和s509的具体实施方式。

首先介绍s508的具体实施方式。

s508可以采用三种实施方式,下面将结合附图依次进行介绍。

作为第一种实施方式,如图6所示,s508具体可以为:将第一实体对集合中所包括的目标实体对以及第二实体对集合中所包括的目标实体对进行集合,得到第三实体对集合。

以上为s508的第一种实施方式,在该实施方式中,可以将第一实体对集合以及第二实体对集合中的所有目标实体对进行集合,便可以形成第三实体对集合。

另外,为了进一步提高实体对齐方法的效率,可以使第三实体对集合中不存在相同的目标实体对,因而,本申请还提供了s508的第二种实施方式和第三种实施方式,下面将依次介绍。

作为第二种实施方式,如图7所示,s508具体可以为:获取第一实体对集合和第二实体对集合的并集,并将该并集作为第三实体对集合。

作为第三种实施方式,s508具体可以为:首先,将第一实体对集合中所包括的目标实体对以及第二实体对集合中所包括的目标实体对进行集合,得到初始第三实体对集合(如图6所示);然后,从初始第三实体对集合中删除重复的目标实体对,得到第三实体对集合(如图7所示)。

以上为s508的三种实施方式,在该实施方式中,可以合并第一实体对集合与第二实体对集合,形成第三实体对集合。

下面介绍s509的具体实施方式。

在s509中,目标实体对的准确度可以根据多个指标进行判断,例如,目标实体对的准确度可以仅根据属性相似度进行判断,也可以仅根据关系相似度进行判断,还可以根据属性相似度和关系相似度的综合值进行判断。

为了便于解释和理解,下面将以根据属性相似度和关系相似度的综合值判断目标实体对的准确度为例进行说明。

作为一种实施方式,为了提高实体对齐方法的准确性,s509具体可以包括s5091-s5092:

s5091:对于同时属于第一实体对集合和第二实体对集合的目标实体对,根据该目标实体对的第一相似度和第二相似度,确定该目标实体对的最终相似度。

其中,同时属于第一实体对集合和第二实体对集合的目标实体对,是第一实体对集合和第二实体对集合的交集(如图7所示的交集)中的实体对。

第一相似度是在形成第一实体对集合时得到的该目标实体对所包括的两个实体之间的相似度(也就是,实体对的属性相似度),第二相似度是在形成第二实体对集合时得到的该目标实体对所包括的两个实体之间的相似度(也就是,实体对的关系相似度)。

作为一种实施方式,s5091具体可以为:对于同时属于第一实体对集合和第二实体对集合的目标实体对,根据该目标实体对的第一相似度和第二相似度,并基于第一相似度和第二相似度各自的置信度,确定该目标实体对的最终相似度。

其中,置信度可以预先设定,例如,第一相似度的置信度以及第二相似度的置信度均可以预先根据应用场景设定。

另外,为了进一步提高置信度的准确性,从而进一步提高最终相似度的准确性,进而提高实体对齐方法的准确性,置信度可以利用预先构建的回归模型在模型学习数据中学习得到的,而且该模型学习数据包括从第一实体对集合中筛选出的正确性高的目标实体对。其中,从第一实体对集合中筛选出的正确性高的目标实体对的具体筛选过程可以参照在步骤s407的具体实施方式中提供的“从第一实体对集合中筛选出的正确性高的目标实体对的过程”,为了简要起见,在此不再赘述。

基于上述置信度的相关内容,作为一种实施方式,s5091具体可以包括s50911-s50913:

s50911:利用预先构建的回归模型在模型学习数据中学习得到的公式(1)中的置信度参数。

其中,模型学习数据包括从第一实体对集合中筛选出的正确性高的目标实体对,而且,还可以将模型学习数据以形式进行表示。

式中,表示第一知识图谱中的第i个实体,表示第二知识图谱中的第j个实体,而且,能够构成一对目标实体对;表示包括的目标实体对的第一相似度;表示包括的目标实体对的第二相似度;表示包括的目标实体对的最终相似度;λ表示置信度参数。

s50912:根据置信度参数λ,得到第一相似度的置信度和第二相似度的置信度。

作为一种实施方式,s50912具体可以为:将1-λ作为第一相似度的置信度,并将λ作为第二相似度的置信度。

s50913:对于同时属于第一实体对集合和第二实体对集合的目标实体对,根据该目标实体对的第一相似度和第二相似度,并基于第一相似度和第二相似度各自的置信度,确定该目标实体对的最终相似度。

作为一种实施方式,当第一相似度的置信度为1-λ,且第二相似度的置信度为λ时,则s50913具体可以为:对于同时属于第一实体对集合和第二实体对集合的目标实体对,根据该目标实体对的第一相似度、第二相似度、第一相似度的置信度和第二相似度的置信度,利用公式(2),得到该目标实体对的最终相似度。

最终相似度=第一相似度×(1-λ)+第二相似度×λ(2)

式中,1-λ表示第一相似度的置信度;λ表示第二相似度的置信度。

s5092:若该目标实体对的最终相似度小于第三预设阈值,则将该目标实体对从第三实体对集合中剔除,并将剔除操作后的实体对集合,作为第四实体对集合。

第三预设阈值可以预先设定,例如,第三预设阈值可以预先根据应用场景确定。

以上为s509的具体实施方式,在该实施方式中,可以从第三实体对集合中剔除准确度低的目标实体对,作为第四实体对集合。

另外,为了理解和解释本申请实施例提供的实体对齐方法,下面将结合图8对实体对齐方法的一种具体实施方式进行说明。

首先介绍图8中每个符号的具体含义:kg1表示第一知识图谱;kg2表示第二知识图谱;表示第一知识图谱中的第i个实体;表示第一知识图谱中的第i个属性的属性名;表示第一知识图谱中对应的属性值;表示第一知识图谱中的第t个关系;表示第二知识图谱中的第j个实体;表示第二知识图谱中的第j个属性的属性名;表示第二知识图谱中对应的属性值;表示第二知识图谱中的第s个关系;表示第一实体对集合中的第m个目标实体对的属性相似度(也就是,第一相似度);表示第二实体对集合中的第n个目标实体对的关系相似度(也就是,第二相似度)。

然后,结合图8和图9介绍方法实施例三提供的实体对齐方法的一种具体的实施方式,在该实施方式中,实体对齐方法具体可以为:

s901:从第一知识图谱kg1和第二知识图谱kg2中,获取属性三元组以及关系三元组。

其中,属性三元组用于表示每个实体的属性信息;关系三元组用于表示不同实体之间的关系信息。

s902:利用预设归一算法,将属性三元组中的属性值进行规范化。

其中,预设归一算法用于将采用不同表达方式的属性值转换成采用同一种表达方式的属性值;而且,预设归一算法可以采用任一种规范化算法,例如,预设归一算法可以采用基于人工制定规范的正则匹配算法。

作为示例,“出生日期”对应的属性值可以利用“1955-02-24”进行表示,也可以利用“02/24/1955”进行表示,还可以利用“24thfeb.1955”进行表示,此时,s902具体可以为:利用预设归一算法,将“1955-02-24”、“02/24/1955”和“24thfeb.1955”分别进行规范化,得到“1955/02/24”。

s903:根据属性三元组,执行步骤501至506对应的具体实施方式,得到第一实体对集合。

其中,步骤501至506对应的具体实施方式能够实现图8中的“交互模式”的过程。

s904:将第一实体对集合中筛选出的正确性高的目标实体对作为模型训练数据,对实体对齐模型进行训练。

s905:根据关系三元组以及训练得到的实体对齐模型,执行步骤s507对应的具体实施方式,得到第二实体对集合。

s906:根据第一实体对集合和第二实体对集合,执行步骤s508至s509对应的具体实施方式,得到第四实体对集合。

以上为实体对齐方法的一种实施方式,在该实施方式中,可以将属性三元组中的属性值进行规范化,能够避免因属性值的表达方式多样而导致的属性值噪声问题,提高实体属性描述的准确性以及一致性,从而提高了目标实体对的准确性,进而提高了实体对齐结果的准确性。

以上为方法实施例三提供的实体对齐方法的具体实施方式,在该实施方式中,可以将获得的第一实体对集合与第二实体对集合进行合并,得到第三实体对集合,并从第三实体对集合中剔除准确度低的目标实体对,作为第四实体对集合。由于目标实体对的准确度可以通过综合评价该目标实体对的第一相似度和第二相似度得到,而且,第一相似度是该目标实体对的属性相似度,第二相似度是该目标实体对的关系相似度,使得该目标实体对的准确度可以通过综合评价该目标实体对的属性相似度和关系相似度得到,因而,提高了实体对齐结果的准确性和全面性。

基于上述方法实施例一至方法实施例三提供的任一种实体对齐方法,本申请还提供了一种实体对齐装置,下面将结合附图进行解释和说明。

装置实施例一

参见图10,该图为本申请装置实施例一提供的实体对齐装置的结构示意图。

本申请实施例提供的实体对齐装置1000,包括:

参考属性对获取单元1001,用于在两个知识图谱中,确定已知的各个目标属性对,作为各个参考属性对;

目标实体对筛选单元1002,用于根据各个参考属性对在两个知识图谱中筛选出各个目标实体对;

参考属性对筛选单元1003,用于根据筛选出的目标实体对,在两个知识图谱中筛选出各个新的目标属性对,作为各个参考属性对,

目标实体对循环筛选单元1004,用于调用筛选出的参考属性对,并根据各个参考属性对在两个知识图谱中筛选出各个目标实体对,直至无法筛选出目标实体对为止,形成第一实体对集合;

其中,所述目标属性对所包括的两个属性相同、且这两个属性分别属于两个知识图谱;所述目标实体对所包括的两个实体相同、且这两个实体分别属于两个知识图谱。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述目标实体对筛选单元1002,具体用于:

根据各个参考属性对各自所包括的两个属性的属性值,在两个知识图谱中筛选出各个目标实体对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述目标实体对筛选单元1002,包括:

初始实体确定子单元,用于在两个知识图谱中确定各个初始实体对,所述初始实体对具有至少一个参考属性对、且具有的每一参考属性对对应一属性值相似度,所述属性值相似度为对应参考属性对所包括的两个属性的属性值之间的相似度;

目标实体对确定子单元,用于根据所述初始实体对的至少一个属性值相似度,判定所述初始实体对是否属于所述目标实体对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述目标实体对确定子单元,包括:

相似度平均值计算模块,用于计算所述初始实体对的至少一个属性值相似度的平均值;

目标实体对确定模块,用于若计算得到的平均值大于第一预设阈值,则判定所述初始实体对为所述目标实体对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述参考属性对筛选单元1003,包括:

待选属性对获取子单元,用于对于筛选出的各个目标实体对,将该目标实体对下的各个待选属性进行两两组合,得到每种组合下的待选属性对,所述待选属性对所包括的两个属性不属于已确定的各个目标属性对、且分别属于该目标实体对中的两个实体;

属性相似度计算子单元,用于计算所述待选属性对所包括的两个属性的属性值之间的相似度;

目标属性对确定子单元,用于若计算得到的相似度大于第二预设阈值,则判定所述待选属性对为新的目标属性对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述实体对齐装置1000还包括:

第二实体对集合生成单元,用于利用预先训练得到的实体对齐模型,在两个知识图谱中筛选出各个目标实体对,形成第二实体对集合,所述实体对齐模型用于基于实体关系筛选实体对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述实体对齐模型是利用模型训练数据进行训练得到的,所述模型训练数据包括从所述第一实体对集合中筛选出的正确性高的目标实体对。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述实体对齐装置1000还包括:

第三实体对集合生成单元,用于在形成第二实体对集合之后,合并所述第一实体对集合与所述第二实体对集合,形成第三实体对集合;

第四实体对集合生成单元,用于从所述第三实体对集合中剔除准确度低的目标实体对,作为第四实体对集合。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述第四实体对集合生成单元,包括:

最终相似度确定子单元,用于对于同时属于所述第一实体对集合和所述第二实体对集合的目标实体对,根据该目标实体对的第一相似度和第二相似度,确定该目标实体对的最终相似度;

其中,所述第一相似度是在形成所述第一实体对集合时得到的该目标实体对所包括的两个实体之间的相似度,所述第二相似度是在形成所述第二实体对集合时得到的该目标实体对所包括的两个实体之间的相似度;

目标实体对剔除子单元,用于若该目标实体对的最终相似度小于第三预设阈值,则将该目标实体对从所述第三实体对集合中剔除。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述最终相似度确定子单元,具体用于:

基于所述第一相似度和所述第二相似度各自的置信度,确定该目标实体对的最终相似度。

作为一种实施方式,为了进一步提高实体对齐结果的准确性,所述置信度是利用预先构建的回归模型在模型学习数据中学习得到的,所述模型学习数据包括从所述第一实体对集合中筛选出的正确性高的目标实体对。

进一步地,本申请实施例还提供了一种实体对齐设备,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述实体对齐方法的任意一种实现方式。

进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述实体对齐方法的任意一种实现方式。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述实体对齐方法的任意一种实现方式。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1