确定实体属性值的装置和方法

文档序号:10624851
确定实体属性值的装置和方法
【专利摘要】本发明涉及确定实体属性值的装置和方法。该装置包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据数据源的置信度计算实体的每个属性值的置信度;以及属性值确定单元,被配置为根据每个属性值的置信度来确定实体的属性值。根据本发明的装置和方法,根据多个数据源中实体属性及属性值,找到最可信的属性值,并对实体的属性进行补全,获得更加丰富的实体信息。
【专利说明】
确定实体属性值的装置和方法
技术领域
[0001] 本发明设及信息处理领域,更具体地设及一种对实体的属性值进行确定的装置和 方法。
【背景技术】
[0002] 随着互联网的飞速发展,互联网中出现了大量的数据,描述某个实体e的数据源 有多个。运些数据源包含的实体属性值不尽相同,可能是重复的,可能是不一致的,也可能 是有冲突的。因此如何从多个数据源中找到实体e的尽可能多的属性和属性值,并确保运 些属性值的准确性是非常重要的。
[0003] 需要一种能够确定实体的属性值的装置和方法。

【发明内容】

[0004] 在下文中给出关于本发明的简要概述,W便提供关于本发明的某些方面的基本理 解。应当理解,运个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是W简化的形式给出某些概念, W此作为稍后论述的更详细描述的前序。
[0005] 本发明的一个主要目的在于,提供一种确定实体属性值的装置,包括:数据源确定 单元,被配置为W实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该 实体相关的数据源,实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为 针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的 相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据数据源的置信度计 算实体的每个属性值的置信度;W及属性值确定单元,被配置为根据每个属性值的置信度 来确定实体的属性值。
[0006] 根据本发明的一个方面,提供了确定实体属性值的方法,包括实体的名称或别 称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实 体集合中的一个实体;针对所获得的每个数据源,根据该数据源包含的各项记录与给定实 体集合中的所有实体的相似度计算该数据源的置信度;根据数据源的置信度计算实体的每 个属性值的置信度;W及根据每个属性值的置信度来确定实体的属性值。
[0007] 另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
[0008] 此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述方法的计算机程序代码。
[0009] 通过W下结合附图对本发明的最佳实施例的详细说明,本发明的运些W及其他优 点将更加明显。
【附图说明】
[0010] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的W上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。
[0011] 图1示出了根据本发明的一个实施例的确定实体属性值的方法100的示例性过程 的流程图;
[0012] 图2示出了根据本发明的另一个实施例的确定实体属性值的方法100'示例性过 程的流程图;
[0013] 图3是示出根据本发明的一个实施例的确定实体属性值的装置300的示例性配置 的框图;
[0014] 图4是示出根据本发明的另一个实施例的确定实体属性值的装置300'的示例性 配置的框图;
[0015] 图5是示出可W用于实施本发明的确定实体属性值的装置和方法的计算设备的 示例性结构图。
【具体实施方式】
[0016] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可W与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。
[0017] 本发明提出一种协同的实体属性值补全方法,该方法首先根据给定的实体集合E, 从互联网或数据库中检索与E相关的数据源,根据数据源构造单个实体e的相关数据集S, 然后估计数据源的初始置信度,并将该置信度分配到该数据源的每个属性值上。在本发明 的一个示例中,为每个实体e构建了数据源初始置信度矩阵,为每个实体e的属性值计算置 信度,然后根据数据源中属性值之间的一致性信息重新计算置信度矩阵,再根据置信度矩 阵重新计算每个数据源的置信度。迭代执行W上步骤,最终达到置信度矩阵收敛或迭代执 行指定次数停止。最后根据置信度矩阵将置信度最高的属性值作为最终的属性值。
[0018] 下面结合附图详细说明根据本发明的一个实施例的确定实体属性值的方法和装 置。
[0019] 图1示出了根据本发明的一个实施例的确定实体属性值的方法100的示例性过程 的流程图。
[0020] 首先,在步骤S102中,W实体的名称或别称作为检索词在互联网或数据库中进行 检索,确定与该实体相关的数据源。实体e是给定实体集合E中的一个实体,通过检索构建 实体e的数据源集合Se。
[0021] 检索时用实体e的名称或别称进行检索,e的名称是指实体e的规范名称,比如实 体e ="清华大学"的名称为"清华大学",e的别称可能为"清华"等,e的别称也可W称为 e 的提及(mention)。
[0022] 在一个示例中,与e相关的数据可能为表格数据。当e的名称或别称出现在表格 的实体列时,该数据源为实体e的表格数据源,将该数据源加入到数据源集合S。中。
[0023] E中所有实体的相关数据源集合为S。对每个实体e e实体集合E统计数据源集 合Se中出现的实体e的属性集合A 6。
[0024] 接下来,在步骤S104中,针对所获得的每个数据源,根据该数据源包含的各项记 录与给定实体集合中的所有实体的相似度计算该数据源的置信度。
[00巧]在一个实施例中,可W首先为每个实体e构建数据源初始置信度矩阵。具体地,根 据步骤S102中获得的数据源集合S。和属性集合A。来构造 e的初始化矩阵Μ。,运里假设M。 的维度为m行η列,其中m= |S」,n= |Α」。
[0026] 计算数据源< e Se的置信度面脚的方法如下:
[0029] 其中,咬为数据源皆中的某一项记录(可W理解为表格中的某一行)。 e哪热睹)的含义是实体集合E中的所有实体与数据源聋的相似度。在公式(1)中, 将数据源每包含的各项记录与给定实体集合Ε中的所有实体的相似度进行求和,在公式 似中,是对CO挪成(片)做的列归一化,即对所有CO柳成;进行归一化。将该 相似度作为数据源砖的初始置信度,直观理解为数据源包含的记录与实体集合E 中的实体越相似,那么数据源皆的置信度越高。相似度函数可W考虑实体e与记录^中实 体名的相似度,如果给定的实体e还包括属性信息,那么该相似度也可W将实体e的属性信 息考虑进来,即考虑实体e的属性值与记录^中对应属性值的相似度。
[0030] 由于品;;表示数据源< 的置信度,所W对于《的每个属性值都有相同的置信度 CW?(却)。因此Me中第i行的值均为(皆)。
[0031] 相似度可W使用编辑距离来计算,如公式(3):
[00巧
(3》 阳03引或者使用Jaro - Winkler距离来计算。
[0034] 通过步骤S104,数据源已经有了一个初始置信度。在步骤S106中,根据数据源的 置信度计算实体e的每个属性值的置信度。
[0035] 在一个实施例中,采用如下计算方法计算属性值的置信度。首先根据投票规则来 确定每个属性值的置信度,假设实体e的每个属性包括P个属性值,按照W下公式(4)来计 算每个属性值的置信度,并对每个属性值求置信度的和。
[0036]
( 4 )
[0037] 其中《为e在第i个数据源中的属性值,为嗦在《中出现的次数。
[0038] 然后按照公式(5)对置信度做归一化。运样可W得到新的置信度矩阵。
[0039]
化)
[0040] 下面给出计算属性值的置信度的一个具体的例子。
[0041] 如表1所示,e的属性P有3个值VI,v2, v3,共有5个数据源。
[0042]
阳043] 可W得到:
[0044]属性值 vl 的置信度为 l*con (si) +l*con (s4) W45] 属性值v2的置信度为l*con (s。
[0046] 属性值v3的置信度为l*con (s3) +l*con (巧)
[0047] 归一化后vl、v2、v3的置信度分别为:
[0048] [l*con (si) +l*con (s4) ] / [l*con (si) +l*con (s4) +l*con (s2) +l*con (s3) +l*con (s5)]
[0049] [l*con(s2)]/[l*con(si)+l*con(s4)+l*con(s2)+l*con(s3)+l*con(s5)]
[0050] [l*con (s3) + l*con (s5) ] / [l*con (si) + l*con (s4) +l*con (s2) + l*con (s3) +l*con (s5)]
[00川通过W上步骤,我们可W得到属性值vl、v2、v3的置信度。
[0052] 最后,在步骤S108中,可W根据每个属性值的置信度来确定实体的属性值。
[0053] 图2示出了根据本发明的另一个实施例的确定实体属性值的方法100'示例性过 程的流程图。
[0054] 图2中的确定实体属性值的方法100'的步骤S102至S106与图1中的确定方法 100的步骤S102至S106类似,在此不再寶述。 阳化5] 图2中的确定实体属性值的方法100'在步骤S108之前还包括步骤S107,在步骤 S107中,迭代执行根据每个属性值的置信度重新计算每个数据源的置信度,W及根据数据 源的置信度计算实体的每个属性值的置信度,直到符合预定条件。
[0056] 具体地,根据步骤S106计算的实体的每个属性值的置信度,可W得到实体属性值 置信度矩阵,然后重新计算每个数据源的置信度。计算方法是将数据源S中实体e的每个 属性值的置信度求和,再做归一化。使用新的数据源置信度更新之前的数据源置信度矩阵, 然后再执行根据数据源的置信度计算实体e的每个属性值的置信度的步骤。如此迭代执 行,直到数据源置信度矩阵发生收敛、也即属性值的置信度发生收敛为止,或者迭代执行了 预定次数。在运里,停止迭代的条件可W仅设置为属性值的置信度发生收敛,或者仅设置为 迭代执行了预定次数,还可W设置为在满足属性值的置信度发生收敛和迭代执行了预定次 数中一项时停止迭代。
[0057] 在图2的确定实体属性值的方法100'中的步骤S108具体包括:根据收敛的置信 度矩阵,找到置信度最大的属性值,作为最终的属性值。
[0058] 最终实体属性值V的置信度为该实体属性值V的置信度的加权和,权重为属性值 V所在数据源的置信度。例如属性值V出现在Ξ个数据源sl,s2和S3中,那么属性值V的 最终置信度为:
[0059] con(v) = con(vsl)*con(si)+con(vs2)*con(s2)+con (vs3)*con (s3)
[0060] 对于实体p如果有多个属性值,那么计算每个属性值的最终的置信度,并根据置 信度对属性值排序,取最大的属性值为最终属性值。
[0061] 在根据本发明的一个示例的确定实体属性值的方法中,构建了数据源置信度矩阵 来计算属性值的置信度,本领域的普通技术人员可W理解,也可W在不构建置信度矩阵的 情况下执行确定实体属性值的方法的各个步骤。
[0062] 图3是示出根据本发明的一个实施例的确定实体属性值的装置300的示例性配置 的框图。
[0063] 如图3所示,确定实体属性值的装置300包括数据源确定单元302、数据源置信度 计算单元304、属性值置信度计算单元306和属性值确定单元308。
[0064] 其中,数据源确定单元302被配置为W实体的名称或别称作为检索词在互联网或 数据库中进行检索,确定与该实体相关的数据源,该实体是给定实体集合中的一个实体。
[0065] 数据源置信度计算单元304被配置为针对所获得的每个数据源,根据该数据源包 含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度。
[0066] 属性值置信度计算单元306被配置为根据数据源的置信度计算实体的每个属性 值的置信度。
[0067] 属性值确定单元308被配置为根据每个属性值的置信度来确定实体的属性值。
[0068] 图4是示出根据本发明的另一个实施例的确定实体属性值的装置300'的示例性 配置的框图。
[0069] 如图4所示,确定实体属性值的装置300'包括数据源确定单元302、数据源置信 度计算单元304、属性值置信度计算单元306、迭代单元307和属性值确定单元308。换句 话说,图4所示的确定实体属性值的装置300'除了包括图3所示的确定实体属性值的装置 300的各个部件之外,还包括迭代单元307。
[0070] 已参照图3给出了关于数据源确定单元302、数据源置信度计算单元304、属性值 置信度计算单元306和属性值确定单元308的详细描述,在此不再寶述。
[0071] 确定实体属性值的装置300'中的迭代单元307被配置为迭代执行根据每个属性 值的置信度重新计算每个数据源的置信度,W及根据数据源的置信度计算实体的每个属性 值的置信度,直到符合预定条件。
[0072] 其中,预定条件包括W下中的一项:属性值的置信度发生收敛和迭代执了行预定 次数。
[0073] 数据源置信度计算单元304可W进一步被配置为:将数据源包含的各项记录与给 定实体集合中的所有实体的相似度进行求和并归一化来计算数据源的置信度。
[0074] 其中,数据源包含的各项记录与给定实体集合中的所有实体的相似度可W为实体 与记录中实体的名称的相似度和/或实体的属性值与记录中对应的属性值的相似度。 阳0巧]其中,可W使用编辑距离计算或者Jaro - Winkler距离来计算相似度。
[0076] 其中,属性值置信度计算单元306进一步被配置为:根据实体的每个属性值在数 据源中出现的次数和数据源的置信度,利用投票规则来计算每个属性值的置信度。
[0077] 其中,迭代单元307可W进一步被配置为:将与实体相关的数据源的每个属性值 的置信度进行求和并归一化,来更新每个数据源的置信度。
[0078] 关于确定实体属性值的装置300和300'的各个部分的操作和功能的细节可W参 照结合图1-2描述的本发明的确定实体属性值的方法的实施例,运里不再详细描述。
[0079] 在此需要说明的是,图3-4所示的确定实体属性值的装置300和300'及其组成单 元的结构仅仅是示例性的,本领域技术人员可W根据需要对图3-4所示的结构框图进行修 改。
[0080] 本发明提出一种多数据源中属性值融合方法,根据实体属性值的冗余度和实体属 性值所在数据源的置信度协同计算实体属性值的置信度,根据多个数据源中实体属性及属 性值,找到最可信的属性值,并对实体的属性进行补全,获得更加丰富的实体信息,本发明 所提出的方法不需要训练数据,是一种通用的属性值融合方法。
[0081] W上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的 普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可W在 任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,W硬件、固件、软件或者 它们的组合加 W实现,运是本领域普通技术人员在阅读了本发明的说明的情况下运用他们 的基本编程技能就能实现的。
[0082] 因此,本发明的目的还可W通过在任何计算装置上运行一个程序或者一组程序来 实现。所述计算装置可W是公知的通用装置。因此,本发明的目的也可W仅仅通过提供包 含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,运样的程序产品也构 成本发明,并且存储有运样的程序产品的存储介质也构成本发明。显然,所述存储介质可W 是任何公知的存储介质或者将来所开发出来的任何存储介质。
[0083] 在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有 专用硬件结构的计算机,例如图5所示的通用计算机500安装构成该软件的程序,该计算机 在安装有各种程序时,能够执行各种功能等等。
[0084] 在图5中,中央处理单元(CPU) 501根据只读存储器(ROM) 502中存储的程序或从 存储部分508加载到随机存取存储器(RAM) 503的程序执行各种处理。在RAM 503中,也根 据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 50UR0M 502和RAM 503经 由总线504彼此链路。输入/输出接口 505也链路到总线504。 阳0化]下述部件链路到输入/输出接口 505 :输入部分506 (包括键盘、鼠标等等)、输出 部分507 (包括显示器,比如阴极射线管(CRT)、液晶显示器化CD)等,和扬声器等)、存储部 分508 (包括硬盘等)、通信部分509 (包括网络接口卡比如LAN卡、调制解调器等)。通信 部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可链路到输入/输 出接口 505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在 驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
[0086] 在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆 卸介质511安装构成软件的程序。
[0087] 本领域的技术人员应当理解,运种存储介质不局限于图5所示的其中存储有程 序、与设备相分离地分发W向用户提供程序的可拆卸介质511。可拆卸介质511的例子 包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘 值VD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可W是 ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被 分发给用户。
[0088] 本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读 取并执行时,可执行上述根据本发明实施例的方法。
[0089] 相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包 括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
[0090] 本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
[0091] 在本说明书中,"第一"、"第二及"第N个"等表述是为了将所描述的特征在文 字上区分开,W清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
[0092] 作为一个示例,上述方法的各个步骤W及上述设备的各个组成模块和/或单元可 W实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模 块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领 域技术人员所熟知,在此不再寶述。
[0093] 作为一个示例,在通过软件或固件实现的情况下,可W从存储介质或网络向具有 专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算 机在安装有各种程序时,能够执行各种功能等。
[0094] 在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征 可相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征 相组合,或替代其他实施方式中的特征。
[0095] 应该强调,术语"包括/包含"在本文使用时指特征、要素、步骤或组件的存在,但 并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
[0096] 此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可W按照其 他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发 明的技术范围构成限制。
[0097] 本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精 神和范围的情况下可W进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书 所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明 的公开内容将容易理解,根据本发明可W使用执行与在此的相应实施例基本相同的功能或 者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因 此,所附的权利要求旨在在它们的范围内包括运样的过程、设备、手段、方法或者步骤。
[0098] 基于W上的说明,可知公开至少公开了 W下技术方案:
[0099] 附记1、一种确定实体属性值的装置,包括:
[0100] 数据源确定单元,被配置为W实体的名称或别称作为检索词在互联网或数据库中 进行检索,确定与该实体相关的数据源,所述实体是给定实体集合中的一个实体; 阳101] 数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含 的各项记录与所述给定实体集合中的所有实体的相似度计算该数据源的置信度; 阳102] 属性值置信度计算单元,被配置为根据所述数据源的置信度计算所述实体的每个 属性值的置信度;W及
[0103] 属性值确定单元,被配置为根据所述每个属性值的置信度来确定所述实体的属性 值。
[0104] 附记2、根据附记1所述的装置,还包括:
[01化]迭代单元,所述迭代单元被配置为迭代执行根据所述每个属性值的置信度重新计 算每个数据源的置信度,W及根据所述数据源的置信度计算所述实体的每个属性值的置信 度,直到符合预定条件。
[0106] 附记3、根据附记2所述的装置,其中,所述预定条件包括W下中的一项:所述属性 值的置信度发生收敛和迭代执行预定次数。
[0107] 附记4、根据附记1所述的装置,其中,所述数据源置信度计算单元进一步被配置 为:将所述数据源包含的各项记录与所述给定实体集合中的所有实体的相似度进行求和并 归一化来计算所述数据源的置信度。
[0108] 附记5、根据附记1所述的装置,其中,所述数据源包含的各项记录与所述给定实 体集合中的所有实体的相似度包括W下中的至少一项:所述实体与所述记录中实体的名称 的相似度W及所述实体的属性值与所述记录中对应的属性值的相似度。
[0109] 附记6、根据附记5所述的装置,其中,所述数据源包含的各项记录与所述给定实 体集合中的所有实体的相似度使用编辑距离计算或者Jaro - Winkler距离来计算。
[0110] 附记7、根据附记1所述的装置,其中,所述属性值置信度计算单元进一步被配置 为:根据所述实体的每个属性值在所述数据源中出现的次数和所述数据源的置信度,利用 投票规则来计算每个属性值的置信度。 阳111] 附记8、根据附记2所述的装置,其中,所述迭代单元进一步被配置为:将与所述实 体相关的数据源的每个属性值的置信度进行求和并归一化,来更新每个数据源的置信度。
[0112] 附记9、一种确定实体属性值的方法,包括:
[0113] W实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相 关的数据源,所述实体是给定实体集合中的一个实体;
[0114] 针对所获得的每个数据源,根据该数据源包含的各项记录与所述给定实体集合中 的所有实体的相似度计算该数据源的置信度;
[0115] 根据所述数据源的置信度计算所述实体的每个属性值的置信度;W及
[0116] 根据所述每个属性值的置信度来确定所述实体的属性值。
[0117] 附记10、根据附记9所述的方法,根据所述数据源的置信度计算所述实体的每个 属性值的置信度之后还包括:
[0118] 迭代执行根据所述每个属性值的置信度重新计算每个数据源的置信度,W及根据 所述数据源的置信度计算所述实体的每个属性值的置信度,直到符合预定条件。
[0119] 附记11、根据附记10所述的方法,其中,所述预定条件包括W下中的一项:所述属 性值的置信度发生收敛和迭代执行预定次数。
[0120] 附记12、根据附记9所述的方法,其中,针对所获得的每个数据源,根据该数据源 包含的各项记录与所述给定实体集合中的所有实体的相似度计算该数据源的置信度包括: 将所述数据源包含的各项记录与所述给定实体集合中的所有实体的相似度进行求和并归 一化来计算所述数据源的置信度。 阳121] 附记13、根据附记9所述的方法,其中,所述数据源包含的各项记录与所述给定实 体集合中的所有实体的相似度包括W下中的至少一项:所述实体与所述记录中实体的名称 的相似度W及所述实体的属性值与所述记录中对应的属性值的相似度。
[0122] 附记14、根据附记13所述的方法,其中,所述数据源包含的各项记录与所述给定 实体集合中的所有实体的相似度使用编辑距离计算或者Jaro - Winkler距离计算。 阳123] 附记15、根据附记9所述的方法,其中,根据所述数据源的置信度计算所述实体的 每个属性值的置信度包括:根据所述实体的每个属性值在所述数据源中出现的次数和所述 数据源的置信度,利用投票规则来计算每个属性值的置信度。
[0124] 附记16、根据附记9所述的方法,其中,根据所述数据源的置信度计算所述实体的 每个属性值的置信度包括:将与所述实体相关的数据源的每个属性值的置信度进行求和并 归一化,来更新每个数据源的置信度。
【主权项】
1. 一种确定实体属性值的装置,包括: 数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行 检索,确定与该实体相关的数据源,所述实体是给定实体集合中的一个实体; 数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各 项记录与所述给定实体集合中的所有实体的相似度计算该数据源的置信度; 属性值置信度计算单元,被配置为根据所述数据源的置信度计算所述实体的每个属性 值的置信度;以及 属性值确定单元,被配置为根据所述每个属性值的置信度来确定所述实体的属性值。2. 根据权利要求1所述的装置,还包括: 迭代单元,所述迭代单元被配置为迭代执行根据所述每个属性值的置信度重新计算每 个数据源的置信度,以及根据所述数据源的置信度计算所述实体的每个属性值的置信度, 直到符合预定条件。3. 根据权利要求2所述的装置,其中,所述预定条件包括以下中的一项:所述属性值的 置信度发生收敛和迭代执行预定次数。4. 根据权利要求1所述的装置,其中,所述数据源置信度计算单元进一步被配置为:将 所述数据源包含的各项记录与所述给定实体集合中的所有实体的相似度进行求和并归一 化来计算所述数据源的置信度。5. 根据权利要求1所述的装置,其中,所述数据源包含的各项记录与所述给定实体集 合中的所有实体的相似度包括以下中的至少一项:所述实体与所述记录中实体的名称的相 似度以及所述实体的属性值与所述记录中对应的属性值的相似度。6. 根据权利要求5所述的装置,其中,所述数据源包含的各项记录与所述给定实体集 合中的所有实体的相似度使用编辑距离计算或者Jaro - Winkler距离来计算。7. 根据权利要求1所述的装置,其中,所述属性值置信度计算单元进一步被配置为:根 据所述实体的每个属性值在所述数据源中出现的次数和所述数据源的置信度,利用投票规 则来计算每个属性值的置信度。8. 根据权利要求2所述的装置,其中,所述迭代单元进一步被配置为:将与所述实体相 关的数据源的每个属性值的置信度进行求和并归一化,来更新每个数据源的置信度。9. 一种确定实体属性值的方法,包括: 以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的 数据源,所述实体是给定实体集合中的一个实体; 针对所获得的每个数据源,根据该数据源包含的各项记录与所述给定实体集合中的所 有实体的相似度计算该数据源的置信度; 根据所述数据源的置信度计算所述实体的每个属性值的置信度;以及 根据所述每个属性值的置信度来确定所述实体的属性值。10. 根据权利要求9所述的方法,根据所述数据源的置信度计算所述实体的每个属性 值的置信度之后还包括: 迭代执行根据所述每个属性值的置信度重新计算每个数据源的置信度,以及根据所述 数据源的置信度计算所述实体的每个属性值的置信度,直到符合预定条件。
【文档编号】G06F17/30GK105989080SQ201510072365
【公开日】2016年10月5日
【申请日】2015年2月11日
【发明人】缪庆亮, 孟遥
【申请人】富士通株式会社
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1