表格语义化装置和方法

文档序号:9929506阅读:188来源:国知局
表格语义化装置和方法
【技术领域】
[0001] 本发明涉及信息处理领域,更具体地涉及一种对表格进行语义化的装置和方法。
【背景技术】
[0002] 随着互联网的飞速发展,互联网中出现了大量的表格数据,表格数据中含有丰富 的结构化信息。挖掘表格数据可以获取大量的人类知识。由于表格中的语义信息是隐式 的,而互联网知识库的语义信息是显式的,因此如何将表格语义化,将表格中隐式的语义信 息显式化是非常重要的。
[0003] 因此,需要一种能够将表格语义化,从而将表格中隐式的语义信息显式化的装置 和方法。

【发明内容】

[0004] 在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理 解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关 键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念, 以此作为稍后论述的更详细描述的前序。
[0005] 本发明的一个主要目的在于,提供一种表格语义化装置,包括:实体确定单元,被 配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确 定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的 每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹 配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每 一列对应的属性将所述表格语义化。
[0006] 根据本发明的一个方面,提供了一种表格语义化方法,包括:将所述表格的实体列 中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知 识库中对应的实体;对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知 识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及基于所确定的 实体和每一列对应的属性将所述表格语义化。
[0007] 另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
[0008] 此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其 上记录有用于实现上述方法的计算机程序代码。
[0009] 通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优 点将更加明显。
【附图说明】
[0010] 参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其 它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似 的技术特征或部件将采用相同或类似的附图标记来表示。
[0011] 图1示出了表格信息的一个示例;
[0012] 图2A-2B示出了互联网知识库中的实体信息的示例;
[0013] 图3示出了根据本发明的一个实施例的对表格进行语义化的装置300的示例性配 置的框图;
[0014] 图4是示出图3中的实体确定单元302的一种示例性配置的框图;
[0015] 图5是示出图3中的属性确定单元304的一种示例性配置的框图;
[0016] 图6A-6C示出了以图1中的表格和图2A-2B中的实体信息为例所构建的映射关系 表;
[0017] 图7是示出图3中的属性确定单元的另一种示例性配置304'的框图;
[0018] 图8示出了根据本发明的一个实施例的对表格进行语义化的方法800的流程图;
[0019] 图9是示出图8中的步骤S802的一种示例性过程的流程图;
[0020] 图10是示出图8中的步骤S804的一种示例性过程的流程图;
[0021] 图11是示出图8中的步骤S804的另一种示例性过程的流程图;以及
[0022] 图12是示出可以用于实施本发明的对表格进行语义化的装置和方法的计算设备 的示例性结构图。
【具体实施方式】
[0023] 下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描 述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应 当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知 的部件和处理的表示和描述。
[0024] 本发明提出一种基于表格与互联网知识库的连接对表格进行语义化的方法,该方 法首先将表格中的实体和互联网知识库进行连接,然后确定表格每一列与互联网知识库中 对应的属性,最后将表格信息转换为语义表示。本发明使用资源描述框架(RDF,Resource Description Framework)格式,合并到互联网知识库中,实现表格语义化。同时将表格中存 在、但互联网知识库中不存在的实体语义信息加入到互联网知识库中。
[0025] 下面结合附图详细说明根据本发明的一个实施例的对表格进行语义化的装置。
[0026] 图1示出了表格信息的一个示例,图2A-2B示出了互联网知识库中的实体信息的 一个不例,下面将以图1中不出的表格信息为例来说明根据本发明的一个实施例的对表格 进行语义化的装置。
[0027] 图3示出了根据本发明的一个实施例的对表格进行语义化的装置300的示例性配 置的框图。
[0028] 如图3所示,表格语义化装置300包括实体确定单元302、属性确定单元304和表 格语义化单元306。
[0029] 实体确定单元302可以将所述表格的实体列中的每一行的实体名ET与互联网知 识库中的实体E K进行连接来确定各实体名在所述互联网知识库中对应的实体。
[0030] 对于表格的每一行,属性确定单元304可以将每一列的值与该行对应的实体在互 联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性。
[0031] 表格语义化单元306可以基于所确定的实体名和每一列对应的属性将所述表格 语义化。
[0032] 下面分别详细说明表格语义化装置300所包括的各个单元。
[0033] 在本发明中,假设表格中只包含一个实体列,且实体列已知,例如图1中表格的第 一列为实体列。如果表格中不只包括一个实体列,可以先将表格重构为描述单一对象的表 格,即将包括多个实体列的表格重构为多个仅包含一个实体列的表格。
[0034] 图4是示出图3中的实体确定单元302的一种示例性配置的框图。
[0035] 如图4所示,实体确定单元302包括第一相似度计算子单元3022、第二相似度计算 子单元3024、加权相似度计算子单元3026和实体确定子单元3028。
[0036] 第一相似度计算子单元3022可以计算实体列的每个实体名ET与互联网知识库中 的实体字符串相似度,记为siml。在一个示例中,字符串相似度可以使用编辑距离或 Jaccard相似度来计算。
[0037] 第二相似度计算子单元3024可以计算表格中每一列的值与对应的实体 ^在互联网知识库中的属性值的匹配度,记为s i m2。在一个示例中,可以通过公式 C sim2=lGgtJ>(i)来计算sim2,其中。为表格的列数,s⑴为实体匕所对应的表格第i i:=:l 列的值与EK的属性值的字符串相似度。
[0038] 加权相似度计算子单元3026可以计算siml和sim2的加权和,在一个示例中,用 公式sim = a ? siml+(l-a ) ? sim2来计算siml和sim2的加权和,其中a是预定系数。
[0039] 当sim大于阈值5时,实体确定子单元3028确定ET的连接实体为E K。如果sim 小于阈值S,则认为该£7在互联网知识库中找不到对应的实体,这些实体会在后面进行处 理。
[0040] 要注意的是,连接时要求实体类型一致。例如,图1中的表格的第一列为实体列, 且实体类型为电影,那么在进行实体连接时,通常只与互联网知识库中的电影实体做连接。
[0041] 通过实体确定单元302的处理,可以确定实体列中实体Et*对应的互联网知识库 中的实体E k。
[0042] 图5是示出图3中的属性确定单元304的一种示例性配置的框图。
[0043] 如图5所示,属性确定单元304包括映射关系表构建子单元3042、属性支持度计算 子单元3044和属性确定子单元3046。
[0044] 映射关系表构建子单元3042可以对于表格的每一行,基于ET对应的每一列的值 与对应的£ |(在互联网知识库中的属性值的匹配关系来构建映射关系表。以图1中的表格 和图2A-2B中的互联网知识库中的实体信息为例,可以得到图6A-6C所示的映射关系表。
[0045] 由于T(l, 2)有两个可能属性,分别为"example:directedBy"和 "example:sta
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1