表格语义化装置和方法_4

文档序号:9929506阅读:来源:国知局
同的实体进行连接。
[0131] 附记10、一种表格语义化方法,包括:
[0132] 将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来 确定各实体名在所述互联网知识库中对应的实体;
[0133] 对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属 性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及
[0134] 基于所确定的实体名和每一列对应的属性将所述表格语义化。
[0135] 11、根据附记10所述的方法,将所述表格的实体列中的每一行的实体名与互联网 知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体包括:
[0136] 计算所述实体名与所述互联网知识库中对应的所述实体的第一相似度;
[0137] 计算所述表格的每一列的值与对应的所述实体在所述互联网知识库中的属性值 的第二相似度;
[0138] 加权相似度计算子单元,被配置为根据所述第一相似度和所述第二相似度计算加 权相似度;以及
[0139] 当所述加权相似度大于预定阈值时,确定该实体是所述实体名在所述互联网知识 库中对应的实体。
[0140] 附记12、根据附记10所述的方法,其中,对于所述表格的每一行,将每一列的值与 该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应 的属性包括:
[0141] 对于所述表格的每一行,基于所述每一列的值与该行对应的实体在互联网知识库 中的属性值的匹配关系来构建映射关系表;
[0142] 基于所述映射关系表计算列的属性支持度,所述列的属性支持度是一个属性在所 有映射关系表的同一列中出现的次数与所述映射关系表的个数的比值;以及
[0143] 至少基于所述列的属性支持度来确定所述每一列对应的属性。
[0144] 附记13、根据附记12所述的方法,其中,对于所述表格的每一行,将每一列的值与 该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应 的属性进一步包括:
[0145] 基于所述映射关系表来计算属性置信度,属性置信度为所述表格的一行所连接的 所述互联网知识库中的属性的个数与所述表格的列数的比值;以及
[0146] 根据所述属性置信度和所述属性支持度来计算属性总得分,其中
[0147] 根据所述属性总得分来确定所述每一列对应的属性。
[0148] 附记14、根据附记13所述的方法,其中,
[0149] 所述属性总得分是通过对属性置信度加 1取对数再乘以属性支持度来计算的。
[0150] 附记15、根据附记11所述的方法,其中,
[0151] 所述第一相似度是使用编辑距离或Jaccard相似度计算的;
[0152] 所述第二相似度是对所述表格的每一列的值与对应的所述实体的所述属性值的 相似度求和再取对数来计算的;以及
[0153] 所述加权相似度是利用公式:加权相似度=a ?第一相似度+(l-a ) ?第二相似 度来计算的,其中a为预定系数。
[0154] 附记16、根据附记10所述的方法,其中,基于所确定的实体名和每一列对应的属 性将所述表格语义化进一步包括:通过将所述实体列的实体名和所述每一列对应的属性转 换为资源描述框架格式来将所述表格语义化。
[0155] 附记17、根据附记10所述的方法,还包括:
[0156] 如果所述实体确定单元对于所述表格的某一行的实体名在所述互联网知识库中 未找到对应的实体,将该实体名和其对应的属性值使用与所确定的每一列对应的属性相同 的属性进行语义化,并将得到的语义化信息添加到所述互联网知识库中。
[0157] 附记18、根据附记10所述的方法,其中,将所述表格的实体列中的每一行的实体 名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体 进一步包括:将所述实体名与互联网知识库中与所述实体名的实体类型相同的实体进行连 接。
【主权项】
1. 一种表格语义化装置,包括: 实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中 的实体进行连接来确定各实体名在所述互联网知识库中对应的实体; 属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在 互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及 表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义 化。2. 根据权利要求1所述的装置,所述实体确定单元包括: 第一相似度计算子单元,被配置为计算所述实体名与所述互联网知识库中对应的所述 实体的第一相似度; 第二相似度计算子单元,被配置为计算所述表格的每一列的值与对应的所述实体在所 述互联网知识库中的属性值的第二相似度; 加权相似度计算子单元,被配置为根据所述第一相似度和所述第二相似度计算加权相 似度;以及 实体确定子单元,被配置为当所述加权相似度大于预定阈值时,确定该实体是所述实 体名在所述互联网知识库中对应的实体。3. 根据权利要求1所述的装置,其中,所述属性确定单元包括: 映射关系表构建子单元,被配置为对于所述表格的每一行,基于所述每一列的值与该 行对应的实体在互联网知识库中的属性值的匹配关系来构建映射关系表; 属性支持度计算子单元,被配置为基于所述映射关系表计算列的属性支持度,所述列 的属性支持度是一个属性在所有映射关系表的同一列中出现的次数与所述映射关系表的 个数的比值;以及 属性确定子单元,被配置为至少基于所述列的属性支持度来确定所述每一列对应的属 性。4. 根据权利要求3所述的装置,其中,所述属性确定单元进一步包括: 属性置信度计算子单元,被配置为基于所述映射关系表来计算属性置信度,属性置信 度为所述表格的一行所连接的所述互联网知识库中的属性的个数与所述表格的列数的比 值;以及 属性总得分计算子单元,被配置为根据所述属性置信度和所述属性支持度来计算属性 总得分,其中 所述属性确定子单元被配置为根据所述属性总得分来确定所述每一列对应的属性。5. 根据权利要求4所述的装置,其中, 所述属性总得分是通过对属性置信度加1取对数再乘以属性支持度来计算的。6. 根据权利要求2所述的装置,其中, 所述第一相似度是使用编辑距离或Jaccard相似度计算的; 所述第二相似度是对所述表格的每一列的值与对应的所述实体的所述属性值的相似 度求和再取对数来计算的;以及 所述加权相似度是利用公式:加权相似度=α ·第一相似度+(1-α) ·第二相似度来 计算的,其中α为预定系数。7. 根据权利要求1所述的装置,其中,所述表格语义化单元进一步被配置为通过将所 述实体列的实体名和所述每一列对应的属性转换为资源描述框架格式来将所述表格语义 化。8. 根据权利要求1所述的装置,还包括: 实体信息添加单元,被配置为如果所述实体确定单元对于所述表格的某一行的实体名 在所述互联网知识库中未找到对应的实体,将该实体名和其对应的属性值使用与所确定的 每一列对应的属性相同的属性进行语义化,并将得到的语义化信息添加到所述互联网知识 库中。9. 根据权利要求1所述的装置,其中,所述实体确定单元进一步被配置为:将所述实体 名与互联网知识库中与所述实体名的实体类型相同的实体进行连接。10. -种表格语义化方法,包括: 将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定 各实体名在所述互联网知识库中对应的实体; 对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值 的进行匹配,基于匹配结果来确定每一列对应的属性;以及 基于所确定的实体名和每一列对应的属性将所述表格语义化。
【专利摘要】本发明涉及一种表格语义化装置和方法。该装置包括:实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。根据本发明的表格语义化装置和方法,能够将表格信息转换为语义表示,从而将表格中隐式的语义信息显式化,并且还可以对互联网知识库进行补充和完善。
【IPC分类】G06F17/27, G06F17/30, G06F17/24
【公开号】CN105718433
【申请号】CN201410737646
【发明人】缪庆亮, 孟遥
【申请人】富士通株式会社
【公开日】2016年6月29日
【申请日】2014年12月5日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1