知识抽取方法及装置与流程

文档序号:12612223阅读:来源:国知局

技术特征:

1.一种知识抽取方法,其特征在于,所述方法包括:

获取表格数据的语义相似度,根据所述语义相似度确定表格结构;

根据所述表格结构确定表头属性名称;

抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。

2.根据权利要求1所述的方法,其特征在于,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构包括:

将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;

将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;

根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。

3.根据权利要求1所述的方法,其特征在于,所述根据所述表格结构确定表头属性名称包括:

根据所述表格结构确定所述表格数据的初始表头;

在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并,确定表头属性名称。

4.根据权利要求1所述的方法,其特征在于,所述抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,所述方法还包括:根据所述表头属性名称,对所述表头属性名称对应的表格内容 进行合并。

5.一种知识抽取装置,其特征在于,所述装置包括:

获取模块,用于获取表格数据的语义相似度;

确定模块,用于根据所述获取模块获取的所述语义相似度确定表格结构;还用于根据所述表格结构确定表头属性名称;

抽取模块,用于抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。

6.根据权利要求5所述的装置,其特征在于,所述获取模块,具体用于将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;

所述确定模块,具体用于根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。

7.根据权利要求5所述的装置,其特征在于,所述确定模块,具体用于根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述表格数据的初始表头进行合并,确定表头属性名称。

8.根据权利要求5所述的装置,其特征在于,所述装置还包括:

对齐模块,用于根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1