理解供搜索的表格的制作方法_5

文档序号:9756904阅读:来源:国知局
以检测表格1111的主题行。为了确定表格1111的列标题,列 标题检测器1102可以使用任意所述的算法,例如诸如使用web表格的列标题检测、使用知识 库的列标题检测、概念化、试探等,以检测表格1111的一行作为列标题。例如,列标题检测器 1102可以从定义表格1111的数据中构造表格1111的候选列名集。列标题检测器1102候选可 以为每个候选列名计算候选列名频率和非候选列名频率。列标题检测器1102候选可以基于 所计算的频率选择表格1111的一行作为列标题。例如,行1113A可以被检测为表格111 1的列 标题。
[0131] 可以在结构化数据搜索系统(SDSS)中使用本发明的各实现,所述系统索引结构化 信息,例如在关系型数据库中的表格或从web页面中提取的html表格,并且允许用户在结构 化信息(表格)上搜索。SDSS可以在结构化信息上索引并提供多种搜索机制。一种搜索机制 是关键字搜索,其中,用户提出诸如"african countries gdp(非洲国家gdp)"的关键字查 询给SDSSdDSS返回经排名的适当满足用户的信息需求的表格列表。另一种机制是数据查 找数据,其中,用户为SDSS指定(例如存在于电子表格内)实体集以及可选的附加关键字。 SDSS返回包含了该实体集的所请求的信息的表格。
[0132]本发明可具体化为其它具体形式而不背离其精神或本质特征。所描述的实现在所 有方面都应被认为仅是说明性而非限制性的。从而,本发明的范围由所附权利要求书而非 前述描述指示。落入权利要求书的等效方案的含义和范围内的所有改变应被权利要求书的 范围所涵盖。
【主权项】
1. 一种用于检测表格的一个或多个主题列的方法,所述方法包括: 从表格中选择指定数目的列作为主题列候选,每个主题列候选是表格的主题列的一个 候选,每个主题列候选包括多个值; 对于每个主题列候选: 从所述多个值中标识与跨多个其它表格的一个或多个列名成对的任意值的出现;以及 基于所标识的出现计算所述主题候选列的分数,所计算的分数指示所述候选列是主题 列的可能性;以及 根据所述候选分数选择至少一个主题列候选作为所述表格的主题列。2. 如权利要求1所述的方法,其特征在于,从所述表格中选择指定数目的列作为主题列 候选包括选择所述表格的指定数目的最左列作为主题列候选。3. 如权利要求2所述的方法,其特征在于,从所述表格中选择指定数目的最左列作为主 题列候选包括选择所述表格的指定数目的最左非数字列作为主题列候选。4. 如权利要求1所述的方法,其特征在于,从所述表格中选择指定数目的列作为主题列 候选包括基于在指定数目的列中的单元格值的差异从所述表格中选择所述指定数目的列 作为主题列候选。5. 如权利要求1所述的方法,其特征在于,从所述表格中选择指定数目的列作为主题列 候选包括将来自关系型表格的指定数目的列作为候选。6. 如权利要求1所述的方法,其特征在于,从所述表格中选择指定数目的列作为主题列 候选包括将来自web表格的指定数目的列作为候选。7. 如权利要求1所述的方法,其特征在于,从所述多个值中标识与跨多个其它表格的一 个或多个列名成对的任意值的出现包括从所述多个值中标识与跨多个web表格的一个或多 个列名成对的任意值的出现。8. 如权利要求1所述的方法,其特征在于,选择至少一个所述主题列候选作为所述表格 的主题列包括选择多个所述主题列候选作为所述表格的主题列。9. 一种在计算机系统处的用来检测包括一个或多个行的表格的列标题的方法,所述方 法包括: 从定义所述表格的数据中构造所述表格的候选列名集; 对于所述候选列名集中的每个候选列名: 通过从其它表格集中标识也包含作为一候选列名的所述候选列名的一个或多个其它 表格来计算所述候选列名的候选列名频率;以及 通过从其它表格集中标识包含所述候选列名但不作为候选列名的第二一个或多个其 它表格来计算所述候选列名的非候选列名频率;以及 当包含在表格的一行中的至少一个指定阈值的候选列名具有大于非候选列名频率的 候选列名频率时将该行选作为列标题。10. 如权利要求9所述的方法,其特征在于,还包括在构造候选列名集之前确定定义所 述表格的所述数据没有明确定义列标题。11. 如权利要求10所述的方法,其特征在于,确定定义所述表格的所述数据没有明确定 义列标题包括确定定义所述表格的所述数据不包括超文本标记语言(HTML) <th>标签并且 不包括超文本标记语言(HTML)〈thead>标签。12. 如权利要求9所述的方法,其特征在于,还包括在构造候选列名集之前确定所述表 格缺少明确被定义的列标题。13. 如权利要求9所述的方法,其特征在于,构造所述表格的候选列名集包括从包括在 所述表格的所述第一行中的列名构造所述表格的候选列名集。14. 如权利要求9所述的方法,其特征在于,构造所述表格的候选列名集包括构造关系 型web表格的候选列名集。15. 如权利要求9所述的方法,其特征在于,选择所述表格的一行作为列标题包括选择 所述表格的所述第一行作为列标题。16. 如权利要求9所述的方法,其特征在于,还包括通过所选行的至少一个列是包含在 所述至少一个列中的单元格值的上位词来增加在选择所述表格的所述行作为所述列标题 中的置信度。17. -种在计算机系统处的用来检测包括一个或多个行的表格的列标题的方法,所述 方法包括: 构造所述表格的候选列名集; 基于在所述候选列名集中所包括的一个列中包含的单元格值推断该列是在所述列中 包含的所述单元格值的上位词;以及 选择包含所述列的所述行作为所述表格的列标题。18. 如权利要求17所述的方法,其特征在于,推断在所述候选列名集中所包括的一个列 是在所述列中包含的单元格值的上位词包括通过参考知识库推断在所述候选列名集中所 包括的一个列是在所述列中包含的所述单元格值的上位词。19. 如权利要求18所述的方法,其特征在于,通过参考知识库推断在所述候选列名集中 所包括的一个列是在所述列中包含的单元格值的上位词包括从所述知识库中提取一个或 多个概念属性和一个或多个实例属性。20. 如权利要求18所述的方法,其特征在于,在选择包含所述列的所述行作为所述表格 的列标题之前,确定包括在所述候选列名集中的所述列标题的单元格类型和所述列中的其 他单元格的单元格类型不同的另一个列。21. -种系统,所述系统包括: 一个或多个处理器; 系统存储器;以及 一种或多种计算机存储介质,所述计算机存储介质上存储有表示主题列检测器的计算 机可执行指令,所述主题列检测器用于检测表格的一个或多个主题列,所述主题列检测器 被配置为: 从所述表格中选择指定数目的列作为主题列候选,每个主题列候选是所述表格的主题 列的一个候选,每个主题列候选包括多个值; 对于每个主题列候选: 从所述多个值中标识与跨多个其它表格的一个或多个列名成对的任意值的出现;以及 基于所标识的出现计算所述主题候选列的分数,所计算的分数指示所述候选列是主题 列的可能性;以及 根据所述候选分数选择至少一个主题列候选作为所述表格的主题列。22. 如权利要求21所述的系统,其特征在于,所述主题列检测器被配置为从所述表格中 选择指定数目的列作为主题列候选包括所述主题列检测器被配置为选择所述表格的指定 数目的最左列作为主题列候选。23. 如权利要求21所述的系统,其特征在于,所述主题列检测器被配置为从所述表格中 选择指定数目的列作为主题列候选包括所述主题列检测器被配置为基于在一指定数目的 列中的单元格值的差异从所述表格中选择所述指定数目的列作为主题列候选。24. 如权利要求21所述的系统,其特征在于,所述主题列检测器被配置为从所述多个值 中标识与跨多个其它表格的一个或多个列名成对的任意值的出现包括所述主题列检测器 被配置为从所述多个值中标识与跨多个web表格的一个或多个列名成对的任意值的出现。25. 如权利要求21所述的系统,其特征在于,所述主题列检测器被配置为选择至少一个 主题列候选作为所述表格的主题列包括所述主题列检测器被配置为选择多个主题列候选 作为所述表格的主题列。26. -种系统,所述系统包括: 一个或多个处理器; 系统存储器;以及 一种或多种计算机存储介质,所述计算机存储介质上存储有表示列标题检测器的计算 机可执行指令,所述主题列检测器用于检测表格的一个或多个主题列,所述主题列检测器 被配置为: 从定义所述表格的数据中构造所述表格的候选列名集; 对于所述候选列名集中的每个候选列名: 通过从其他表格集中标识也包含作为一候选列名的所述候选列名的一个或多个其他 表格来计算所述候选列名的候选列名频率;以及 通过从其他表格集中标识包含所述候选列名但不作为一候选列名的第二一个或多个 其他表格来计算所述候选列名的非候选列名频率;以及 当包含在表格的一行中的至少一个指定阈值的候选列名具有大于非候选列名频率的 候选列名频率时将该行选作为列标题。27. 如权利要求26所述的系统,其特征在于,还包括所述主题列检测器被配置为在构造 候选列名集之前确定所述表格缺少明确被定义的列标题。28. 如权利要求26所述的系统,其特征在于,所述主题列检测器被配置为构造所述表格 的候选列名集包括从包括在所述表格的所述第一行中的列名构造所述表格的候选列名集。29. 如权利要求26所述的系统,其特征在于,还包括所述主题列检测器被配置为通过所 选行的至少一个列是包含在所述至少一个列中的单元格值的上位词来增加在选择所述表 格的所述行作为所述列标题中的置信度。30. -种系统,所述系统包括: 一个或多个处理器; 系统存储器;以及 一种或多种计算机存储介质,所述计算机存储介质上存储有表示列标题检测器的计算 机可执行指令,所述主题列检测器用于检测表格的一个或多个主题列,所述主题列检测器 被配置为: 构造所述表格的候选列名集; 基于在所述候选列名集中所包括的一个列中包含的单元格值推断该列是在所述列中 包含的所述单元格值的上位词;以及 选择包含所述列的所述行作为所述表格的列标题。31. 如权利要求30所述的系统,其特征在于,所述主题列检测器被配置为推断在所述候 选列名集中所包括的一个列是在所述列中包含的单元格值的上位词包括所述主题列检测 器被配置为通过参考知识库在所述候选列名集中所包括的一个列是在所述列中包含的所 述单元格值的上位词。32. 如权利要求30所述的系统,其特征在于,所述主题列检测器被配置为通过参考知识 库推断在所述候选列名集中所包括的一个列是在所述列中包含的单元格值的上位词包括 所述主题列检测器被配置为从所述知识库中提取一个或多个概念属性和一个或多个实例 属性。33. 如权利要求30所述的系统,其特征在于,还包括所述主题列检测器被配置为在选择 包含所述列的所述行作为所述表格的列标题之前,确定包括在所述候选列名集中的所述列 标题的单元格类型和所述列中的其他单元格的单元格类型不同的另一个列。
【专利摘要】用于理解供搜索的表格的方法、系统、和计算机程序产品。标识表格的主题列,使用其它表格检测列标题,并用知识检库检测列标题。可以在结构化数据搜索系统(SDSS)中利用方法,所述结构化数据搜索系统索引结构化信息,例如在关系型数据库中的表格或从网页提取的html表格。SDSS允许用户使用包括关键字搜索和数据查找数据的不同的机制在结构化信息(表格)上进行搜索。
【IPC分类】G06F17/27, G06F17/30
【公开号】CN105518667
【申请号】CN201480047962
【发明人】王仲远, K·佐恩, Z·陈, K·查克拉巴蒂, J·P·菲尼根, V·R·纳拉萨亚, S·乔德里, K·甘加姆
【申请人】微软技术许可有限责任公司
【公开日】2016年4月20日
【申请日】2014年6月30日
【公告号】US20150379057, WO2016000115A1
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1