理解供搜索的表格的制作方法_2

文档序号:9756904阅读:来源:国知局
及可能还有一个或多个有组织 的数据集112来构建一个或多个索引121、122和123。计算机体系结构100可以从web快照111 和/或中有组织的数据集112中提取表格(例如web表格),理解或注释所提取的表格,并基于 表格的理解/注释来构建一个或多个索引121、122和123。索引121、122和123随后可以被索 引服务组件用于检索用户查询的候选结果并且基于相关性来对候选结果排名。索引121、 122和123中的每个可以是不同类型的索引,例如诸如将标记映射到标识符并包含标记的逆 文档频率的串映射索引、可被用于检索用户的查询的排名最前的表格的关键字(逆)或特征 索引,或者可以被用于生成所检索的表格的预览/摘录并在当被请求时取回完整表格的表 格内容索引。
[0045] 在计算机体系结构100内,表格提取和分类模块101可以接收Web快照111和/或有 组织的数据集作为输入。Web快照111可以包括超文本标记语言(HTML)格式的表格(例如web 表格)。有组织的数据集112可以包括网站特定格式的表格,例如诸如来自data. gov或the World Bank(世界银行)的数据。Web快照111和有组织的数据集可以使用抓取网站、理解这 些网站的格式并提取表格的包装器和/或爬行器来创建。例如,Web快照111可以从抓取因特 网中创建。这样,Web快照111可以包括web表格。web表格可以是关系型的或非关系型的。一 些表格可以明确地定义主题列和列标题。其它表格可能缺乏主题列和/或列标题的明确定 义。
[0046] 表格提取和分类模块101可以从Web快照111和/或有组织的数据集112中提取表 格。表格提取和分类模块101可以过滤出没有价值的表格,例如诸如用于导航/布局目的的 表格。表格提取和分类模块101可以从任意剩余的表格中将表格分类为关系型的和/或非关 系型的表格。在一个方面,表格提取和分类模块101还过滤出非关系型的表格。表格提取和 分类模块101可以输出表格(例如关系型表格)以供计算机体系结构100中的其它模块使用。
[0047]点击日志113可以包括为多个网络用户所记录的链接选择信息("点击")。对于因 特网,点击日志113可以包括针对更大的多个用户的链接选择信息。知识库114可以包括不 同类别的知识库。一种类别的知识库可以包含关于实体(例如诸如在web快照111和/或有组 织数据集112中的web表格)和在实体之间的关系的结构化信息。例如,知识库可以包括关于 实体的信息,包括:实体名、实体类型、实体属性以及实体属性的值。另一种类别的知识库可 以是从Web文档(例如使用文本模式)中所提取的知识库。
[0048] '表格理解模块102可以接收由表格提取和分类模块101所提取的表格(例如web表 格、关系型表格等)作为输入。表格理解模块102可以使用各种不同的表格理解算法来理解 表格。一些表格可能缺乏被明确定义的主题列和/或被明确定义的列标题。因此,表格理解 算法可以被配置为当表格没有明确定义这样的信息时标识表格的主题列和/或检测表格的 列标题。表格理解模块102可以利用点击日志113和知识库114来帮助理解表格。表格理解模 块10 2可以输出表格的所标识的主题列和检测到的列标题。
[0049]表格理解模块102可以接收由表格提取和分类模块101所提取的表格(例如web表 格、关系型表格等)。表格注释模块103也可以(例如从表格理解模块102)接收表格的所标识 的主题列和所检测到的列标题。表格注释模块103可以使用各种不同的表格注释算法来用 没有被明确定义为与表格相关联的相关内容来注释表格。例如,在包含表格的web页面上,〈 table〉和〈/table〉标签内的内容(例如单元格值和列名)可以在支持关键字和数据查找搜 索中非常有用。
[0050] 然而,在支持关键字和数据查找搜索中还存在没有位于〈table〉和〈/table〉标签 内的有用的附加内容。例如,附加内容可以在web页面上的〈tabl e>和〈/tab 1 e>标签之外,附 加内容可以在包含到该web页面的链接的其它web页面中,附加内容可以在点击日志数据 中,等。这样,表格注释算法可以被配置为标识这个附加内容并用该附加内容注释对应的表 格。随后,索引构建模块106可以在该附加内容以及〈table〉和〈/table〉标签内的内容上生 成倒排索引。
[0051] 表格注释模块103可以利用点击日志113和知识库114来帮助标识附加内容和用附 加内容注释对应的表格。表格注释模块103可以输出用对应的附加内容所注释的表格。 [0052]特征计算模块104可以接收表格(例如web表格、关系型表格等等)。特征计算模块 104可以使用各种特征计算算法来计算表格的(静态)特征。所计算的(静态)特征可以被用 于排名。例如,特征计算模块104可以计算web表格的静态(即查询独立的)特征以供在相关 排名中使用。排名可以被用于帮助在许多web表格满足搜索查询时更好地使web表格浮现 (例如更加有名、更加流行或更加相关)。特征计算模块104可以输出表格的经计算的(静态) 特征。
[0053]特征计算模块104可以被用于注释或非注释表格。当特征计算模块104接收注释的 表格时,各种特征计算算法可以使用注释中包含的附加内容来计算(静态)特征。
[0054]索引构建模块106可以接收表格(例如web表格、关系型表格等等)。索引构建模块 106可以使用各种索引构建算法来从所接收的表格中构建一个或多个索引121、122和123。 索引构建模块106可以接收注释的或未注释的表格。当索引构建模块106接收注释的表格 时,在构建索引时,各种索引构建算法可以使用注释中所包含的附加的内容。使用构建模块 106也可以访问表格的经计算的(静态)特征。当索引构建模块106访问表格的经计算的(静 态)特征时,各种索引构建算法可以在构建索引时使用经计算的(静态)特征。
[0055]随后,索引可以被用于促进搜索,包括关键字搜索和数据查找数据搜索。关键字搜 索可以包括用户输入关键字查询(诸如"非洲国家gdp")到搜索引擎(或其它类似的系统或 模块)。搜索引擎(或其它类似的系统或模块)返回适当满足用户的信息需求的经排名的表 格列表。用于查找数据的数据搜索包括用户向搜索引擎(或其它类似的系统或模块)指定 (例如从电子表格中)实体集以及可选的附加关键字。搜索引擎(或其它类似的系统或模块) 返回包含该指定的实体集的所请求信息的表格。
[0056] 主题列标识
[0057]图2示出便利于标识表格的主题列的示例计算机体系结构200。参考图2,计算机体 系结构200包括候选列选择模块201、分数计算模块202以及主题列选择模块203。候选列选 择模块201、分数计算模块202以及主题列选择模块203中的每个都可在网络上彼此相连(或 为网络的一部分),所述网络例如是诸如局域网("LAN")、广域网("WAN")和甚至因特网。因 此,候选列名选择模块201、分数计算模块202以及主题列选择模块203以及任何其它连接的 计算机系统及其组件都可以创建消息相关数据并通过网络交换与消息相关数据(例如,网 际协议("IP")数据报和利用IP数据报的其它更高层协议,诸如传输控制协议("TCP")、超文 本传输协议("HTTP")、简单邮件传输协议("SMTP")等)。
[0058]候选列选择模块201、分数计算模块202以及主题列选择模块203可以被包括在表 格理解模块102中。或者,候选列选择模块201、分数计算模块202以及主题列选择模块203可 以在表格理解模块102之外工作。
[0059] 候选列选择模块201被配置为接收表格(例如web表格)并选择表格的一个或多个 列作为候选主题列。候选列选择模块201可以基于一个或多个选择考虑选择一个列作为候 选主题列。候选列选择模块201可以考虑其它许多列如何从表格的左边分隔列。对于至少某 些表格来说,最左边的列经常是主题列。
[0060] 候选列选择模块201可以考虑列是数字的或非数字的列。对于至少一些表格来说, 主题列经常是非数字的。这样,候选列选择模块可以考虑列是数字的或非数字的列。候选列 选择模块201可以计算列是数字或不是数字的分数。可以从列的值中移除前缀和后缀的标 记。例如,具有收入或价格信息的列可以包含$或!1^1作为在前缀/后缀的标记。这些标记可 以被移除以展示代表性数据。对于一个列,可以计算为数字的单元格的数目的分数。例如, 如果列具有100个单元格,且80个单元格具有数字的值,则80 %的单元格是数字。被确定为 具有超出指定阈值的数字单元格的列可以在进一步考虑作为主题列时被排除。
[0061] 这样,对于非数字列,候选列选择模块201可以考虑其它许多列如何从表格的左边 分隔列。
[0062] 候选列选择模块201可以考虑一个列中的单元格值的差异性。对于至少某些表格 来说,主题列是近似关键字(即主题列包含大多数为不同的值,但可以包含一些副本)。可以 考虑几种不同的差异度测量来用于列,包括不同的单元格值的数目与单元格总数的比率, 最多重复的值的出现的数目等。
[0063] 分数计算模块202被配置为确定候选列中的值在其它表格的主题列中同时出现的 频率有多频繁。对于至少一些表格来说,表格的列是主题列中的实体的属性/关系。例如,首 都城市的列可以是在对应的主题列中州的属性/关系。这样,在真实的主题列中的值与非主 题列中的值相比可以更加频繁与列名同时出现。
[0064] 分数计算模块202可以计算每个候选列的列分数。在一个方面中,分数计算模块 202可以选择超出指定差异度的阈值(例如7)的N个(例如3个)最左边的非数字列作为候选 主题列。对于每个候选主题列,分数计算模块202计算候选主题列中的每个值跨多个其它表 (集)与每个列名出现了多少次。对于每个值/列名,共同出现的次数与该值跨多个其它表 (集)出现的次数相除以获得共同出现的分数。例如,如果值在50个表格的主题列中出现,且 在总数为500的表格中出现,则共同出现分数为50/500 = 0.1 (or 10% )。
[0065] 分数计算模块202可以使用列中的每个值的共同出现的分数来计算该列的列分 数。例如,Vl,V2,…,Vn可以表不列中的值集。Cl,C2,…,Cm可以是列名。这样,f (Vi,Cj)表不在 主题列中可能包含1的表格的共同出现分数,其中Cj是列名。可以将一种或多种聚集函数用 于从一个列的所有f^Cj)中计算该列的列分数。一些值和列名可以是尾部值/列名,因此, 即使具有更高fd,^)的少量值/列名也能贡献出更高的整体分数。一种聚集函数通过取一 列的指定排在最前数目的共同出现分数的平均来计算该列的分数。
[0066] 替代地和/或组合地,分数计算模块202还可以考虑知识库中的表格(例如web表 格)和列名中的实体的共同出现。表格(例如web表格)的列是在主题列中的实体的属性/关 系。这样,列名可以出现在知识库中的相同概念/类型内。分数计算模块202可以为捕捉与实 体和列名的重叠的任意可能的概念(即与实体重叠的概念)计算概念分数。具有最适当(例 如最高)概念分数的列可以被选择。
[0067] 分数计算模块202还可以使用知识库来确定候选主题列名值在知识库中是否具有 匹配表格的属性。匹配表格的知识库的属性可以被用于标识表格中的多个主题列。例如,分 数计算模块202可以学习表格内的实体-属性关系。就是说,表格可以是关于州(State)的, 可以具有首府(Capitol),并且接着首府的是人口列,该列是首府人口(它可以是与州人口 不同的列)。
[0068] 主题列选择模块203被配置为接收列和/或列的概念分数。从接收的分数
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1