理解供搜索的表格的制作方法_4

文档序号：9756904阅读：来源：国知局

099] 方法500包括当包含在行中的至少一个指定阈值的候选列名具有大于非候选列名频率的候选列名频率时将表格的该行选作为列标题(504)。例如，列标题检测模块403可以检测行421作为列标题或表格411。列标题检测模块403可以确定行421中的指定阈值(例如 5)的候选列名具有大于非候选频率的候选频率。例如，对于候选列名421A，列标题检测模块 403可以确定候选频率411大于非候选频率412。类似地，对于候选列名421B，列标题检测模块403可以确定候选频率413大于非候选频率414。使用知识库的列标题检测
[0100] A.使用概念化来检测标题是否正确
[0101] 可以使用知识库来检测列标题和/或改善列标题检测（例如选择行作为列标题的置信度增加）。通常，可以从实例集中推断出概念，并且概念可以被称作为"概念化"。概念化可以基于知识库。在一些方面中，概念化可以被用于确定标题是否正确。转向图6,图6示出了示例表格600(例如web表格）。在表格600内，可以从值澳大利亚、美国、南非等中推断出列标题602"国家"。这样，列标题602是在列601中的值的上位词或概念。那么，列标题602"国家"很可能是正确的列标题。
[0102] 转到图7,图7示出被用于从实例集中推断概念的各种公式。知识库(例如在知识库 114中的）可以包括数千万的概念-实例对。公式701表示观察到的实例集。对于观察到的实例，可以抽象出更多的描述实例的代表性概念集。可以使用公式702中所描述的朴素贝叶斯模型来估计概念的概率。在公式702中，ck是概念，而如公式703中所述，其中，P(ei，ck)与实例和概念的共同出现成比例，而P(ck)与观察到的ck的频率大致成比例。在公式702中，拉普拉斯平滑被用于过滤出噪声并引入概念多样性。
[0103] 基于公式701、702和703,具有较大后验概率的概念被排名为描述观察到的实例的更加可能的概念。例如，给定实例"中国"、"俄罗斯"、"印度"和"美国"，国家可以被建议为概念。然而，给定实例"中国"、"印度"和"俄罗斯"，新兴市场可以被建议为概念。
[0104] B.使用属性数据和属性概念化技术
[0105] 包含名字的标题行可以包含更多明显的列名，这些列名可以属于同一概念。转向图8,图8示出示例列标题800。列标题800的列名可以属于同一概念。
[0106] 通常，可以从列标题中提取列名以生成列名列表。随后，可以确定列名列表中的列名是否可以被概念化为相同的上位词。可以在web语料库上使用基于概念和基于实例的属性提取的句法模式来处理文档和提取属性。基于概念提取的句法模式可以被表示为：the 〈a〉of (the/a/an)〈c〉[is]。基于实例提取的句法模式可以被表示为:the〈a〉of (the/a/an) (i)[is]〇
[0107] 在句法模式内，〈a〉是要从匹配句法模式的文本中获得的目标属性，〈c〉是要被获得属性的概念，而〈i〉是概念〈c〉中的实例(子概念或实体）。〈(3〉和〈i〉两者可以形成知识库语义网络。例如，为了查找概念〈c〉=wine(葡萄酒）的属性。从句子"...the acidity of a wine is an essential component of the wine···"（葡萄酒的酸性是葡萄酒的必要成分），〈a〈 = acidity (酸性）是wine的候选属性。而且，从句子"the taste of Bordeaux is..（波尔多葡萄酒的味道是）〈a〉= taste(味道)是"Bordeaux"的属性。从知识库中，可以确定"Bordeaux"是wine的概念的一个实例。这样，〈a〉= taste也是wine的候选属性。
[0108] 通过属性列表，可以确定每个属性对于概念来说有多重要和/或多典型。这样，可以为属性计算典型性分数。更具体地，
[0109] P(c|a)指示了给定属性a概念c有多典型。
[0110] P(a|c)指示了给定概念c属性a有多典型。
[0111] 为了计算典型性分数，考虑两种情况:来自基于概念的提取的属性和来自基于实例的提取的属性。
[0112] 图9示出被用于计算所提取的属性的典型性分数的各种公式。对于基于概念的提取，可以获得具有格式(c，a，n(c，a))的属性列表。根据c来分组该列表，可以确定关于c的所观察到的属性列表以及它们的频率分布。通过这个信息，可以如在格式901中所述获得典型性分数P(a | c)。
[0113] 对于基于实例的提取，可以获得具有格式（1，&，11((3，&))的一个或多个属性列表。可以从不同的数据语料库，例如诸如web文档、查询日志和知识库，中分别获得每个不同的基于实例的列表。可以从每个不同的基于实例的列表中计算单独的典型性分数。随后，基于实例的列表的单独的典型性分数可以与基于概念的列表的典型性分数聚合。为了将基于实例的模式与概念相连，P(a|c)可以被扩展为如在公式902中所示。
[0114] 通过在公式902中扩展，可以计算P(a|i，c)和P(i|c)以确定典型性分数。例如，考虑基于实例的模式"the age of George Washington"（乔治华盛顿的年龄）。基于实例的模式可以对概念president(总统）的典型性打分做出贡献，知道"George Washington"是概念 president的一个实例。在公式902中，P(a | i，c)量化了 "George Washington"的年龄的属性典型性（当其基础概念是president时），而P(i | c)表示"George Washington"对于概念 pres ident有多少代表性。
[0115] 在这种简化的假设下，可以如公式903所示计算P(a|i，c)，而如公式904所示计算P (i | c)。基于公式903和904,可以从知识库中获得P(c | ihPk | i)表示概念c对于给定实例i 有多少可能。P(c|i) = l是在知识库中观察到概念-实例，而P(c|i)=0与之相反。
[0116] 利用典型性分数，可以使用机器来自行推断。也就是基于属性集来查找更可能的概念。例如，为了查找如在公式905中所示的概念其中，A是属性序列。可以使用公式906中所描述的朴素贝叶斯模型来估计概念的概率。
[0117] C.使用试探规则来检测列标题
[0118] 试探规则也可以被用于检测列标题。例如，当标题行的单元格类型不同于其它单元格的单元格类型时，标题行更可能是列名标题。转向图1 〇，图1 〇示出了示例表格1 〇〇〇 (例如web表格）。在表格1000中，单元格1013、1014、1015、1016和1017是串，但列1003、1004、 1005、1005和1007的其它单元格中的值是数字。这样，单元格1013、1014、1015、1016和1017 更加可能是列标题（即列标题1022)的部分。这样，即使该行没有被明确定义为列标题，标识列标题1022作为列标题也是可能的。
[0119] 列中一个单元格中的标记的长度和/或数目与其它单元格中的标记的长度和/或数目的对比也可以被考虑。例如，单元格1011包括两个标记"County (郡)"和"Name(名字)"。主题列1021中的其它单元格包含一个标记。类似地，单元格1012包括两个标记"County (郡)"和"Seat(所在地)"。列1002中的其它单元格包含一个标记。这样，单元格1011和1012 更加可能是列标题(例如列标题1022)的部分。
[0120] 还可以考虑列中的一个单元格和其它单元格的内容是否可以用同一或不同的常规表达式来概述。例如，列1013包含单元格值"Year Founded(建立年份)"，"1854"、"1839"、 "1760"等。然而，"Year Founded"用与概述"1854"、"1839"、"1760"等中的每个的最小常规表达式不相同的最小常规表达式来概述。因此，单元格1013很可能是列标题（例如列标题 1022)的部分。
[0121] 在另一个示例中，列可以包含单元格值"SocialSecNo(社交安全码)"，"123_45_ 678"，"345-67-8901"，"678-90-1234"。所有单元格具有相同数目的字符。然而， "SocialSecNo" 是用与概述 "123-45-678"，"345-67-8901"，"678-90-1234" 中的每个的最小常规表达式不相同的最小常规表达式来概述的。这样，含有"SocialSecNo"的单元格更加可能是列标题的部分。
[0122] 多行列标题
[0123] 本发明的各方面可以被用于检测多行列标题。例如，一些表格具有在每个页有价值的行处复制的标题行。其它表格使用多个标题行，其中一个行是更加通用的而另一个行是更加特殊的。例如，表格可以具有一个行，该行具有跨第一和第二列的单元格值 "Temperature(温度)"。该表格可以具有另一行，该另一行具有在第一列中为"Avg"和在第二列中为"Max"的单元格值。候选列名构造模块401、频率计算模块402以及列标题检测模块 403可以被配置为检测表格的多个标题行。
[0124] 理解表格
[0125] 图11示出便利于理解表格的示例体系结构1100。参考图11，计算机体系结构1100 包括主题列检测器1101和列标题检测器1102。主题列检测器1101和列标题检测器1102的每一个可通过诸如例如局域网（"LAN"）、广域网（"WAN"）或甚至因特网等网络(或作为网络的一部分)彼此连接。因此，主题列检测器1101和列标题检测器1102以及任何其它连接的计算机系统及其组件都可以创建消息相关数据并通过网络交换与消息相关数据(例如，网际协议（"IP"）数据报和利用IP数据报的其它更高层协议，诸如传输控制协议（"TCP"）、超文本传输协议（"HTTP"）、简单邮件传输协议（"SMTP"）等）。
[0126] 通常，主题列检测器1101可以检测表格的一个或多个主题列。为了检测一个或多个主题列，主题列检测器1101可以实现计算机体系结构200的一个或多个模块并使用任意如所述的相关的算法。通常，列标题检测器1102可被配置为检测表格的列标题。为了检测列标题，列标题检测器1102可以实现计算机体系结构200的一个或多个模块并使用任意如所述的相关的算法。
[0127] 主题列检测器1101和列标题检测器1102可以被包括在表格理解模块102中。或者，主题列检测器1101和列标题检测器1102可以在表格理解模块102之外工作。
[0128] 如所述，表格1111(例如web表格)包括列1112A-1112F以及行1113A-1113M。主题列检测器1101和列标题检测器1102中的每个可以访问表格1111。
[0129] 主题列检测器1101可以检测表格1111的主题列。为了确定表格1111的主题列，主题列检测器1101可以考虑列1112A、1112D和1112E(3个最左边非数字列）。使用任意所述的算法，主题列检测器1101可以计算列1112A、1112D和1112E中的每个的分数。例如，可以从表格值与列名在其它表格中的共同出现和/或表格实体和列名在知识库中的共同出现中计算列分数。基于所计算的分数，可以将来自列1112A，1112D和1112E中的一个列检测作为表格 111 1的主题列。例如，列1112A可以被选择作为表格111 1的主题列。
[0130] 主题列检测器1102可

完整全部详细技术资料下载

当前第4页1 2 3 4 5