理解供搜索的表格的制作方法

文档序号:9756904阅读:465来源:国知局
理解供搜索的表格的制作方法
【专利说明】理解供搜索的表格
[0001] 相关申请的交叉引用
[0002] 不适用 [0003] 背景
[0004] 1.背景和相关技术
[0005] 计算机系统及相关技术影响社会的许多方面。的确,计算机系统处理信息的能力 已转变了人们生活和工作的方式。现在,计算机系统通常执行在计算机系统出现以前人工 执行的许多任务(例如,文字处理、日程安排、帐目管理等)。最近,计算机系统彼此耦合并耦 合到其他电子设备以形成计算机系统及其他电子设备可在其上传输电子数据的有线和无 线计算机网络。因此,许多计算任务的执行被分布在多个不同的计算机系统和/或多个不同 的计算环境中。
[0006] 搜索引擎可以被用在包括因特网的网络上以定位用户感兴趣的信息。搜索引擎通 常使用在诸如因特网之类的网络上连续爬行网页的爬行器,以索引内容。为了找到内容,用 户向搜索引擎提交一个或多个搜索项。搜索引擎标识被认为包含与所述一个或多个搜索项 有关的内容的页面。搜索引擎随后将到所标识的页面的链接返回给用户。用户可以随后选 择(例如"点击")链接以查看对应页面的内容。
[0007] 结构化数据搜索系统(SDSS)类似地爬行诸如因特网之类的网络以索引结构化信 息。结构化信息可以包括在关系型数据库中的表格或从网页提取的HTML表格。为了找到内 容,用户将一个或多个搜索项提交给SDSSdDSS标识被认为包含与所述一个或多个搜索项 有关的内容的结构化数据,例如表格。搜索引擎随后将结构化数据返回给用户。用户可以随 后将结构化数据整合入他们的应用中。
[0008] 为了有效索引结构化数据,例如表格,对结构化数据的至少一些理解是必要的。网 络上的一些表格可以明确地定义他们的主题列和列标题。SDSS可以相对有效地索引这些类 型的表格。网络上的其他表格可能没有明确地定义他们的主题列和/或列标题。SDSS可能不 能索引这些其他类型的表格。
[0009] 由于在因特网上的内容生成的多样性,因特网上的表格的相当部分缺少明确定义 的主题列和/或明确定义的列标题。因为SDSS可能不能够索引缺少明确的主题列和/或明确 定义的列标题的表格,响应于用户搜索返回这样的表格是相当不可能的。这样,对于用户来 说要找到缺少明确的主题列和/或缺少明确定义的列标题的表格是非常困难的,即使这样 的表格的内容将是有用的。
[0010] 简要概述
[0011] 本发明涉及用于理解供搜索的表格的方法、系统、和计算机程序产品。本发明的各 方面包括标识表格的主题列,使用其它表格检测一个表格的列标题,并用知识库检测表格 的列标题。
[0012] 提供该概述以便以简化形式介绍概念的选集,所述概念在以下详细描述中被进一 步描述。本概述并非旨在标识出要求保护的主题的关键特征或必要特征,亦非旨在用作辅 助确定要求保护的主题的范围。
[0013] 本发明的附加特征和优点将在以下描述中叙述,并且其一部分根据本描述将是显 而易见的,或者可通过对本发明的实践来获知。本发明的特征和优点可通过在所附权利要 求书中特别指出的工具和组合来实现和获得。本发明的这些以及其它特征、优点和特征将 根据以下描述和所附权利要求而变得更显而易见,或者可通过如此后阐述的对本发明的实 践而获知。
[0014] 附图简述
[0015] 为了描述可获得本发明的上述和其它优点和特征的方式,将通过参考附图中示出 的本发明的具体实现来对以上简要描述的本发明进行更具体描述。可以理解,这些附图仅 描述本发明的一些实现,从而不被认为是对其范围的限制,本发明将通过使用附图用附加 特征和细节来描述和说明,在附图中:
[0016] 图1示出便利于从结构化数据的一个或多个数据集中构建一个或多个索引的示例 计算机体系结构。
[0017] 图2示出便利于标识表格的主题列的示例计算机体系结构。
[0018] 图3示出了用于标识表格的主题列的示例方法的流程图。
[0019] 图4示出便利于检测表格的列标题的示例的计算机体系结构。
[0020] 图5示出了用于检测表格的列标题的示例方法的流程图。
[0021] 图6示出示例表格。
[0022] 图7示出被用于从实例集中推断概念的各种公式。
[0023] 图8示出了示例标题行。
[0024] 图9示出被用于计算所提取的属性的典型性分数的各种公式。
[0025] 图10示出示例表格。
[0026]图11示出便利于理解表格的示例体系结构。
[0027] 详细描述
[0028] 本发明涉及用于理解供搜索的表格的方法、系统、和计算机程序产品。本发明的各 方面包括标识表格的主题列,使用其它表格检测一个表格的列标题,并用知识库检测表格 的列标题。
[0029] 本发明的各实现可包括或利用专用或通用计算机,该专用或通用计算机包括诸如 举例而言一个或多个处理器和系统存储器的计算机硬件,如以下更详细讨论的。本发明范 围内的各实现还包括用于承载或存储计算机可执行指令和/或数据结构的物理和其它计算 机可读介质。这样的计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介 质。存储计算机可执行指令的计算机可读介质是计算机存储介质(设备)。承载计算机可执 行指令的计算机可读介质是传输介质。'由此,作为示例而非限制,本发明的各实现可包括 至少两种显著不同种类的计算机可读介质:计算机存储介质(设备)和传输介质。
[0030] 计算机存储介质(设备)包括RAM、R0M、EEPR0M、CD-R0M、固态驱动器("SSD")(如基 于RAM)、闪存、相变存储器("PCM")、其他类型的存储器、其他光盘存储、磁盘存储或其他磁 存储设备、或可用于存储计算机可执行指令或数据结构形式的所需程序代码装置且可由通 用或专用计算机访问的任何其他介质。
[0031] "网络"被定义为使得电子数据能够在计算机系统和/或模块和/或其它电子设备 之间传输的一个或多个数据链路。当信息通过网络或另一个通信连接(硬连线、无线、或者 硬连线或无线的组合)传输或提供给计算机时,该计算机将该连接适当地视为传输介质。传 输介质可以包括可以用来携带所需要的以计算机可执行的指令或数据结构的形式存在的 程序代码装置并可以被通用或专用计算机访问的网络和/或数据链路。上述的组合应当也 被包括在计算机可读介质的范围内。
[0032] 此外,在到达各种计算机系统组件之后,计算机可执行指令或数据结构形式的程 序代码装置可从传输介质自动传输到计算机存储介质(设备)(或反之亦然)。例如,通过网 络或数据链接接收到的计算机可执行指令或数据结构可被缓存在网络接口模块(例如, "NIC")内的RAM中,然后最终被传输到计算机系统RAM和/或计算机系统处的较不易失性的 计算机存储介质(设备)。因而,应当理解,计算机存储介质(设备)可被包括在还利用(甚至 主要利用)传输介质的计算机系统组件中。
[0033] 计算机可执行指令例如包括,当在处理器处执行时使通用计算机、专用计算机、或 专用处理设备执行某一功能或某组功能的指令和数据。计算机可执行指令可以是例如二进 制代码、诸如汇编语言之类的中间格式指令、或甚至源代码。尽管用结构特征和/或方法动 作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述特 征或动作。相反,上述特征和动作是作为实现权利要求的示例形式而公开的。
[0034] 本领域的技术人员将理解,本发明可以在具有许多类型的计算机系统配置的网络 计算环境中实践,这些计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息 处理器、手持式设备、多处理器系统、基于微处理器的或可编程消费电子设备、网络PC、小型 计算机、大型计算机、移动电话、PDA、平板、寻呼机、路由器、交换机等等。本发明也可在其中 通过网络链接(或者通过硬连线数据链路、无线数据链路,或者通过硬连线和无线数据链路 的组合)的本地和远程计算机系统两者都执行任务的分布式系统环境中实施。在分布式系 统环境中,程序模块可以位于本地和远程存储器存储设备二者中。
[0035]本发明还可以在云计算环境中实现。在该描述和下面的权利要求书中,"云计算" 被定义为用于允许对可配置计算资源的共享池的按需网络访问的模型。例如,云计算可被 用于市场,以便提供对可配置计算资源的共享池的普遍存在且方便的按需访问。可配置计 算资源的共享池可经由虚拟化而被快速地供应,并可利用低管理努力或服务提供商干预来 发布,并随后因此被缩放。
[0036] 云计算模型可由各种特性组成,诸如按需自服务、广泛网络访问、资源池、快速灵 活性、测定的服务等。云计算模型还可形成各种服务模型,诸如例如软件即服务(SaaS)、平 台即服务(PaaS)以及基础结构即服务(IaaS)。云计算模型还可以使用不同的部署模型来部 署,诸如私有云、社区云、公共云和混合云等。在本说明书和权利要求中,"云计算环境"是在 其中部署了云计算的环境。
[0037] 在这些描述和下面的权利要求中,"表格"被定义为使用垂直列和水平行的模型的 数据元素(值)的集合。行和列的每个交集表示一个单元格。行可以由出现在指定列子集(例 如被标识为关键字索引)中的值来标识。可以在数据库中、web页面中、从在图像(例如白板) 中所捕获的有组织的数据集中找到表格,在其它文件(例如便携文档格式("PDF")文件)中 找到表格,或在其它源等找到表格。本发明的各方面可以被用于理解来自任何这些源中的 表格。
[0038] 表格的一个或多个列可以是主题列。主题列包含该表格有关的实体的名字。表格 中的其它列表示主题列中的实体的关系或属性。主题列可以被看作为近似关键字 (approximate key)。
[0039] 表格的一行可以是列标题。表格的列标题包含了表格的列的名字。
[0040] 简要参考图10,图10描述了表格1000。表格1000具有主题列1021"郡名"和列标题 1022。
[0041 ]本发明的各方面包括标识表格的主题列,使用其它表格检测一个表格的列标题, 并用知识检库检测表格的列标题。
[0042]索引构建体系结构
[0043]图1示出便利于从结构化数据的一个或多个数据集中构建一个或多个索引的示例 计算机体系结构100。参考图1,计算机体系结构100包括表格提取和分类模块101、表格理解 模块102、表格注释模块103、特征计算模块104、索引构建模块106、web快照111、有组织数据 集112、点击日志113、知识库114和索引121、122和123。表格提取和分类模块101、表格理解 模块102、表格注释模块103、特征计算模块104、索引构建模块106、网页快照111、经组织的 数据集112、点击日志113和知识库114以及索引121、122和123中的每个都可在网络上彼此 相连(或为网络的一部分),所述网络例如是诸如局域网("LAN")、广域网("WAN")和甚至因 特网。因此,表格提取和分类模块101、表格理解模块102、表格注释模块103、特征计算模块 104、索引构建模块106、网页快照111、经组织的数据集112、点击日志113和知识库114以及 索引121、122和123中的每个以及任何其它连接的计算机系统及其组件都可以创建消息相 关数据并通过网络交换与消息相关数据(例如,网际协议("IP")数据报和利用IP数据报的 其它更高层协议,诸如传输控制协议("TCP")、超文本传输协议("HTTP")、简单邮件传输协 议("SMTP")等)。
[0044] 通常,计算机体系结构100可以利用web快照111,以
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1