用于正规化无组织的查询结果集的方法和系统的制作方法

文档序号:8319223阅读:177来源:国知局
用于正规化无组织的查询结果集的方法和系统的制作方法
【技术领域】
[0001] 本发明一般地涉及用于对通过查询数据产生的数据进行后处理的方法、系统和计 算机程序产品。更具体地说,本发明涉及用于正规化无组织的(amorphous)查询结果集的 方法、系统和计算机程序产品。
【背景技术】
[0002] 数据存储库是无组织的数据的储存库。通常,无组织的数据是不符合任何特定形 式或结构的数据。通常,从不同类型的数个不同源中获得的数据是无组织的,因为源提供的 数据采用不同格式,以不同方式组织,并且通常采用非结构化形式。
[0003] 数据立方体(data cube)是可以被销售、购买、借用、安装、加载或以其它方式在计 算中使用的某一数量的数据。目前使用数种方法从一个或多个数据存储库中查询无组织的 数据。目前,首先将要查询的无组织的数据组织在数据结构中,该数据结构具有合适数量的 列以便使用用于构造此类数据结构的任何已知技术,将所有无组织的数据例如表示为多维 数据立方体。然后构造与在数据结构中表示的维度对应的查询。
[0004] 查询无组织的数据产生也是无组织的结果集。结果集是通过执行查询产生的数 据。
[0005] 数据的正规化是组织数据的过程。对非结构化数据进行结构化(例如将无组织的 数据转变或变换成某种结构化形式)是正规化无组织的数据的一个实例。

【发明内容】

[0006] 示例性实施例提供一种用于正规化无组织的查询结果集的方法、系统和计算机程 序产品。一个实施例包括一种用于正规化无组织的查询结果集的方法。所述实施例包括标 识所述结果集的一部分中的数据的属性,其中所述属性可用于将所述部分正规化成结构化 数据。所述实施例包括基于所述属性,将所述部分分类成第一类别,作为使用第一结构规范 进行正规化的候选者。所述实施例包括响应于在评估中优先于第二类别而选择所述第一类 别来正规化所述部分,根据所述第一类别的所述第一结构规范,将所述部分变换成所述结 构化数据。所述实施例包括将所述结构化数据和结构规范的元数据添加到正规化后的结果 集。所述实施例包括将所述正规化后的结果集输出到消费者应用。
[0007] 另一个实施例包括一种用于正规化无组织的查询结果集的计算机程序产品。所述 实施例包括一个或多个计算机可读有形存储设备。所述实施例包括程序指令,其存储在所 述一个或多个存储设备中的至少一个上,用于标识所述结果集的一部分中的数据的属性, 其中所述属性可用于将所述部分正规化成结构化数据。所述实施例包括程序指令,其存储 在所述一个或多个存储设备中的至少一个上,用于基于所述属性,将所述部分分类成第一 类别,作为使用第一结构规范进行正规化的候选者。所述实施例包括程序指令,其存储在所 述一个或多个存储设备中的至少一个上,用于响应于在评估中优先于第二类别而选择所述 第一类别来正规化所述部分,根据所述第一类别的所述第一结构规范,将所述部分变换成 所述结构化数据。所述实施例包括程序指令,其存储在所述一个或多个存储设备中的至少 一个上,用于将所述结构化数据和结构规范的元数据添加到正规化后的结果集。所述实施 例包括程序指令,其存储在所述一个或多个存储设备中的至少一个上,用于将所述正规化 后的结果集输出到消费者应用。
[0008] 另一个实施例包括一种用于正规化无组织的查询结果集的计算机系统。所述实施 例包括一个或多个处理器、一个或多个计算机可读存储器,以及一个或多个计算机可读有 形存储设备。所述实施例包括程序指令,其存储在所述一个或多个存储设备中的至少一个 上以便经由所述一个或多个存储器的至少一个由所述一个或多个处理器的至少一个执行, 用于标识所述结果集的一部分中的数据的属性,其中所述属性可用于将所述部分正规化成 结构化数据。所述实施例包括程序指令,其存储在所述一个或多个存储设备中的至少一个 上以便经由所述一个或多个存储器的至少一个由所述一个或多个处理器的至少一个执行, 用于基于所述属性,将所述部分分类成第一类别,作为使用第一结构规范进行正规化的候 选者。所述实施例包括程序指令,其存储在所述一个或多个存储设备中的至少一个上以便 经由所述一个或多个存储器的至少一个由所述一个或多个处理器的至少一个执行,用于响 应于在评估中优先于第二类别而选择所述第一类别来正规化所述部分,根据所述第一类别 的所述第一结构规范,将所述部分变换成所述结构化数据。所述实施例包括程序指令,其存 储在所述一个或多个存储设备中的至少一个上以便经由所述一个或多个存储器的至少一 个由所述一个或多个处理器的至少一个执行,用于将所述结构化数据和结构规范的元数据 添加到正规化后的结果集。所述实施例包括程序指令,其存储在所述一个或多个存储设备 中的至少一个上以便经由所述一个或多个存储器的至少一个由所述一个或多个处理器的 至少一个执行,用于将所述正规化后的结果集输出到消费者应用。
【附图说明】
[0009] 在所附权利要求中说明了被认为是本发明特性的新颖特征。但是,当结合附图阅 读时,通过参考以下对示例性实施例的详细说明,可以最佳地理解发明本身及其优选使用 方式、进一步的目的和优点,这些附图是:
[0010] 图1示出其中可以实现示例性实施例的数据处理系统网络的框图;
[0011] 图2示出其中可以实现示例性实施例的数据处理系统的框图;
[0012] 图3示出根据一个示例性实施例的用于正规化无组织的查询结果集的配置的框 图;
[0013] 图4示出根据一个示例性实施例的用于正规化无组织的查询结果集的实例应用 的框图;
[0014] 图5示出根据一个示例性实施例的用于正规化无组织的查询结果集的实例过程 的流程图;
[0015] 图6示出根据一个示例性实施例的用于丰富正规化无组织的查询结果集的决策 框架的过程;以及
[0016] 图7示出根据一个示例性实施例的用于通过数据检查标识结构的实例过程的流 程图。
【具体实施方式】
[0017] 很像应用存储库包含应用,根据示例性实施例的数据存储库包含多个数据立方 体。采用类似于从应用存储库中获得应用以便在设备上使用的方式,用户可以获得一个或 多个数据立方体以便在用户查询中使用。例如,用户可以使用购物车应用以便从数据存储 库中选择数据立方体。用户然后可以按照实施例的方式,购买、借用、下载、安装或以其它方 式在用户查询中使用选定的数据立方体。
[0018] 各示例性实施例认识到,通过正规化过程产生的结构的类型和数量取决于被正规 化的数据的性质。无组织数据的正规化可以导致一种或多种类型的一个或多个结构。
[0019] 可扩展标记语言(XML)、关系表、本体、逗号分隔值(CSV)和资源描述框架(RDF)是 用于表示结构化数据的一些结构实例。根据一个实施例的正规化后的无组织结果集可以采 用这些形式或任何其它合适的结构以便表示结构化数据。此外,一个实施例可以产生多种 正规化后的形式的无组织结果集,例如表示结果集的备选结构、表示结果集的不同部分的 不同结构,或者它们的组合。
[0020] 各示例性实施例认识到,用于查询异构数据的目前可用方法(例如使用从异构数 据构造的数据立方体)首先将要查询的数据正规化成通用结构。所述查询方法然后采用与 输入数据的正规化结构兼容的标准化格式执行查询。
[0021] 各示例性实施例认识到,对于有限或受限的输入数据,这些方法可接受以便产生 可用输出数据。各示例性实施例认识到,在某些情况下,目前可用的查询方法产生的结果集 太无组织而不能有意义地使用或重用。例如,在以下条件下,其中某些情况便会自己呈现: 当输入数据从不同源中获得并且没有共同所有权时,或者如果数据存储库中的数据立方体 的数量超过某一数量(例如数十万个数据立方体),或者如果无法预计哪些数据立方体将 被请求加入查询。在这些和其它此类前瞻性情况下,传统的查询方法产生非结构化的无组 织结果集。
[0022] 此外,各示例性实施例认识到,因为用于查询异构数据的目前可用方法首先正规 化数据,所以输入数据以及输出数据中可以存在混合结构。就它们在使用结果集期间产生 的问题而言,在输出结果集中具有结构混合几乎类似于在结果集中具有无组织数据。
[0023] 各示例性实施例认识到,目前没有已知的方法来处理查询输出结果集,这些结果 集真正无组织或伪无组织,因为在结果集中包含混合数据格式。各示例性实施例认识到,如 果不对结果集进行某种干预和正规化,则以这种方式产生的无组织或伪无组织结果集(以 下统称为"无组织的结果集",除非使用时明确区分)不能用于消费者应用。
[0024] 用于描述本发明的各示例性实施例通常应对和解决上述问题以及与无组织的结 果集相关的其它问题。各示例性实施例提供一种用于正规化无组织的查询结果集的方法、 系统和计算机程序产品。
[0025] -个实施例确定一个或多个合适的数据格式或结构以便用于变换查询执行的无 组织结果集。一个实施例获得查询执行的输出,并且应用一种或多种分析技术以便确定或 预测数据格式,该数据格式用于正规化结果集以便正规化后的结果集可用于预期使用。
[0026] -个实施例进一步划分结果集,例如以便使用多个结构或数据格式进行正规化。 另一个实施例缓存所确定的结构以用于具有类似性质的将来查询、使用类似的数据存储 库、用于类似的消费者,或者它们的组合。另一个实施例使用元数据扩展结果集结构,该元 数据促进在某些数据处理环境中使用正规化后的结果集。
[0027] 针对某些数据格式、结构、输入、输出、数据处理系统、环境、组件和应用(仅作为 实例)描述各示例性实施例。这些构件的任何特定表现形式并非旨在作为本发明的限制。 可以在示例性实施例的范围内选择这些和其它类似构件的任何合适的表现形式。
[0028] 此外,可以针对任何类型的数据、数据源或者通过数据网络对数据源的访问,实现 各示例性实施例。在本发明的范围内,任何类型的数据存储设备可以为本发明的实施例在 数据处理系统本地或者通过数据网络提供数据。
[0029] 各示例性实施例使用特定
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1