企业级数据仓库系统的样本数据获取方法及装置的制作方法

文档序号：6340367阅读：307来源：国知局

专利名称：企业级数据仓库系统的样本数据获取方法及装置的制作方法
技术领域：
本发明涉及计算机数据仓库技术领域，具体地，涉及一种企业级数据仓库系统的样本数据获取方法及装置。
背景技术：
随着企业级数据仓库系统的上游应用不断增加和基础区、汇总层与集市区的数据量持续扩大，又由于企业级数据仓库系统基础区数据是按范式化的模型和抽象的主题进行存放的，基础模型和数据变得愈加复杂而难以理解。以及，由于生产环境的数据安全考虑以及企业级数据仓库系统本身数据量异常庞大等原因，要想做到在生产环境或开发环境对全量数据进行检查与研究分析工作是不可能的，而只能通过抽取样本数据进行研究。这就对样本数据提出了要求，有可用价值的样本数据需要具有以下特点(1)保持企业级数据仓库系统原有全量数据的模型属性；(2)保持全量数据的技术性特征(例如数据完整性特征)；(3)覆盖所有数据仓库涉及的业务；(4)数据规模应小于生产环境，从而能够完整地部署在磁盘空间不富裕的开发环
^Mi ο只有满足以上这几点要求的样本数据才是理论上有效的。然而，面对以上的样本数据需求，数据准备过程有着相当大的难度。在企业级数据仓库系统项目中，基础区、汇总区和集市区的实体个数超过了 3000多个，为提取完整的样本数据，每一个实体的对应物理表都需要开发和维护一个脚本，以抽取符合上述标准的样本数据，这个工作量无疑是巨大的。另外，由于企业级数据仓库系统的上游系统不断增加，数据模型在每个版本的开发过程中都需要作不同程度的修改，从而可能导致原有实体的样本数据抽取脚本(以下简称抽取脚本)逻辑已无法保证样本数据的显著特征，这样一来，样本数据就失去了实际的意义。因此，为了确保样本数据对企业级数据仓库系统后续开发的重要指导意义，在模型调整的同时需要对相应的抽取脚本做一定的维护。对于超过3000多个实体的企业级数据仓库系统项目来说，大量抽取脚本的编写与变更维护费时费力，严重影响了数据的处理效率。综上所述，目前的企业级数据仓库系统样本数据的抽取过程中存在费时费力、效率低下的问题。

发明内容
本发明实施例的主要目的在于提供一种企业级数据仓库系统的样本数据获取方法及装置，以解决现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问题。为了实现上述目的，本发明实施例提供一种企业级数据仓库系统的样本数据获取方法，该方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取所述的模型关联关系信息；根据所述的模型关联关系信息生成样本数据抽取配置信息；根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；根据所述的依赖关系生成基于有向图数据结构的调度文件；根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。优选地，根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据之后，上述的方法还包括如果获取样本数据失败，则记录失败信息；根据所述的失败信息重新生成全量抽取脚本；对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系；根据所述新的依赖关系生成基于有向图数据结构的新调度文件；根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。具体地，解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息之后，所述的方法还包括查找符合预定规则的模型主题；根据所述符合预定规则的模型主题获取相应的物理表。根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑；结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。具体地，所述根据所述的模型关联关系信息生成样本数据抽取配置信息包括根据所述的模型关联关系信息对业务实体进行分类；根据分类的业务实体分别生成样本数据抽取配置信息。根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据包括根据不同的模型主题分别配置调度规则；根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本数据。本发明实施例还提供一种企业级数据仓库系统的样本数据获取装置，所述装置包括逻辑模型信息解析单元，用于解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取所述的模型关联关系信息；配置信息生成单元，用于根据所述的模型关联关系信息生成样本数据抽取配置信息；抽取脚本生成单元，用于根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；依赖关系确定单元，用于对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；调度文件生成单元，用于根据所述的依赖关系生成基于有向图数据结构的调度文件；样本数据获取单元，用于根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。优选地，上述的装置还包括失败信息记录单元，用于在获取样本数据失败时，记录失败信息；新抽取脚本生成单元，用于根据所述的失败信息重新生成全量抽取脚本；新依赖关系确定单元，用于对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系；新调度文件生成单元，用于根据所述新的依赖关系生成基于有向图数据结构的新调度文件；新样本数据获取单元，根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。具体地，上述的装置还包括模型主题查找单元，用于在解析所述的逻辑模型信息之后，查找符合预定规则的模型主题；物理表获取单元，用于根据所述符合预定规则的模型主题获取相应的物理表。
上述的抽取脚本生成单元包括样本抽取逻辑确定模块，用于根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑；抽取脚本生成模块，用于结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。具体地，上述的配置信息生成单元包括业务实体分类模块，用于根据所述的模型关联关系信息对业务实体进行分类；配置信息生成模块，用于根据分类的业务实体分别生成样本数据抽取配置信息。上述的样本数据获取单元包括调度规则配置模块，用于根据不同的模型主题分别配置调度规则；样本数据获取模块，用于根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本数据。借助于上述技术方案至少之一，通过根据解析逻辑模型信息得到的模型关联关系信息生成样本数据抽取配置信息，然后根据该样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本，并根据对全量抽取脚本进行迭代运算确定的全量抽取脚本调度的依赖关系生成调度文件，之后再根据调度文件并行调度全量抽取脚本以获取样本数据，克服了现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问题，从而可以方便快速的获取样本数据。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的结构框图；图2是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的详细结构框图；图3是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的另一详细结构框图；图4是根据本发明实施例的抽取脚本生成单元103的结构框图；图5A是根据本发明实施例的配置信息生成单元102的结构框图；图5B是根据本发明实施例的样本数据获取单元106的结构框图；图6是根据本发明实施例的基于模型的对数据仓库样本数据抽取的装置结构框图；图7是根据本发明实施例的模型解析装置1的结构框图；图8是根据本发明实施例的脚本生成装置2的结构框图；图9是根据本发明实施例的全表抽取类型的数据流向示意图；图10是根据本发明实施例的按时间抽取类型的数据流向示意图；图11是根据本发明实施例的按主外键关系抽取类型的数据流向示意图；图12是根据本发明实施例的依赖生成装置3的结构框图；图13是根据本发明实施例的调度执行装置4的结构框图14是基于模型Erwin的对数据仓库样本数据抽取的流程图；
图15是数据仓库模型Erwin图；图16是基于模型Erwin的配置信息CSV文件示意图；图17是基于模型Erwin的抽取脚本数据库操作语言示意图；图18是基于模型Erwin的基于有向图的调度文件示意图；图19是基于模型Erwin的抽取脚本调度程序示意图；图20是基于模型Erwin的抽取脚本执行失败信息的示意图；图21是根据本发明实施例的企业级数据仓库系统的样本数据获取方法的流程图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例提供一种企业级数据仓库系统的样本数据获取方法和装置。以下结合附图对本发明进行详细说明。实施例一本发明实施例提供一种企业级数据仓库系统的样本数据获取装置，如图1所述，该装置包括逻辑模型信息解析单元101，用于解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取模型关联关系信息；配置信息生成单元102，用于根据模型关联关系信息生成样本数据抽取配置信息；抽取脚本生成单元103，用于根据样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；依赖关系确定单元104，用于对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；调度文件生成单元105，用于根据依赖关系生成基于有向图数据结构的调度文件；样本数据获取单元106，用于根据调度文件并行调度全量抽取脚本以获取样本数据。由以上描述可知，通过配置信息生成单元102根据逻辑模型信息解析单元101解析得到的模型关联关系信息生成样本数据抽取配置信息，抽取脚本生成单元103根据配置信息生成单元102生成的样本数据抽取配置信息以及预先设置的抽取参数生成全量抽取脚本，然后依赖关系确定单元104对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系，之后调度文件生成单元105根据依赖关系生成基于有向图数据结构的调度文件，使得样本数据获取单元106可以根据调度文件并行调度全量抽取脚本以获取样本数据，克服了现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问题，从而可以方便快速的获取样本数据。优选地，如图2所示，上述装置还可以包括失败信息记录单元107，用于在获取样本数据失败时，记录失败信息；新抽取脚本生成单元108，用于根据失败信息重新生成全量抽取脚本；新依赖关系确定单元109，用于对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系；新调度文件生成单元110，用于根据新的依赖关系生成基于有向图数据结构的新调度文件；新样本数据获取单元111，根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。通过完善的失败作业机制，可以实现数据仓库样本抽取工作的准确执行，确保样本数据的有效性和完整性。在具体实施过程中，可以采用一调度单元，在失败信息记录单元107记录失败信息之后，调度抽取脚本生成单元103、依赖关系确定单元104、调度文件生成单元105和样本数据获取单元106分别执行，以重新获取样本数据。以下基于数据仓库模型Erwin (全称为AIIFuusin ERwin Data Modeler)来描述本发明实施例。为了更好的理解本发明实施例，以下先描述几个技术术语业务实体企业级数据仓库系统基于LDM(Logic Data Model，逻辑数据模型)的分主题业务实体，用于描述相关主题业务的功能与属性；通常，对于非仅逻辑化的业务实体都会对应到一张物理表，样本数据抽取是针对物理表来说的；模型主表对于每一个模型主题来说，其中可以找到一个涵盖该主题下所有实体主键记录的主实体，而该主实体对应的物理表就是主表；实体关联实体与实体之间关联关系以主外键的形式存在，甚至有时候，这些关联关系是跨主题的；实体关联的信息不会被物理化到物理表中，但是数据的蕴含关系是客观存在的；抽取依赖对于同一张物理表来说，可能既是抽取脚本A的源表，同时也是脚本B 的目标表，这就意味着脚本A依赖于脚本B ；正确的抽取依赖是保证数据完整性的重要前提。具体地，如图3所示，上述装置还包括模型主题查找单元112，用于在解析逻辑模型信息之后，查找符合预定规则的模型主题；物理表获取单元113，用于根据符合预定规则的模型主题获取相应的物理表。如图4所示，上述的抽取脚本生成单元103具体包括样本抽取逻辑确定模块1031，用于根据预先设置的抽取参数确定物理表的样本抽取逻辑；抽取脚本生成模块1032，用于结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。如图5A所示，配置信息生成单元102包括
业务实体分类模块1021，用于根据模型关联关系信息对业务实体进行分类；配置信息生成模块1022，用于根据分类的业务实体分别生成样本数据抽取配置信肩、ο如图5B所示，样本数据获取单元106包括调度规则配置模块1061，用于根据不同的模型主题分别配置调度规则；样本数据获取模块1062，用于根据调度文件结合调度规则并行调度全量抽取脚本以获取样本数据。在具体实施过程中，上述单元或模块在结构上可以合一设置或者独立设置，本发明不限于此。以下结合Erwin给出一具体实例。图6是基于模型的对数据仓库样本数据抽取的装置结构框图，如图6所示，该装置包含模型解析装置1、脚本生成装置2、依赖生成装置3、调度执行装置4。以下分别对这四个装置进行描述。模型解析装置1与脚本生成装置2和依赖生成装置3分别连接，负责解析企业级数据仓库系统逻辑模型ERWIN图，提取并处理模型存储的关联关系信息，然后生成样本数据抽取配置信息(以下简称配置信息)，并将配置信息以文件的形式分别传输给脚本生成装置2与依赖生成装置3 ；脚本生成装置2与模型解析装置1和调度执行装置4分别连接，负责通过读取模型解析装置1生成的配置信息，并根据预先设置的抽取参数，以完成全量抽取脚本的生成与自动生产部署工作，待调度执行装置4后续调度运行；依赖生成装置3与模型解析装置1和调度执行装置4分别连接，负责通过读取模型解析装置1生成的配置信息，对全量抽取脚本进行依赖解析，迭代处理后将调度依赖抽象成有向图数据结构，并生成用于描述依赖整体情况的调度文件，供后续调度执行装置4 有序并行调度抽取脚本；调度执行装置4与脚本生成装置2和依赖生成装置3分别连接，负责读取依赖生成装置3生成的调度文件，按依赖关系以并行调度数据抽取脚本，并支持执行监控、失败处理等运维手段，高效、准确且自动地完成样本抽取的调度执行工作。以下分别详细描述上述四个装置。(一 )模型解析装置1图7是该模型解析装置1的结构示意图，如图7所示，该模型解析装置1包括关联关系提取装置101、主表识别装置102、业务实体处理装置103、配置文件生成装置104，其中关联关系提取装置101将企业级数据仓库系统存储在Erwin图中的完整模型信息通过Erwin工具接口导出后，通过对完整模型信息中的实体属性、物理表信息、主外键字段与主、子实体关系的提取和分析，将这些信息存储于企业级数据仓库系统元数据库中。这些信息完整地描述了整个数据仓库模型实体的整体关联情况，包括字段关联、代码匹配等等，处理完成后所包含的数据表结构如下表所示，其中，表1、表2为模型实体描述，表3、表4为模型实体属性描述，表5、表6为模型实体属性关联描述。表 权利要求
1.一种企业级数据仓库系统的样本数据获取方法，其特征在于，所述的方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取所述的模型关联关系信息；根据所述的模型关联关系信息生成样本数据抽取配置信息；根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；根据所述的依赖关系生成基于有向图数据结构的调度文件；根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。
2.根据权利要求1所述的方法，其特征在于，根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据之后，所述的方法还包括如果获取样本数据失败，则记录失败信息；根据所述的失败信息重新生成全量抽取脚本；对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系；根据所述新的依赖关系生成基于有向图数据结构的新调度文件；根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。
3.根据权利要求1所述的方法，其特征在于，解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息之后，所述的方法还包括查找符合预定规则的模型主题；根据所述符合预定规则的模型主题获取相应的物理表。
4.根据权利要求3所述的方法，其特征在于，根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑；结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。
5.根据权利要求1所述的方法，其特征在于，所述根据所述的模型关联关系信息生成样本数据抽取配置信息包括根据所述的模型关联关系信息对业务实体进行分类；根据分类的业务实体分别生成样本数据抽取配置信息。
6.根据权利要求5所述的方法，其特征在于，根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据包括根据不同的模型主题分别配置调度规则；根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本数据。
7.—种企业级数据仓库系统的样本数据获取装置，其特征在于，所述的装置包括逻辑模型信息解析单元，用于解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取所述的模型关联关系信息；配置信息生成单元，用于根据所述的模型关联关系信息生成样本数据抽取配置信息；抽取脚本生成单元，用于根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；依赖关系确定单元，用于对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；调度文件生成单元，用于根据所述的依赖关系生成基于有向图数据结构的调度文件；样本数据获取单元，用于根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。
8.根据权利要求7所述的装置，其特征在于，所述的装置还包括失败信息记录单元，用于在获取样本数据失败时，记录失败信息；新抽取脚本生成单元，用于根据所述的失败信息重新生成全量抽取脚本；新依赖关系确定单元，用于对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系；新调度文件生成单元，用于根据所述新的依赖关系生成基于有向图数据结构的新调度文件；新样本数据获取单元，根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。
9.根据权利要求7所述的装置，其特征在于，所述的装置还包括模型主题查找单元，用于在解析所述的逻辑模型信息之后，查找符合预定规则的模型主题；物理表获取单元，用于根据所述符合预定规则的模型主题获取相应的物理表。
10.根据权利要求9所述的装置，其特征在于，所述的抽取脚本生成单元包括样本抽取逻辑确定模块，用于根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑；抽取脚本生成模块，用于结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。
11.根据权利要求7所述的装置，其特征在于，所述的配置信息生成单元包括业务实体分类模块，用于根据所述的模型关联关系信息对业务实体进行分类；配置信息生成模块，用于根据分类的业务实体分别生成样本数据抽取配置信息。
12.根据权利要求11所述的装置，其特征在于，所述的样本数据获取单元包括调度规则配置模块，用于根据不同的模型主题分别配置调度规则；样本数据获取模块，用于根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本数据。
全文摘要
本发明提供一种企业级数据仓库系统的样本数据获取方法及装置，其中，该方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息，以获取模型关联关系信息；根据模型关联关系信息生成样本数据抽取配置信息；根据样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本；对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系；根据依赖关系生成基于有向图数据结构的调度文件；根据调度文件并行调度全量抽取脚本以获取样本数据。通过本发明，可以方便快速的获取企业级数据仓库系统的样本数据。
文档编号G06F17/30GK102073698SQ20101061170
公开日2011年5月25日申请日期2010年12月28日优先权日2010年12月28日
发明者邬敏炜, 金雁峰, 马雯瑾, 黄兆斌申请人:中国工商银行股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金雁峰;邬敏炜;黄兆斌;马雯瑾
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

上一篇：一种磁带数据恢复方法及系统的制作方法
上一篇：一种用于检测中断驱动型程序数据竞争的系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。