企业级数据仓库系统的样本数据获取方法及装置的制作方法

文档序号:6340367阅读:307来源:国知局
专利名称:企业级数据仓库系统的样本数据获取方法及装置的制作方法
技术领域
本发明涉及计算机数据仓库技术领域,具体地,涉及一种企业级数据仓库系统的 样本数据获取方法及装置。
背景技术
随着企业级数据仓库系统的上游应用不断增加和基础区、汇总层与集市区的数据 量持续扩大,又由于企业级数据仓库系统基础区数据是按范式化的模型和抽象的主题进行 存放的,基础模型和数据变得愈加复杂而难以理解。以及,由于生产环境的数据安全考虑以 及企业级数据仓库系统本身数据量异常庞大等原因,要想做到在生产环境或开发环境对全 量数据进行检查与研究分析工作是不可能的,而只能通过抽取样本数据进行研究。这就对 样本数据提出了要求,有可用价值的样本数据需要具有以下特点(1)保持企业级数据仓库系统原有全量数据的模型属性;(2)保持全量数据的技术性特征(例如数据完整性特征);(3)覆盖所有数据仓库涉及的业务;(4)数据规模应小于生产环境,从而能够完整地部署在磁盘空间不富裕的开发环
^Mi ο只有满足以上这几点要求的样本数据才是理论上有效的。然而,面对以上的样本数据需求,数据准备过程有着相当大的难度。在企业级数据 仓库系统项目中,基础区、汇总区和集市区的实体个数超过了 3000多个,为提取完整的样 本数据,每一个实体的对应物理表都需要开发和维护一个脚本,以抽取符合上述标准的样 本数据,这个工作量无疑是巨大的。另外,由于企业级数据仓库系统的上游系统不断增加,数据模型在每个版本的开 发过程中都需要作不同程度的修改,从而可能导致原有实体的样本数据抽取脚本(以下简 称抽取脚本)逻辑已无法保证样本数据的显著特征,这样一来,样本数据就失去了实际的 意义。因此,为了确保样本数据对企业级数据仓库系统后续开发的重要指导意义,在模型调 整的同时需要对相应的抽取脚本做一定的维护。对于超过3000多个实体的企业级数据仓 库系统项目来说,大量抽取脚本的编写与变更维护费时费力,严重影响了数据的处理效率。综上所述,目前的企业级数据仓库系统样本数据的抽取过程中存在费时费力、效 率低下的问题。

发明内容
本发明实施例的主要目的在于提供一种企业级数据仓库系统的样本数据获取方 法及装置,以解决现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率 低下的问题。为了实现上述目的,本发明实施例提供一种企业级数据仓库系统的样本数据获取 方法,该方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息,以获取所述的模型关联关系信息;根据所述的模型关联关系信息生成样本数据抽取配置信 息;根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;对 所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系;根据所述的依赖 关系生成基于有向图数据结构的调度文件;根据所述的调度文件并行调度所述的全量抽取 脚本以获取样本数据。优选地,根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据之 后,上述的方法还包括如果获取样本数据失败,则记录失败信息;根据所述的失败信息重 新生成全量抽取脚本;对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关 系;根据所述新的依赖关系生成基于有向图数据结构的新调度文件;根据所述新调度文件 并行调度所述重新生成的全量抽取脚本以重新获取样本数据。具体地,解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息之 后,所述的方法还包括查找符合预定规则的模型主题;根据所述符合预定规则的模型主 题获取相应的物理表。根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本 包括根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑;结合所述的样本数 据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。具体地,所述根据所述的模型关联关系信息生成样本数据抽取配置信息包括根 据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据 抽取配置信息。根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据包括根据不 同的模型主题分别配置调度规则;根据所述的调度文件结合所述的调度规则并行调度所述 的全量抽取脚本以获取样本数据。本发明实施例还提供一种企业级数据仓库系统的样本数据获取装置,所述装置包 括逻辑模型信息解析单元,用于解析企业级数据仓库系统的包括模型关联关系信息的逻 辑模型信息,以获取所述的模型关联关系信息;配置信息生成单元,用于根据所述的模型关 联关系信息生成样本数据抽取配置信息;抽取脚本生成单元,用于根据所述的样本数据抽 取配置信息、以及预先设置的抽取参数生成全量抽取脚本;依赖关系确定单元,用于对所述 的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系;调度文件生成单元, 用于根据所述的依赖关系生成基于有向图数据结构的调度文件;样本数据获取单元,用于 根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。优选地,上述的装置还包括失败信息记录单元,用于在获取样本数据失败时,记 录失败信息;新抽取脚本生成单元,用于根据所述的失败信息重新生成全量抽取脚本;新 依赖关系确定单元,用于对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关 系;新调度文件生成单元,用于根据所述新的依赖关系生成基于有向图数据结构的新调度 文件;新样本数据获取单元,根据所述新调度文件并行调度所述重新生成的全量抽取脚本 以重新获取样本数据。具体地,上述的装置还包括模型主题查找单元,用于在解析所述的逻辑模型信息 之后,查找符合预定规则的模型主题;物理表获取单元,用于根据所述符合预定规则的模型 主题获取相应的物理表。
上述的抽取脚本生成单元包括样本抽取逻辑确定模块,用于根据所述预先设置 的抽取参数确定所述物理表的样本抽取逻辑;抽取脚本生成模块,用于结合所述的样本数 据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽取脚本。具体地,上述的配置信息生成单元包括业务实体分类模块,用于根据所述的模型 关联关系信息对业务实体进行分类;配置信息生成模块,用于根据分类的业务实体分别生 成样本数据抽取配置信息。上述的样本数据获取单元包括调度规则配置模块,用于根据不同的模型主题分 别配置调度规则;样本数据获取模块,用于根据所述的调度文件结合所述的调度规则并行 调度所述的全量抽取脚本以获取样本数据。借助于上述技术方案至少之一,通过根据解析逻辑模型信息得到的模型关联关系 信息生成样本数据抽取配置信息,然后根据该样本数据抽取配置信息、以及预先设置的抽 取参数生成全量抽取脚本,并根据对全量抽取脚本进行迭代运算确定的全量抽取脚本调度 的依赖关系生成调度文件,之后再根据调度文件并行调度全量抽取脚本以获取样本数据, 克服了现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问 题,从而可以方便快速的获取样本数据。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。图1是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的结构框 图;图2是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的详细结 构框图;图3是根据本发明实施例的企业级数据仓库系统的样本数据获取装置的另一详 细结构框图;图4是根据本发明实施例的抽取脚本生成单元103的结构框图;图5A是根据本发明实施例的配置信息生成单元102的结构框图;图5B是根据本发明实施例的样本数据获取单元106的结构框图;图6是根据本发明实施例的基于模型的对数据仓库样本数据抽取的装置结构框 图;图7是根据本发明实施例的模型解析装置1的结构框图;图8是根据本发明实施例的脚本生成装置2的结构框图;图9是根据本发明实施例的全表抽取类型的数据流向示意图;图10是根据本发明实施例的按时间抽取类型的数据流向示意图;图11是根据本发明实施例的按主外键关系抽取类型的数据流向示意图;图12是根据本发明实施例的依赖生成装置3的结构框图;图13是根据本发明实施例的调度执行装置4的结构框 图14是基于模型Erwin的对数据仓库样本数据抽取的流程图;
图15是数据仓库模型Erwin图;图16是基于模型Erwin的配置信息CSV文件示意图;图17是基于模型Erwin的抽取脚本数据库操作语言示意图;图18是基于模型Erwin的基于有向图的调度文件示意图;图19是基于模型Erwin的抽取脚本调度程序示意图;图20是基于模型Erwin的抽取脚本执行失败信息的示意图;图21是根据本发明实施例的企业级数据仓库系统的样本数据获取方法的流程 图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。本发明实施例提供一种企业级数据仓库系统的样本数据获取方法和装置。以下结 合附图对本发明进行详细说明。实施例一本发明实施例提供一种企业级数据仓库系统的样本数据获取装置,如图1所述, 该装置包括逻辑模型信息解析单元101,用于解析企业级数据仓库系统的包括模型关联关系 信息的逻辑模型信息,以获取模型关联关系信息;配置信息生成单元102,用于根据模型关联关系信息生成样本数据抽取配置信 息;抽取脚本生成单元103,用于根据样本数据抽取配置信息、以及预先设置的抽取参 数生成全量抽取脚本;依赖关系确定单元104,用于对全量抽取脚本进行迭代运算以确定全量抽取脚本 调度的依赖关系;调度文件生成单元105,用于根据依赖关系生成基于有向图数据结构的调度文 件;样本数据获取单元106,用于根据调度文件并行调度全量抽取脚本以获取样本数 据。由以上描述可知,通过配置信息生成单元102根据逻辑模型信息解析单元101解 析得到的模型关联关系信息生成样本数据抽取配置信息,抽取脚本生成单元103根据配置 信息生成单元102生成的样本数据抽取配置信息以及预先设置的抽取参数生成全量抽取 脚本,然后依赖关系确定单元104对全量抽取脚本进行迭代运算以确定全量抽取脚本调度 的依赖关系,之后调度文件生成单元105根据依赖关系生成基于有向图数据结构的调度文 件,使得样本数据获取单元106可以根据调度文件并行调度全量抽取脚本以获取样本数 据,克服了现有技术中的企业级数据仓库系统样本数据的抽取过程费时费力、效率低下的问题,从而可以方便快速的获取样本数据。优选地,如图2所示,上述装置还可以包括失败信息记录单元107,用于在获取样本数据失败时,记录失败信息;新抽取脚本生成单元108,用于根据失败信息重新生成全量抽取脚本;新依赖关系确定单元109,用于对重新生成的全量抽取脚本进行迭代运算以确定 新的依赖关系;新调度文件生成单元110,用于根据新的依赖关系生成基于有向图数据结构的新 调度文件;新样本数据获取单元111,根据新调度文件并行调度重新生成的全量抽取脚本以 重新获取样本数据。通过完善的失败作业机制,可以实现数据仓库样本抽取工作的准确执行,确保样 本数据的有效性和完整性。在具体实施过程中,可以采用一调度单元,在失败信息记录单元107记录失败信 息之后,调度抽取脚本生成单元103、依赖关系确定单元104、调度文件生成单元105和样本 数据获取单元106分别执行,以重新获取样本数据。以下基于数据仓库模型Erwin (全称为AIIFuusin ERwin Data Modeler)来描述 本发明实施例。为了更好的理解本发明实施例,以下先描述几个技术术语业务实体企业级数据仓库系统基于LDM(Logic Data Model,逻辑数据模型)的 分主题业务实体,用于描述相关主题业务的功能与属性;通常,对于非仅逻辑化的业务实体 都会对应到一张物理表,样本数据抽取是针对物理表来说的;模型主表对于每一个模型主题来说,其中可以找到一个涵盖该主题下所有实体 主键记录的主实体,而该主实体对应的物理表就是主表;实体关联实体与实体之间关联关系以主外键的形式存在,甚至有时候,这些关联 关系是跨主题的;实体关联的信息不会被物理化到物理表中,但是数据的蕴含关系是客观 存在的;抽取依赖对于同一张物理表来说,可能既是抽取脚本A的源表,同时也是脚本B 的目标表,这就意味着脚本A依赖于脚本B ;正确的抽取依赖是保证数据完整性的重要前 提。具体地,如图3所示,上述装置还包括模型主题查找单元112,用于在解析逻辑模型信息之后,查找符合预定规则的模型 主题;物理表获取单元113,用于根据符合预定规则的模型主题获取相应的物理表。如图4所示,上述的抽取脚本生成单元103具体包括样本抽取逻辑确定模块1031,用于根据预先设置的抽取参数确定物理表的样本抽 取逻辑;抽取脚本生成模块1032,用于结合样本数据抽取配置信息和物理表的样本抽取逻 辑生成全量抽取脚本。如图5A所示,配置信息生成单元102包括
业务实体分类模块1021,用于根据模型关联关系信息对业务实体进行分类;配置信息生成模块1022,用于根据分类的业务实体分别生成样本数据抽取配置信 肩、ο如图5B所示,样本数据获取单元106包括调度规则配置模块1061,用于根据不同的模型主题分别配置调度规则;样本数据获取模块1062,用于根据调度文件结合调度规则并行调度全量抽取脚本 以获取样本数据。在具体实施过程中,上述单元或模块在结构上可以合一设置或者独立设置,本发 明不限于此。以下结合Erwin给出一具体实例。图6是基于模型的对数据仓库样本数据抽取的装置结构框图,如图6所示,该装置 包含模型解析装置1、脚本生成装置2、依赖生成装置3、调度执行装置4。以下分别对这四 个装置进行描述。模型解析装置1与脚本生成装置2和依赖生成装置3分别连接,负责解析企业级 数据仓库系统逻辑模型ERWIN图,提取并处理模型存储的关联关系信息,然后生成样本数 据抽取配置信息(以下简称配置信息),并将配置信息以文件的形式分别传输给脚本生成 装置2与依赖生成装置3 ;脚本生成装置2与模型解析装置1和调度执行装置4分别连接,负责通过读取模 型解析装置1生成的配置信息,并根据预先设置的抽取参数,以完成全量抽取脚本的生成 与自动生产部署工作,待调度执行装置4后续调度运行;依赖生成装置3与模型解析装置1和调度执行装置4分别连接,负责通过读取模 型解析装置1生成的配置信息,对全量抽取脚本进行依赖解析,迭代处理后将调度依赖抽 象成有向图数据结构,并生成用于描述依赖整体情况的调度文件,供后续调度执行装置4 有序并行调度抽取脚本;调度执行装置4与脚本生成装置2和依赖生成装置3分别连接,负责读取依赖生 成装置3生成的调度文件,按依赖关系以并行调度数据抽取脚本,并支持执行监控、失败处 理等运维手段,高效、准确且自动地完成样本抽取的调度执行工作。以下分别详细描述上述四个装置。(一 )模型解析装置1图7是该模型解析装置1的结构示意图,如图7所示,该模型解析装置1包括关 联关系提取装置101、主表识别装置102、业务实体处理装置103、配置文件生成装置104,其 中关联关系提取装置101将企业级数据仓库系统存储在Erwin图中的完整模型信息 通过Erwin工具接口导出后,通过对完整模型信息中的实体属性、物理表信息、主外键字段 与主、子实体关系的提取和分析,将这些信息存储于企业级数据仓库系统元数据库中。这些 信息完整地描述了整个数据仓库模型实体的整体关联情况,包括字段关联、代码匹配等等, 处理完成后所包含的数据表结构如下表所示,其中,表1、表2为模型实体描述,表3、表4为 模型实体属性描述,表5、表6为模型实体属性关联描述。表 权利要求
1.一种企业级数据仓库系统的样本数据获取方法,其特征在于,所述的方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息,以获取所述的模 型关联关系信息;根据所述的模型关联关系信息生成样本数据抽取配置信息; 根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本; 对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系; 根据所述的依赖关系生成基于有向图数据结构的调度文件; 根据所述的调度文件并行调度所述的全量抽取脚本以获取样本数据。
2.根据权利要求1所述的方法,其特征在于,根据所述的调度文件并行调度所述的全 量抽取脚本以获取样本数据之后,所述的方法还包括如果获取样本数据失败,则记录失败信息;根据所述的失败信息重新生成全量抽取脚本;对所述重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据所述新的依赖关系生成基于有向图数据结构的新调度文件;根据所述新调度文件并行调度所述重新生成的全量抽取脚本以重新获取样本数据。
3.根据权利要求1所述的方法,其特征在于,解析企业级数据仓库系统的包括模型关 联关系信息的逻辑模型信息之后,所述的方法还包括查找符合预定规则的模型主题;根据所述符合预定规则的模型主题获取相应的物理表。
4.根据权利要求3所述的方法,其特征在于,根据所述的样本数据抽取配置信息、以及 预先设置的抽取参数生成全量抽取脚本包括根据所述预先设置的抽取参数确定所述物理表的样本抽取逻辑; 结合所述的样本数据抽取配置信息和所述物理表的样本抽取逻辑生成所述的全量抽 取脚本。
5.根据权利要求1所述的方法,其特征在于,所述根据所述的模型关联关系信息生成 样本数据抽取配置信息包括根据所述的模型关联关系信息对业务实体进行分类; 根据分类的业务实体分别生成样本数据抽取配置信息。
6.根据权利要求5所述的方法,其特征在于,根据所述的调度文件并行调度所述的全 量抽取脚本以获取样本数据包括根据不同的模型主题分别配置调度规则;根据所述的调度文件结合所述的调度规则并行调度所述的全量抽取脚本以获取样本 数据。
7.—种企业级数据仓库系统的样本数据获取装置,其特征在于,所述的装置包括逻辑模型信息解析单元,用于解析企业级数据仓库系统的包括模型关联关系信息的逻 辑模型信息,以获取所述的模型关联关系信息;配置信息生成单元,用于根据所述的模型关联关系信息生成样本数据抽取配置信息; 抽取脚本生成单元,用于根据所述的样本数据抽取配置信息、以及预先设置的抽取参 数生成全量抽取脚本;依赖关系确定单元,用于对所述的全量抽取脚本进行迭代运算以确定全量抽取脚本调 度的依赖关系;调度文件生成单元,用于根据所述的依赖关系生成基于有向图数据结构的调度文件;样本数据获取单元,用于根据所述的调度文件并行调度所述的全量抽取脚本以获取样 本数据。
8.根据权利要求7所述的装置,其特征在于,所述的装置还包括失败信息记录单元,用于在获取样本数据失败时,记录失败信息;新抽取脚本生成单元,用于根据所述的失败信息重新生成全量抽取脚本;新依赖关系确定单元,用于对所述重新生成的全量抽取脚本进行迭代运算以确定新的 依赖关系;新调度文件生成单元,用于根据所述新的依赖关系生成基于有向图数据结构的新调度 文件;新样本数据获取单元,根据所述新调度文件并行调度所述重新生成的全量抽取脚本以 重新获取样本数据。
9.根据权利要求7所述的装置,其特征在于,所述的装置还包括模型主题查找单元,用于在解析所述的逻辑模型信息之后,查找符合预定规则的模型 主题;物理表获取单元,用于根据所述符合预定规则的模型主题获取相应的物理表。
10.根据权利要求9所述的装置,其特征在于,所述的抽取脚本生成单元包括样本抽取逻辑确定模块,用于根据所述预先设置的抽取参数确定所述物理表的样本抽 取逻辑;抽取脚本生成模块,用于结合所述的样本数据抽取配置信息和所述物理表的样本抽取 逻辑生成所述的全量抽取脚本。
11.根据权利要求7所述的装置,其特征在于,所述的配置信息生成单元包括业务实体分类模块,用于根据所述的模型关联关系信息对业务实体进行分类;配置信息生成模块,用于根据分类的业务实体分别生成样本数据抽取配置信息。
12.根据权利要求11所述的装置,其特征在于,所述的样本数据获取单元包括调度规则配置模块,用于根据不同的模型主题分别配置调度规则;样本数据获取模块,用于根据所述的调度文件结合所述的调度规则并行调度所述的全 量抽取脚本以获取样本数据。
全文摘要
本发明提供一种企业级数据仓库系统的样本数据获取方法及装置,其中,该方法包括解析企业级数据仓库系统的包括模型关联关系信息的逻辑模型信息,以获取模型关联关系信息;根据模型关联关系信息生成样本数据抽取配置信息;根据样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系;根据依赖关系生成基于有向图数据结构的调度文件;根据调度文件并行调度全量抽取脚本以获取样本数据。通过本发明,可以方便快速的获取企业级数据仓库系统的样本数据。
文档编号G06F17/30GK102073698SQ20101061170
公开日2011年5月25日 申请日期2010年12月28日 优先权日2010年12月28日
发明者邬敏炜, 金雁峰, 马雯瑾, 黄兆斌 申请人:中国工商银行股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1