一种有效敏捷的数据仓库设计方法与流程

文档序号:16930919发布日期:2019-02-22 20:15阅读:410来源:国知局
一种有效敏捷的数据仓库设计方法与流程

本发明属于计算机领域,特别涉及一种有效敏捷的数据仓库设计方法。



背景技术:

数据仓库是计算机和数据库应用发展到一定阶段的必然产物,是支持企业决策分析的核心技术。数据仓库的目的是建立一种体系结构化的数据存储环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。但是在传统的操作环境,企业在不同时期、不同背景下开发出来的事务处理系统,这些系统的建立也往往是面向不同的应用、由不同的开发商来完成,其数据的存储结构、存储平台和系统平台具有很大的异构性。如何将这些异构的数据有效地集成到数据仓库中,是开发者所面临的一个难题。开发者需要一个全面的解决方案来解决数据的一致性和集成化问题,使人们能够从所有的传统平台和环境中采集数据,并利用一个单一的解决方案对其进行高效的转换,这个解决方案就是数据抽取、转换和加载过程etl。

etl是从各种异构操作型数据源中抽取数据,并对抽取到的数据进行转换处理,最后加载到数据仓库中的过程。它是建立数据仓库的基石,也是建立数据仓库的必要步骤,在数据仓库的建设过程中占有及其重要的地位。从整体角度来看,etl的主要作用在于其屏蔽了复杂的业务逻辑,从而为各种基于数据仓库的分析和应用提供了统一的数据接口。可以说,etl在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的数据能够源源不断地进入数据仓库。复旦大学21012年的硕士论文《通用etl工具的研究与设计》设计了一个通用etl工具的设计方案和系统架构,它支持多种异构数据平台,在转换环节,提供了大量细粒度的转换组件,通过组件组合的方式完成复杂的事务,以支持多个领域的业务需求。然而其etl对加载到内存的数据逐条进行转换或者质量检测,转换效率比较低,当转移到其他领域时,面对新的业务逻辑还很难处理。

然后国内外对于如何在类相似或相近的数据仓库项目中共享etl过程的研究较少,很大程度上阻碍了数据仓库项目建设效率的进一步提高。



技术实现要素:

针对背景技术存在的问题,本发明提供一种有效敏捷的数据仓库设计方法。

为解决上述技术问题,本发明采用如下技术方案:

一种有效敏捷的数据仓库设计方法,包括:基础层、抽取层、集成转换层、特殊处理层四个层次;

所述基础层包括元数据管理构件、层间接口构件、关键绩效指标自动测试构件三类;

所述元数据管理构件主要完成etl子系统中元数据管理模块的功能;

所述层间接口构件从抽象层面上为各数据仓库项目提供一个相同的etl处理框架,为etl处理过程各层次的各种功能构件提供接口,实现构件具体处理过程对架构的透明化;

所述关键绩效指标自动测试构件为每类关键绩效指标提供一个自动测试构件;

所述抽取层构件位于etl架构的最底层,直接面对数据源,完成数据抽取阶段的工作,该层的etl构件在不同数据仓库间差异很大,可重用程度总体上比较低;

所述集成转换层构件主要将抽取层抽取的数据转换成格式规范、含义统一、质量良好的数据,并集成到数据仓库中;所述集成转换层为每类数据对象提供一类etl处理构件,同层构件之间相对独立,通过抽象各个相似数据仓库项目业务规则,将其封装在构件内,保证etl架构在相似数据仓库之间移植时,只要通过配置业务规则,etl构件即可投入使用;

所述特殊处理层在集成转换层构件处理的基础上,负责将数据仓库中按流水交易形式组织的数据换算成按关键绩效指标组织的形式。

附图说明

图1本发明的结构示意图。

具体实施方式

下面结合附图所示的实施例对本发明作进一步说明。

如附图1所示,本发明包括基础层(1)、抽取层(2)、集成转换层(3)、特殊处理层(4);所述基础层(1)包括:元数据管理构件(1-1);层间接口构件(1-2);关键绩效指标自动测试构件(1-3);元数据管理构件(1-1)主要完成etl子系统中元数据管理模块的功能;层间接口构件(1-2)从抽象层面上为各数据仓库项目提供一个相同的etl处理框架,为etl处理过程各层次的各种功能构件提供接口,实现构件具体处理过程对架构的透明化;关键绩效指标自动测试构件(1-3)为每类关键绩效指标提供一个自动测试构件;抽取层构件(2)位于etl架构的最底层,直接面对数据源,完成数据抽取阶段的工作,该层的etl构件在不同数据仓库间差异很大,可重用程度总体上比较低;

集成转换层构件(3)主要将抽取层抽取的数据转换成格式规范、含义统一、质量良好的数据,并集成到数据仓库中;所述集成转换层为每类数据对象提供一类etl处理构件,同层构件之间相对独立,通过抽象各个相似数据仓库项目业务规则,将其封装在构件内,保证etl架构在相似数据仓库之间移植时,只要通过配置业务规则,etl构件即可投入使用;

殊处理层(4)在集成转换层构件处理的基础上,负责将数据仓库中按流水交易形式组织的数据换算成按关键绩效指标组织的形式。

实施例2。

一种有效敏捷的数据仓库设计方法包括:元数据抽取模块、可重用构件选择和导入模块、数据仓库架构自动维护模块、etl过程定义模块、etl调度模块、etl构件生成模块;元数据抽取模块主要完成:抽取业务数据和维度数据元数据,并在此基础上对系统进行更精确的定义;可重用构件的选择和导入模块从构件库中抽取已经封装的全流水交易数据抽取构件、集成转换构件、kpi转换构件、维度类数据集成转换构件、kpi自动测试类构件,将其导入到etl过程库;

数据仓库架构自动维护模块依据元数据库中的信息,为统计分析系统完成数据仓库的创建和初始化工作,完成事实表、维度表创建,完成每个构件需要的配置表、中间表和临时表的建立等工作;

etl过程定义模块可以可视化地定义构件库中没有可重用构件的etl过程;

etl调度模块可以根据系统的调度设置,执行etl过程库中的etl过程,实现数据的抽取、转换、加载、换算;

可重用构件生成模块从etl过程库中抽取相应etl处理过程包装成可重用构件。实施例中还有对比例实验以突出本发明的效果。

本发明的保护范围不限于上述的实施例,显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的范围和精神。倘若这些改动和变形属于本发明权利要求及其等同技术的范围,则本发明的意图也包含这些改动和变形在内。



技术特征:

技术总结
本发明提供一种有效敏捷的数据仓库设计方法,包括:基础层、抽取层、集成转换层、特殊处理层四个层次。基于构件技术的软件复用技术可充分利用过去工作中积累的知识和经验,将已经辨识的具有相对独立功能的构件应用于新系统的开发,保证新系统开发的过程中,能够将重点集中于辨识和实现应用系统特有的构成成分,最终缩短系统开发周期,提高系统的质量,本发明结构简单、使用方便、实用性强。

技术研发人员:王洋;丁毅;孙成国
受保护的技术使用者:中建材信息技术股份有限公司
技术研发日:2018.09.19
技术公布日:2019.02.22
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1