数据仓库模型的构建方法和构建装置的制造方法

文档序号:9929617阅读:495来源:国知局
数据仓库模型的构建方法和构建装置的制造方法
【技术领域】
[0001]本发明涉及计算机及其软件技术领域,特别地涉及一种数据仓库模型的构建方法和构建装置。
【背景技术】
[0002]随着电子商务企业的快速发展,例如京东、淘宝、亚马逊等的快速崛起,电商企业日常运营中生成、累积的大量用户、商品、以及生产相关的数据已呈现爆发式增长,并且数据结构也开始多元化,相应数据含有的信息量也越来越多。因此,电商企业对数据化运营也越来越关注。
[0003]数据仓库作为数据的集合,主要用于对数据进行分区处理工作,发挥着巨大的作用。然而,大数据时代的降临,数据仓库慢慢转成分布式架构,以满足爆发式增长的计算及存储的要求。基于传统行业(例如,银行、保险、零售等)的数据仓库模型的构建方法已经非常的成熟,亦即企业对终端客户的电子商务132(](13118;[116 8 8-1:0-(]1181:011161')业务的数据仓库模型的构建方法已很成熟。
[0004]例如:在传统的数据仓库基础之上,结合具体的业务情况,零售企业的数据仓库的构建过程一般是首先进行业务场景的需求分析,以生成业务模型,然后对业务模型抽象处理得到领域模型,再为领域模型赋予实体及实体间的逻辑关系得到逻辑模型,最后是将逻辑模型落地实施,即:生成物理模型。
[0005]在生成物理模型的过程中,最重要的是利用数据库集群和传统的数据仓库建模方法论,进行数据的加工处理,以实现数据分层。该过程主要包括以下步骤:
[0006]1、构建stage层,通过ETL过程(ETL,是Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取extract、转换transform、加载load至目的端的过程),抽取源生产系统的数据;
[0007]2、构建ods层,0DS(0perat1nal Data Store,操作性数据存储区)层是数据整合层,通过对stage层的数据进行清洗和加工,以发现并纠正数据文件中可识别的错误,并将数据转换到ods预先定义的表中;
[0008]3、构建dwd层,dwd层是数据仓库的细节数据层,基于逻辑模型,搭建实体表及实体表的关系;
[0009]4、构建dwa层,dwa层是数据仓库的数据汇总层,基于主题模型和逻辑关系,将dwd层数据,加工到本层。
[0010]生成物理模型后,整个数据仓库的模型已经全部完成,我们可以按照自己的设计来针对当前的业务场景创建满足自己需要的数据模型来。
[0011 ]然而,传统的数据仓库建模方法仍存在一些缺陷,主要表现在:
[0012]1、传统的数据仓库建模,按主题、逻辑等方面进行建模,虽然可以涵盖主要的业务指标,但随着电子商务的业务的高速发展,现有的数据仓库模型的构建方法,已无法快速响应业务的快速变化;
[0013]2、传统的数据仓库建模,层级之间依赖关系复杂,模型变更繁琐。
[0014]由此,本发明基于电子商务B2C业务的传统的数据仓库模型构建方法的基础上,通过对业务指标的进行热度分析,快速构建新的数据仓库模型。

【发明内容】

[0015]有鉴于此,本发明提供一种数据仓库模型的构建方法和构建装置,能够利用业务数据指标的活跃度分析,来达到快速构建数据仓库模型的目的。
[0016]为实现上述目的,根据本发明的一个方面,提供了一种数据仓库模型的构建方法。
[0017]—种数据仓库模型的构建方法,包括:确定给定时间段内的业务数据指标中的活跃指标,通过在所述给定时间段内计数每个业务数据指标的调用次数,当该业务数据指标的调用次数大于预定的活跃度限值时,则确定该业务数据指标为活跃指标;对所述活跃指标进行业务场景需求分析,以生成逻辑模型;根据所述逻辑模型,加工所述活跃指标对应的数据并保存到数据仓库。
[0018]可选地,所述数据仓库的数据层级包括:缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。
[0019]可选地,加工所述活跃指标对应的数据并保存到数据仓库的步骤包括:从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层;将所述缓冲数据层的数据通过拉链的方式加工到基础数据层;根据业务主题和所述逻辑模型中包含的逻辑关系,将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层;按照业务数据的维度,将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。
[0020]可选地,所述数据仓库的数据层级还包括临时数据层,用于加工和存储临时数据。
[0021]根据本发明的另一方面,提供了一种数据仓库模型的构建装置。
[0022]—种数据仓库模型的构建装置,包括:指标筛选模块,用于确定给定时间段内的业务数据指标中的活跃指标,其中,在给定时间段内计数每个业务数据指标的调用次数,当该业务数据指标的调用次数大于预定的活跃度限值,则确定该业务数据指标为活跃指标;数据建模模块,用于对所述活跃指标进行业务场景需求分析,以生成逻辑模型;数据分层模块,用于根据所述逻辑模型,加工所述活跃指标对应的数据并保存到数据仓库。
[0023]可选地,所述数据仓库的数据层级包括:缓冲数据层、基础数据层、通用数据层、聚合数据层、维度数据层。
[0024]可选地,所述数据分层模块还用于:从源业务系统中将所述活跃指标对应的数据抽取到缓冲数据层和维度数据层;将所述缓冲数据层的数据通过拉链的方式加工到基础数据层;根据业务主题和所述逻辑模型中包含的逻辑关系,将基础数据层和维度数据层的数据加工成主题数据保存在通用数据层;按照业务数据的维度,将基础数据层或通用数据层的数据和维度数据层的数据通过汇总逻辑加工成聚合数据保存在聚合数据层。
[0025]可选地,所述数据仓库的数据层级还包括临时数据层,用于加工和存储临时数据。
[0026]根据本发明的技术方案,通过计数连续一段时间内的业务数据指标的调用次数以确定活跃指标,之后,对活跃指标对应的数据进行逻辑建模和物理建模,可以筛选出用户关注的数据,从而构建的数据仓库具有明显的主题特征,且可以实现快速构建数据仓库。本发明是基于商家对顾客B2C(Business-to-Customer)的电子商务业务的数据仓库模型的构建方法的基础上,提出数据仓库按指标热度进行的模型构建的方法,为实现数据分析和挖掘奠定基础;本发明提出的指标热度的定义,将指标分为活跃指标,基本活跃指标和不活跃指标,为电子商务数据仓库模型的构建,提供一个模型构建方法;同时,以Hadoop为平台,hive作为数据模型构建工具,提升了数据的稳定性、可扩展性,为基于分布式数据仓库提供了一套完整的模型体系。
【附图说明】
[0027]附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
[0028]图1是根据本发明实施例的数据仓库模型的构建方法的主要步骤示意图;
[0029]图2是根据本发明实施例的数据仓库模型的构建装置的主要模块示意图;
[0030]图3是本发明实施例的数据仓库的数据层级示意图;
[0031 ]图4是本发明实施例的数据加工原理示意图。
【具体实施方式】
[0032]以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识至IJ,可以对这里描述的实施例做
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1