数据仓库的数据标准化构建方法及系统的制作方法

文档序号:6636373阅读:240来源:国知局
数据仓库的数据标准化构建方法及系统的制作方法
【专利摘要】本发明公开了一种数据仓库的数据标准化构建方法,包括步骤:S1、获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数;S2、将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表;S3、将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表;S4、基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。本发明还公开了一种数据仓库的数据标准化构建系统。
【专利说明】数据仓库的数据标准化构建方法及系统

【技术领域】
[0001] 本发明涉及数据库领域,尤其涉及一种数据仓库的数据标准化构建方法及系统。

【背景技术】
[0002] 在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库(DW)技 术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务 处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式 来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是数据仓库的数据标准化 构建。


【发明内容】

[0003] 本发明的目的是提供一种数据仓库的数据标准化构建方法,能有效数据仓库的数 据进行标准化构建,从而利于对标准化构建后的数据库的搜索,提高数据访问的效率。
[0004] 本发明实施例提供了一种数据仓库的数据标准化构建方法,包括步骤: 51、 获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括 M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数; 52、 将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度 表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应 关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成 一个维度的维度ID ; 53、 将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度 表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表, 每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所 述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表; 54、 基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标 准化后的数据仓库为具有星形结构的关系型数据库。
[0005] 作为上述方案的改进,在所述步骤S2和/或S3中,拆分后的所述M个维度表分别 包括维度ID以及与该维度表相对应的一组特征字段; 拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N 条度量字段。
[0006] 作为上述方案的改进,在所述步骤S2和/或S3中,多个所述源数据表对应拆分出 来的多个维度表中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的 所述维度表中,可根据维度ID来依次排列合并前的每个维度表的记录信息。
[0007] 本发明实施例还提供了一种数据仓库的数据标准化构建系统,包括: 源数据表获取单元,获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个 源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的 整数; 源数据表拆分单元,将每一所述源数据表对应拆分为一个以所述N个度量为主的事实 表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M 个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个 维度表中,并生成一个维度的维度ID ; 多维度表拆分单兀,将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个 单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为 m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表与存在笛 卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表; 以及 星形模型构建单元,基于生成的所述事实表和维度表的关联关系而构成星形连接网 络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
[0008] 作为上述方案的改进,在所述源数据表拆分单元和/或多维度表拆分单元中,拆 分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征字段; 拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N 条度量字段。
[0009] 作为上述方案的改进,在所述源数据表拆分单元和/或多维度表拆分单元中,多 个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维度表可合并 成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的每个维度表 的记录信息。
[0010] 与现有技术相比,本发明公开的数据仓库的数据标准化构建方法及系统通过将数 据仓库中的每一源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度表, 并将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度表,以 及基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标准化后 的数据仓库为具有星形结构的关系型数据库,能有效数据仓库的数据进行标准化构建,从 而利于对标准化构建后的数据库的搜索,提高数据访问的效率。

【专利附图】

【附图说明】
[0011] 图1是本发明实施例中一种数据仓库的数据标准化构建方法的流程示意图。
[0012] 图2是利用本发明的数据仓库的数据标准化构建方法将生成的事实表和维度表 构成雪花形模型的一个实例图。
[0013] 图3是利用本发明的数据仓库的数据标准化构建方法将生成的事实表和维度表 构成星形模型的一个实例图。
[0014] 图4是本发明实施例中一种数据仓库的数据标准化构建系统的结构框图。

【具体实施方式】
[0015] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0016] 参见图1,是本发明实施例提供的一种数据仓库的数据标准化构建方法的流程示 意图。该数据仓库的数据标准化构建方法包括步骤: 5101、 获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包 括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数; 5102、 将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维 度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对 应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生 成一个维度的维度ID ; 5103、 将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维 度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度 表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积 的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表; 5104、 基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据 标准化后的数据仓库为具有星形结构的关系型数据库。
[0017] 其中,在所述步骤SlOl中,首先是将已有的数据仓库的每一数据表提取出来,其 中,假设每一个源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为 大于等于〇的整数。
[0018] 然后,在所述步骤S102中,将获取到的每一源数据表标准化拆分为事实表和维度 表的模式,且拆分后的所述M个维度表分别包括维度ID以及与该维度表相对应的一组特征 字段;拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及 N条度量字段。
[0019] 具体过程为:已有数据仓库有源数据表D包含A1、A2、…An、Bl、B2、…Bm,其 中Al-An为枚举型的文本值或数据值,Bl-Bm为数据值型的度量值,则将源数据表D拆分为 一个事实表Fmn和n个维度表(DAl-DAn)组成,事实表Fmn的构成是A1ID、A2ID、…AnID、 B1、B2、…Bm,其中A1ID、A2ID、…AnID分别和n个维度表进行关联,每个维度表的构 成是AnID、AnName。,所谓AnID是指维度An的ID,即唯一的数字标示;AnName是指维度An 的名称Name,即特征字段,如:有客户维度,存在两个维度值,则有客户ID {100,101},对应 的客户名称{ '客户1','客户2' }。
[0020] 下面,通过实例来说明如何将每一源数据表标准化拆分为事实表和维度表的模 式: 不例一:标准化为事实表+维度表的模式 有电量信息统计表-DLXXTJB,如下: 源数据表1

【权利要求】
1. 一种数据仓库的数据标准化构建方法,其特征在于,包括步骤: 51、 获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个源数据表中包括 M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的整数; 52、 将每一所述源数据表对应拆分为一个以所述N个度量为主的事实表以及M个维度 表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M个维度表的对应 关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个维度表中,并生成 一个维度的维度ID ; 53、 将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个单一维度的维度 表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为m个单一维度表, 每一个单一维度表对应存储一个维度数据,并同时将所述事实表中与存在笛卡尔乘积的所 述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表; 54、 基于生成的所述事实表和维度表的关联关系而构成星形连接网络,从而使数据标 准化后的数据仓库为具有星形结构的关系型数据库。
2. 如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于: 在所述步骤S2和S3中,拆分后的所述M个维度表分别包括维度ID以及与该维度表相 对应的一组特征字段; 拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N 条度量字段。
3. 如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于,在所述步骤S2 和S3中,多个所述源数据表对应拆分出来的多个维度表中,属于相同维度的两个以上的维 度表可合并成一个维度表;在合并后的所述维度表中,可根据维度ID来依次排列合并前的 每个维度表的记录信息。
4. 一种数据仓库的数据标准化构建系统,其特征在于,包括: 源数据表获取单元,获取用于标准化构建的数据仓库的每一个源数据表;其中,每一个 源数据表中包括M条关于维度的记录以及N条关于度量的记录,所述M、N为大于等于0的 整数; 源数据表拆分单元,将每一所述源数据表对应拆分为一个以所述N个度量为主的事实 表以及M个维度表;其中将对应的N条度量数据存储在所述事实表中,并将所述事实表与M 个维度表的对应关联关系记录在所述事实表中;将对应的M条维度数据存储在对应的M个 维度表中,并生成一个维度的维度ID ; 多维度表拆分单兀,将拆分后的且存在笛卡尔乘积的每一所述维度表拆分为对应多个 单一维度的维度表;其中,存在笛卡尔乘积的每一所述维度表包括m个维度,则对应拆分为 m个单一维度表,每一个单一维度表对应存储一个维度数据,并同时将所述事实表与存在笛 卡尔乘积的所述维度表关联的维度ID对应拆分m个单一维度ID,以对应m个单一维度表; 以及 星形模型构建单元,基于生成的所述事实表和维度表的关联关系而构成星形连接网 络,从而使数据标准化后的数据仓库为具有星形结构的关系型数据库。
5. 如权利要求4所述的数据仓库的数据标准化构建系统,其特征在于: 在所述源数据表拆分单元和/或多维度表拆分单元中,拆分后的所述M个维度表分别 包括维度ID以及与该维度表相对应的一组特征字段; 拆分后的所述事实表包括M个分别指向所述M个维度表中的维度ID的维度ID以及N 条度量字段。
6.如权利要求1所述的数据仓库的数据标准化构建方法,其特征在于,在所述源数据 表拆分单元和/或多维度表拆分单元中,多个所述源数据表对应拆分出来的多个维度表 中,属于相同维度的两个以上的维度表可合并成一个维度表;在合并后的所述维度表中,可 根据维度ID来依次排列合并前的每个维度表的记录信息。
【文档编号】G06F17/30GK104391948SQ201410707013
【公开日】2015年3月4日 申请日期:2014年12月1日 优先权日:2014年12月1日
【发明者】钟世冠, 苏超, 覃杰聪, 阮国恒, 陈少敏, 潘世成, 李文航, 肖逊 申请人:广东电网有限责任公司清远供电局
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1