一种数据仓库ods层的建立方法和装置的制造方法_2

文档序号:9929533阅读:来源:国知局
ODS数据表的表名;
[0074] bigint和string表示0DS数据表中对应字段的字段类型;
[0075] COMMENT后面的内容为对应字段的描述;
[0076] COMMENT '系统参数表'表示整表的备注。
[0077] 步骤203,根据所述建表语句创建与所述源系统数据表对应的0DS数据表。
[0078] 仍以步骤202中的建表语句为例,在本步骤中,仓ij建与源系统数据表ex_system_ param 对应的名为 ods_ex_system_param 的 0DS 数据表。该名为 ods_ex_system_param 的 0DS数据表中,字段id的字段类型为bigint,字段gmt_create、字段gmt_modified、字段 param_key以及字段param_value的字段类型为string。
[0079] 步骤204,将所述源系统数据表中的数据同步到所述0DS数据表中。
[0080] 基于前述步骤203,在创建0DS数据表之后,可以根据用户设置的全量同步指令将 所述源系统数据表中的数据全量同步到所述0DS数据表中。即将所述源系统数据表中的所 有数据同步到所述0DS数据表中。
[0081] 需要说明的是,在进行数据同步的过程中,如果同一字段在源系统数据表中存储 的字段类型与0DS数据表中规定的字段类型不一致,则要将源系统数据表中该字段的数据 进行转换后同步到所述0DS数据表中。
[0082] 仍以步骤202中的建表语句为例,在本步骤进行数据同步的过程中,对于字段 gmt_create、字段gmt_modified、字段param_key以及字段param_value,需要将上述字段 中的数据转换为0DS数据表中规定的字段类型string,然后进行保存。
[0083] 进一步地,由于源系统数据表中的数据会经常更新,本申请还支持定期将源系统 数据表中更新的数据增量同步到0DS数据表中。具体地,可以在0DS层的配置界面中为用 户提供增量同步的选项,用户可以设置增量同步条件。所述增量同步条件可以包括:增量同 步字段和增量同步时间。假如,用户设置的增量同步字段为联系电话字段,增量同步时间为 每天零点,则在每天零点,会自动将前一天有更新的联系电话同步到0DS数据表中。
[0084] 进一步地,如果用户设置有清洗条件,需要将所述源系统数据表中的数据进行清 洗后同步到所述0DS数据表中。具体地,用户可以在0DS层的配置界面中设置所述清洗条 件,比如:对于联系电话字段,可以将所述清洗条件设置为过滤非数字字符,则在本步骤中, 在同步联系电话字段时,如果某一条数据为:138jk100 04*567,则将该数据中的非数字字符 "jk*"清洗掉,将清洗后的数据" 13810004567"存储在0DS数据表中对应的位置。与此同 时,为了便于后续调用和分析,还会将清洗掉的数据" jk*"存储在预设的0DS清洗表中。
[0085] 更进一步地,如果用户设置有极限存储条件,则在将所述源系统数据表中的数据 同步到所述0DS数据表中之后,还需要将满足用户设置的极限存储条件的数据存储在预设 的0DS极限表中。假设,对于联系电话字段,所述源系统数据表中昨天存储的数据为号码A, 而今天同一主键中该数据更新为号码B,如果用户可以设置对联系电话字段进行极限存储, 则在将所述号码B同步到ODS数据表中之后,还需要将该数据的上述变化信息,即昨天为号 码A,今天为号码B,存储在预设的ODS极限表中。
[0086] 步骤205,根据用户设置的生命周期,对到达所述生命周期的0DS数据表中的数据 进行预设的处理。
[0087] 在本实施例中,用户可以设置0DS数据表的生命周期,服务端可以对到达所述生 命周期的0DS数据表中的数据进行预设的处理。具体地,随着不断的增量同步,存储的数据 量会越来越多,超过所述生命周期的数据对于后续的分析而言可能已经没有意义,所以在 本步骤中,可以删除到达所述生命周期的0DS数据表中的数据,也可以将到达所述生命周 期的0DS数据表中的数据存储在其他预设的表中,本申请对此不作特殊限制。
[0088] 由以上描述可以看出,本申请可以根据用户设置的源系统数据表名,获取源系统 数据表的元数据,从而可以根据该元数据自动创建与所述源系统数据表对应的0DS数据 表,并将所述源系统数据表中的数据同步到所述0DS数据表中,整个过程不需要人工编写 脚本,大大降低了人力成本,同时提升研发效率、保障数据仓库稳定性和质量。
[0089] 与本申请数据仓库0DS层的建立方法的实施例相对应,本申请还提供一种数据仓 库0DS层的建立装置。本申请所述的装置可以通过软件实现,也可以通过硬件或者软硬件 结合的方式实现。以软件实现为例,本申请数据仓库0DS层的建立装置作为一个逻辑意义 上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到 内存中运行形成的。
[0090] 请参考图3和图4,本申请提供一种数据仓库0DS层的建立装置300,所述装置300 可以应用在服务器上,包括有:获取单元301、创建单元302、同步单元303、极限单元304以 及处理单元305,其中,所述创建单元302还可以包括:生成子单元3021以及创建子单元 3022。
[0091] 其中,所述获取单元301,根据用户设置的源系统数据表名,获取源系统数据表的 元数据。
[0092] 所述创建单元302,根据所述元数据创建与所述源系统数据表对应的0DS数据表。
[0093] 所述同步单元303,将所述源系统数据表中的数据同步到所述0DS数据表中。
[0094] 所述生成子单元3021,根据所述元数据生成建表语句。
[0095] 所述创建子单元3022,根据所述建表语句创建与所述源系统数据表对应的0DS数 据表。
[0096] 所述同步单元303,具体根据用户设置的全量同步指令将所述源系统数据表中的 数据全量同步到所述0DS数据表中。
[0097] 所述同步单元303,进一步根据用户设置的增量同步条件将所述源系统数据表中 的数据增量同步到所述0DS数据表中;
[0098] 所述增量同步条件包括:增量同步字段和增量同步时间。
[0099] 所述同步单元303,具体根据用户设置的清洗条件,将所述源系统数据表中的数据 进行清洗后同步到所述0DS数据表中,并将清洗掉的数据存储在预设的0DS清洗表中。
[0100] 所述极限单元304,在将所述源系统数据表中的数据同步到所述0DS数据表中之 后,将满足用户设置的极限存储条件的数据存储在预设的0DS极限表中。
[0101] 所述处理单元305,根据用户设置的生命周期,对到达所述生命周期的0DS数据表 中的数据进行预设的处理。
[0102] 上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的 实现过程,在此不再赘述。
[0103] 以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精 神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
【主权项】
1. 一种数据仓库ODS层的建立方法,其特征在于,所述方法包括: 根据用户设置的源系统数据表名,获取源系统数据表的元数据; 根据所述元数据创建与所述源系统数据表对应的0DS数据表; 将所述源系统数据表中的数据同步到所述0DS数据表中。2. 根据权利要求1所述的方法,其特征在于, 所述根据所述元数据创建与所述源系统数据表对应的0DS数据表包括: 根据所述元数据生成建表语句; 根据所述建表语句创建与所述源系统数据表对应的0DS数据表。3. 根据权利要求1所述的方法,其特征在于, 所述将所述源系统数据表中的数据同步到所述0DS数据表中包括: 根据用户设置的全量同步指令将所述源系统数据表中的数据全量同步到所述0DS数 据表中。4. 根据权利要求3所述的方法,其特征在于,所述方法还包括: 根据用户设置的增量同步条件将所述源系统数据表中的数据增量同步到所述0DS数 据表中; 所述增量同步条件包括:增量同步字段和增量同步时间。5. 根据权利要求1所述的方法,其特征在于, 所述将所述源系统数据表中的数据同步到所述0DS数据表中包括: 根据用户设置的清洗条件,将所述源系统数据表中的数据进行清洗后同步到所述0DS 数据表中; 将清洗掉的数据存储在预设的0DS清洗表中。6. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 在将所述源系统数据表中的数据同步到所述0DS数据表中之后,将满足用户设置的极 限存储条件的数据存储在预设的0DS极限表中。7. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 根据用户设置的生命周期,对到达所述生命周期的0DS数据表中的数据进行预设的处 理。8. -种数据仓库0DS层的建立装置,其特征在于,所述装置包括: 获取单元,根据用户设置的源系统数据表名,获取源系统数据表的元数据; 创建单元,根据所述元数据创建与所述源系统数据表对应的0DS数据表; 同步单元,将所述源系统数据表中的数据同步到所述0DS数据表中。9. 根据权利要求8所述的装置,其特征在于,所述创建单元包括: 生成子单元,根据所述元数据生成建表语句; 创建子单元,根据所述建表语句创建与所述源系统数据表对应的0DS数据表。10. 根据权利要求8所述的装置,其特征在于, 所述同步单元,具体根据用户设置的全量同步指令将所述源系统数据表中的数据全量 同步到所述0DS数据表中。11. 根据权利要求10所述的装置,其特征在于, 所述同步单元,进一步根据用户设置的增量同步条件将所述源系统数据表中的数据增 量同步到所述ODS数据表中; 所述增量同步条件包括:增量同步字段和增量同步时间。12. 根据权利要求8所述的装置,其特征在于, 所述同步单元,具体根据用户设置的清洗条件,将所述源系统数据表中的数据进行清 洗后同步到所述0DS数据表中,并将清洗掉的数据存储在预设的0DS清洗表中。13. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 极限单元,在将所述源系统数据表中的数据同步到所述0DS数据表中之后,将满足用 户设置的极限存储条件的数据存储在预设的0DS极限表中。14. 根据权利要求8所述的装置,其特征在于,所述装置还包括: 处理单元,根据用户设置的生命周期,对到达所述生命周期的0DS数据表中的数据进 行预设的处理。
【专利摘要】本申请提供一种数据仓库ODS层的建立方法和装置。所述方法包括:根据用户设置的源系统数据表名,获取源系统数据表的元数据;根据所述元数据创建与所述源系统数据表对应的ODS数据表;将所述源系统数据表中的数据同步到所述ODS数据表中。通过本申请的技术方案,可以实现在建立ODS层的过程中不需要人工编写脚本,从而降低人力成本,提升研发效率,保障数据仓库的稳定性和质量。
【IPC分类】G06F17/30
【公开号】CN105718468
【申请号】CN201410725296
【发明人】吴勇军
【申请人】阿里巴巴集团控股有限公司
【公开日】2016年6月29日
【申请日】2014年12月2日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1