分布式数据仓库中的数据更新方法和装置的制造方法

文档序号:8922624阅读:338来源:国知局
分布式数据仓库中的数据更新方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及数据仓库技术领域,尤其涉及一种分布式数据仓库中的数据更新方法和装置。
【背景技术】
[0002]以电子商务为例,随着电子商务的发展,京东、淘宝、亚马逊等电子商务公司日常运营中生成以及累积的大量用户、商品和生产相关的数据,呈现爆发式增长,数据结构也开始多元化,数据含有的信息量越来越多,这些公司对数据化运营也越来越关注。数据库用于对数据进行分处理工作,发挥着巨大的作用。大数据时代的降临,数据库转成为分布式架构,以满足爆发式增长的计算及存储的需求。分布式数据仓库一般使用列式存储,并以文件的形式保存数据,因此,采用分布式数据仓库可提高了大数据的存储及计算性能。随着前端的源系统的频繁升级,后台运行的分布式数据处理平台中分布式数据仓库中的数据也需要及时更新,因此,分布式数据仓库中的数据更新的技术应运而生。
[0003]现有的分布式数据仓库中的数据更新技术,一般是,通过分布式数据处理平台抓取源系统升级对应的全量数据;删除分布式数据仓库中的与所述全量数据对应的原始数据表;根据所述全量数据调整分布式数据仓库的已有的数据模型,并利用调整后的数据模型对全量数据进行转换,最后将转换后的数据装载到在分布式数据仓库中新建的数据表中。
[0004]上述分布式数据仓库中的数据更新技术存在以下缺陷:第一、抓取的数据量巨大,对源系统的正常运行带来较大的影响;第二、无法保留源系统的升级前的数据,且通过分布式数据仓库中更新后的数据无法确定源系统升级所导致的数据的具体变更;第三、随着源系统的不断升级,分布式数据仓库的数据的频繁更新会消耗大量的计算和存储资源。

【发明内容】

[0005]本发明实施例提供一种分布式数据仓库中的数据更新方法和装置,以优化分布式数据仓库中的数据的更新方式。
[0006]第一方面,本发明实施例提供了一种分布式数据仓库中的数据更新方法,包括:
[0007]设置分布式数据处理平台中的分布式数据仓库的数据模型的初始版本号;
[0008]根据所述数据模型的初始化版本号,设置所述分布式数据仓库中的原始数据表的初始版本号,其中,所述分布式数据仓库中的原始数据表中的数据与源系统升级前的源数据表中的数据一致;
[0009]在源系统的源数据表的升级过程中,从所述源系统中抓取对应的更新数据以及所述更新数据所属的源数据表的名称,确定所述源系统的升级类型和升级序号;
[0010]将抓取的所述更新数据输入所述数据模型,得到当前更新后的数据表;
[0011]根据所述更新数据所属的源数据表的名称,确定所述分布式数据仓库中对应的原始数据表的名称,作为所述当前更新后的数据表的名称;
[0012]根据所述数据模型的初始版本号以及所述升级序号,设置所述数据模型的当前版本号;
[0013]根据所述数据模型的当前版本号,以及所述源系统的升级类型,设置所述当前更新后的数据表的当前版本号。
[0014]第二方面,本发明实施例提供了一种分布式数据仓库中的数据更新装置,包括:
[0015]数据模型版本初始化模块,用于设置分布式数据处理平台中的分布式数据仓库的数据模型的初始版本号;
[0016]数据表版本初始化模块,用于根据所述数据模型的初始化版本号,设置所述分布式数据仓库中的原始数据表的初始版本号,其中,所述分布式数据仓库中的原始数据表中的数据与源系统升级前的源数据表中的数据一致;
[0017]更新要素获取模块,用于在源系统的源数据表的升级过程中,从所述源系统中抓取对应的更新数据以及所述更新数据所属的源数据表的名称,确定所述源系统的升级类型和升级序号;
[0018]数据表更新模块,用于将抓取的所述更新数据输入所述数据模型,得到当前更新后的数据表;
[0019]数据表名称配置模块,用于根据所述更新数据所属的源数据表的名称,确定所述分布式数据仓库中对应的原始数据表的名称,作为所述当前更新后的数据表的名称;
[0020]数据模型版本配置模块,用于根据所述数据模型的初始版本号以及所述升级序号,设置所述数据模型的当前版本号;
[0021]数据表版本配置模块,用于根据所述数据模型的当前版本号,以及所述源系统的升级类型,设置所述当前更新后的数据表的当前版本号。
[0022]本发明实施例提供的分布式数据仓库中的数据更新方法和装置,在源系统升级前,通过设置对分布式数据仓库的数据模型的初始版本号,以及分布式数据仓库中的原始数据表的初始版本号,使得通过分布式数据仓库中的原始数据表的初始版本号,即可查询分布式数据仓库中的原始数据表,由于分布式数据仓库中的原始数据表中的数据与源系统升级前的源数据表中的数据一致,因此可以确定源系统升级前的源数据表中的数据;在源系统的升级过程中,只抓取对应的更新数据,相对于现有技术中抓取全量数据而言,使得抓取的数据量大大减少,因此,减小了对源系统的正常运行的影响,同时,将源系统的升级对应的更新数据记录到当前更新后的数据表中,避免了现有技术中由大量删除操作所导致的对分布式数据仓库的计算和储存的影响;在源系统每次升级过程中,将源系统的升级对应的更新数据记录到当前更新后的数据表中,并根据所述数据模型的初始版本号以及所述升级序号,动态设置所述数据模型的当前版本号,并根据所述数据模型的当前版本号,以及所述源系统的升级类型,动态设置所述当前更新后的数据表的当前版本号,而当前更新后的数据表的名称则沿用所述更新数据所属的源数据表的名称所映射到的所述分布式数据仓库中对应的原始数据表的名称,保持静态不变,因此,通过分布式数据仓库中的名称相同的数据表的不同版本号,即可查询确定在源系统每次升级过程中,分布式数据仓库中的对应数据表的动态更新过程和源系统的相应的升级类型,可以为不同数据分析口径提供支持;此外,对分布式数据仓库的数据模型的版本号进行动态更新,弱化了源系统频繁升级对分布式数据仓库的数据模型的影响。
【附图说明】
[0023]为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0024]图1a为本发明实施例一提供的一种分布式数据仓库中的数据更新方法的流程示意图;
[0025]图1b为本发明实施例一提供的一种层级数据模型的示意图;
[0026]图1c为本发明实施例一提供的分布式数据仓库中的数据更新实例中源系统升级前的分布式数据仓库中的数据模型以及对应的数据表的版本号的设置效果图;
[0027]图1d为本发明实施例一提供的分布式数据仓库中的数据更新实例中源系统第一次升级后的分布式数据仓库中的数据模型以及对应的数据表的版本号的设置效果图;
[0028]图1e为本发明实施例一提供的分布式数据仓库中的数据更新实例中源系统第二次升级后的分布式数据仓库中的数据模型以及对应的数据表的版本号的设置效果图;
[0029]图2为本发明实施例二提供的一种分布式数据仓库中的数据更新装置的结构示意图。
【具体实施方式】
[0030]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0031]实施例一
[0032]请参阅图la,为本发明实施例一提供的一种分布式数据仓库中的数据更新方法的流程示意图。本发明实施例的方法可以由配置以硬件和/或软件实现的分布式数据仓库中的数据更新装置来执行,该更新装置典型的是配置于分布式数据处理平台中,通常,分布式数据处理平台包
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1