Etl调度方法及装置的制造方法_3

文档序号:9922029阅读:来源:国知局
调度。由于在MPP系统中的各个阶段 中不需要多个独立的ETL装置,只需一个ETL装置,通过建立任务复制表和任务分配表调度 各阶段的任务即可,从而提高MPP系统中对ETL装置的管理效率,降低维护复杂度。
[0047] 图3为本发明一实施例提供的一种ETL调度装置的结构示意图,其中该装置,包 括:确定模块301,用于确定每个阶段的任务执行规则所对应的第一数据仓库,所述第一数 据仓库为所述每个阶段的数据仓库中的源数据仓库或目的数据仓库;建立模块302,用于 根据所述源数据仓库和所述目的数据仓库之间的逻辑关系和所述第一数据仓库建立任务 复制表,所述任务复制表包括:所述源数据仓库的表项和所述目的数据仓库的表项;所述 建立模块302,还用于根据所述第二数据仓库对应服务器采用的分布式方式建立任务分配 表,所述任务分配表包括:所述第二数据仓库为所述每个阶段的数据仓库中的源数据仓库 或目的数据仓库,每个所述第二数据仓库对应服务器所采用的分布式方式;调度模块303, 用于根据所述任务复制表和所述任务分配表对所述每个阶段的任务进行调度。
[0048] 进一步地,所述任务复制表还包括:第一参数和第二参数;所述第一参数用于表 示所述第一数据仓库为该阶段的所述源数据仓库;所述第二参数用于表示所述第一数据仓 库为该阶段的所述目的数据仓库。
[0049] 可选地,所述建立模块302,具体用于:根据所述源数据仓库和所述目的数据仓库 之间的逻辑关系确定所述源数据仓库的表项和所述目的数据仓库的表项;根据所述第一数 据仓库确定所述第一参数和所述第二参数;根据所述所述源数据仓库的表项、所述目的数 据仓库的表项、所述第一参数和所述第二参数建立所述任务复制表。
[0050] 可选地,所述分布式方式包括:无共享分布方式和共享磁盘分布方式。
[0051] 可选地,所述调度模块303,具体用于:在每个阶段中的所述源数据仓库和所述目 的数据仓库之间按照确定的所述分布式方式调度所述每个阶段的任务。
[0052] 本实施例提供的ETL调度装置,可以用于执行图1对应的ETL调度方法的技术方 案,其实现原理和技术效果类似,此处不再赘述。
[0053] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精 神和范围。
【主权项】
1. 一种抽取转换装载ETL调度方法,其特征在于,包括: 确定每个阶段的任务执行规则所对应的第一数据仓库,所述第一数据仓库为所述每个 阶段的数据仓库中的源数据仓库或目的数据仓库; 根据所述源数据仓库和所述目的数据仓库之间的逻辑关系和所述第一数据仓库建立 任务复制表,所述任务复制表包括:所述源数据仓库的表项和所述目的数据仓库的表项; 根据第二数据仓库对应服务器采用的分布式方式建立任务分配表,所述第二数据仓库 为所述每个阶段的数据仓库中的源数据仓库或目的数据仓库,所述任务分配表包括:每个 所述第二数据仓库对应服务器所采用的分布式方式; 根据所述任务复制表和所述任务分配表对所述每个阶段的任务进行调度。2. 根据权利要求1所述的方法,其特征在于,所述任务复制表还包括:第一参数和第二 参数; 所述第一参数用于表示所述第一数据仓库为该阶段的所述源数据仓库; 所述第二参数用于表示所述第一数据仓库为该阶段的所述目的数据仓库。3. 根据权利要求2所述的方法,其特征在于,所述根据所述源数据仓库和所述目的数 据仓库之间的逻辑关系和所述第一数据仓库建立任务复制表,具体包括: 根据所述源数据仓库和所述目的数据仓库之间的逻辑关系确定所述源数据仓库的表 项和所述目的数据仓库的表项; 根据所述第一数据仓库确定所述第一参数和所述第二参数; 根据所述源数据仓库的表项、所述目的数据仓库的表项、所述第一参数和所述第二参 数建立所述任务复制表。4. 根据权利要求1-3任一项所述的方法,其特征在于,还包括: 所述分布式方式包括:无共享分布方式和共享磁盘分布方式。5. 根据权利要求4所述的方法,其特征在于,所述根据所述任务复制表和所述任务分 配表对所述每个阶段的任务进行调度,具体包括: 在每个阶段中的所述源数据仓库和所述目的数据仓库之间按照确定的所述分布式方 式调度所述每个阶段的任务。6. -种ETL调度装置,其特征在于,包括: 确定模块,用于确定每个阶段的任务执行规则所对应的第一数据仓库,所述第一数据 仓库为所述每个阶段的数据仓库中的源数据仓库或目的数据仓库; 建立模块,用于根据所述源数据仓库和所述目的数据仓库之间的逻辑关系和所述第一 数据仓库建立任务复制表,所述任务复制表包括:所述源数据仓库的表项和所述目的数据 仓库的表项; 所述建立模块,还用于根据第二数据仓库对应服务器采用的分布式方式建立任务分配 表,所述第二数据仓库为所述每个阶段的数据仓库中的源数据仓库或目的数据仓库,所述 任务分配表包括:每个所述第二数据仓库对应服务器所采用的分布式方式; 调度模块,用于根据所述任务复制表和所述任务分配表对所述每个阶段的任务进行调 度。7. 根据权利要求6所述的装置,其特征在于,所述任务复制表还包括:第一参数和第二 参数; 所述第一参数用于表示所述第一数据仓库为该阶段的所述源数据仓库; 所述第二参数用于表示所述第一数据仓库为该阶段的所述目的数据仓库。8. 根据权利要求7所述的装置,其特征在于,所述建立模块,具体用于: 根据所述源数据仓库和所述目的数据仓库之间的逻辑关系确定所述源数据仓库的表 项和所述目的数据仓库的表项; 根据所述第一数据仓库确定所述第一参数和所述第二参数; 根据所述源数据仓库的表项、所述目的数据仓库的表项、所述第一参数和所述第二参 数建立所述任务复制表。9. 根据权利要求6-8任一项所述的装置,其特征在于,还包括: 所述分布式方式包括:无共享分布方式和共享磁盘分布方式。10. 根据权利要求9所述的装置,其特征在于,所述调度模块,具体用于: 在每个阶段中的所述源数据仓库和所述目的数据仓库之间按照确定的所述分布式方 式调度所述每个阶段的任务。
【专利摘要】本发明实施例提供一种ETL调度方法及装置,其中该方法包括:首先,确定每个阶段的任务执行规则所对应的第一数据仓库,第一数据仓库为每个阶段的数据仓库中的源数据仓库或目的数据仓库;其次,根据源数据仓库和目的数据仓库之间的逻辑关系和第一数据仓库建立任务复制表,根据第二数据仓库对应服务器采用的分布式方式建立任务分配表,最后,根据任务复制表和任务分配表对每个阶段的任务进行调度。由于系统中的各个阶段中不需要多个独立的ETL装置,只需一个ETL装置,通过建立任务复制表和任务分配表调度各阶段的任务即可,从而提高对ETL装置的管理效率,降低维护复杂度。
【IPC分类】G06F17/30
【公开号】CN105701117
【申请号】CN201410707712
【发明人】周斌彦
【申请人】华为技术有限公司
【公开日】2016年6月22日
【申请日】2014年11月27日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1