Etl过程并行决策方法及装置的制造方法_3

文档序号:8528250阅读:来源:国知局
参数表中,更新所述操作信息;
[0106]第二运行模块4,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
[0107]所述操作信息包括:是否统计、统计字段的信息;更新后的所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数;
[0108]所述输出模块I,包括:
[0109]操作划分子模块11,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
[0110]操作编号子模块12,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
[0111]操作输出子模块13,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
[0112]所述第一运行模块2,包括:
[0113]第一执行子模块21,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
[0114]执行记录子模块22,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
[0115]执行输出子模块23,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
[0116]所述分析模块3,包括:
[0117]脚本分析子模块31,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
[0118]所述脚本分析子模块31判断每个操作是否统计类操作,若不是,则该步骤可以采取单操作并行;若是,判断是否有连续的对不同字段的统计操作,若是,将连续的对不同字段的统计操作进行多操作并行,若不是,该操作不予并行。
[0119]参数分析子模块32,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
[0120]所述第二运行模块4,包括:
[0121]控制子模块41,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
[0122]第二执行子模块42,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
[0123]该装置可以为不同的ETL过程作出并行决策,为所述ETL过程提供并行方法。一方面,它加快了 ETL过程的执行速度,为ETL过程开发人员节省了 ETL过程测试时间和开发时间,为企业数据仓库构建节约成本,为企业运营增加效益。另一方面,该装置具有ETL过程并行解决方法的多样性,可以为各种不同的ETL过程自动提供并行方法,省去了 ETL开发人员为每一个ETL过程配置并行文件的过程,同样节省了 ETL过程开发人员开发ETL过程的时间,加速各个主体的数据仓库额构建,为企业高层的业务决策提供了更为实时的数据信息,让决策更为科学和准确,给企业带来更多的便利和更好的效果。
[0124]实施例六
[0125]如上述所述的ETL过程并行决策装置,本实施例与其不同之处在于,所述第一运行模块2与所述第二运行模块4为同一运行模块,所述第一执行子模块21,与所述第二执行子模块42为所述运行模块内的同一执行子模块,所述运行模块还包括:所述执行记录子模块、所述执行输出子模块、所述控制子模块。
[0126]这样,利用相同的模块和子模块完成相似的任务,可以减少模块和子模块的数量,减小对系统资源的占用,进一步提高ETL过程并行决策的速度。
[0127]以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
【主权项】
1.一种ETL过程并行决策方法,其特征在于,包括: 步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表; 步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中; 步骤C,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息; 步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
2.根据权利要求1所述的ETL过程并行决策方法,其特征在于,所述步骤a中,所述操作信息包括:是否统计、统计字段的信息。
3.根据权利要求2所述的ETL过程并行决策方法,其特征在于,所述步骤d中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数。
4.根据权利要求1-3中任一所述的ETL过程并行决策方法,其特征在于,步骤a包括: 步骤al,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作; 步骤a2,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中; 步骤a3,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
5.根据权利要求1-2中任一所述的ETL过程并行决策方法,其特征在于,所述步骤b包括: 步骤bl,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件; 步骤b2,每一个操作结束时,将上述操作的执行时长和读写的行数输出; 步骤b3,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
6.根据权利要求1-2中任一所述的ETL过程并行决策方法,其特征在于,所述步骤c包括: 步骤Cl,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表; 步骤c2,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
7.根据权利要求1-3中任一所述的ETL过程并行决策方法,其特征在于,所述步骤d包括: 步骤dl,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程; 步骤d2,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
8.—种与权利要求1-7中任一所述的ETL过程并行决策方法对应的ETL过程并行决策装置,其特征在于,所述ETL过程并行决策装置包括: 输出模块,输出带有所述操作信息的所述ETL过程脚本文件并初始化所述并行参数表; 第一运行模块,执行带有所述操作信息的所述ETL过程脚本文件并将所述执行信息记录在所述并行参数表中; 分析模块,分析所述并行参数表并为每个操作的并行方式做决策,将所述决策结果写入所述并行参数表中,更新所述操作信息; 第二运行模块,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
9.根据权利要求8所述的ETL过程并行决策装置,其特征在于,所述输出模块,包括: 操作划分子模块,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作; 操作编号子模块,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中; 操作输出子模块,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
10.根据权利要求8所述的ETL过程并行决策装置,其特征在于,所述第一运行模块,包括: 第一执行子模块,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件; 执行记录子模块,每一个操作结束时,将操作的执行时长和读写的行数输出; 执行输出子模块,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
【专利摘要】本发明为一种ETL过程并行决策方法及装置,所述方法包括:步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;步骤c,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行;所述装置包括与各个步骤相对应的输出模块、第一运行模块、分析模块和第二运行模块。这样,就可以为各种不同的ETL过程自动提供并行方法,加快了ETL过程的执行速度。
【IPC分类】G06F17-30
【公开号】CN104850638
【申请号】CN201510272060
【发明人】李青海, 简宋全, 侯大勇, 邹立斌, 许飞月
【申请人】广州精点计算机科技有限公司
【公开日】2015年8月19日
【申请日】2015年5月25日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1