Etl过程并行决策方法及装置的制造方法

文档序号:8528250阅读:360来源:国知局
Etl过程并行决策方法及装置的制造方法
【技术领域】
[0001]本发明涉及企业商业智能平台数据仓库构建技术领域,具体涉及一种ETL过程并行决策方法及装置。
【背景技术】
[0002]随着网络的兴起与飞速发展,大量的信息和数据迎面而来,用科学的方法去收集和整理数据,从而从不同视角对企业经营各方面信息的精确分析、准确判断受到了各大企业的关注。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将数据转化为有用的信息,将企业中现有的数据转化为知识,帮助企业做出经营决策。商业智能技术具体包括了数据仓库、联机分析处理(OLAP)和数据挖掘等技术。
[0003]数据仓库技术(Data Warehousing)是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库中的数据面向主题,与传统数据库面向应用相对应,主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。
[0004]ETL指在构建数据仓库过程中对数据源中数据进行抽取、转换和加载到数据仓库的过程。随着数据仓库系统的不断升级,数据仓库中的数量和企业对即时、准确、可靠数据的需求也与日俱增。数据仓库构建的ETL过程需要处理的数据量越来越大,面对不同的主题的数据仓库的构建,需要不同的ETL过程。为了实现ETL过程的加速运行,为每一个ETL过程配置并行文件使得ETL过程开发变得复杂。
[0005]因此,如何为ETL过程自动配置并行方法进而提高ETL过程的速度成为了当前需要首要解决的问题。
[0006]鉴于上述缺陷,本发明创作者经过长时间的研宄和试验终于提出了一种ETL过程并行决策方法及装置。

【发明内容】

[0007]本发明的目的在于提供一种ETL过程并行决策方法及装置,用以克服上述技术缺陷。
[0008]为实现上述目的,本发明采用的技术方案在于:首先提供一种ETL过程并行决策方法,其包括:
[0009]步骤a,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
[0010]步骤b,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
[0011]步骤C,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
[0012]步骤d,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
[0013]其中,所述步骤a中,所述操作信息包括:是否统计、统计字段的信息。
[0014]其中,所述步骤d中,所述操作信息包括:是否统计、统计字段、执行时间、字段行数、是否并行、并行方式和并行的拷贝数。
[0015]其中,步骤a包括:
[0016]步骤al,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
[0017]步骤a2,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
[0018]步骤a3,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
[0019]其中,所述步骤b包括:
[0020]步骤bl,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
[0021]步骤b2,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
[0022]步骤b3,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
[0023]其中,所述步骤c包括:
[0024]步骤Cl,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
[0025]步骤c2,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
[0026]其中,所述步骤d包括:
[0027]步骤dl,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
[0028]步骤d2,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
[0029]其次,提供一种与所述的ETL过程并行决策方法对应的ETL过程并行决策装置,其包括:
[0030]输出模块,输出带有操作信息的ETL过程脚本文件并初始化并行参数表;
[0031]第一运行模块,执行带有所述操作信息的所述ETL过程脚本文件并将执行信息记录在所述并行参数表中;
[0032]分析模块,分析所述并行参数表并为每个操作的并行方式做决策,将决策结果写入所述并行参数表中,更新所述操作信息;
[0033]第二运行模块,根据所述并行参数表执行带有更新后的所述操作信息的所述ETL过程脚本文件,实现ETL过程的并行。
[0034]其中,所述输出模块,包括:
[0035]操作划分子模块,将所述ETL过程脚本文件划分成操作,对同一个字段或同一组字段的修改看作一个操作;
[0036]操作编号子模块,为操作编号,将操作号按照操作的执行顺序储存在所述并行参数表中;
[0037]操作输出子模块,给所述ETL过程脚本文件添加操作划分的信息,生成带有所述操作信息的所述ETL过程脚本文件。
[0038]其中,所述第一运行模块,包括:
[0039]第一执行子模块,执行带有所述操作信息的ETL过程脚本文件来处理源数据文件;
[0040]执行记录子模块,每一个操作结束时,将上述操作的执行时长和读写的行数输出;
[0041]执行输出子模块,将接收到的各个操作的所述执行时长和读写的行数输出到所述并行参数表。
[0042]其中,所述分析模块,包括:
[0043]脚本分析子模块,对输入的带有所述操作信息的所述ETL过程脚本文件进行分析,判断每一个操作是否可以并行,可以并行的操作将采取何种方式并行,将判断得到的信息输出到所述并行参数表;
[0044]所述脚本分析子模块判断每个操作是否统计类操作,若不是,则该步骤可以采取单操作并行;若是,判断是否有连续的对不同字段的统计操作,若是,将连续的对不同字段的统计操作进行多操作并行,若不是,该操作不予并行。
[0045]参数分析子模块,对输入的所述并行参数表进行分析,判断每一个操作是否并行、采取的并行方式以及并行的拷贝数,将判断所得信息输出到所述并行参数表。
[0046]其中,所述第二运行模块,包括:
[0047]控制子模块,接收所述并行参数表,根据所述并行参数表中操作的并行信息控制执行过程;
[0048]第二执行子模块,执行输入的带有所述操作信息的所述ETL过程脚本文件来处理所述源数据文件。
[0049]与现有技术比较本发明的有益效果在于:提供了一种ETL过程并行决策方法及装置,可以为不同的ETL过程作出并行决策,为所述ETL过程提供并行方法。一方面,它加快了 ETL过程的执行速度,为ETL过程开发人员节省了 ETL过程测试时间和开发时间,为企业数据仓库构建节约成本,为企业运营增加效益。另一方面,该装置具有ETL过程并行解决方法的多样性,可以为各种不同的ETL过程自动提供并行方法,省去了 ETL开发人员为每一个ETL过程配置并行文件的过程,同样节省了 ETL过程开发人员开发ETL过程的时间,加速各个主体的数据仓库额构建,为企业高层的业务决策提供了更为实时的数据信息,让决策更为科学和准确,给企业带来更多的便利和更好的效果。
【附图说明】
[0050]图1为本发明ETL过程并行决策方法的流程图;
[0051]图2为本发明ETL过程并行决策方法中并行参数表状态一;
[0052]图3为本发明ETL过程并行决策方法中并行参数表状态二 ;
[0053]图4为本发明ETL过程并行决策方法中并行参数表状态三;
[0054]图5为本发明ETL过程并行决策方法步骤a的流程图;
[0055]图6为本发明ETL过程并行决策方法步骤b的流程图;
[0056]图7为本发明ETL过程并行决策方法步骤c的流程图;
[0057]图8为本发明ETL过程并行决策方法步骤d的流程图;
[0058]图9为本发明ETL过程并行决策装置的结构图。<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1