一种数据源回溯追踪方法及装置的制造方法_3

文档序号:9727498阅读:来源:国知局
便于ETL开发人员进行分析。
[0062]所述数据源模块包括归并元处理单元;归并处理单元,对结构相似的原始数据进行归并处理为数据源块;这里的结构相似,指的是数据的属性和各个属性字符类型大致相同,和/或某个属性值缺失情况大致相同,这样该模块的数据源进行ETL流程经过的步骤大致相同,便于减少步骤需要记录的步骤数目,减少数据的冗余,从而将确定了所要进行ETL的数据源块,并对数据源块进行编号。
[0063]所述数据源回溯装置还包括记录存储模块,所述记录存储模块用来执行所述编号单元、所述回溯单元、所述匹配单元的功能。
[0064]编号单元,对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号。并且通过对流程编号的归类、分析、统计以方便实现追踪原始数据的来源,还可以呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化,还可以减少数据的冗余。具体的操作实施例是,对数据源块同时进行ETL处理,可以实现并行ETL处理。建立一个表来记录ETL流程(表的格式如图一所示),这里称之为“附表”,对原数据块添加一个属性字段用来记录流程的编号。以第一个数据源块为例,对第一个数据进行ETL处理,对该流程中所经过步骤进行记录在新建的附表中,并在新添加的属性字段中记录其流程编号;对于第二个数据进行ETL处理,搜索经过的步骤是否已经存在于附表中,若存在,直接记录流程编号,若不存在,则对该流程中所经过步骤进行记录在附表中,并在属性字段中记录其流程编号,依次进行,直到所有的数据ETL处理完毕为止,这时每个数据在新添加的属性字段上都会有一个流程编号。
[0065]回溯单元,在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中。例如,最后得到经过ETL处理的数据表,若我们需要对某个数据查找其原始数据,则可根据新添加的属性字段记录的流程编号回溯到原数据块中。所述数据源回溯追踪装置还包括:再整理单元,根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个步骤的结果。
[0066]匹配单元,根据主键或模糊匹配得到所述原始数据。若对于某个可能错误的数据,ETL开发人员想要对其进行回溯分析,则可根据新添加的属性字段记录的流程编号回溯到原数据块中,根据主键或者模糊匹配即可得到原始数据,再根据附表流程编号得到该数据进行ETL的流程步骤,根据该流程步骤再次对该原数据进行ETL处理,并且把每个步骤的结果保存下来,这时ETL开发人员可对其数据转换过程进行分析。
[0067]所述记录保存模块包括附表,所述附表执行所述编号单元和所述匹配单元的功會泛。
[0068]所述记录保存模块还包括错误数据记录表,用来执行再整理单元功能。所述再整理单元,根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个步骤的结果。
[0069]所述记录保存模块还包括源数据获取单元,用来对转换后的数据获取其源数据。
[0070]本发明实施例的优点在于,并不需要存储数据在ETL过程中每个步骤进行转换后的历史数据,还能够根据需要追踪原始数据的来源和对错误的数据在进行ETL处理过程中各个步骤处理后的历史数据变化呈现出来,这样极大地减少数据的冗余,又能够满足数据血统分析的要求。
[0071]此外,采用数据源块,既可以在一定程度上减少附表的记录数,能减少一定的数据存储空间,还可以使数据源块并发进行ETL处理,加快了 ETL进程。
[0072]以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
【主权项】
1.一种数据源回溯追踪方法,其特征在于,包括: 对结构相似的原始数据进行归并处理为数据源块; 对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录流程编号; 在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中; 根据主键或模糊匹配得到所述原始数据。2.根据权利要求1所述的数据源回溯追踪方法,其特征在于,对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号的过程包括: 对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录,并在新添加的属性字段中记录其流程编号,对所述数据源块的第二个数据进行所述数据规整处理,搜索经过的步骤是否已经存在于所述记录中,如果已存在,则直接记录流程编号,如果不存在,则对该流程中所经过步骤进行记录,并在属性字段中记录其流程编号,依次进行,直到所有的数据按照所述的数据规整处理完毕为止,使每个数据在新添加的属性字段上都会有一个流程编号。3.根据权利要求1所述的数据源回溯追踪方法,其特征在于,其还包括:根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个源数据的处理结果。4.根据权利要求1至3任一所述的数据源回溯追踪方法,其特征在于,所述数据规整处理为ETL处理。5.一种数据源回溯追踪装置,其特征在于,所述装置包括: 归并处理单元,对结构相似的原始数据进行归并处理为数据源块; 编号单元,对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号; 回溯单元,在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中; 匹配单元,根据主键或模糊匹配得到所述原始数据。6.根据权利要求5所述的数据源回溯追踪装置,其特征在于,所述编号单元对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录,并在新添加的属性字段中记录其流程编号,对所述数据源块的第二个数据进行所述数据规整处理,搜索经过的步骤是否已经存在于所述记录中,如果已存在,则直接记录流程编号,如果不存在,则对该流程中所经过步骤进行记录,并在属性字段中记录其流程编号,依次进行,直到所有的数据按照所述的数据规整处理完毕为止,使每个数据在新添加的属性字段上都会有一个流程编号。7.根据权利要求5所述的数据源回溯追踪装置,其特征在于,所述数据源回溯追踪装置还包括: 再整理单元,根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个数据的处理结果。8.根据权利要求5-7任一所述的数据源回溯追踪装置,其特征在于,所述数据规整处理为ETL处理。9.一种数据源回溯追踪装置,包括:数据源模块,ETC处理模块,数据仓库,所述数据源模块的各组数据源块通过所述ETC处理模块后进入数据仓库,其特征在于,所述数据源模块包括如权利要求5-8任一所述的归并元处理单元;所述数据源回溯装置还包括记录存储模块,所述记录存储模块用来执行如权利要求5-8任一所述的编号单元、所述回溯单元、所述匹配单元的功能。10.根据权利要求9所述的数据源回溯追踪装置,其特征在于,所述记录保存模块包括附表,所述附表执行所述编号单元和所述匹配单元的功能。
【专利摘要】本发明是一种数据源回溯追踪方法及装置,所述方法包括:对结构相似的原始数据进行归并处理为数据源块;对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号;在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中;根据主键或模糊匹配得到所述原始数据。不仅能够追踪原始数据的来源,进一步的,还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外,还能够减少数据的冗余。
【IPC分类】G06F17/30
【公开号】CN105488222
【申请号】CN201510996259
【发明人】简宋全, 李青海, 侯大勇, 邹立斌, 许飞月
【申请人】广州精点计算机科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月24日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1