一种数据源回溯追踪方法及装置的制造方法

文档序号:9727498阅读:287来源:国知局
一种数据源回溯追踪方法及装置的制造方法
【技术领域】
[0001]本发明涉及一种商用智能数据处理领域,尤其是一种数据源回溯追踪方法及装置。
【背景技术】
[0002]随着大数据时代的到来,商业智能技术越来越被企业重视,如何在庞大的数据中挖掘出新的信息作为决策支持,降低风险,提高企业的绩效,成了企业在同行业获得领先地位的重要途径之一。
[0003]数据仓库的构建是商业智能技术的重要的组成部分,ETL,包括数据抽取(Extract)、数据转换(Transform)、数据加载(Loading),在构建数据仓库过程中占据了很大的工作量,同时它的完善将极大地保证了数据的质量,只有ETL过程中数据处理妥当,接下来数据分析才能有意义。
[0004]ETL每个过程都需要根据项目要求对数据进行一定的处理,但是庞大的数据量使得在处理过程中不可能将变换时的所有历史数据保存下来,那样会造成很大的数据冗余,但是企业在做决策支持时往往需要追踪用户数据的来源,还有ETL开发时往往需要对错误的数据进行回溯分析,这些都是构建ETL过程中需要解决的问题。
[0005]同时,本发明人也发现,以上的问题不仅仅只存在于ETL的处理过程中,其他的商用智能数据处理领域也存在同样的问题。
[0006]鉴于上述问题,本发明创作者经过长时间的研究和实践终于获得了本创作。

【发明内容】

[0007]本发明的目的在于:提供一种数据源回溯追踪方法,能够追踪原始数据的来源。
[0008]为实现上述目的,本发明的数据源回溯追踪方法采用的技术方案包括:
[0009]对结构相似的原始数据进行归并处理为数据源块;
[0010]对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录流程编号;
[0011 ]在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中;
[0012]根据主键或模糊匹配得到所述原始数据。
[0013]较佳的,对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号的过程包括:
[0014]对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录,并在新添加的属性字段中记录其流程编号,对所述数据源块的第二个数据进行所述数据规整处理,搜索经过的步骤是否已经存在于所述记录中,如果已存在,则直接记录流程编号,如果不存在,则对该流程中所经过步骤进行记录,并在属性字段中记录其流程编号,依次进行,直到所有的数据按照所述的数据规整处理完毕为止,使每个数据在新添加的属性字段上都会有一个流程编号。
[0015]较佳的,其还包括:
[0016]根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个源数据的处理结果。
[0017]较佳的,所述数据规整处理为ETL处理。
[0018]与现有技术比较本发明提供的数据源回溯追踪方法的有益效果在于:不仅能够追踪原始数据的来源,进一步的,还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外,还能够减少数据的冗余。
[0019]另一方面,为实现上述目的,本发明还提供了一种数据源回溯追踪装置,
[0020]归并处理单元,对结构相似的原始数据进行归并处理为数据源块;
[0021]编号单元,对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号;
[0022]回溯单元,在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中;
[0023]匹配单元,根据主键或模糊匹配得到所述原始数据。
[0024]较佳的,所述编号单元对所述数据源块的第一个数据进行所述数据规整处理过程中所经过的步骤进行记录,并在新添加的属性字段中记录其流程编号,对所述数据源块的第二个数据进行所述数据规整处理,搜索经过的步骤是否已经存在于所述记录中,如果已存在,则直接记录流程编号,如果不存在,则对该流程中所经过步骤进行记录,并在属性字段中记录其流程编号,依次进行,直到所有的数据按照所述的数据规整处理完毕为止,使每个数据在新添加的属性字段上都会有一个流程编号。
[0025]较佳的,所述数据源回溯追踪装置还包括:
[0026]再整理单元,根据所述流程编号得到所述数据进行数据规整处理的流程步骤,根据所述流程步骤再次对所述源数据进行数据规整处理,并保存每个数据的处理结果。
[0027]较佳的,所述数据规整处理为ETL处理。
[0028]与现有技术比较本发明提供的数据源回溯追踪装置的有益效果在于不仅能够追踪原始数据的来源,进一步的,还能够呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化。另外,还能够减少数据的冗余。
[0029]本发明还提供一种数据源回溯追踪装置,包括:数据源模块,ETC处理模块,数据仓库,所述数据源模块的各组数据源块通过所述ETC处理模块后进入数据仓库,其特征在于,所述数据源模块包括如所述的归并元处理单元;所述数据源回溯装置还包括记录存储模块,所述记录存储模块用来执行如所述的编号单元、所述回溯单元、所述匹配单元的功能。
[0030]较佳的,所述记录保存模块包括附表,所述附表执行所述编号单元和所述匹配单元的功能。
[0031]与现有技术比较本发明提供的数据源回溯追踪装置的有益效果在于可以更好地实现本发明提供的方法。
【附图说明】
[0032]图1是本发明数据源回溯追踪装置的附表结构图;
[0033]图2是本发明数据源回溯追踪装置的结构图。
【具体实施方式】
[0034]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035]本发明提供一种数据源回溯追踪方法,包括:对结构相似的原始数据进行归并处理为数据源块;对所述数据源块的每个数据在进行数据规整处理过程中在其新添加的属性字段中记录其流程编号;在对某个数据查找其原始数据时,根据所述新添加的属性字段记录的流程编号回溯到所述数据源块中;根据主键或模糊匹配得到所述原始数据。
[0036]实施例一
[0037]本发明可应用在多种不同的商用智能数据处理领域中,在此以ETL的数据仓建为具体实施例。
[0038]根据多种数据源的数据形式,对项目需求进行分析,确定数据抽取、清洗、转换过程中可能需要的各个步骤,如抽取过程中遵循的抽取规则1、抽取规则2、抽取规则3等等,同样地,清洗、转换和加载也是按照该方式确定各个过程可能实施的步骤。
[0039]对结构相似的原始数据进行归并处理为数据源块。这里的结构相似,指的是数据的属性和/或各个属性字符类型大致相同,某个属性值缺失情况大致相同,这样该模块的数据源进行ETL流程经过的步骤大致相同,便于减少步骤需要记录的步骤数目,减少数据的冗余,从而将确定了所要进行ETL的数据源块,并对数据源块进行编号。
[0040]对所述数据源块的每个数据在进行数据规整处理过程中在每个数据中新添加的属性字段中记录增加属性字段流程的流程编号。并且通过对流程编号的归类、分析、统计以方便实现追踪原始数据的来源,还可以呈现出数据在进行构建数据仓库的过程中各个步骤处理后的历史数据变化,还可以减少数据的冗余。具体的操作实施例是,对数据源块同时进行ETL处理,可以实现并行ETL处理。建立一个表来记录ETL流程(表的格式如图一所示),这里称之为“附表”,对原数据块添加一个属性字段用来记录流程的编号。以第一个数据源块为例,对第一个数据进行ETL处理,对该流程中所经过步骤进行记录在新建的附表中,并在新添加的属性字段中记录其流程编号;对于第二个数据进行ETL处理,
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1