一种基于事务的数据整合方法

文档序号:9432612阅读:435来源:国知局
一种基于事务的数据整合方法
【技术领域】
[0001]本发明涉及一种基于事务的数据整合方法,基于事务处理机制的特性,来实现数据整合的完整性与一致性。
【背景技术】
[0002]随着信息化程度的提高,数据共享的内容与形式也越来越丰富,然而数据源以及数据之间的异构性使数据的共享产生了一定的困难,解决这一问题的关键手段是进行有效的数据整合,然而数据整合的如何确保数据的正确性、一致性、完整性,是现在面临的一个问题。
[0003]事务作为工作的基本单位,具有下列四个特性,称为事务的ACID特性:原子性(Atomicity),一个事务对数据库的所有操作,是一个不可分割的工作单元。这些操作要么全部执行,要么什么也不做;一致性(Consistency),一个事务独立执行的结果应保持数据库的一致性,即数据不会因为事务的执行而遭受破坏;隔离性(Isolat1n),在多个事务并发执行时,系统应保证与这些事务先后单独执行时的结果一样,此时称事务达到了隔离性的要求,也就是在多个并发事务执行时,保证执行结果是正确的,如同单用户环境一样;持久性(Durability),持久性也称为永久性,指事务一旦执行完成,它在系统中产生的所有修改就是永久性的。接下来的其他操作或故障不应该对其执行结果有任何影响。
[0004]事务的概念来自于数据库研究领域,用于解决数据的并发访问和出错恢复问题,如何使事务处理技术与数据整合结合起来,提高整合流程的稳定性和可靠性,正是本发明的出发点。

【发明内容】

[0005]为解决上述问题,本发明的目的在于提供一种基于事务的数据整合方法,基于事务处理机制的特性,来进行数据整合的方法。
[0006]本发明是通过以下技术方案实现的:
[0007]—种基于事务的数据整合方法,包括以下步骤:
[0008]步骤I,将数据整合过程拆分成子过程;
[0009]步骤2,将所述子过程进行作业封装得到子作业;所述子作业集合为父作业;
[0010]步骤3,对所述子作业进行异常数据捕获与异常数据处理;
[0011]步骤4,将所述子作业进行事务设定;
[0012]步骤5,将所述父作业进行事务设定;
[0013]步骤6,将所述数据整合启动运行;
[0014]步骤7,监控所述子作业的执行状态,当所述子作业全部运行成功时,所述父作业运行成功,并提交数据,所述数据整合过程完成;当所述子作业运行失败,不提交数据,所述数据整合过程完成。
[0015]进一步的,步骤3包括:
[0016]步骤3.1,设定所述异常数据的条件;
[0017]步骤3.2,捕获符合所述条件的异常数据,当所述异常数据进行修正得到常规数据时,将所述常规数据继续进行数据整合;当所述异常数据无法修正得到常规数据时,将所述异常数据存储到文件中,跳过所述异常数据,继续进行数据整合;
[0018]步骤3.3,当捕获到不符合所述条件的其他异常数据时,所述数据整合结束。
[0019]进一步的,步骤4为,判定所述子作业是否出现步骤3.3所述其他异常数据。
[0020]进一步的,步骤5为,判定所述父作业是否出现步骤3.3所述其他异常数据。
[0021]本发明中,根据业务规则将转换功能按照模块进行划分,保障了功能的复用,同时为整合过程的拆分以进行作业封装、事务设定提供了基础。在整合过程拆分后,对子作业与父作业的封装完成了对整体流程执行单元的封装,数据整合的完整性便建立在各作业的逻辑层和操作层事务的完整性上,这样保障整合流程与数据的完整性、一致性。
【附图说明】
[0022]图1为本发明所述的基于事务的数据整合方法的流程图;
[0023]图2为本发明所述的异常数据转换的流程图;
[0024]图3为本发明所述的异常数据进行存储的示意图;
[0025]图4为本发明所述的数据异常后数据整合结束的示意图;
[0026]图5为本发明所述的作业事务状态的示意图。
【具体实施方式】
[0027]为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例对本发明作进一步详细说明。但所举实例不作为对本发明的限定。
[0028]—种基于事务的数据整合方法,所述数据整合按照数据转换功能分模块进行分类完成,如值映射、字段拆分合并的数据转换功能,所述数据转换功能通过算法实现,如图1所示,包括以下步骤:
[0029]步骤1,将数据整合过程按照业务需求拆分成子过程,其中整合过程涉及到多张源表与多张目标表的操作,可按照目标表进行过程拆分,即对每张目标表的操作对应一个或多个子过程,这样保证了对各张表进行了独立操作,避免了目标表在一个过程内的交叉操作,同时也很好地解决了表间数据依赖的问题。
[0030]步骤2,数据整合过程中按照步骤I中所述的要求,那么根据业务需求将大的整合过程进行拆分,拆分的依据是对目标表的操作,拆分后的顺序可依照各目标表数据之间的依赖关系;如步骤I中所述每张目标表的操作对应一个或多个子过程,其中子过程数量的依据为目标表数据操作逻辑的复杂性,拆分后的一个或多个子过程进行作业封装得到子作业;所述子作业集合为父作业,所述父作业统筹调度所述子作业。
[0031]步骤3,为了保障整合过程运行的流畅度,以及减少事务执行带来的代价太高的弊端,需要将封装后的子作业进行异常数据捕获与异常数据处理。
[0032]具体的,根据业务规则,对数据集进行数据清理的规则设定,主要包括数据检测和数据修正,包括:
[0033]步骤3.1,设定所述异常数据的条件,异常数据类型主要包括:残缺数据、错误数据、重复数据,其中残缺数据是指信息缺失的数据,条件设定即为判断指定字段值是否为空;错误数据可分
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1