一种基于数据仓库自动化的数据迁移系统及方法

文档序号:6640303阅读:434来源:国知局
一种基于数据仓库自动化的数据迁移系统及方法
【专利摘要】本发明一种基于数据仓库自动化的数据迁移系统及方法,包括触发模块、接口单元、入库模块、服务器模块,其中触发单元跟接口单元相互连接,接口单元跟入库单元相互连接,触发模块、接口单元、入库模块均与服务器模块相互连接。分发明通过ETL(将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程)定时任务自动化执行,采用主流网络传输协议ftp传输数据文件,全程无需人工干预,真正实现了安全、可靠、有效的自动化数据迁移。
【专利说明】一种基于数据仓库自动化的数据迁移系统及方法

【技术领域】
[0001]本发明涉及数出处理【技术领域】,特别是一种采用主流网络传输协议(ftp)传输数据文件的数据迁移系统及方法。

【背景技术】
[0002]随着大数据时代的到来,数据仓库技术的迅速发展,人们将越来越多的意识到数据对企业的重要性。而系统之间的数据交互需求也越来越多。数据库之间的数据迁移一直以来都是一个难题。传统的数据迁移方案过多的依赖于数据库,如:通过dblink方式打通数据库连接。缺点如下:1、过分的依赖于数据库,若连接中断不能自动恢复2、长时间的数据交互增加了数据库的负载,影响数据库性能3、需要人工干预,工作量大。4、数据库之间耦合度太高,安全性得不到保障。


【发明内容】

[0003]本发明的目的在于提供一种全程无需人工干预,真正实现安全、可靠、有效的自动化数据迁移系统及方法。
[0004]为达到上述目的,本发明采用如下技术方案:
一种基于数据仓库自动化的数据迁移系统,包括触发模块、接口单元、入库模块、服务器模块,其中触发单元跟接口单元相互连接,接口单元跟入库单元相互连接,触发模块、接口单元、入库模块均与服务器模块相互连接。
[0005]在其中一个实施例中,所述触发模块是通过ETL定时任务自动化执行来触发数据迁移。
在其中一个实施例中,所述接口单元包括数据文件和控制文件。
[0006]在其中一个实施例中,所述入库模块包括入库日志和数据质量报告。
[0007]在其中一个实施例中,所述服务器模块包括接口服务器、目标服务器、FTP服务器。
[0008]在其中一个实施例中,所述数据文件采用分卷传输,传输方式为FTP传输,传输模式包括并行传输和串行传输。
[0009]在其中一个实施例中,所述控制文件通过FTP传输方式传输,所述控制文件采用MD5加密,具有识别码,所述识别码包括记录条数和密文信息。
[0010]本发明另一技术方案为:
一种数据迁移方法,包括以下步骤:
A:数据源端ETL任务将接口表中数据生成数据文件,并将接口表生成数据文件信息进行Md5加密,生成控制文件;
B:将数据文件组及控制文件作为一个接口单元上传至ftp服务器;
C:目标主机ETL任务调起shell脚本,检测ftp服务器中接口单元控制文件是否存在,如存在则表明接口单元中数据文件已全部接收,将接收到的数据文件信息进行Md5加密,与控制文件中信息进行比对,避免网络传输过程中丢包导致的文件缺失,保证接收文件的完整性,进而保证数据的完整性;
D:数据文件校验通过后进行入库操作,ETL任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核。
[0011]步骤A中:数据源端ETL任务将接口表中数据生成数据文件,并将接口表生成数据文件信息进行Md5加密,生成控制文件包括:
Al:数据源端数据开始传输;
A2:在接口单元生成数据文件,数据文件根据其大小形成分卷形式的数据文件;
A3:在接口单元生成控制文件,对控制文件进行MD5加密,给控制文件标记识别码以保证数据文件的完整性,识别码包括数据文件记录的条数以及密文信息;
A4:采用FTP传输模式将生成的数据文件、控制文件进行上传,传输过程中可以采用串行传输和并行传输;
A5:在传输的过程中接口单元向入库模块发送邮件通知;
A6:完成传输。
[0012]在其中一个实施例中所述步骤D:数据文件校验通过后进行入库操作,ETL任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核包括:
Dl:入库模块开始接手数据文件入库;
D2:入库模块检验控制文件是否存在,如果存在就进入下一步,如果不存在则继续等待;
D3:在入库模块中对控制文件进行对比以检验文件是否符合要求,如果不符合要求就放弃入库,如果符合要求就进入下一步;
D4:入库模块将数据文件入库,并生成入库日志;
D5:稽核数据文件脚本形成数据质量报告;
D6:向接口模块发送邮件通知;
D7:完成数据入库。
[0013]本发明实现了全程无需人工干预,真正实现了安全、可靠、有效的自动化数据迁移方案。并且通过导出数据文件进行传输,不依赖与特定数据库平台,可以兼容不同类型数据库之间的数据迁移。其可应用于任何需要数据迁移的场景,是一种理想的自动化数据迁移解决方案。

【专利附图】

【附图说明】
[0014]图1是本发明的系统组成图。
[0015]图2是本发明中接口单元示意图。
[0016]图3是本发明的工作流程示意图。
[0017]图4是本发明数据源端数据文件生成流程图。
[0018]图5是本发明目标数据库入库流程示意图。

【具体实施方式】
[0019]下面结合说明书附图对本发明的【具体实施方式】进行说明。
[0020]图1是本发明的系统组成图,如图1所示,本发明一种数据迁移系统,包括触发模块、接口单元、入库模块、服务器模块,其中触发单元跟接口单元相互连接,接口单元跟入库单元相互连接,触发模块、接口单元、入库模块均与服务器模块相互连接。
[0021]所述触发模块是通过ETL定时任务自动化执行来触发数据迁移。
所述入库模块包括入库日志和数据质量报告。
[0022]所述服务器模块包括接口服务器、目标服务器、FTP服务器。
[0023]所述控制文件通过FTP传输方式传输,所述控制文件采用MD5加密,具有识别码,所述识别码包括记录条数和密文信息。
[0024]图2是本发明中接口单元示意图,从图2可以看出所述接口单元包括数据文件和控制文件。
[0025]所述数据文件米用分卷传输,传输方式为FTP传输,传输模式包括并行传输和串行传输。
[0026]图3是本发明的工作流程示意图。图3揭示了本发明一种基于数据仓库自动化的数据迁移方法,该方法包括以下步骤:
A:数据源端ETL任务将接口表中数据生成数据文件,并将接口表生成数据文件信息进行Md5加密,生成控制文件;
B:将数据文件组及控制文件作为一个接口单元上传至ftp服务器;
C:目标主机ETL任务调起shell脚本,检测ftp服务器中接口单元控制文件是否存在,如存在则表明接口单元中数据文件已全部接收,将接收到的数据文件信息进行Md5加密,与控制文件中信息进行比对,避免网络传输过程中丢包导致的文件缺失,保证接收文件的完整性,进而保证数据的完整性;
D:数据文件校验通过后进行入库操作,ETL任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核。
[0027]本发明为避免导出数据文件过大,不利于传输及管理,对单个文件最大数据条数进行限制,根据数据文件最大条数限制及实际表中数据量可生成多个数据文件。导出数据文件分卷的方式,更有利于网络传输。可以并行传输,能够充分的利用网络带宽,同时也减小了由于丢包导致的文件损坏需重传文件的网络负载。
[0028]本发明将导出文件个数,文件大小等信息按顺序组合成字符串,并对其进行Md5加密,生成密文。将导出数据总记录条数、密文信息生成控制文件,作为识别码。数据文件及控制文件组成一个接口单元。
[0029]图4是本发明数据源端数据文件生成流程图。对应于图3中的步骤A,步骤A进一步包括包括:
Al:数据源端数据开始传输;
A2:在接口单元生成数据文件,数据文件根据其大小形成分卷形式的数据文件;
A3:在接口单元生成控制文件,对控制文件进行MD5加密,给控制文件标记识别码以保证数据文件的完整性,识别码包括数据文件记录的条数以及密文信息;
A4:采用FTP传输模式将生成的数据文件、控制文件进行上传,传输过程中可以采用串行传输和并行传输;
A5:在传输的过程中接口单元向入库模块发送邮件通知;
A6:完成传输。
[0030]图5是本发明目标数据库入库流程示意图。对应于图3中的步骤D:数据文件校验通过后进行入库操作,ETL任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核,其进一步包括:
Dl:入库模块开始接手数据文件入库;
D2:入库模块检验控制文件是否存在,如果存在就进入下一步,如果不存在则继续等待;
D3:在入库模块中对控制文件进行对比以检验文件是否符合要求,如果不符合要求就放弃入库,如果符合要求就进入下一步;
D4:入库模块将数据文件入库,并生成入库日志;
D5:稽核数据文件脚本形成数据质量报告;
D6:向接口模块发送邮件通知;
D7:完成数据入库。
[0031]本发明通过ETL任务自动化触发,将接口数据导出为数据文件,并根据数据文件信息生成控制文件,通过ftp传输到目标文件服务器,目标主机任务扫描文件,将接口组数据文件信息按照同样的算法生成加密信息,并与控制文件中信息进行比对,避免网络传输过程中丢包导致的文件缺失,保证接收文件的完整性,进而保证数据的完整性。数据文件校验通过后调用入库程序进行入库,入库后自动调用稽核脚本进行业务数据质量稽核,并生成数据质量报告。
[0032]综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【权利要求】
1.一种基于数据仓库自动化的数据迁移系统,其特征在于:包括触发模块、接口单元、入库模块、服务器模块,其中触发单元跟接口单元相互连接,接口单元跟入库单元相互连接,触发模块、接口单元、入库模块均与服务器模块相互连接。
2.根据权利要求1所述基于数据仓库自动化的数据迁移系统,其特征在于:所述触发模块是通过£11定时任务自动化执行来触发数据迁移。
3.根据权利要求1所述基于数据仓库自动化的数据迁移系统,其特征在于:所述接口单元包括数据文件和控制文件。
4.根据权利要求1所述基于数据仓库自动化的数据迁移系统,其特征在于:所述入库模块包括入库日志和数据质量报告。
5.根据权利要求1所述基于数据仓库自动化的数据迁移系统,其特征在于:所述服务器模块包括接口服务器、目标服务器、冗?服务器。
6.根据权利要求3所述基于数据仓库自动化的数据迁移系统,其特征在于:所述数据文件采用分卷传输,传输方式为冗?传输,传输模式包括并行传输和串行传输。
7.根据权利要求3所述基于数据仓库自动化的数据迁移系统,其特征在于:所述控制文件通过传输方式传输,所述控制文件采用105加密,具有识别码,所述识别码包括记录条数和密文信息。
8.一种基于数据仓库自动化的数据迁移方法,其特征在于包括以下步骤: 八:数据源端2扎任务将接口表中数据生成数据文件,并将接口表生成数据文件信息进行1(15加密,生成控制文件; 8:将数据文件组及控制文件作为一个接口单元上传至代?服务器; 0:目标主机£1任务调起也611脚本,检测代?服务器中接口单元控制文件是否存在,如存在则表明接口单元中数据文件已全部接收,将接收到的数据文件信息进行1(15加密,与控制文件中信息进行比对,避免网络传输过程中丢包导致的文件缺失,保证接收文件的完整性,进而保证数据的完整性; 0:数据文件校验通过后进行入库操作,£11任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核。
9.根据权利要求8所述基于数据仓库自动化的数据迁移方法,其特征在于:所述数据源端£11任务将接口表中数据生成数据文件,并将接口表生成数据文件信息进行1(15加密,生成控制文件的步骤包括: 八1:数据源端数据开始传输; 八2:在接口单元生成数据文件,数据文件根据其大小形成分卷形式的数据文件; 八3:在接口单元生成控制文件,对控制文件进行105加密,给控制文件标记识别码以保证数据文件的完整性,识别码包括数据文件记录的条数以及密文信息; 八4:采用传输模式将生成的数据文件、控制文件进行上传,传输过程中可以采用串行传输和并行传输; 八5:在传输的过程中接口单元向入库模块发送邮件通知; 八6:完成传输。
10.根据权利要求8所述基于数据仓库自动化的数据迁移方法,其特征在于:所述数据文件校验通过后进行入库操作,2X1任务依次将数据文件入库,入库完成后调用稽核脚本,进行业务数据质量稽核的步骤包括: 01:入库模块开始接手数据文件入库;02:入库模块检验控制文件是否存在,如果存在就进入下一步,如果不存在则继续等待; 03:在入库模块中对控制文件进行对比以检验文件是否符合要求,如果不符合要求就放弃入库,如果符合要求就进入下一步; 04:入库模块将数据文件入库,并生成入库日志; 05:稽核数据文件脚本形成数据质量报告; 06:向接口模块发送邮件通知; 07:完成数据入库。
【文档编号】G06F21/62GK104462562SQ201410832607
【公开日】2015年3月25日 申请日期:2014年12月29日 优先权日:2014年12月29日
【发明者】郭凤, 杨培强, 王永军 申请人:浪潮软件集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1