MPP数据库与Hadoop集群数据互通方法、工具及实现方法_3

文档序号:8258767阅读:来源:国知局
06,导出成功,正常退出;
[0079]步骤307,导出失败,执行过程中断退出。
[0080]2、如图4所示,数据由MPP数据库通过TXT中转导出至Hadoop集群,数据互通工具将数据由MPP数据库导出至MPP数据库与Hadoop集群之外的存储单元,通过Hadoop客户端的-put方式由外部存储单元将TXT文本形式的数据导入至Hadoop集群,从而使得Hadoop可对TXT文本形式的数据在导入之前进行二次处理其具体的执行过程如图5所示:
[0081]步骤501,数据互通工具启动;
[0082]步骤502,状态检查。数据互通工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,检查自身各节点状态和各数据分片状态;若状态检查结果为不通过,则执行步骤507,否则执行步骤503 ;
[0083]步骤503,导出元数据。数据互通工具向MPP数据库发送导出元数据SQL命令,MPP数据库集群收到导出元数据SQL命令后,将元数据导出到外部存储的指定目录,导出文件格式为TXT。若执行失败则执行步骤507,否则执行步骤504 ;
[0084]步骤504,获取数据库中的待导出表(根据指定条件)。导出工具向MPP数据库发送带where条件(不带where条件表示全部导出)的表查询SQL命令,MPP数据库集群收到带where条件的表查询SQL命令后,执行查询满足where条件的表命令,若失败则执行步骤507,否则返回导出工具数据库中满足条件的表名;执行步骤505 ;
[0085]步骤505,逐表导出数据。导出工具采用逐表方式并行地向MPP数据库集群发送导出SQL命令,MPP数据库集群收到表导出SQL命令后,执行数据导出操作,直接将数据导出到外部存储指定目录;若单表导出失败,则跳过该表继续处理下一张表,若连续N(用户指定)张表导出失败,则执行步骤507,否则继续执行至所有表导出完毕,然后执行步骤506 ;
[0086]步骤506,Hadoop导入数据。在外部存储所在的物理机上安装Hadoop客户端,执行Hadoop的-put命令,将TXT格式的数据文件导入到Hadoop的指定目录中,若Hadoop导入数据成功,由MPP数据库导出数据至Hadoop正常结束,执行步骤507 ;否则执行步骤508 ;
[0087]步骤507,Hadoop导入数据成功,正常退出;
[0088]步骤508,执行过程中断退出。
[0089]3、如图6所示,数据由Hadoop集群直接导入至MPP数据库,数据无需通过MPP数据库与Hadoop集群之外的存储单元中转,并且MPP数据库的计算节点直接访问Hadoop集群的数据节点,从而使得导入过程更加高效。其具体的执行过程如图7所示:
[0090]步骤701,数据互通工具启动;
[0091]步骤702,状态检查。导入工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,连接Hadoop集群并检查Hadoop集群指定目录的可读取状态;同时MPP数据库集群检查自身各节点状态;若状态检查结果为不通过,则执行步骤706,否则执行步骤703 ;
[0092]步骤703,导入元数据。导入工具向MPP数据库发送导入元数据SQL命令,MPP数据库集群收到导入元数据SQL命令后,将元数据由Hadoop文件系统指定目录导入。若执行失败则执行步骤707,否则执行步骤704 ;
[0093]步骤704,获取数据库中所有表。导入工具向MPP数据库发送表查询SQL命令,MPP数据库集群收到表查询SQL命令后,执行查询所有表命令,若失败则执行步骤707,否则返回导入工具数据库中所有表名;执行步骤705 ;
[0094]步骤705,逐表执行导入数据。导入工具采用逐表方式并行地向MPP数据库集群发送导入SQL命令,MPP数据库集群收到表导入SQL命令后,执行数据导入操作,直接访问Hadoop集群的数据节点将数据导入到MPP数据库;若单表导入失败,则跳过该表继续处理下一张表,若连续N(用户指定)张表导入失败,则执行步骤706,否则继续执行至所有表导入完毕,然后执行步骤706;
[0095]步骤706,导入成功,正常退出;
[0096]步骤707,导入失败,执行过程中断退出。
[0097]4、如图8所示,数据由Hadoop集群通过TXT中转导入至MPP数据库,Hadoop集群将数据以TXT文本方式导出至MPP数据库和Hadoop集群以外的存储单元,再由MPP数据库将TXT文本方式数据导入至MPP数据库。其具体的执行过程如图9所示:
[0098]步骤901,Hadoop导出数据。在外部存储所在的物理机上安装Hadoop客户端,执行Hadoop的-get命令,由Hadoop的指定目录导出TXT格式的数据文件至外部存储指定目录中。若Hadoop导出数据失败,执行步骤908,否则执行步骤902 ;
[0099]步骤902,数据互通工具启动,执行步骤903 ;
[0100]步骤903,状态检查。数据互通工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,检查自身各节点状态;若状态检查结果为不通过,则执行步骤908,否则执行步骤904 ;
[0101]步骤904,导入元数据。数据互通工具向MPP数据库发送导入元数据SQL命令,MPP数据库集群收到导入元数据SQL命令后,由外部存储的指定目录导入元数据。若执行失败则执行步骤908,否则执行步骤905 ;
[0102]步骤905,获取数据库中所有表。数据互通工具向MPP数据库发送表查询SQL命令,MPP数据库集群收到表查询SQL命令后,执行查询所有表命令,若失败则执行步骤908,否则返回数据互通工具数据库中所有表名;执行步骤906 ;
[0103]步骤906,逐表执行导入数据。数据互通工具采用逐表方式并行地向MPP数据库集群发送导入SQL命令,MPP数据库集群收到表导入SQL命令后,执行数据导入操作,由外部存储的指定目录导入数据;若单表导入失败,则跳过该表继续处理下一张表,若连续N(用户指定)张表导入失败,则执行步骤908,否则继续执行至所有表导入完毕,然后执行步骤907 ;
[0104]步骤907,导入成功,正常退出;
[0105]步骤908,执行过程中断退出。
[0106]以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
【主权项】
1.一种MPP数据库与Hadoop集群数据互通方法,其特征在于,包括 (1)利用数据互通工具将数据由MPP数据库直接导出至Hadoop集群,或数据由MPP数据库通过TXT中转导出至Hadoop集群; (2)利用数据互通工具将数据由Hadoop集群直接导入至MPP数据库,或数据由Hadoop集群通过TXT中转导入至MPP数据库。
2.根据权利要求1所述的一种MPP数据库与Hadoop数据互通方法,其特征在于,所述利用数据互通工具将数据由MPP数据库直接导出至Hadoop集群的步骤为: (1)数据互通工具启动; (2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查,MPP数据库集群接收到状态检查SQL命令后,连接Hadoop集群并检查Hado
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1