MPP数据库与Hadoop集群数据互通方法、工具及实现方法_4

文档序号:8258767阅读:来源:国知局
op集群指定目录的可写入状态,MPP数据库集群检查自身各节点状态和各数据分片状态; (3)导出元数据,数据工具向MPP数据库发送导出元数据SQL命令,MPP数据库集群收到导出元数据SQL命令后,将元数据导出到Hadoop文件系统指定目录; (4)获取数据库中的待导出表; (5)逐表导出数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导出SQL命令,MPP数据库集群收到表导出SQL命令后,执行数据导出操作,直接将数据导出到Hadoop集群的数据节点指定目录; (6)导出成功,正常退出; (7)导出失败,执行过程中断退出。
3.根据权利要求1所述的一种MPP数据库与Hadoop数据互通方法,其特征在于,所述数据由MPP数据库通过TXT中转导出至Hadoop集群的步骤为: (1)数据互通工具启动; (2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,检查自身各节点状态和各数据分片状态; (3)导出元数据,数据互通工具向MPP数据库发送导出元数据SQL命令,MPP数据库集群收到导出元数据SQL命令后,将元数据导出到外部存储的指定目录,导出文件格式为TXTo ; (4)获取数据库中的待导出表; (5)逐表导出数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导出SQL命令,MPP数据库集群收到表导出SQL命令后,执行数据导出操作,直接将数据导出到外部存储指定目录; (6)Hadoop导入数据,在外部存储所在的物理机上安装Hadoop客户端,执行Hadoop的-put命令,将TXT格式的数据文件导入到Hadoop的指定目录中; (7)Hadoop导入数据成功,正常退出; (8)执行过程中断退出。
4.根据权利要求1所述的一种MPP数据库与Hadoop数据互通方法,其特征在于,所述利用数据互通工具将数据由Hadoop集群直接导入至MPP数据库的步骤为: (1)数据互通工具启动; (2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查,MPP数据库集群接收到状态检查SQL命令后,连接Hadoop集群并检查Hadoop集群指定目录的可读取状态;同时MPP数据库集群检查自身各节点状态; (3)导入元数据,导入工具向MPP数据库发送导入元数据SQL命令,MPP数据库集群收到导入元数据SQL命令后,将元数据由Hadoop文件系统指定目录导入; (4)获取数据库中的待导入表; (5)逐表导入数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导入SQL命令,MPP数据库集群收到表导入SQL命令后,执行数据导入操作,直接访问Hadoop集群的数据节点将数据导入到MPP数据库; (6)导入成功,正常退出; (7)导入失败,执行过程中断退出。
5.根据权利要求1所述的一种MPP数据库与Hadoop数据互通方法,其特征在于,所述数据由Hadoop集群通过TXT中转导入至MPP数据库的步骤为: (1)Hadoop导出数据,在外部存储所在的物理机上安装Hadoop客户端,执行Hadoop的-get命令,由Hadoop的指定目录导出TXT格式的数据文件至外部存储指定目录中; (2)数据互通工具启动; (3)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,检查自身各节点状态; (4)导入元数据,数据互通工具向MPP数据库发送导入元数据SQL命令,MPP数据库集群收到导入元数据SQL命令后,由外部存储的指定目录导入元数据; (5)获取数据库中的所有表; (6)逐表执行导入数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导入SQL命令,MPP数据库集群收到表导入SQL命令后,执行数据导入操作,由外部存储的指定目录导入数据; (7)导入成功,正常退出; (8)执行过程中断退出。
6.根据权利要求1所述的一种MPP数据库与Hadoop数据互通方法,其特征在于:MPP数据库中数据导出时支持筛选导出,筛选导出的方式是输入带where条件的SQL语句。
7.—种MPP数据库与Hadoop集群数据互通工具,包括主控模块、配置解析模块、连接器、导出导入调度器、工作线程、日志模块、SQL构建模块、工作线程池;所述主控模块与所述配置解析模块、工作线程池、导出调度器连接;所述日志模块与所述配置解析模块、SQL构建模块、工作线程、工作线程池、连接器连接;所述导出导入调度器与所述连接器、工作线程、工作线程池、SQL构建模块连接;所述连接器与所述工作线程连接;所述工作线程与所述SQL构建模块连接。
8.—种MPP数据库与Hadoop集群数据互通工具实现方法,其特征在于:包括如下步骤: (1)用户通过命令行启动工具并随之输入配置信息,主控模块随工具启动而启动,主控模块启动后首先通过日志模块创建工具运行日志全局实例,然后完成其他模块和初始化工作; (2)主控模块接收用户输入的字符串形式配置信息,并将该信息传入配置解析示例模块,对用户输入配置进行进一步解析; (3)参数解析模块将用户输入字符串形式配置信息解析成程序内部可识别配置信息,并将其返回给主控模块; (4)主控模块启动导出导入调度器,由导出导入调度器来完成导出(导入)工作; (5)导出导入调度器创建主连接器实例,并通过主连接器连接MPP数据库; (6)导出导入调度器通过SQL构建模块构建状态检查SQL,通过主连接器执行状态检查; (7)导出导入调度器通过SQL构建模块构建导出(导入)元数据SQL,通过主连接器执行导出(导入)元数据; (8)导出导入调度器通过SQL构建模块构建查询所有待导出(导入)表SQL,通过主连接器执行查询所有待导出(导入)表,获取所有待导出(导入)表; (9)导出导入调度器通过日志模块创建作业进度日志全局实例; (10)导出导入调度器由线程池模块获取工作线程,数量等于导出(导入)并行度配置,创建对应数量的工作连接器,并每个工作线程分配一个工作连接器,然后启动所有作业,每个工作线程并行处理导出(导入)作业;其中,单表的导出(导入)称为作业,作业内容包括:第一步,通过工作连接器连接MPP数据库,第二步,通过SQL构建模块构建导出(导入)SQL,第三步通过工作连接器执行导出(导入); (11)导出导入调度器汇总每个工作线程的导出(导入)作业执行情况,将汇总后的执行情况整理为导出(导入)执行结果返回给主控模块,主控模块将最终导出(导入)结果返回给用户。
【专利摘要】本发明提供一种MPP数据库与Hadoop集群数据互通方法、工具及实现方法,包括利用数据互通工具直接进行MPP数据库与Hadoop集群之间数据的互通的方法以及通过TXT中转进行数据互通的方法,数据由MPP数据库直接导出(导入)至Hadoop集群,无需通过MPP数据库与Hadoop集群之外的存储单元中转,从而使得导出过程更加高效,如需Hadoop集群进行数据的二次处理,可选择TXT格式中转方式。本发明能够解决MPP数据库和Hadoop业务间数据无法互通的问题,实现MPP数据库和Hadoop两种业务平台的混搭。
【IPC分类】G06F17-30
【公开号】CN104572895
【申请号】CN201410820059
【发明人】陈雨, 夏旭东, 崔维力, 武新
【申请人】天津南大通用数据技术股份有限公司
【公开日】2015年4月29日
【申请日】2014年12月24日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1