MPP数据库与Hadoop集群数据互通方法、工具及实现方法

文档序号:8258767阅读:2479来源:国知局
MPP数据库与Hadoop集群数据互通方法、工具及实现方法
【技术领域】
[0001 ] 本发明涉及属于分布式数据库领域,尤其涉及一种MPP数据库与Hadoop集群数据互通方法、工具及其实现方法。
【背景技术】
[0002]在互联网出现之前,数据主要通过人机会话方式产生,以结构化数据为主。对于这种事务型数据,最终用户对数据的增删改查更为关注,对应的数据处理称之为OLTP(OnlineTransact1n Processing,联机事务处理)。传统关系型数据库(RDBMS)主要是面向这种需求设计和开发的,并在过去的30年间占据重要地位。在此期间,数据的增长缓慢,系统间比较孤立,传统数据库基本可满足各类应用需求。
[0003]随着互联网的出现和快速发展,尤其是近些年移动互联网的飞速发展,数据来源发生了质变。数据更多是通过设备、服务器、各种应用自动产生,这些数据以非结构化、半结构化为主,增长速度呈几何级。对于这种类型数据(称为大数据),最终用户较少执行对数据的增删改操作,更关注的是以最快速度由数据库获取数据,并对数据进行整理、交叉分析和深度挖掘,产生报告和对数据的预测等。对应的数据处理称之为OLAP(OnlineAnalytical Processing,联机分析处理)。
[0004]传统数据库对于大数据分析这类需求在技术和功能上都几乎束手无策,随着数据来源和对数据处理需求的变化,人们发现单一平台满足所有应用需求已经不够现实,并开始根据应用需求、数据特点和量级选择最适合的产品和技术。数据处理领域的技术路线也从传统数据库(OldSQL) —统天下的局面走向了细分发展之路,变成了现阶段由OldSQL、NewSQL和NoSQL多类型共同支撑多类应用的局面。
[0005]NewSQL 类型数据库主要是指 MPP (Massively Parallel Processing,大规模并行处理)架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得广泛的应用。
[0006]NoSQL类型主要是指基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,用于应对传统关系型数据库较难处理的半/非结构化数据的存储和计算等。目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网领域的大数据存储、分析的支撑。对于半/非结构化数据处理、复杂的ETL(Exract-Transform_Load,抽取-转换-装载)流程、复杂的数据挖掘和计算模型,Hadoop更为擅长。
[0007]综上所述,针对MPP数据库和Hadoop业务间数据无法互通的问题,本发明提供了一种支持MPP数据库与Hadoop数据互通的方法,其中两者直接互通的方式,数据传输效率很高,是MPP数据库和Hadoop两种业务平台的混搭前提之一。

【发明内容】

[0008]本发明要解决的问题是针对MPP数据库和Hadoop业务之间无法互通的问题,提出一种MPP数据库与Hadoop集群数据互通方法及数据互通工具。为解决上述技术问题,本发明采用的技术方案是:一种MPP数据库与Hadoop集群数据互通方法,包括
[0009](I)利用数据互通工具将数据由MPP数据库直接导出至Hadoop集群,或数据由MPP数据库通过TXT中转导出至Hadoop集群;
[0010](2)利用数据互通工具将数据由Hadoop集群直接导入至MPP数据库,或数据由Hadoop集群通过TXT中转导入至MPP数据库。
[0011 ] 进一步的,所述利用数据互通工具将数据由MPP数据库直接导出至Hadoop集群的步骤为:
[0012](I)数据互通工具启动;
[0013](2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查,MPP数据库集群接收到状态检查SQL命令后,连接Hadoop集群并检查Hadoop集群指定目录的可写入状态,MPP数据库集群检查自身各节点状态和各数据分片状态;
[0014](3)导出元数据,数据工具向MPP数据库发送导出元数据SQL命令,MPP数据库集群收到导出元数据SQL命令后,将元数据导出到Hadoop文件系统指定目录;
[0015](4)获取数据库中的待导出表;
[0016](5)逐表导出数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导出SQL命令,MPP数据库集群收到表导出SQL命令后,执行数据导出操作,直接将数据导出到Hadoop集群的数据节点指定目录;
[0017](6)导出成功,正常退出;
[0018](7)导出失败,执行过程中断退出。
[0019]进一步的,所述数据由MPP数据库通过TXT中转导出至Hadoop集群的步骤为:
[0020](I)数据互通工具启动;
[0021](2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查。MPP数据库集群接收到状态检查SQL命令后,检查自身各节点状态和各数据分片状态;
[0022](3)导出元数据,数据互通工具向MPP数据库发送导出元数据SQL命令,MPP数据库集群收到导出元数据SQL命令后,将元数据导出到外部存储的指定目录,导出文件格式为 TXT。;
[0023](4)获取数据库中的待导出表;
[0024](5)逐表导出数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导出SQL命令,MPP数据库集群收到表导出SQL命令后,执行数据导出操作,直接将数据导出到外部存储指定目录;
[0025](6)Hadoop导入数据,在外部存储所在的物理机上安装Hadoop客户端,执行Hadoop的-put命令,将TXT格式的数据文件导入到Hadoop的指定目录中;
[0026](7)Hadoop导入数据成功,正常退出;
[0027](8)执行过程中断退出。
[0028]进一步的,所述利用数据互通工具将数据由Hadoop集群直接导入至MPP数据库的步骤为:
[0029](I)数据互通工具启动;
[0030](2)状态检查,数据互通工具向MPP数据库集群发送SQL命令,进行状态检查,MPP数据库集群接收到状态检查SQL命令后,连接Hadoop集群并检查Hadoop集群指定目录的可读取状态;同时MPP数据库集群检查自身各节点状态;
[0031](3)导入元数据,导入工具向MPP数据库发送导入元数据SQL命令,MPP数据库集群收到导入元数据SQL命令后,将元数据由Hadoop文件系统指定目录导入;
[0032](4)获取数据库中的待导入表;
[0033](5)逐表导入数据,数据互通工具采用逐表方式并行地向MPP数据库集群发送导入SQL命令,MPP数据库集群收到表导入SQL命令后,执行数据导入操作,直接访问Hadoop集群的数据节点将数据导入到MPP数据库;
[0034](6)导入成功,正常退出;
[0035](7)导入失败,执行过程中断退出。
[0036]进一步的,所述数据由Hadoop集群通过TXT中转导入至MPP数据库的步骤为:
[0037](I)Hadoop导出数据,在外部存储所在的物理机上
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1