一种混合存储介质的数据查询方法和装置的制造方法

文档序号:9844106阅读:314来源:国知局
一种混合存储介质的数据查询方法和装置的制造方法
【技术领域】
[0001]本发明涉及数据存储领域,特别是指一种混合存储介质的数据查询方法和装置。
【背景技术】
[0002]目前,企业级数据仓库一般采用数据库系统作为底层基础架构。在大数据背景下,很多企业开始尝试使用Hadoop (分布式计算)之类的新一代数据仓库技术进行构建。作为数据库和数据仓库领域的通用标准语言SQL (结构化查询语言),也顺势被移植到了 Hadoop上面。最典型也是当前最广泛应用的是Apache (世界使用排名第一的Web服务器软件)社区的Hive (数据仓库工具)工具,能够使用类似SQL的语言Hive QL对Hadoop里存储的大量数据进行查询。
[0003]在实际应用过程中,客户需要对大量数据进行汇集和转移,而原始数据往往位于Oracle (甲骨文公司)这样的传统数据库中。一般来讲,客户和项目实施方会根据数据的逻辑定义去确定数据转移到Hadoop平台中的存储格式,然后花大量时间进行数据ETL(数据从来源端经过萃取、转置、加载至目的端的过程)工作。对于TB (万亿字节)级别数据,针对国内普遍数据中心还处于千兆网的环境前提下,轻则1-2天,重则需要更长的时间甚至数周,而数据在搬运后还需要各种清洗加工,这对于希望能快速建模,探索大数据价值的公司来说,无疑是极大的时间成本。

【发明内容】

[0004]本发明要解决的技术问题是,提供一种混合存储介质的数据查询方法和装置,能够实现统一对混合存储介质上的数据进行查询。
[0005]一方面,提供一种混合存储介质的数据查询方法,包括:
[0006]获取待查询数据表;
[0007]在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;
[0008]根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。
[0009]当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;
[0010]当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。
[0011 ] 所述地址信息还包括:端口。
[0012]所述的方法,还包括:
[0013]根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。
[0014]所述获取待查询数据表的步骤之前,所述方法还包括:
[0015]获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;
[0016]根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;
[0017]建立各数据表与所述各数据表的地址信息之间的对应关系。
[0018]另一方面,提供一种混合存储介质的数据查询装置,包括:
[0019]第一获取模块,获取待查询数据表;
[0020]第二获取模块,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;
[0021]查找模块,根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。
[0022]当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;
[0023]当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。
[0024]所述地址信息还包括:端口。
[0025]所述的装置,还包括:
[0026]读取模块,根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。
[0027]所述的装置,还包括:
[0028]第三获取模块,获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;
[0029]形成模块,根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;
[0030]建立模块,建立各数据表与所述各数据表的地址信息之间的对应关系。
[0031]本发明的上述技术方案的有益效果如下:
[0032]本发明通过对地址信息的建立,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址,能够实现统一对混合存储介质上的数据进行查询。
【附图说明】
[0033]图1为本发明所述的一种混合存储介质的数据查询方法的流程示意图;
[0034]图2为本发明所述的一种混合存储介质的数据查询装置的连接示意图。
【具体实施方式】
[0035]为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0036]如图1所示,为本发明所述的一种混合存储介质的数据查询方法,包括:
[0037]步骤10A,获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;
[0038]步骤10B,根据所述各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址,形成各数据表的地址信息;
[0039]步骤10C,建立各数据表与所述各数据表的地址信息之间的对应关系。
[0040]其中上述步骤为准备步骤,为后续处理作准备。本发明构建了混合存储介质的存储记录方式,定义了不同的存储类型,然后记录了数据在不同存储类型上的分布。具体来说,以二维表为最小管理单位,元数据会记录每个表分布的存储介质,以及在该存储介质具体的存储地址。举例来讲,一个数据表,可能会分布在关系数据库中,那么地址信息会记录表名、数据库地址、数据库名称这样的三元组;如果分布在HDFS中,那么地址信息会记录表名、HDFS —任意节点的地址、HDFS的URL这样的三元组;更进一步的,这个表也可以同时存在HDFS和传统数据库里。因此每个数据表会对应一个存储列表,里面有一系列的存储节点,而这些不同类型的存储节点都有定义好的一致的地址、表示方式和读写接口。
[0041 ] 步骤11,获取待查询数据表;
[0042]步骤12,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。
[0043]步骤13,根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。
[0044]可选的,所述地址信息还包括:端口,便于后续对数据库的读取。端口也就是数据库的读取接口。
[0045]相应的,所述的方法,还包括:
[0046]步骤14,根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。
[0047]如图2所示,为本发明所述的一种混合存储介质的数据查询装置,包括:
[0048]第一获取模块21,获取待查询数据表;
[0049]第二获取模块22,在地址数据库中,获取所述待查询数据表对应的至少一个地址信息,所述地址信息记录有所述待查询数据表所在的一存储介质以及所述待查询数据表在所述存储介质中的存储地址;当所述存储介质为关系数据库时,所述地址信息包括:数据库地址和数据库名称;当所述存储介质为HDFS时,所述地址信息包括:节点地址和文件路径。所述地址信息还包括:端口。
[0050]查找模块23,根据所述地址信息中的所述存储介质以及所述存储地址,在所述存储介质的所述存储地址处,查找所述待查询数据表。
[0051]所述的装置,其特征在于,还包括:
[0052]读取模块24,根据所述端口,从所述存储介质的所述存储地址处,读取查找的所述待查询数据表。
[0053]所述的装置,还包括:
[0054]第三获取模块25,获取各数据表所在的存储介质以及各数据表在所述存储介质中的存储地址;
[0055]形成模块26,根据
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1