数据存储处理方法及装置的制造方法

文档序号:9579338阅读:335来源:国知局
数据存储处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信领域,具体而言,涉及一种数据存储处理方法及装置。
【背景技术】
[0002]Hadoop,是一种开源的大数据存储和分析平台,已成为业界处理大数据的事实标准。Hadoop平台包含分布式文件系统(Hadoop Distributed File System,简称为HDFS)和MapRedUce(并行计算框架)两个重要的子系统,其中HDFS为海量的数据提供存储,MapReduce为海量的数据提供计算。
[0003]Hadoop 存储
[0004]Hadoop是一个高度容错的多副本的分布式系统,适用于部署在廉价的机器上,并且Hadoop支持机器上多块硬盘的并行数据写入和读取。
[0005]因此随着大数据的发展,数据量急剧增加,企业为了减少成本采用Hadoop平台部署在廉价的PC服务器(Server)上,Hadoop采用多副本存储文件,保证了在廉价的设备上文件的可靠性。
[0006]HBASE
[0007]HBASE是一个分布式、面向列的开源数据库,是基于HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。HBASE是大数据分析平台Hadoop平台生态系统中重要的组成部分,并在业界获得了广泛的应用。HBASE在HDFS上存储的模式采用以列为主模式进行存储,每一列对应一个或多个存储文件。下面针对HBASE对数据的存储进行说明。
[0008]在HBASE数据库中创建表时,HBASE的处理方案是:创建HBASE表时,系统对于所有列数据采用同样副本数的进行存储,同时副本数不允许用户创建表时设置,只能依赖HBASE系统默认设置的3副本。即表数据中所有列全部采用3副本存储。
[0009]从以上技术方案可以看出,相关技术中的HBASE处理表数据存储的方案存在以下缺点:硬件成本高:对于所有存储在HBASE的表数据采用同一种存储副本,对于重要数据和非重要数据,存储副本相同,大大占用了硬件成本。数据不能差异化处理:对于热点数据列,希望多副本,以提高读取速度,现在无法实现差异化针对单独数据列进行设置存储副本。
[0010]因此,在相关技术中,对于HBASE处理表数据存储时,无法对数据进行差异化存储处理,不仅存在存储资源的浪费,而且对于数据的读取效率也低的问题。

【发明内容】

[0011]本发明提供了一种数据存储处理方法及装置,以至少解决相关技术中,对于HBASE处理表数据存储时,无法对数据进行差异化存储处理,不仅存在存储资源的浪费,而且对于数据的读取效率也低的问题。
[0012]根据本发明的一个方面,提供了一种数据存储处理方法,包括:获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数,其中,所述HBASE表中各个列族存储数据副本的副本数不同;依据获取的所述副本数生成对所述数据的存储副本。
[0013]优选地,在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前,还包括:在建立所述HBASE表时,通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性,依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。
[0014]优选地,在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前,还包括:接收到动态输入的所述副本数。
[0015]优选地,通过以下方式至少之一,获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数:接收携带所述副本数的命令;接收携带所述副本数的Web页面信息。
[0016]优选地,依据获取的所述副本数生成对所述数据的所述存储副本包括:在数据写入时,将所述副本数传递到HBASE数据写入文件类;依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。
[0017]优选地,在依据获取的所述副本数生成对所述数据的所述存储副本之后,还包括:读取依据所述副本数单独加载的所述存储副本。
[0018]根据本发明的另一方面,提供了一种数据存储处理装置,包括:获取模块,用于获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数,其中,所述HBASE表中各个列族存储数据副本的副本数不同;生成模块,用于依据获取的所述副本数生成对所述数据的存储副本。
[0019]优选地,该装置还包括:创建模块,用于在建立所述HBASE表时,通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性,依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。
[0020]优选地,该装置还包括:接收模块,用于接收到动态输入的所述副本数。
[0021]优选地,所述获取模块包括以下至少之一:第一接收单元,用于接收携带所述副本数的命令;第二接收单元,用于接收携带所述副本数的Web页面信息。
[0022]优选地,所述生成模块包括:传递单元,用于在数据写入时,将所述副本数传递到HBASE数据写入文件类;生成单元,用于依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。
[0023]优选地,该装置还包括:读取模块,用于读取依据所述副本数单独加载的所述存储副本。
[0024]通过本发明,采用获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数,其中,所述HBASE表中各个列族存储数据副本的副本数不同;依据获取的所述副本数生成对所述数据的存储副本,不仅解决了相关技术中,对于HBASE处理表数据存储时,无法对数据进行差异化存储处理,不仅存在存储资源的浪费,而且对于数据的读取效率也低的问题,进而达到了对HBASE的列族设置了不同的副本数,实现了对数据有区别地存储,在不降低数据写入读取的前提下,能够有效降低存储成本的效果。
【附图说明】
[0025]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0026]图1是根据本发明实施例的数据存储处理方法的流程图;
[0027]图2是根据本发明实施例的数据存储处理装置的结构框图;
[0028]图3是根据本发明实施例的数据存储处理装置的优选结构框图一;
[0029]图4是根据本发明实施例的数据存储处理装置的优选结构框图二 ;
[0030]图5是根据本发明实施例的数据存储处理装置中获取模块22的优选结构框图;
[0031]图6是根据本发明实施例的数据存储处理装置中生成模块24的优选结构框图;
[0032]图7是根据本发明实施例的数据存储处理装置的优选结构框图三;
[0033]图8是根据本发明实施方式的HBASE存储结构示意图;
[0034]图9是根据本发明实施方式的HBASE数据逻辑视图;
[0035]图10是根据本发明优选实施方式的动态创建HBASE多副本的流程图。
【具体实施方式】
[0036]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0037]在本实施例中提供了一种数据存储处理方法,图1是根据本发明实施例的数据存储处理方法的流程图,如图1所示,该流程包括如下步骤:
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1