一种海量数据分布式存储的方法

文档序号:9767863阅读:678来源:国知局
一种海量数据分布式存储的方法
【技术领域】
[0001 ]本发明涉及一种海量数据分布式存储的方法。
【背景技术】
[0002]互联网技术的迅速发展、信息设备的普及、以及企业及个人对信息技术的广泛应用促进了数据的大规模增长。如果说以前的数据主要是业务部门产生和利用的话,如今则是全民制造和分享数据。数据正变得无处不在,并通过各种可能的方式影响着企业业务和每个人的生活,社会进入了大数据(big data)时代。
[0003]数据的疯狂增长,也使得传统的数据存储模型遭遇了新的挑战:磁盘容量快速增加的同时,其访问速度并没有显著的提高,带来的直接后果是传统的数据存储方式无法胜任互联网时代的海量数据处理任务,Google率先设计并实现了一个新的分布式文件系统GFS(Google File System)来解决了上述问题,继而Apache发布了GFS的开源版本HDFS(Hadoop Distributed File System)。
[0004]HDFS是大数据分布式解决方案中非常优秀并且实用存储平台,可以从多方面解决大数据存储的问题,但其具有一个先天性的缺陷,即数据安全性只能通过增加副本的策略来保证。比如,假设每个结点出问题的概率为50%,则I份源数据加2份副本数据的策略,整个平台出问题的概率为12.5%;再增加6个副本,则该平台出问题的概率可以降为0.2%,但此时数据冗余度极大,将浪费8倍于源数据的存储空间。

【发明内容】

[0005]为了克服现有技术的上述缺点,本发明提供了一种海量数据分布式存储的方法,既可以解决大数据访问的速度问题,又可以在一定程度上解决大数据低冗余度与高安全性之间的矛盾。
[0006]本发明解决其技术问题所采用的技术方案是:一种海量数据分布式存储的方法,将数据存储区分为data区、copy区和coding区,其中:data区用于存储源数据;copy区用于存储副本数据,copy区与data区构成一个多副本完全备份容灾系统;coding区用于和data区构成一个完整的信息关联容灾系统。
[0007]进一步地,所述多副本完全备份容灾系统是指:每次写数据时,首先将原始数据写入data区,然后利用动态副本策略,系统自动进行数据复制,在copy区写入数据副本。
[0008]更进一步地,data区和copy区的存储节点通过心跳机制定期向管理节点报告自身状态,管理节点据此判断该存储节点是否正常工作,一旦管理节点接收不到某一存储节点发送来的状态信息,就会判定该存储节点不能正常工作,从而将该存储节点上的数据重新恢复到其他正常工作的存储节点上,确保整个文件系统中数据维持特定的副本数。
[0009]更进一步地,所述多副本完全备份容灾系统在数据存储和复制过程中,管理节点通过存储节点的状态信息,均衡地分配待存储的数据,使得原始数据的多个副本存放在不同的物理节点上。
[0010]进一步地,所述信息关联容灾系统对coding区数据进行编码的方法是:对一个存储节点的η个扇区,将每个扇区划分为η等份,每一份称为一个块;要使系统能够容忍小于等于t/2个错误,则将每个扇区的前η — t块设置为信息块,存储有效信息,后t块设置为校验块,存储校验信息;当有部分硬盘出现故障时,系统使用余下的完好硬盘上对应扇区的数据译码恢复出故障硬盘扇区上的有效数据,并且在整个编译码过程中仅需要异或操作。
[0011]进一步地,所述信息关联容灾系统能够在恢复错误的同时提供不间断的读取服务:当系统中出现故障时,管理员用全新的硬盘替换错误的硬盘,并启动数据恢复过程;之后当系统接收到数据读取请求时,则仅读取未出错的旧硬盘上相应数据;在进行译码恢复数据并提供服务之后,重新编码得到丢失的部分校验信息,并将存储于错误硬盘上的数据存储到新硬盘上。
[0012]进一步地,所述信息关联容灾系统能够在系统空闲一段时间后,单独进行错误的恢复。
[0013]与现有技术相比,本发明的积极效果是:
[0014]本发明从大数据存储成本、效率和负载均衡的角度,提出并设计实现一种基于数据信息关联策略和动态副本策略相结合的新方法,该方法可以在保证集群数据安全性的同时,显著提高系统数据恢复的速度,优化系统的负载均衡能力,降低系统整体的存储成本。
【具体实施方式】
[0015]本发明方法将数据存储区分为:data区、copy区和coding区。data区用于存储源数据,即当数据第一次进入该存储平台时,数据存储的区域;copy区用于存储副本数据,即当data区存储了某一数据后,立刻在copy区通过复制的方法存储该数据的一个副本;copy区与data区构成了一个实施动态副本策略的HDFS系统(多副本完全备份容灾系统);coding区用于和data区构成一个完整的信息关联容灾系统。
[0016]该方法中,copy区与data区构成了一个实施动态副本策略的多副本完全备份容灾系统。每次写数据时,首先将原始数据写入data区,然后利用data-copy之间的动态副本策略,系统自动进行数据复制,在copy区写入数据副本,从而使得data区和copy区构成一个完整的基于复制策略的动态副本系统。
[0017]其特点之一是具有高容错性,data区和copy区的存储节点会通过心跳机制定期向管理节点报告自身状态,管理节点据此判断该存储节点是否正常工作,一旦管理节点接收不到该存储节点发送来的状态信息,就会判定该存储节点不能正常工作,从而将该存储节点上的数据重新恢复到其他存储节点上,以保证整个文件系统中数据维持特定的副本数。因此,理想状态下data-copy区的数据会处于一种动态的平衡,从而达到数据高容错的目的。
[0018]其特点之二是负载均衡。一方面,数据存储和复制过
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1