一种大数据存储方法

文档序号:7775552阅读:337来源:国知局
一种大数据存储方法
【专利摘要】本发明实施例提供了一种大数据存储方法,实现无中心的、高效的大数据存储,以克服现有Hadoop的单点故障问题。本发明实施例提供的一种大数据存储方法,应用于两台及以上的服务器集群中,包括:选取至少两台服务器启动GlusterFS服务,将所述至少两台服务器本地的存储资源共享成GlusterFS的基本存储单元,并将所述基本存储单元组成一个GlusterFS的卷;选取集群中任意一台服务器挂载所述卷;在所述挂载所述卷的服务器上启动Hadoop的名称节点服务,并将所述名称节点的数据存储在挂载的卷上。
【专利说明】一种大数据存储方法
【技术领域】
[0001]本发明涉及计算机数据存储领域,具体涉及一种大数据存储方法。
技术背景
[0002]Hadoop是一个能够让用户轻松架设和使用的分布式计算平台,Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,具有高效性、高扩展性、高容错性,可移植性等优点。Hadoop是架设大型数据中心的最佳选择,但是Hadoop的架构中有一个很危险的缺陷——单点失效。Hadoop存在着一个唯一的名称节点,它负责管理文件系统名称空间和控制外部客户机的访问,一旦名称节点出现故障,就很大程度会导致集群的数据丢失,发生灾难性的后果。
[0003]现有的技术方案是将名称节点的数据备份的网络存储器上,例如网络文件系统NFS,一旦出现故障采取人工方式进行恢复,恢复期间无法对数据进行访问使用,且增加了架设及维护网络服务器的成本。

【发明内容】

[0004]本发明主要提供了一种大数据存储方法,实现无中心的、高效的大数据存储。
[0005]本发明实施例提供了一种大数据存储方法,应用于两台及以上的服务器集群中,包括:选取至少两台服务器启动GlusterFS服务,将所述至少两台服务器本地的存储资源共享成GlusterFS的基本存储单元,并将所述基本存储单元组成一个GlusterFS的卷;选取集群中任意一台服务器挂载所述卷;在所述挂载所述卷的服务器上启动Hadoop的名称节点服务,并将所述名称节点的数据存储在挂载的卷上。
[0006]其中,所述基本存储单元数目为启动GlusterFS服务的服务器台数。
[0007]其中,进一步包括:所述挂载所述卷的服务器宕机,选取其他服务器挂载所述卷。
[0008]本发明实施例提供的一种大数据存储方法,在集群中同时搭建两种分布式文件系统GlusterFS和Hadoop,采用GlusterFS来保存名称节点的数据,保证Hadoop的名称节点数据的安全性,实现了无中心的、高效的大数据存储,消除了 Hadoop的单点故障。
【专利附图】

【附图说明】
[0009]图1所示为本发明实施例提供的一种大数据存储方法流程图。
【具体实施方式】
[0010]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0011]本发明实施例提供一种大数据存储方法,应用于两台及以上的服务器集群,实现无中心的、高效的大数据存储。
[0012]图1所示为本发明实施例提供的一种大数据存储方法流程图。如图1所示,该方法包括:
[0013]步骤101:选取至少两台服务器启动GlusterFS服务,将该至少两台服务器本地的存储资源共享成GlusterFS的基本存储单元,并将该基本存储单元组成一个GlusterFS的卷;
[0014]在服务器集群中,选择N台服务器,在每台服务器上启动GlusterFS服务,把该N台服务器本地的存储资源共享成GlusterFS的一个基本存储单元(brick),这样就有N个基本存储单元,通过配置协商把这N个基本存储单元进一步组成一个GlusterFS的卷(volume)。
[0015]其中,N为大于等于二的整数,选择N台服务器启动GlusterFS服务,写入GlusterFS中的数据就会同步到这N台上,相当于一份数据在N台服务器上做了备份,只要有一台服务器工作正常,则数据不会丢失。
[0016]步骤102:选取集群中任意一台服务器挂载该卷;
[0017]由于GlusterFS是一个分布式的文件系统,只要集群服务器之间网络互通,就可以随意选择一台挂载该卷。
[0018]步骤103:在挂载该卷的服务器上启动Hadoop的名称节点服务,并将名称节点的数据存储在挂载的卷上。
[0019]这样名称节点(NameNode)的数据就都存储在了 GlusterFS文件系统里,Hadoop的名称节点产生数据时,直接写入了挂载的卷里,对于GlusterFS来说,每次接收到数据以后,就会将此份数据同步到所有的基本存储单元上,即N台启动了 GlusterFS服务的服务器,相当于有了 N个备份,且这N台数据是完全一样的,都是完成的名称节点的数据。
[0020]启动Hadoop的其他计算节点,与该名称节点共同组成完整的Hadoop服务体系,对外提供大数据的处理工作。
[0021]当挂载了卷的服务器宕机或发生异常时,可以进一步包括:在其他服务器上挂载该卷,然后启动名称节点服务,数据不会有任何的损失,Hadoop继续正常的提供服务;若不是挂载该卷的服务器宕机或发生异常,不会对Hadoop服务产生影响。
[0022]本发明实施例提供的一种大数据存储方法,在集群中同时搭建两种分布式文件系统GlusterFS和Hadoop,采用GlusterFS来保存名称节点的数据,保证Hadoop的名称节点数据的安全性,实现了无中心的、高效的大数据存储,消除了 Hadoop的单点故障。
[0023]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种大数据存储方法,特征在于,应用于两台及以上的服务器集群中,所述方法包括: 选取至少两台服务器启动GlusterFS服务,将所述至少两台服务器的本地存储资源共享成GlusterFS的基本存储单元,并将所述基本存储单元组成一个GlusterFS的卷; 选取集群中任意一台服务器挂载所述卷; 在所述挂载所述卷的服务器上启动Hadoop的名称节点服务,并将所述名称节点的数据存储在挂载的卷上。
2.根据权利要求1所述的方法,其特征在于,所述基本存储单元数目为启动GlusterFS服务的服务器台数。
3.根据权利要求1所述的方法,其特征在于,进一步包括:所述挂载所述卷的服务器宕机,选取其他服务器挂载所述卷。
【文档编号】H04L29/08GK103634372SQ201310540707
【公开日】2014年3月12日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】井淑明 申请人:天津汉柏信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1