一种基于分布式文件系统的大数据存储访问系统及方法

文档序号:7818480阅读:213来源:国知局
一种基于分布式文件系统的大数据存储访问系统及方法
【专利摘要】本发明公开了一种基于分布式文件系统的大数据存储访问系统及方法,其中,基于分布式文件系统的大数据存储访问系统包括分布式文件系统,所述分布式文件系统包括元数据服务器、存储服务器集群、访问客户端及日志服务器;所述元数据服务器对分布式文件系统中的元数据信息及对所述存储服务器集群进行管理监控;所述存储服务器集群将元数据信息中包含的数据存储在存储服务器集群的若干个数据存储节点;所述日志服务器对所述元数据服务器中的元数据信息进行备份并实时同步元数据服务器的操作日志;所述访问客户端用于根据元数据服务器的连接状态,选择通过元数据服务器或日志服务器中的备用元数据服务进程访问存储服务器集群。
【专利说明】一种基于分布式文件系统的大数据存储访问系统及方法

【技术领域】
[0001]本发明涉及数据存储访问【技术领域】,具体涉及一种基于分布式文件系统的大数据存储访问系统及方法。

【背景技术】
[0002]基于hadoop的Namenode (即管理节点)用于生产环境时,存储单点问题。目前解决这一问题的方案主要是J^Namenode的元数据信息存储在NFS (Network File System,网络文件系统)上,Namenode的主、备进程所在的主机都作为NFS的客户端,分别能够访问NFS上存储的元数据信息。当Namenode的主节点进程退出后,主进程所维护的元数据存储在NFS上,Namenode的备节点进程依然可以正常访问NFS上的元数据,这样Namenode的备节点进程就完全接管了 Namenode的主节点进程的工作了。
[0003]采用NFS管理文件存储,管理节点服务端容易遇到磁盘瓶颈、带宽瓶颈,影响业务响应速度;管理节点服务端存储空间不能动态扩展等问题。
[0004]第一,管理节点服务端磁盘易遇到瓶颈:数据统一存储在管理节点服务端磁盘上,多个不同的访问客户端同时发起数据访问请求,管理节点服务端磁盘容易遇到瓶颈,影响性能。
[0005]第二,管理节点服务端带宽易遇到瓶颈:数据是统一存储在管理节点服务端磁盘上的,多个不同访问客户端同时发起数据访问请求时,流向不同访问客户端的数据都要从管理节点服务端网卡流出,管理节点服务端带宽容易容易达到瓶颈,影响性能。
[0006]第三,管理节点服务端存储空间不能动态扩展:数据只能存储在管理节点服务端某目录下,当管理节点服务端存储空间不够进行扩展时需停止共享服务。扩展存储空间后,再次启动存储空间,扩展的过程需要停止上层应用系统。
[0007]第四,管理节点服务端单点问题:数据存储在管理节点服务端,服务端发生断网、宕机,所有访问客户端都不能再访问服务端上的数据,应用业务会随着服务端故障而发生故障,业务会停止服务。


【发明内容】

[0008]本发明所要解决的技术问题是提供一种基于分布式文件系统的大数据存储访问系统及方法,能够解决大数据存储访问过程中管理服务器单点问题。
[0009]依据本发明的一个方面,提供了一种基于分布式文件系统的大数据存储访问系统,包括分布式文件系统,所述分布式文件系统包括元数据服务器、存储服务器集群、访问客户端及日志服务器;
[0010]所述元数据服务器用于对分布式文件系统中的元数据信息进行管理及对所述存储服务器集群进行管理监控;
[0011]所述存储服务器集群用于按照预定规则将元数据信息中包含的数据存储在存储服务器集群的若干个数据存储节点;
[0012]所述日志服务器用于对所述元数据服务器中的元数据信息按照预定时间间隔进行备份并实时同步元数据服务器的操作日志;
[0013]所述访问客户端用于根据元数据服务器的连接状态,选择通过元数据服务器或日志服务器中的备用元数据服务进程访问存储服务器集群。
[0014]依据本发明的另一个方面,提供了一种基于分布式文件系统的大数据存储访问方法,包括:
[0015]按照预定规则将元数据中包含的数据存储在存储服务器集群的若干个存储节点,并由元数据服务器对元数据信息及所述存储服务器集群进行管理监控;
[0016]日志服务器按照预定时间间隔对元数据服务器中的元数据信息进行备份,并实时同步元数据服务器的操作日志;
[0017]访问客户端向元数据服务器发送数据访问请求;
[0018]根据元数据服务器的连接状态,所述访问客户端选择通过元数据服务器或日志服务器中的备用元数据服务进程访问存储服务器集群。
[0019]本发明提供的一种基于分布式文件系统的大数据存储访问系统及方法,将数据存储在存储服务器集群的若干个存储节点上,解决了现有技术的服务端磁盘瓶颈及带宽瓶颈,且服务端的存储空间很容易动态扩展;元数据服务器对存储服务器集群进行监控管理,日志服务器对元数据服务器的元数据进行备份并同步其操作日志,当元数据服务器处于异常状态时,访问客户端可以通过日志服务器中备用的元数据服务进程对存储服务器集群进行访问,解决了现有技术中的管理节点服务端单点问题。

【专利附图】

【附图说明】
[0020]图1为本发明实施例一的一种基于分布式文件系统的大数据存储访问系统示意图;
[0021]图2为本发明实施例二的一种基于分布式文件系统的大数据存储访问方法流程图。

【具体实施方式】
[0022]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0023]实施例一、一种基于分布式文件系统的大数据存储访问系统。下面结合图1对本实施例提供的系统进行详细说明。
[0024]图1中,本实施例提供的一种基于分布式文件系统的大数据存储访问系统包括分布式文件系统,其中,分布式文件系统包括元数据服务器101、存储服务器集群102、访问客户端103和日志服务器104。
[0025]其中,元数据服务器101主要用于对分布式文件系统中的元数据信息进行管理及对存储服务器集群102进行管理监控。
[0026]存储服务器集群102主要用于按照预定规则将元数据信息中包含的数据存储在存储服务器集群的若干个数据存储节点。
[0027]具体的,在本实施例中,存储服务器集群102有若干个管理节点服务器,每个管理节点服务器均管理若个存储服务器节点,形成存储服务器集群102,对大数据进行分布式存储。
[0028]具体实施时,元数据服务器101对分布式文件系统中的元数据信息进行管理,并对存储服务器集群102进行监控管理。元数据服务器101按照预定规则对元数据信息中包含的数据进行切分,将数据切分成若干块,并按照一定的策略将切分后的若干块数据存储在不同的存储服务器节点上,比如,可以按照当前存储服务器的剩余存储空间来进行分配,将数据尽量存储在剩余空间比较大的存储服务器节点上。
[0029]元数据服务器101还对存储服务器集群102进行管理监控,比如对各个存储服务器上的数据存储量进行监控,以免存储服务器上存储的数据量过大使存储服务器崩溃;再比如,对各个存储服务器的连接状态进行监控,以便随时了解存储服务器的连接状态。
[0030]另外,分布式文件系统中的虚拟IP配置模块还对元数据服务器101配置虚拟IP,访问客户端103可以通过虚拟IP登陆元数据服务器101对存储服务器集群102进行数据的访问。其中,元数据服务器管理进程与虚拟IP功能绑定,两者同时存储,同时迁移。
[0031]日志服务器104主要用于对元数据服务器101中的元数据信息按照预定时间间隔进行备份并实时同步元数据服务器101的操作日志。
[0032]具体的,存储服务器集群102对大数据进行了分布式的存储,并由元数据服务器101对存储服务器集群102进行管理监控,日志服务器104对元数据服务器101中的元数据信息进行备份。
[0033]访问客户端103主要用于向元数据服务器101发送数据访问请求并根据元数据服务器101的连接状态,选择通过元数据服务器101或日志服务器104中备用的元数据服务进程访问存储服务器集群。
[0034]具体的,若访问客户端103希望对存储服务器集群102中的数据进行访问时,访问客户端103会向元数据服务器101发送数据访问请求。
[0035]当元数据服务器101处于在线状态时,访问客户端103通过虚拟IP配置模块配置的虚拟IP登陆元数据服务器101,进而通过元数据服务器101对存储服务器集群102进行数据的访问。
[0036]当元数据服务器101处于离线状态时(比如断网、宕机或发生故障),将元数据服务器服务进程及配置的虚拟IP切换至日志服务器104启动,由日志服务器104中备用的元数据服务进程接管元数据服务器101的功能,即此时由日志服务器104中备用的元数据服务进程来对存储服务器集群102进行管理,访问客户端103依然可以通过虚拟IP配置模块给元数据服务器101配置的虚拟IP登陆日志服务器104,进而通过日志服务器104中备用的元数据服务进程对存储服务器集群102进行数据的访问。
[0037]如前所述,日志服务器104会按照预定时间间隔对元数据服务器101中的元数据信息进行备份,并且会实时同步元数据服务器101的操作日志。当元数据服务器101处于离线状态时,将元数据服务器服务进程及配置的虚拟IP切换至日志服务器104启动。此时,日志服务器104中备用的元数据服务进程会根据日志服务器104从元数据服务器101备份的元数据信息以及同步的操作日志恢复出最新的元数据信息,供访问客户端进行访问。日志服务器104中备用的元数据服务进程根据恢复出的最新的元数据信息,加载该恢复出的元数据信息中的数据,启动管理进程,对整个分布式文件系统进行管理,访问客户端103此时可以通过原虚拟IP登陆日志服务器104,通过日志服务器中的备用元数据服务进程对存储服务器集群102进行数据的访问。
[0038]实施例二、一种基于分布式文件系统的大数据存储访问方法。下面结合图2对本实施提供的方法进行详细说明。
[0039]图2中,S201、按照预定规则将元数据信息中包含的数据存储在存储服务器集群的若干个存储节点,并由元数据服务器对存储服务器集群进行管理监控。
[0040]具体的,现有技术中存储服务器集群只有一个管理节点服务器,将数据存储在存储服务器集群中,访问客户端对存储服务器集群中的数据进行访问时,均需要通过管理节点服务器网卡进行数据流出,因此会存在管理节点服务器的存储空间以及带宽瓶颈。在本实施例中,存储服务器集群有若干个管理节点服务器,每个管理节点服务器均管理若个存储服务器节点,形成存储服务器集群,对大数据进行分布式存储。
[0041]具体实施时,元数据服务器对分布式文件系统中的元数据信息进行管理,并对存储服务器集群进行监控管理。比如,元数据服务器管理分布式文件系统中的元数据信息(包括文件目录树组织、属性维护、文件操作日志的记录、访问客户端的授权访问等),管理整个存储系统的命名空间,协调访问客户端与存储服务器集集群的数据存储和访问,提供对名称空间、访问控制信息、文件与存储块映射信息、块位置等信息的管理。元数据服务器按照预定规则对元数据信息中包含的数据进行切分,将数据切分成若干块,并按照一定的策略将切分后的若干块数据存储在不同的存储服务器节点上,比如,可以按照当前存储服务器的剩余存储空间来进行分配,将数据尽量存储在剩余空间比较大的存储服务器节点上。
[0042]元数据服务器还对存储服务器集群进行管理监控,比如对各个存储服务器上的数据存储量进行监控,以免存储服务器上存储的数据量过大使存储服务器崩溃;再比如,对各个存储服务器的连接状态进行监控,以便随时了解存储服务器的连接状态。
[0043]另外,分布式文件系统还对元数据服务器配置虚拟IP,访问客户端可以通过虚拟IP登陆元数据服务器,进而通过元数据服务器对存储服务器集群进行数据的访问。其中,元数据服务器管理进程与虚拟IP功能绑定,两者同时存储,同时迁移。
[0044]S202、日志服务器按照预定时间间隔对元数据服务器中的元数据信息进行备份,并实时同步元数据服务器的操作日志。
[0045]具体的,上述步骤对大数据进行了分布式的存储,并由元数据服务器对存储服务器集群进行管理监控,此步骤日志服务器对元数据服务器中的元数据信息进行备份。具体实施时,日志服务器按照预定时间间隔对元数据服务器中的元数据信息进行备份,比如,可以每隔一小时对元数据服务器中的元数据信息进行备份。日志服务器对元数据服务器的操作日志也实时同步,比如,访问客户端通过元数据服务器对存储服务器集群进行了更新操作,在元数据服务器中会形成操作日志,日志服务器会实时同步元数据服务器的这些操作日志。
[0046]S203、访问客户端向元数据服务器发送数据访问请求。
[0047]具体的,将数据按照预定规则存储在存储服务器集群中以后,如果访问客户端希望对存储服务器集群中的数据进行访问时,访问客户端会向元数据服务器发送数据访问请求。
[0048]S204、根据元数据服务器的连接状态,访问客户端选择通过元数据服务器或日志服务器中备用的元数据服务进程访问存储服务器集群。
[0049]具体的,分布式文件系统会对元数据服务器实时进行心跳检测,即对元数据服务器的连接状态进行实时的监测。当元数据服务器处于在线状态时,访问客户端通过分布式文件系统配置的虚拟IP登陆元数据服务器,进而通过元数据服务器对存储服务器集群进行数据的访问。具体实施时,当元数据服务器接收到访问客户端的数据访问请求时,元数据服务器首先会对访问客户端的访问权限进行验证,若访问客户端的访问权限验证通过时,元数据服务器会按照预定的路由规则匹配出供访问客户端访问的存储服务器。比如,若干个访问客户端同时向元数据服务器发送数据访问请求,元数据服务器会进行均衡负载,将数据访问压力非常均衡的分布在存储服务器集群之间,以免造成存储服务器集群崩溃。
[0050]当元数据服务器处于离线状态时(比如断网、宕机或发生故障),将元数据服务器服务进程及配置的虚拟IP切换至日志服务器启动,由日志服务器中备用的元数据服务进程接管元数据服务器的功能,即此时由日志服务器中备用的元数据服务进程来对存储服务器集群进行管理,访问客户端依然可以通过分布式文件系统给元数据服务器配置的虚拟IP登陆日志服务器中备用的元数据服务进程,进而通过备用的元数据服务进程对存储服务器集群进行数据的访问。
[0051]如前所述,日志服务器会按照预定时间间隔对元数据服务器中的元数据进行备份,并且会实时同步元数据服务器的操作日志。当访问客户端通过元数据服务器对存储服务器集群进行访问后,会在元数据服务器中形成操作日志,比如对存储服务器集群中的数据进行了更新,会在元数据服务器中形成更新操作日志。
[0052]当元数据服务器处于离线状态时,将元数据服务器服务进程及配置的虚拟IP切换至日志服务器启动。此时,日志服务器中备用的元数据服务进程会根据日志服务器从元数据服务器备份的元数据信息以及同步的操作日志恢复出最新的元数据信息,加载恢复出的最新的元数据信息,供访问客户端进行访问。比如,日志服务器每隔I小时对元数据服务器中的元数据信息进行备份,并实时同步元数据服务器中的操作日志,若此时元数据服务器处于离线状态,则日志服务器中备用的元数据服务进程根据备份的元数据服务器离线前的I小时内的元数据信息以及在这I小时内的操作日志,恢复出在这I小时内的元数据信肩、O
[0053]日志服务器中备用的元数据服务进程根据恢复出的最新的元数据信息,加载该恢复出的元数据信息,启动管理进程,对整个分布式文件系统进行管理,访问客户端此时可以通过日志服务器中备用的元数据服务进程对存储服务器集群进行数据的访问。
[0054]本发明提供的一种基于分布式文件系统的大数据存储访问系统及方法,将大数据按照预定的规则切分后存储在存储服务器集群的若干个存储节点,利用分布式文件系统分布式存储数据的特点,数据存储在存储服务器集群的不同存储节点上,解决了现有技术的服务器磁盘的存储空间问题;当访问客户端进行数据访问时,数据流从不同的数据存储节点流出,解决了数据节点的带宽瓶颈,也加快了数据的访问速度;存储服务器集群中的存储节点数目可以根据具体的需要动态的增加或删除,在不影响当前服务的前提下,存储服务器集群的存储空间可以动态伸缩。
[0055]在现有的分布式文件系统中增加了日志服务器,实时同步分布式文件系统中管理节点(也可以说元数据服务器)的元数据信息及操作日志,分布式文件系统拥有使用HA(High Availability,高可用)做管理进程的切换。当元数据服务器发生故障、断网或宕机时,HA做管理进程的切换,将元数据服务器的服务进程切换到日志服务器中备用的元数据服务进程,日志服务器中备用的元数据服务进程接管元数据服务器的功能,管理分布式文件系统,访问客户端可以通过日志服务器中备用的元数据服务进程访问存储服务器集群。
[0056]以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种基于分布式文件系统的大数据存储访问系统,其特征在于,包括分布式文件系统,所述分布式文件系统包括元数据服务器、存储服务器集群、访问客户端及日志服务器; 所述元数据服务器用于对分布式文件系统中的元数据信息进行管理及对所述存储服务器集群进行管理监控; 所述存储服务器集群用于按照预定规则将元数据信息中包含的数据存储在存储服务器集群的若干个数据存储节点; 所述日志服务器用于对所述元数据服务器中的元数据信息按照预定时间间隔进行备份并实时同步元数据服务器的操作日志; 所述访问客户端用于根据元数据服务器的连接状态,选择通过元数据服务器或日志服务器中的备用元数据服务进程访问存储服务器集群。
2.如权利要求1所述的大数据存储访问系统,其特征在于,所述分布式文件系统还包括: 虚拟IP配置模块,用于对所述元数据服务器配置虚拟IP ; 访问客户端通过所述虚拟IP登陆元数据服务器访问存储服务器集群。
3.如权利要求2所述的大数据存储访问系统,其特征在于,所述分布式文件系统还包括: 切换模块,用于当元数据服务器处于离线状态时,将元数据服务器服务进程及虚拟IP切换至日志服务器启动。
4.如权利要求1所述的大数据存储访问系统,其特征在于,所述日志服务器还包括: 数据恢复模块,用于当元数据服务器处于离线状态时,根据所述日志服务器从元数据服务器备份的元数据信息及同步的操作日志,恢复出最新的元数据信息。
5.一种基于分布式文件系统的大数据存储访问方法,其特征在于,其采用权利要求1至4任一所述的基于分布式文件系统的大数据存储访问系统,包括: 步骤S201、按照预定规则将元数据信息中包含的数据存储在存储服务器集群的若干个存储节点,并由元数据服务器对所述元数据信息及存储服务器集群进行管理监控; 步骤S202、日志服务器按照预定时间间隔对元数据服务器中的元数据信息进行备份,并实时同步元数据服务器的操作日志; 步骤S203、访问客户端向元数据服务器发送数据访问请求; 步骤S204、根据元数据服务器的连接状态,所述访问客户端选择通过元数据服务器或日志服务器中的备用元数据服务进程访问存储服务器集群。
6.如权利要求5所述的大数据存储访问方法,其特征在于,所述步骤S201包括: 按照预定规则将元数据信息中包含的数据进行切分,将所述切分后的数据存储在存储服务器集群的若干个存储节点,并由元数据服务器对所述存储服务器集群的各个存储节点的数据存储量及在线状态进行管理监控。
7.如权利要求5所述的大数据存储访问方法,其特征在于,还包括: 为元数据服务器配置虚拟IP,访问客户端通过虚拟IP登陆所述元数据服务器访问所述存储服务器集群。
8.如权利要求7所述的大数据存储访问方法,其特征在于,执行步骤S204之前还包括: 对元数据服务器进行心跳检测; 所述步骤S204包括: 当元数据服务器处于在线状态时,访问客户端通过虚拟IP登陆元数据服务器访问存储服务器集群;当元数据服务器处于离线状态时,访问客户端通过虚拟IP登陆日志服务器,通过日志服务器中的备用元数据服务进程访问存储服务器集群。
9.如权利要求8所述的大数据存储访问方法,其特征在于,还包括: 当所述元数据服务器处于离线状态时,将元数据服务器服务进程及虚拟IP切换至日志服务器启动,访问客户端通过虚拟IP登陆日志服务器,通过日志服务器中的备用元数据服务进程访问存储服务器集群。
10.如权利要求8所述的大数据存储访问方法,其特征在于,所述步骤S204还包括: 当元数据服务器处于离线状态时,日志服务器根据从元数据服务器备份的元数据信息及同步的操作日志,恢复出最新的元数据信息,访问客户端通过日志服务器访问最新的元数据信息。
【文档编号】H04L29/08GK104320401SQ201410602562
【公开日】2015年1月28日 申请日期:2014年10月31日 优先权日:2014年10月31日
【发明者】王少华 申请人:北京思特奇信息技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1