一种用于大数据的分布式存储系统的制作方法

文档序号:9754771阅读:578来源:国知局
一种用于大数据的分布式存储系统的制作方法
【技术领域】
[0001]本发明涉及计算机应用技术领域,尤其涉及一种用于大数据的分布式存储系统。
【背景技术】
[0002]随着云计算、物联网、移动互联网等技术的发展,人类社会各个领域产生的数据量都急剧增长,这些大数据已经成为一种重要的资源,并形成了以数据为中心,以存储为中心的发展趋势,因此,如何存储这些大数据变得非常重要。
[0003]传统存储采用集中式架构进行数据存储,所有数据均由磁盘阵列Raid技术保证数据的安全性,并集中存储在专用的存储设备上,所有的生产数据均通过网络或专用存储网络进行传输。但这种集中式架构存在扩容困难、成本高、安全性低、兼容性差的缺点。

【发明内容】

[0004]针对上述技术问题,本发明的目的在于提供一种用于大数据的分布式存储系统,能有效解决上述问题。
[0005]为达此目的,本发明采用以下技术方案:
一种用于大数据的分布式存储系统,包括:若干台应用服务器组成的应用服务器集群、若干台存储服务器组成的存储服务器集群和若干台元数据服务器组成的元数据服务器集群,所述应用服务器、存储服务器和元数据服务器通过通讯网络互连进行数据交换;所述应用服务器集群用于产生和接收生产数据,所述存储服务器集群用于提供存储空间,所述元数据服务器集群用于管理存储空间。
[0006]特别地,所述存储服务器、元数据服务器均采用X86架构服务器,同时支持文件和块协议。
[0007]特别地,所述存储在各个应用服务器、存储服务器和元数据服务器的数据均采用副本机制进行数据保护,且各副本数据均存储在与母本数据不同的节点上。
[0008]特别地,所述应用服务器、存储服务器和元数据服务器通过全线速Infiniband网络进行互连。
[0009]本发明提出的用于大数据的分布式存储系统采用分布式架构,存储服务器同时支持文件和块协议,所有存储服务器同时进行数据存储,存储在存储服务器上的数据均采用副本机制进行数据保护,且各副本数据均存储在与母本数据不同的存储服务器,所有数据采用前端数据切片、后端分布的方式进行存储。从而使该存储系统具有扩容简单、成本第、安全性高、兼容性好的优点。
【附图说明】
[0010]
图1是本发明实施例提供的用于大数据的分布式存储系统结构框图。
【具体实施方式】
[0011]下面结合附图和实施例对本发明作进一步说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0012]实施例一
请参照图1所示,图1为本发明实施例提供的用于大数据的分布式存储系统结构框图。
[0013]本实施例中,用于大数据的分布式存储系统包括若干台应用服务器组成的应用服务器集群、若干台存储服务器组成的存储服务器集群和若干台元数据服务器组成的元数据服务器集群。所述应用服务器集群用于产生和接收生产数据,所述存储服务器集群用于提供存储空间,所述元数据服务器集群用于管理存储空间。所述存储服务器采用x86架构服务器,具体为SATA或SAS或SSD等硬盘;所述元数据服务器采用x86架构服务器,具体为SSD;所述应用服务器采用支持所有架构服务器设备。所述应用服务器、存储服务器和元数据服务器通过Inf iniband互连,进行数据交换。
[0014]所述存储系统的数据存储过程包括写入和读出过程,具体为:
写入过程:
1、由应用服务器集群产生生产数据。
[0015]2、应用服务器向元数据服务器申请写入请求,请求内容包括需要写入的数据文件的大小。
[0016]3、元数据服务器查询整个存储系统的地址空间,找出可以分配的地址块,并将准备分配的地址块信息返回到应用服务器。
[0017]4、应用服务器根据返回的地址块信息,将文件分片,并传输到各存储节点,写入成功后,各节点返回写入成功信号到元数据服务器,元数据服务器将地址块空间标识为“已田,,
/TJ O
[0018]5、完成数据的写入。
[0019]读出过程:
1、应用服务器发出读取请求到元数据服务器,请求包括读取的文件路径信息。
[0020]2、元数据服务器根据文件路径信息查询相关的存储服务器的地址块信息,并将信息返回到应用服务器。
[0021 ] 3、应用服务器根据各存储服务器的地址块信息,向各存储节点发出数据块读取信息。
[0022]4、存储节点根据数据块信息将相应的应用数据块返回到应用服务器。
[0023]本实施例所述用于大数据的分布式存储系统中,采用带外模式的大规模开放集群存储架构,通过Inf iniband高速网络将通用存储服务器中的CPU、内存、网络带宽、磁盘转速、总线性能整合在一起,形成一个高端存储器,使得存储总体性能高于计算处理能力与网络带宽的传输速度,以此来屏蔽由于磁盘和总线性能提升缓慢造成的存储性能瓶颈。以全线速Inf iniband网络互连前端的计算节点和后端的存储及元数据节点,以保证存储设备的性能输出达到最大化。采用带外模式,很好的消除了元数据通路与数据通路的相互干扰。而元数据服务器的集群化和存储服务器的集群化,使得整个系统中不存在像NAS或者SAN系统那样的性能瓶颈点,能够完全满足高性能计算应用高并发的需求。
[0024]同时,本实施例所述用于大数据的分布式存储系统在无限制在线快速扩容以及负载均衡技术的基础上采用高可扩展存储技术,使得存储系统的规模能够随着计算应用的发展而高效、无需中断服务的在线扩展,同时达到随着容量的增加性能的线性增长。
[0025]同时,本实施例所述用于大数据的分布式存储系统在分布式存储中多元数据服务器集群技术的基础上,结合高性能计算应用文件创建、访问以及目录结构特点,采用多元数据服务器集群技术,在一套存储系统中可以根据用户生产系统中实际产生文件数量的规模对元数据服务器集群进行动态配置,整个存储系统中所有的元数据服务器同时参与文件的检索和定位工作,消除存储系统中元数据通道的瓶颈,同时还可
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1