一种大数据存储系统的制作方法

文档序号:7978977阅读:257来源:国知局
一种大数据存储系统的制作方法
【专利摘要】本发明实施例提供了一种大数据存储系统,以提供一种高性能、低投入的大数据存储架构。其中,该大数据存储系统包括运行在第一物理服务器上的多虚拟机,以及第一存储磁盘,其中,所述第一物理服务器直接与所述第一存储磁盘连接;其中,所述第一存储磁盘,用于提供数据存储;所述多虚拟机中的一台,用于支持存储共享功能;所述多虚拟机中的其他台,与所述支持存储共享功能的虚拟机通过内部总线连接,用于接收用户的请求,根据用户请求,通过所述支持存储共享功能的虚拟机读取第一存储磁盘的数据,将第一存储磁盘上的数据呈现给用户。
【专利说明】一种大数据存储系统【技术领域】
[0001]本发明涉及数据存储领域,特别涉及一种大数据存储系统。
【背景技术】
[0002]现有技术中存在多种大数据存储系统,图1示出了现有技术中常用的一种大数据存储系统。如图1所示,现有技术中的大数据存储通常采用SAN以及光纤交换机的方式,价格十分昂贵。以Hadoop为代表的云存储技术采用大量廉价服务器来构成海量存储容量,与SAN相比大大降低了成本,但每台存储设备依然需要配备相应的存储服务器,对网络带宽要求也很高,往往需要用昂贵的网络设备,而且Name Node依然存在单点故障风险,成本、性能和可靠性仍然不够理想。
[0003]为此,需要提供一种高性能、低成本的能存储大数据的大数据存储架构。

【发明内容】

[0004]本发明实施例提供了一种大数据存储系统,以提供一种高性能、低投入、高可靠性的大数据存储架构。
[0005]本发明实施例提到的一种大数据存储系统,包括运行在第一物理服务器上的多虚拟机,以及第一存储磁盘,其中,所述第一物理服务器直接与所述第一直连存储磁盘连接;其中,
[0006]所述第一直连存储磁盘,用于提供数据存储;
[0007]所述多虚拟机中的一台,用于支持存储共享功能;
[0008]所述多虚拟机中的其他台,与所述支持存储共享功能的虚拟机通过内部总线连接,用于接收用户的请求,根据用户请求,通过所述支持存储共享功能的虚拟机读取第一直连存储磁盘的数据,将第一直连存储磁盘上的数据呈现给用户。
[0009]利用本发明实施例提供的大数据存储系统,直连存储磁盘与物理服务器直接连接,相比于网络连接,访问效率高,通过一台物理服务器上运行多虚拟机,使得一台物理服务器就替换现有技术中多台物理服务器的功能,架构灵活而且价格低廉,另外,由于多虚拟机之间通过内部总线连接,访问速度快。因此本发明实施例提供的数据存储系统兼有高性能和低成本的优势。
【专利附图】

【附图说明】
[0010]图1为现有技术常有的大数据存储系统的结构框图。
[0011]图2为本发明实施例提供的大数据存储系统的结构框图。
[0012]图3为本发明一实施例提供的大数据存储系统的结构框图。
[0013]图4为本发明另一实施例提供的大数据存储系统的结构框图。
[0014]图5为本发明另一实施例提供的大数据存储系统的结构框图。【具体实施方式】
[0015]以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0016]图2为本发明实施例提供的大数据存储系统的结构框图。如图1所示,物理服务器100与直连存储200直接连接,其中物理服务器100上运行着多台虚拟机101至104,其中虚拟机104具有存储共享功能;虚拟机101至103与虚拟机104通过内部总线连接。
[0017]虚拟机101至103用于接收用户的请求,根据用户请求,通过虚拟机104读取直连存储200的数据,将直连存储200上的数据呈现给用户。
[0018]直连存储200,用于提供数据存储。
[0019]本领域技术人员可以理解,物理服务器上虚拟机的数量并不限于图示的个数,根据物理服务器的性能以及实际应用的需要,该虚拟机的类型和数量可以增加或减少。将数据呈现给用户也只是本发明的用途之一,在实际应用中,其它对数据进行处理的应用也包含在本发明方案之内。
[0020]在本发明一实施例中,每一个直连存储可以由一个磁盘阵列构成,在本发明一实施例中,磁盘阵列可以采用RAID方式,提高可靠性。可以通过增加该磁盘阵列的磁盘个数来增加容量。在本发明一实施例中,直连存储200也可以由多个磁盘阵列通过如SAS线的方式来级联构成。
[0021]本发明实施例中的多虚拟机相当于现有技术中的服务器集群,本发明实施例中的可扩充的DAS相对于现有技术中的San,但利用本发明实施例提供的技术方案,可以不再需要现有技术的存储服务器以及昂贵的光纤网络系统,成本大大降低。另外,在现有技术中,当读取数据时,首先需要将数据读取到存储服务器,然后通过网络交换机,最后才到应用服务器,而利用本发明实施例的技术方案,读取数据时,直接将数据读取到共享虚拟机,然后通过内部总线传输应用虚拟机,由此可见,本发明实施例提供的技术方案数据存取效率更好。
[0022]在本发明一实施例中,可以在单台物理应用服务器中可以部署多组应用服务组,以提高系统服务性能。图3为本发明实施例提供的一个具体大数据存储系统的结构框图。如图3所示,在一个物理服务器中建立了两组应用服务组,每组应用服务组包括三个不同功能的应用服务器,如图示,其中每组应用服务组包括后置Web服务器vml或vm4 (与前置服务器中的web服务器对应,为了安全起见,该前置服务器通常位于另一个独立的物理服务器中,如图中4所示)、应用服务器m2或vm5 (用于为用户提供不同的应用,比如邮件服务器、文件服务器等)、上传服务器m3或vm6 (用于接收和处理用户的上传请求和数据);该物理服务器中还进一步包括一个虚拟机vm7,该虚拟机具备存储共享能力,利用该虚拟机vm7,多台虚拟机可以同时访问一个Das设备。虚拟机vml_vm6通过物理服务器的内部总线与虚拟机vm7连接,通过虚拟机vm7与DAS直接连接。在本发明一实施例中,虚拟机vml_vm6通过NFS协议与虚拟机vm7连接。在本发明一实施例中,应用服务组中还可以包括数据库服务器;每个应用服务组也可以包含不同类型和不同数量的虚拟服务器,比如第一个应用服务组中可以包括两个应用服务器,第二个应用服务组可以不包含应用服务器或只包含一个应用服务器,却包含一个数据库服务器。另外,两者所包含的虚拟机数量也并不限于图2所示的个数。[0023]本领域技术人员可以理解,单个物理服务器上虚拟机的应用服务组类型和数量并不限于图示的个数,根据物理服务器的性能以及实际应用的需要,该应用服务组的数量可以增加或减少。
[0024]图4为本发明另一实施例提供的大数据存储系统的组织结构图。如图4所示,该大数据存储系统基于图2和图3所示的大数据存储系统,并进行了进一步的扩展。如果将图2所示的物理服务器100和直连存储磁盘200称之为一个存储子系统的话,图4所示的大数据存储系统包括至少N个子系统(N为大于等于I的整数,在大数据存储的情况下,N通常为一个非常大的数字)。每个子系统处理和存储不同用户的数据,即按照用户ID将不同用户数据存储在不同的子系统中。在某个例子中,可以是每个子系统存储10000个用户数据,将ID为0-9999的用户数据存储在第一子系统的DASl中,将ID为10000-19999的用户数据存储在第二子系统的DAS2,并以此类推。
[0025]如图4所示的系统中,进一步包含有:前置服务器,用于接收用户的请求,根据索引数据库中记载的每个用户与子系统的对应关系,将该用户的请求导向相应的子系统,由不同的子系统处理和存储;索引数据库,用于记载存储有用户ID与子系统之间的对应关系(该对应关系不一定是前述顺序关系,有可能ID1000的用户在子系统一,ID1001的用户在子系统二,ID1002的用户又在子系统一)。在本发明一实施例中,前置数据库与索引数据库可以在同一个物理服务器中。
[0026]当系统快速扩展子系统时,只需要在索引数据库中添加用户ID与子系统的对应关系,后续用户访问时,前置服务器作为统一的用户入口,将用户请求导入相应的子系统即可。
[0027]在本发明一实施例中,如果用户A共享一文档给另一个用户B,同时用户A的数据位于第一子系统,而用户B的请求由第二子系统负责处理,那么当用户B期望访问该共享文档时,处理流程为:前置服务器将用户B的请求导向第二子系统中的物理服务器,第二子系统的物理服务器发现该请求的文档位于第一子系统后,请求第一子系统的物理服务器向其提供该共享文档。第一子系统的物理服务器接收到来自第二子系统的请求后,首先验证该请求的有效性(即验证用户B是否有权限),然后从第一子系统的Dasl中获取该共享文档,并将其返回给第一子系统的物理服务器。
[0028]该系统中还进一步包括一个Nas系统,作为各个DAS的备份,一旦Das损坏,子系统中的虚拟服务器可以直接从NAS上读取备份数据为用户提供服务。由于NAS只做备份使用,对该Nas的性能要求并不高,因此可以大大降低其成本。另外,本图仅示意出一个Nas磁盘,但在某一实施例中,可以是任何多个Nas作为备份系统。
[0029]在本发明一实施例中,该系统进一步包括离线备份服务器,用于备份Nas上的数据。通过Nas备份和离线备份双重备份,进一步保证系统的安全性。
[0030]本领域技术人员可以理解,图4的图中每个物理服务器省略了共享服务器虚拟机。
[0031]图5为本发明另一实施例提供的大数据存储系统的组织结构图。如图5所示,其中,物理服务器100和300,分别于直连存储200和400直接连接,另外,还包括一个监控服务器500。
[0032]正常情况下,虚拟服务器101至103通过虚拟机104读取直连存储200的数据,将直连存储200上的数据呈现给用户;虚拟服务器301至303通过读取直连存储400的数据,将直连存储400上的数据呈现给用户。但一旦监控服务器500监控到物理服务器300停止工作后,就将原物理服务器300所响应的用户请求导向物理服务器100,由物理服务器100上的虚拟机(可能是虚拟机101至103,也可能是新增加的虚拟机105至107)将直连存储400上的数据呈现给用户。反之,一旦监控服务器500监控到物理服务器100停止工作后,就将原物理服务器100所响应的用户请求导向物理服务300,由物理服务器300上的虚拟机将直连存储200上的数据呈现给用户。
[0033]具体来说,当监控服务器500监控到物理服务器300停止工作后,将该信息返回给前置服务器和索引数据库,索引数据库更新用户ID与子系统之间的对应关系,后续前置服务器则将原本该导向物理服务器300的用户请求导向物理服务器100。
[0034]在本发明另一实施例中,直连存储200中存储有物理服务器100上各虚拟机101-104镜像;当物理服务器100停止工作后,物理服务器300可以调用直连存储200上虚拟机101-104的镜像来运行新的虚拟机访问直连存储200上的数据。
[0035]在本发明另一实施例中,服务器100和/或300中可以内置SSD硬盘和内存作为缓冲,从而进一步提闻性能。
[0036]本领域技术人员可以理解,整个大数据存储系统可以通过扩展存储子系统的数量来进行扩展,比如一个大数据存储系统可以包含4000个存储子系统,每一个物理服务器可以与其中部分或全部直连存储连接,这样一旦监控系统检测到某一子系统的物理服务器停止工作,则将原来接入到该物理服务器的用户请求导入到其他与该子系统直连存储连接的其他物理服务器,通过其他物理服务器来访问该子系统的直连存储。
[0037]本领域技术人员还可以理解,本发明各实施例描述的技术方案还可以进行各种组合,组合得到的大数据存储系统也属于本申请公开的范围。比如,目前图4所示的各物理服务器中均只列出一组应用服务组,但显然该各物理服务器的内部构成可如图2或图3所示。又比如,图4的各子系统可以两两分组,每组内采取图5所示的技术方案,以保证冗余性。
[0038]利用本发明实施例,没有单点故障,因此安全性更好。
[0039]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种大数据存储系统,其特征在在于,包括运行在第一物理服务器上的多虚拟机,以及第一存储磁盘,其中,所述第一物理服务器直接与所述第一存储磁盘连接;其中,所述第一存储磁盘,用于提供数据存储;所述多虚拟机中的一台,用于支持存储共享功能;所述多虚拟机中的其他台,与所述支持存储共享功能的虚拟机通过内部总线连接,用于接收用户的请求,根据用户请求,通过所述支持存储共享功能的虚拟机读取第一存储磁盘的数据,将第一存储磁盘上的数据呈现给用户。
2.如权利要求1所述的系统,其特征在于,所述运行在第一物理服务器上的多虚拟机分为至少两个服务组,每个服务组通过所述支持存储共享功能的虚拟机读取第一存储磁盘的数据。
3.如权利要求1所述的系统,其特征在于,将第一物理服务器和第一存储磁盘成为一子系统时,所述系统进一步包括:至少一个子系统,用于处理和存储不同用户的数据;前置服务器,用于接收用户的请求,根据每个用户与子系统的对应关系,将该用户的请求导向相应的子系统,由不同的子系统处理和存储。
4.如权利要求3所述的系统,其特征在于,进一步包括:索引数据库,用于记载存储有用户ID与子系统之间的对应关系,以供前置服务器调用。
5.如权利要求3所述的系统,其特征在于,所述至少一个子系统包括运行在第二物理服务器上的多虚拟机,以及第二存储磁盘;所述第一物理服务器和所述第二物理服务器分别直接与所述第一存储磁盘和第二存储磁盘连接;所述第二物理服务器上的多虚拟机,进一步用于,当所述第一物理服务器不能正常工作时,访问所述第一存储磁盘上的数据。
6.如权利要求5所述的系统,其特征在于,所述访问第一存储磁盘上的数据的所述第二物理服务器上的多虚拟机为所述第二物理服务器上原有的服务组,或新建的服务组。
7.如权利要求5所述的系统,其特征在于,所述第一存储磁盘进一步用于存储所述第一物理服务器的多虚拟机镜像;所述第二物理服务器进一步用于当所述第一物理服务不能正常工作时,调用所述第一存储磁盘中的所述第一物理服务器的多虚拟机镜像,通过所述第一物理服务器的多虚拟机镜像访问所述第一直连存储磁盘的数据。
8.如权利要求5、6或7所述的系统,其特征在于,进一步包括:监控服务器,用于监控所述第一服务器和所述第二物理服务器的工作状态。
9.如权利要求1至5任一所述的系统,其特征在于,进一步包括:NAS,用于备份所述第一存储磁盘上的数据,当所述第一磁盘存损坏时,为所述多虚拟机直接提供用户数据。
10.如权利要求1至5任一所述的系统,其特征在于,所述直连存储由一个或一组级联的磁盘阵列构成。
【文档编号】H04L29/08GK103428232SQ201210151984
【公开日】2013年12月4日 申请日期:2012年5月16日 优先权日:2012年5月16日
【发明者】王东临, 金友兵 申请人:天津书生投资有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1