一种集群存储系统的制作方法

文档序号:14717877发布日期:2018-06-16 01:58阅读:108来源:国知局

本发明涉及存储技术领域,特别涉及一种集群存储系统。



背景技术:

随着云计算、云存储的发展,集群存储系统正在逐渐成为云计算和云存储的重要角色之一。

集群存储系统可以在单个节点故障时提供有效的故障恢复策略,可以确保高性能进程的负载均衡,提高存储系统的并行性,大大提高后端存储系统的存储和访问效率。集群系统中,多控存储系统的存在对存储的冗余性、高可用性提出更高的要求。

目前,多控存储系统内的多控制器之间常常通过一种内部交换机进行互联,但是内部交换机成本高、不稳定,无统一管理机制和设备,为管理和排查故障位置提出了严峻的考验。



技术实现要素:

本发明的目的是提供一种集群存储系统,以降低集群存储系统的设备成本,实现多控存储系统的冗余性和高可用性。

为实现上述目的,本发明提供一种集群存储系统,包括主CMC、备CMC、多个控制器节点和多个BMC;每个所述控制器节点均连接有独立的所述BMC;

所述主CMC和所述备CMC通过预设链路保持数据同步,所述多个控制器节点均分别与所述主CMC和所述备CMC相连;

所述BMC用于获取所述控制器节点的机箱信息,并将所述机箱信息反馈给所述主CMC;

所述主CMC用于根据所述机箱信息,判断所述控制器节点是否发生故障;若发生故障,则通过所述预设链路通知所述备CMC接管所述控制器节点。

优选地,所述主CMC和所述备CMC均还包括集中管理模块,用于管理各个所述控制器节点的机箱,各个所述BMC与CMC间的内部网络分配,以及同步CMC与各个所述BMC、所述控制器节点的数据。

优选地,所述集中管理模块包括定时同步子模块,用于通过内部网络与各个所述BMC、所述控制器节点进行定时时钟同步和硬件信息同步。

优选地,所述主CMC和所述备CMC均还包括日志记录模块,用于记录发生故障的控制器节点的节点信息。

优选地,所述主CMC和所述备CMC还包括故障定位模块,用于根据所记录的日志信息,定位故障控制器节点。

优选地,所述BMC具体通过IPMI接口获取所述机箱信息。

优选地,所述预设链路为心跳链路。

本发明所提供的一种集群存储系统,该系统包括主CMC、备CMC、多个控制器节点和多个BMC;每个控制器节点均连接有独立的BMC;主CMC和备CMC通过预设链路保持数据同步,多个控制器节点均分别与主CMC和备CMC相连。通过BMC获取控制器节点的机箱信息,并将机箱信息反馈给主CMC;主CMC根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。这样,利用CMC代替内部交换机,降低集群存储系统的设备成本;且设置主备CMC,在控制器节点发送故障时,切换其它CMC来接管控制器节点,实现多控存储系统的冗余性和高可用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种集群存储系统的结构示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,图1为本发明实施例提供的一种集群存储系统的结构示意框图,该系统包括主CMC11、备CMC12、多个控制器节点13和多个BMC14;每个控制器节点均连接有独立的BMC;

主CMC11和备CMC12通过预设链路保持数据同步,多个控制器节点均分别与主CMC11和备CMC12相连;

BMC用于获取控制器节点的机箱信息,并将机箱信息反馈给主CMC11;

主CMC11用于根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。

需要说明,主备CMC之间用于保持数据同步的预设链路可以具体为但不限于心跳链路,即主备CMC之间可以通过心跳链路来进行信息同步,且该心跳链路可以作为主备CMC之间的通信链路。主备CMC间数据的实时同步,可实现主备CMC间的无缝切换接管,提高系统的冗余性和可用性。

具体地,BMC可以通过IPMI接口来实时获取各个控制器节点的机箱信息,然后将该机箱信息反馈给主CMC,主CMC可以根据这些机箱信息判断每个控制器节点是否发生故障。当节点发生故障时,该控制器节点与主CMC之间的单条NIC链路中断,此时,主CMC可以通过心跳链路通知被BMC接管该故障控制器节点,以防止控制器节点与CMC间的通信中断。这样,可以防止多控存储集群内出现单点连接故障引起的系统宕机等问题。

本实施例中,主CMC和备CMC均还可以包括集中管理模块,用于管理各个控制器节点的机箱,各个BMC与CMC间的内部网络分配,以及同步CMC与各个BMC、控制器节点的数据。进一步地,集中管理模块可以包括定时同步子模块,用于通过内部网络与各个BMC、控制器节点进行定时时钟同步和硬件信息同步。

具体地,主备CMC会制定一定的网络规则,通过这些网络规则对多个控制器节点进行内部网络配置和内部网络管理。主备CMC的网络规则会通过链路与控制器节点的操作系统以及各个BMC进行定时同步,以实现系统内的数据同步,保证控制器节点之间的网络连通性和节点之间的互通性。

这样,主备CMC还可以实现多控制器集中管理功能,使得CMC可以更加灵活的处理故障情况。

本实施例中,主CMC和备CMC均还可以包括日志记录模块,用于记录发生故障的控制器节点的节点信息。进一步地,主CMC和备CMC还可以包括故障定位模块,用于根据所记录的日志信息,定位故障控制器节点。这样,通过记录故障控制器节点信息,即可快速定位出故障所在,能提高多控存储系统故障的排查效率。

本发明实施例所提供的一种集群存储系统,该系统包括主CMC、备CMC、多个控制器节点和多个BMC;每个控制器节点均连接有独立的BMC;主CMC和备CMC通过预设链路保持数据同步,多个控制器节点均分别与主CMC和备CMC相连。通过BMC获取控制器节点的机箱信息,并将机箱信息反馈给主CMC;主CMC根据机箱信息,判断控制器节点是否发生故障;若发生故障,则通过预设链路通知备CMC接管控制器节点。这样,利用CMC代替内部交换机,降低集群存储系统的设备成本;且设置主备CMC,在控制器节点发送故障时,切换其它CMC来接管控制器节点,实现多控存储系统的冗余性和高可用性。

说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的集群存储系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1