存储集群故障转移的方法及存储集群系统与流程

文档序号：13472115阅读：289来源：国知局

本发明涉及计算机电子领域，特别是涉及一种存储集群故障转移的方法及存储集群系统。

背景技术：

随着计算机电子领域的不断发展，人们对存储系统的要求不断提高。数据对于任何公司来说，都是最重要的资产之一，因此存储系统在所有企业的信息技术基础设施中发挥着至关重要的作用。信息技术管理员需要确保可连续访问关键任务数据，从而确保即使发生任何系统或站点故障以及意外或计划性断电时的全天候业务连续性。

业务连续性是指企业有应对风险、自动调整和快速反应的能力，以保证企业业务的连续运转。业务连续性计划是一套基于业务运行规律的管理要求和规章流程，使一个组织在突发事件面前能够迅速做出反应，以确保关键业务功能可以持续，而不造成业务中断或业务流程本质的改变。

业务连续性计划基于业务连续性计划基于3r基本目标：rlo(恢复水平目标)、rto(恢复时间目标)和rpo(恢复点目标)。rlo(恢复水平目标)为恢复数据的粒度水平；rto(恢复时间目标)为从数据丢失事件中恢复服务所需的时间的指标；rpo(恢复点目标)为恢复期间存在丢失风险的数据量指标。恢复水平目标rlo根据业务应用的优先级进行定义—定义了必须启用恢复数据使用的粒度—即，是否需要恢复整个数据库、网络应用程序、站点集合、站点、列表或文档库，还是仅恢复一个项目。基于rlo，定义恢复点目标rpo和恢复时间目标rto的可接受值。

在现有技术中，当存储系统的某个节点发生故障时，系统会重新选择一个完好的节点连接，使系统重新运行，但是，在实际应用中，在重新选择完好的节点进行连接占用较多时间，严重的情况下，可能导致业务不连续，系统运行不稳定不安全。

综上所述可以看出，如何减少存储故障转移时间是目前有待解决的问题。

技术实现要素：

本发明的目的是提供一种存储集群故障转移的方法及存储集群系统，以解决现有技术中存储故障转移时间过长的问题。

为解决上述技术问题，本发明提供一种存储集群故障转移的方法，包括：检测第一存储设备是否故障；若是，则利用所述第一存储设备的连接端口的标识，激活第二存储设备的连接端口，以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问，所述第二存储设备的连接端口与所述业务服务器发送i/o请求的端口唯一对应，所述第二存储设备的业务数据是在所述第一存储设备运行时，将所述第一存储设备的业务数据实时同步至所述第二存储设备的。

优选地，所述第一存储设备的连接端口与所述业务服务器发送i/o请求的端口唯一对应。

优选地，所述存储控制器检测第一存储设备是否故障具体包括：所述业务服务器向所述第一存储设备发送i/o请求，所述第一存储设备的连接端口无响应，则所述第一存储设备故障。。

优选地，将所述第一存储设备的业务数据实时同步至所述第二存储设备具体包括：存储控制器通过镜像同步复制所述第一存储设备的业务数据至所述第二存储设备。。

优选地，所述存储控制器检测到所述第一存储设备故障时，发送故障信息至管理服务器，以便所述管理服务器挂起远程镜像会话，将所述第二存储设备的镜像业务数据成为实际业务数据后，执行后续所述存储控制器利用所述第一存储设备的连接端口的标识激活第二存储设备的连接端口的操作。

本发明还提供了一种存储集群系统，包括：第一存储器，第二存储器；

业务服务器，用于向所述第一存储器或所述第二存储器发送i/o请求，所述第二存储器的连接端口与所述业务服务器发送i/o请求的端口唯一对应；

存储控制器，用于检测所述第一存储器是否故障，在所述第一存储器故障时，利用所述第一存储器的连接端口的标识激活所述第二存储器的连接端口，所述第一存储器运行时，将所述第一存储器的业务数据实时同步至所述第二存储器。

优选地，所述第一存储器的连接端口与所述业务服务器发送i/o请求的端口唯一对应。

优选地，所述业务服务器向所述第一存储器发送i/o请求，所述第一存储器的连接端口无响应，则所述第一存储器故障。

优选地，所述存储控制器以镜像同步复制的方式将所述第一存储器的业务数据实时同步至所述第二存储器。

优选地，还包括：管理服务器，用于接收所述存储控制器发送的故障信息后，挂起远程镜像会话，将所述第二存储设备的镜像业务数据成为实际业务数据。

本发明所提供的存储集群故障转移的方法及存储集群系统，在检测到第一存储器故障时，利用所述第一存储设备的连接端口的标识，激活第二存储设备的连接端口，以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问。

在上述方法及系统中，所述第二存储设备的连接端口与所述业务服务器发送i/o请求的端口唯一对应，所以在进行存储故障转移时，业务服务器不需要对第二存储设备的连接端口进行查找，节省了时间，进而缩短了存储集群实现故障转移所需要的时间。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的存储集群故障转移的方法的第一种具体实施例的流程图；

图2为第一存储设备运行时存储集群具体结构示意图；

图3为第一存储设备故障时存储集群具体结构示意图；

图4为本发明所提供的存储集群故障转移的方法的第二具体实施例的流程图；

图5为本发明实施例提供的存储集群系统的结构框图。

具体实施方式

本发明的核心是提供一种存储集群故障转移的方法及存储集群系统，有效缩短了存储集群实现故障转移所需要的时间。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1、图2和图3，图1为本发明所提供的存储集群故障转移的方法的第一种具体实施例的流程图；图2为第一存储设备运行时存储集群具体结构示意图；图3为第一存储设备故障时存储集群具体结构示意图；第一种具体实施例包括以下步骤：

步骤s101：检测第一存储设备是否故障；

步骤s102：若是，则利用所述第一存储设备的连接端口的标识，激活第二存储设备的连接端口，以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问，所述第二存储设备的连接端口与所述业务服务器发送i/o请求的端口唯一对应，所述第二存储设备的业务数据是在所述第一存储设备运行时，将所述第一存储设备的业务数据实时同步至所述第二存储设备的。

所述业务数据可以为lun(数据卷)、id/wwn(使用设备的id)等。

如图2所示，当第一存储设备运行时，业务数据会通过同步传输到第二存储设备，存储控制器不断检查第一存储设备的运行状态。如图3所示，当存储控制器检测到第一存储设备故障时，可以利用所述第一存储设备的连接端口的标识，激活第二存储设备的连接端口，以便业务服务器通过所述第二存储设备所在的存储链路对所述第二存储设备的业务数据进行访问。

在本具体实施例中，在第一存储设备故障时，系统可以自动切换至第二存储设备所在的链路，无需查找与业务服务器发送i/o请求的端口相对应的存储器的连接端口，节省了故障转移的时间，确保了业务的连续性。除此之外，业务数据一致性由存储系统管理，无需专门的数据卷管理软件，因此释放服务器资源，并且以一致的数据集安全地同步至第二存储设备。在本具体实施例中，第一存储设备的连接端口的标识共享至第二存储设备的连接端口，因此对于业务服务器来讲，后台只有一台存储设备，故障转移过程透明，集群管理简单。故障转移后的访问路径、驱动器字母或安装点信息无变化。仍可从业务应用程序继续透明地访问数据卷。无需或者不会产生有关数据卷重新分配或重新安装的工作负荷。

请参考图4，图4为本发明所提供的存储集群故障转移的方法的第二具体实施例的流程图；

在第一实施例的基础上，本具体实施例中，将第一存储设备作为主存储器，主存储器的连接端口为主ca端口，将主存储器所在的链路作为主链路，将第二存储设备作为备用存储器，备用存储器的连接端口为备用ca端口，将备用存储器所在的链路作为备用链路；存储控制器以镜像同步复制的方式将主存储器的业务数据实时同步至备用存储器。

在上述第一实施例的基础上，还增加了管理服务器，存储控制器检测到主存储器故障时，发送故障信息至管理服务器，以便所述管理服务器挂起远程镜像会话，将所述备用存储器的镜像业务数据成为实际业务数据后，执行后续所述存储控制器利用所述主存储器的连接端口的标识激活备用存储器的连接端口的操作。

第二种具体实施例包括以下步骤：

步骤s401：业务服务器向主存储器发送i/o请求；

所述主存储器的连接端口与所述业务服务器发送i/o请求的端口唯一对应。

步骤s402：主ca端口无响应，存储控制器检测到主存储器故障，并将故障信息发送至管理服务器；

步骤s403：在超出预设时间后，业务服务器重新发送i/o请求；

所述预设时间为业务服务器发送一次i/o请求后，设置的等待存储设备响应的时间。

步骤s404：管理服务器挂起远程镜像会话，将备用存储器上的镜像业务数据更新为实际业务数据；

步骤s405：存储控制器采用主ca端口的标识，激活备用链路上的备用ca端口，所述备用ca端口与所述业务服务器发送i/o请求的端口唯一对应；

步骤s406：在超出业务服务器重新发送i/o请求的预设时间前，业务服务器发送的i/o请求经备用链路进行处理。

在本具体实施例中，存储集群可以自动完成故障转移，整个故障转移的时间在10秒之内，足以确保大多数系统运行顺畅。

实际应用中，存储集群可部署到建筑物、大学和地铁环境中。对于区域性或全球业务连续性和灾难恢复场景，可采用异步远程镜像功能部署存储，从而增加rpo和rto，并且不采用自动、透明的故障转移。对于手动故障转移、故障转移测试或故障转移后恢复，还可从用户界面触发故障转移操作，简单且安全。

下面对本发明实施例提供的存储集群系统进行介绍，下文描述的存储集群系统与上文描述的存储集群故障转移的方法可相互对应参照。

图5为本发明实施例提供的存储集群系统的结构框图，参照图5所示，存储集群系统可以包括：

第一存储器100，第二存储器200；

业务服务器300，用于向所述第一存储器或所述第二存储器发送i/o请求，所述第二存储器的连接端口与所述业务服务器发送i/o请求的端口唯一对应；

存储控制器400，用于检测所述第一存储器是否故障，在所述第一存储器故障时，利用所述第一存储器的连接端口的标识激活所述第二存储器的连接端口，所述第一存储器运行时，将所述第一存储器的业务数据实时同步至所述第二存储器。

本系统具体实施例，还可以包括：

管理服务器500，用于接收所述存储控制器发送的故障信息后，挂起远程镜像会话，将所述第二存储设备的镜像业务数据成为实际业务数据。

所述第一存储器的连接端口与所述业务服务器发送i/o请求的端口唯一对应。所述存储控制器以镜像同步复制的方式将所述第一存储器的业务数据实时同步至所述第二存储器。

本发明所提供的存储集群系统可以为所有应用提供零停机、零数据丢失的连续可用性，消除了辅助存储虚拟化设备或实例等传统解决方案的成本或复杂性，消除因存储或站点故障导致的昂贵停机或数据丢失、意外和计划性停机时复制；不论操作系统如何，均为应用提供连续服务；通过直观的管理界面提供简单的设置。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的存储集群故障转移的方法以及存储集群系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘兵
技术所有人：郑州云海信息技术有限公司
我是此专利的发明人

上一篇：一种用于铁路交通的可调轨距下底板的制作方法
上一篇：一种高铁无砟轨道铝合金底座侧模的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。