一种存储集群数据恢复验证方法及装置与流程

文档序号:17287719发布日期:2019-04-03 03:42阅读:152来源:国知局
一种存储集群数据恢复验证方法及装置与流程

本发明涉及存储集群数据恢复领域,具体涉及一种存储数据恢复验证方法及装置。



背景技术:

随着大数据时代的到来,数据已经成为企业、机构和个人最重要的财富。而数据集中已成为大势所趋,越来越多的企业都选择自建(云)存储系统,或直接把数据迁移到云端。存储系统从简单的双机热备到多节点的集群高可用,从底层磁盘的高可用到共享层服务的高可用,无论是从硬件层面还是软件层面都有显著的提升。

存储系统带来方便的同时,对存储系统的稳定性和可靠性提出更高要求。目前,在存储系统出现故障时,会对存储系统数据进行恢复,但存储系统的恢复过程是否能成功或正确,目前尚缺乏有效的验证方法,影响数据存储的可靠性。



技术实现要素:

为解决上述问题,本发明提供一种存储集群数据恢复验证方法及装置,可验证存储系统数据恢复过程是否成功。

本发明的技术方案是:一种存储集群数据恢复验证方法,所述存储集群包括主节点和多个从节点;

该方法包括以下步骤:

主节点存储集群有效信息;

主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。

进一步地,所述主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证,包括:

主节点控制任意两个从节点断电;

断电预设时间后,重新恢复该两个从节点供电;

判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤;

若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。

进一步地,该方法还包括:

生成验证过程日志和验证结果日志。

进一步地,主节点所存储集群有效信息包括:

各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。

进一步地,该方法还包括以下步骤:

当集群有效信息变化时,主节点实时更新所存储集群有效信息。

本发明还公开一种存储集群数据恢复验证装置,所述存储集群包括主节点和多个从节点;

所述主节点包括:

存储信息模块:用于存储集群有效信息;

数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。

进一步地,所述数据恢复验证模块包括:

断电单元:用于控制任意两个从节点断电;

供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;

从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;

验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。

进一步地,主节点还包括:

日志生成模块:用于生成验证过程日志和验证结果日志。

进一步地,存储信息模块所存储集群有效信息包括:

各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。

进一步地,主节点还包括:

有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。

本发明提供的存储集群数据恢复验证方法及装置,主动模拟灾难,恢复系统数据,验证灾难前后有效信息,若前后信息一致,则说明恢复成功,存储集群数据恢复过程可用。本发明可有效验证存储集群的数据恢复过程是否可用,提高存储系统稳定性和可靠性。

附图说明

图1是本发明具体实施例一方法流程示意图。

图2是图1中步骤s2的具体方法流程示意图。

具体实施方式

下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。

实施例一

如图1所示,本实施例提供一种存储集群数据恢复验证方法,存储集群包括主节点和多个从节点,该方法具体包括以下步骤:

s1:主节点存储集群有效信息;

s2:主节点控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。

需要说明的是,步骤s1中,主节点所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。

另外,在步骤s1和s2之间,还包括步骤:当集群有效信息变化时,主节点实时更新所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。

如图2所示,本实施例中,步骤s2具体包括以下步骤:

s2-1:主节点控制任意两个从节点断电;

本实施例通过给从节点断电模拟灾难。也可以人为拔出从节点控制器,使其非正常断电。

s2-2:断电预设时间后,重新恢复该两个从节点供电;

从节点供电恢复,启动成功后,从节点的服务web界面上会显示578错误码的状态。此时,存储集群已完全失效,不可使用。

s2-3:判断该两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并进入下一步;若启动不成功,则重复上述两步骤。

s2-4:若两个从节点为候选状态,则主节点驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则重复上一步骤。

本实施例还包括步骤s2-5:生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。

实施例二

本实施例提供一种存储集群数据恢复验证装置,存储集群包括主节点和多个从节点。

主节点包括以下模块实现对数据恢复的验证:

存储信息模块:用于存储集群有效信息;

数据恢复验证模块:用于控制从节点模拟灾难,并恢复集群系统,通过灾难前后的集群有效信息对数据恢复进行验证。

其中,存储信息模块所存储集群有效信息包括:各从节点的id、集群名称、卷属性、缓存分区属性、映射关系、卷内的数据md5值。

主节点还包括有效信息更新模块:用于当集群有效信息变化时,实时更新存储信息模块所存储集群有效信息。实时更新最新的有效信息,可保证验证的可靠性。

本实施例中,数据恢复验证模块包括:

断电单元:用于控制任意两个从节点断电;

供电恢复单元:用于在断电预设时间后,重新恢复上述两个从节点供电;

从节点启动判断单元:用于判断上述两个从节点是否启动成功,若启动成功,则主节点驱动除去系统数据,并等待预设时间后,验证该两个从节点是否为候选状态,并通知验证单元;若启动不成功,则通知断电单元和供电恢复单元重新工作;

验证单元:用于在上述两个从节点为候选状态时,驱动恢复系统,并等待预设时间后,获取当前集群有效信息,比较灾难前和当前集群有效信息是否一致,若一致,则验证通过;若上述两个从节点中任意一个从节点为非候选状态,则通知从节点启动判断单元重新工作。

主节点还设置有日志生成模块:用于生成验证过程日志和验证结果日志。生成日志供工作人员查看和后续参考。

以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1