资源的故障处理方法及装置的制造方法

文档序号:9754281阅读:492来源:国知局
资源的故障处理方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信领域,具体而言,涉及一种资源的故障处理方法及装置。
【背景技术】
[0002]网络附属存储系统广泛用于企业管理平台,其性能的安全可靠性可以直接关系到企业日常运营,因此网络附属存储系统需要保证稳定以及较高的可用性。
[0003]根据Gartner公司所作的统计,导致系统异常运行的原因主要可以主要分为以下几个方面:应用问题(40% )、操作问题(40% )、操作系统故障(10% )和硬件故障(10% ),对于网络附属存储集群系统来说,很多情况也有可能是前端某个接入网口、后端某个存储资源的软硬件资源出现异常。在这种场景下,该节点上除了发生异常的模块不能运行之外,其它的模块都正常运行,此时现有技术中采用的技术方案是将整个节点隔离,把业务转移到其它能够正常运行的节点上去,而上述技术方案会使整个接管流程复杂,出错的概率也相应增加,同时整个接管耗时较长,接管成功后接管节点的负载也相应增加,给整个存储业务的过程都带来压力。
[0004]此外,当前网络存储集群中,故障管理模块主要是管理本节点上的存储资源,模块本身异常处理是通过节点的重新选举,产生新的接管节点来实现。选举算法以Paxos算法最为出名,在多个开源项目中使用到的,但是基本节点对象的单实例选举,无法解决节点内多个具体对象资源的选举。
[0005]针对相关技术中,由于很多情况下节点上的资源故障都属于部分故障,但仍然将该节点隔离,将节点的业务转移到其他接管节点上而导致的接管流程复杂,容易出错,同时也增加了接管节点的负载的问题,尚未提出有效的解决方案。

【发明内容】

[0006]为了解决上述技术问题,本发明提供了一种资源的故障处理方法及装置。
[0007]根据本发明的一个方面,提供了一种资源的故障处理方法,包括:监测网络存储集群系统中节点的指定资源是否发生故障,其中,所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源;在所述指定资源发生故障时,按照预设策略选择接管所述指定资源的目标对象。
[0008]优选地,监测网络存储集群系统中节点的指定资源是否发生故障包括:对所述网络存储集群系统中所有节点的资源进行资源类型的划分;将所述所有节点中资源类型相同的资源配置为一个服务组;通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。
[0009]优选地,在以下情况下确定所述指定资源发生故障:当所述指定资源的物理网口状态由运行态转为备用态时,确定所述指定资源发生故障。
[0010]优选地,按照预设策略选择接管所述指定资源的目标对象,包括:在所述指定资源所在的服务组中选择接管所述指定资源的服务单元;将所述服务单元所在的节点作为所述目标对象。
[0011]优选地,通过以下之一方式在所述资源所在的服务组中选择接管所述指定资源的服务单元:按照预设的优先级从所述服务组中选择所述服务单元;按照所述服务组中所述服务单元的IP地址取值选择所述服务单元。
[0012]优选地,在所述目标接管对象对所述发生故障的指定资源进行接管后,还包括:保存所述指定故障的切换信息,其中,所述切换信息包括以下至少之一:所述指定资源所在的原节点信息、所述指定资源对应的资源类型;当所述指定资源所在的原节点故障恢复时,根据所述切换信息将所述指定资源切换回所述原节点。
[0013]根据本发明实施例的另一个方面,还提供了一种资源的故障处理装置,包括:监测模块,用于监测网络存储集群系统中节点的指定资源是否发生故障,其中,所述指定资源为所述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源;选择模块,用于在所述指定资源发生故障时,按照预设策略选择接管所述指定资源的目标对象。
[0014]优选地,所述监测模块包括:划分单元,用于对所述网络存储集群系统中所有节点的资源进行资源类型的划分;配置单元,用于将所述所有节点中资源类型相同的资源配置为一个服务组;判断单元,用于通过检测所述服务组中所述指定资源的状态判断所述指定资源是否发生故障。
[0015]优选地,所述判断单元用于当所述指定资源的物理网口状态由运行态转为备用态时,确定所述指定资源发生故障。
[0016]优选地,所述选择模块,包括:选择单元,用于在所述指定资源所在的服务组中选择接管所述指定资源的服务单元;确定单元,用于将所述服务单元所在的节点作为所述服务单元。
[0017]通过本发明,采用对节点上的资源进行分类后,当指定资源发生故障时,可以仅将发生故障的资源转移到其他节点上的技术方案,解决了相关技术中由于很多情况下节点上的资源故障都属于部分故障,但仍然将该节点隔离,将节点的业务转移到其他接管节点上而导致的接管流程复杂,容易出错,同时也增加了接管节点的负载的问题,简化了接管流程,降低了出错率,同时也较少了接管节点的负载负担。
【附图说明】
[0018]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1是根据本发明实施例的资源的故障处理方法的流程图;
[0020]图2是根据本发明实施例的资源的故障处理装置的结构框图;
[0021]图3是根据本发明实施例的资源的故障处理装置的另一结构框图;
[0022]图4为根据本发明优选实施例的资源保护组模型示意图;
[0023]图5为根据本发明优选实施例的资源的故障处理流程图;
[0024]图6为根本发明优选实施例的资源切回流程图。
【具体实施方式】
[0025]下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0026]在本实施例中提供了一种资源的故障处理方法,图1是根据本发明实施例的资源的故障处理方法的流程图,如图1所示,该流程包括如下步骤:
[0027]步骤S102,监测网络存储集群系统中节点的指定资源是否发生故障,其中,上述指定资源为上述网络存储集群系统中预先划分的资源类型中指定资源类型所对应的资源;
[0028]步骤S104,在上述指定资源发生故障时,按照预设策略选择接管上述指定资源的目标对象。
[0029]通过上述各个步骤,采用对节点上的资源进行分类后,当分类后的其中一个类型的指定资源发生故障时,可以仅将发生故障的指定资源转移到其他节点上的技术方案,解决了相关技术中很多情况下节点上的资源故障都属于部分故障,但仍然将该节点隔离,将节点的业务转移到其他接管节点上而导致的接管流程复杂,容易出错,同时也增加了接管节点的负载的问题,简化了接管流程,降低了出错率,同时也较少了接管节点的负载负担,也就是说,采用本发明实施例的技术方
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1