一种集群系统的容灾方法和装置的制造方法

文档序号:8265367阅读:448来源:国知局
一种集群系统的容灾方法和装置的制造方法
【技术领域】
[0001]本发明涉及计算机集群技术领域,特别是涉及一种集群系统的容灾方法和装置。
【背景技术】
[0002]计算机集群可以利用多个集群节点并行计算从而获得很高的计算速度,也可以用多个集群节点做备份,从而使得任何一台设备故障后整个集群系统还能正常运行。
[0003]集群系统的可靠性是指集群系统对不论在何种情况下对请求的响应能力,也即,当集群系统中任何一台机器或者任何一个集群节点发生故障时集群系统能够通过剩下的机器和集群节点继续运行,这对集群系统的容灾能力提出了较高的要求。
[0004]目前,集群系统的可靠性往往通过业务层来实现。以⑶N(内容分发网络,ContentDelivery Network)业务系统为例,其通常部署有多级存储服务器,多级存储服务器上存储有相同的内容,这样,在当前级存储服务器发生故障时,可以向上一级存储服务器请求内容等等。然而,对于集群系统内部的容灾尚无成型的方案。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种集群系统的容灾方法和装置。
[0006]依据本发明的一个方面,提供了一种集群系统的容灾方法,包括:
[0007]获取各集群节点的运行过程信息;其中,所述运行过程信息包括:可访问性信息和/或负载信息和/或操作执行信息;以及
[0008]当所述集群节点的可访问性信息和/或负载信息和/或操作执行信息符合预置容灾条件时,对集群系统进行容灾处理。
[0009]可选地,所述获取各集群节点的运行过程信息的步骤,包括:
[0010]从集群节点获取其自身的可访问性信息和/或负载信息和/或操作执行信息;和/或
[0011 ] 从客户端获取其所访问集群节点的操作执行信息。
[0012]可选地,所述操作执行信息包括操作出错信息和/或预置时间段内的操作执行信息;
[0013]则所述从客户端获取其所访问集群节点的操作执行信息的步骤,包括:
[0014]从客户端实时获取其所访问集群节点的操作出错信息;和/或
[0015]从客户端定期获取其所访问集群节点在预置时间段内的操作执行信息。
[0016]可选地,所述当所述集群节点的可访问性信息符合预置容灾条件时,对集群系统进行容灾处理的步骤,包括:
[0017]在当前集群节点的可访问性信息为否时,向客户端发送第一节点切换信息;其中,所述第一节点切换信息用于指示客户端访问除当前集群节点外的其它集群节点;和/或
[0018]在当前集群内可访问性信息为否的集群节点比例超过预置比例时,向客户端发送第一集群切换信息;其中,所述第一集群切换信息用于指示客户端访问除当前集群外的其它集群。
[0019]可选地,所述当所述集群节点的负载信息符合预置容灾条件时,对集群系统进行容灾处理的步骤,包括:
[0020]在当前集群节点的负载信息超过第一负载阈值时,向客户端发送第二节点切换信息;其中,所述第二节点切换信息用于指示客户端将部分或全部请求切换至除当前集群节点外的其它集群节点;和/或
[0021]在当前集群的负载信息超过第二负载阈值时,向客户端发送第二集群切换信息;其中,所述第二集群切换信息用于指示客户端将部分或全部请求切换至除当前集群外的其它集群。
[0022]可选地,所述当所述集群节点的操作执行信息符合预置容灾条件时,对集群系统进行容灾处理的步骤,包括:
[0023]当所述集群节点在预置时间段内的操作执行信息符合第一容灾条件时,向客户端发送第三节点切换信息;其中,所述第三节点切换信息用于指示客户端将部分请求切换至除当前集群节点外的其它集群节点;和/或
[0024]根据所述操作出错信息定位所述集群节点的故障,当所述故障对应故障等级高于预置故障等级时,向客户端发送第四节点切换信息;其中,所述第四节点切换信息用于指示客户端将部分或全部请求切换至除当前集群节点外的其它集群节点。
[0025]根据本发明的另一方面,提供了一种集群系统的容灾装置,包括:
[0026]信息获取模块,用于获取各集群节点的运行过程信息;其中,所述运行过程信息包括:可访问性信息和/或负载信息和/或操作执行信息;以及
[0027]容灾处理模块,用于当所述集群节点的可访问性信息和/或负载信息和/或操作执行信息符合预置容灾条件时,对集群系统进行容灾处理。
[0028]可选地,所述信息获取模块,包括:
[0029]节点获取子模块,用于从集群节点获取其自身的可访问性信息和/或负载信息和/或操作执行信息;和/或
[0030]客户端获取子模块,用于从客户端获取其所访问集群节点的操作执行信息。
[0031]可选地,所述操作执行信息包括操作出错信息和/或预置时间段内的操作执行信息;
[0032]则所述客户端获取子模块,包括:
[0033]实时获取单元,用于从客户端实时获取其所访问集群节点的操作出错信息;和/或
[0034]定期获取单元,用于从客户端定期获取其所访问集群节点在预置时间段内的操作执行信息。
[0035]可选地,所述容灾处理模块,包括:
[0036]第一容灾处理子模块,用于在当前集群节点的可访问性信息为否时,向客户端发送第一节点切换信息;其中,所述第一节点切换信息用于指示客户端访问除当前集群节点外的其它集群节点;和/或
[0037]第二容灾处理子模块,用于在当前集群内可访问性信息为否的集群节点比例超过预置比例时,向客户端发送第一集群切换信息;其中,所述第一集群切换信息用于指示客户端访问除当前集群外的其它集群。
[0038]根据本发明实施例的一种集群系统的容灾方法和装置,可以获取各集群节点的运行过程信息,其中,所述运行过程信息具体可以包括:可访问性信息和/或负载信息和/或操作执行信息,并在所述集群节点的可访问性信息和/或负载信息和/或操作执行信息符合预置容灾条件时,对集群系统进行容灾处理;由于上述运行过程信息能够实时反映集群节点的运行情况,例如,可访问性信息能够实时反映集群节点是否可访问,负载信息能够实时反映集群节点是否过载,操作执行信息能够反映集群节点对于操作的出错率或者准确率等等,故本发明实施例在所述集群节点的可访问性信息和/或负载信息和/或操作执行信息符合预置容灾条件时,对集群系统进行容灾处理,能够实时保证整个集群系统的可靠性;例如,可以在某个集群的流量突增时将部分流量切换至其它集群以起到过载保护,又如,可以在某个集群的多数集群节点不可用时可以将客户端的请求切换到其它集群以保证集群系统的响应能力;再如,在基于集群节点的操作出错信息定位的故障等级高于预置故障等级时,则可以认为该集群节点提供的一个操作或所有操作的服务不可用,故可以将客户端的部分或全部请求切换至除当前集群节点外的其它集群节点,等等。
[0039]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0040]通过阅读下文可选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出可选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0041]图1示出了根据本发明一个实施例的一种集群系统的容灾方法的步骤流程示意图;
[0042]图2示出了根据本发明一个实施例的一种集群系统的结构示意图;
[0043]图3示出了根据本发明一个实施例的一种集群系统的容灾方法的步骤流程示意图;
[0044]图4示出了根据本发明一个实施例的一种集群系统的容灾方法的步骤流程示意图;
[0045]图5示出了根据本发明一个实施例的一种集群系统的容灾方法的步骤流程示意图;
[0046]图6示出了根据本发明一个实施例的一种集群系统的容灾方法的步骤流程示意图;以及
[0047]图7示出了根据本发明一个实施例的一种集群系统的容灾装置的结构示意图。
【具体实施方式】
[0048]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1