基于远程检测和电源管理的高可用集群系统假死解决方法

文档序号:7975516阅读:423来源:国知局
专利名称:基于远程检测和电源管理的高可用集群系统假死解决方法
技术领域
本发明属于计算机集群技术领域,特别是涉及解决高可用性集群 (High-availability clusters)系统假死的方法。
背景技术
随着计算机应用领域的不断扩展和通信网络技术的飞速发展,电信、金融、电子政务等关键领域对服务器持续运行的要求越来越高,由于服务器宕机等故障所造成的业务停止将会带来无法估量的损失,为了应对这样的情况,目前惯用手段是采用高可用集群系统, 即使某台服务器发生故障,用户业务和数据也可迅速切换到备份服务器上,从而保证了整个系统对外服务的正常,为企业M小时x365天的关键业务应用提供了强大的保障。但是,现有高可用集群系统难以克服的一个问题是节点假死问题,比如当客户端的请求量达到一定数值,出现服务器硬件资源难以满足需求,服务器不能正常对外提供服务,半瘫痪的一种状况。这种状况的持续时间不定,是否可恢复也未知。此时如果备份服务器接管业务,主机假死恢复后服务在两个节点同时运行,会发生磁阵双挂,导致用户数据丢失。而如果备份服务器不接管业务则集群不能正常对外提供服务。因此,我们希望能有一种方法能解决假死的问题,保证服务器能提供更稳定的服务。

发明内容
针对上述问题,本发明提供基于远程检测和电源管理的高可用集群系统假死解决方法,通过服务检测脚本来检测服务运行节点状况,然后通过远程电源管理技术重启假死节点,节点重启后服务能迁移到备份节点,从而保证了系统的高可用性和数据安全性,避免主机假死恢复后服务在两个节点同时运行的状况。本发明通过以下技术手段实现基于远程检测和电源管理的高可用集群系统假死解决方法,包括以下步骤A.集群系统启动时,读取配置文件,取得服务检测时间间隔T和最大检测失败次数N,初始化远程电源管理模块,启动远程检测定时器;集群启动后服务部署的节点即为 L2 ;B.每隔时间T后,其它任意节点Ll向节点L2发送探测请求包,在规定的时间内收到节点L2返回的探测响应包则执行步骤C,如果接收探测响应包超时或者探测响应包标示服务在节点L2上运行异常,则执行步骤D ;C.探测响应包标示服务运行正常,等待时间间隔T后启动下一次检测;D.当服务连续检测失败次数达到最大检测失败次数N,说明服务在节点L2上不可用,此时节点Ll向集群系统中的集中式远程电源管理器发送重启请求,集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;E.节点L2重启完成后,重新加入集群系统。
本发明还可做以下改进步骤B中,所述探测请求包为TCP连接请求、SQL查询、特定的服务消息、带协议标志位的包、二进制流中的至少一种。步骤D中,所述远程电源管理器重启对端节点的方法为与服务器所支持的电源管理接口相对应的方法;如IBM服务器的RSAII卡、HP服务器的iLO卡、DELL服务器的DRAC 卡、智能平台管理接口 IPMI对应的远程电源管理的方法。与现有技术相比,本发明具有的有益效果为1)本发明提供的基于远程检测和电源管理的高可用集群系统假死解决方法,先检查主机是否处于假死状态,确定主机假死后使用看门狗技术重启主机,确保主机上运行的服务停止,有效的避免了主机假死恢复后服务在两个节点同时运行,会发生磁阵双挂,导致用户数据丢失的问题,保证了整个系统运行的稳定性。2)本发明提供的基于看门狗本地检测技术的高可用集群系统假死解决方法,先检查主机是否处于假死状态,确定主机假死后使用看门狗技术重启主机,主机重启过程中备份节点接管业务,解决了主机持续假死,集群不能正常对外提供服务问题,保证了服务可持续性。3)本发明可采用多种探测请求包进行检测,具有灵活可控性。


图1为基于远程脚本检测及远程电源管理的集群系统假死解决方法系统流程图。图2为典型的高可用多节点集群系统拓扑中A.服务器;B.网络;C.交换机;D.远程电源管理器。
具体实施例方式下面结合附图和实施例对本发明进行详细的描述,以更进一步了解本发明的目的、方案及功效,但不作为对本发明所附权利要求保护的限制。实施例1如图2所示的高可用集群系统拓扑图,系统有L个节点,所有节点连接至一个集中式的远程电源管理器。每个节点有三张网卡eth0、ethl、eth2。ethO和ethl作为两个不同的心跳网卡,负责传输心跳信号和各节点间通信。eth2作为工作链路网卡连接至边界路由器,并通过浮动IP对外提供服务。集群软件启动后选举一个主节点。主节点负责集群节点间状态同步、节点调度、服务部署等。每次服务部署时,节点调度算法会为每个服务选择合适的节点进行部署,运行服务的节点即为活动节点。基于远程检测和电源管理的高可用集群系统假死解决方法,包括以下步骤A.集群系统启动时,读取配置文件,取得服务检测时间间隔T和最大检测失败次数N,初始化远程电源管理模块,启动远程检测定时器;集群启动后服务部署的节点即为 L2 ;B.每隔时间T后,其它任意节点Ll向节点L2发送探测请求包,在规定的时间内收到节点L2返回的探测响应包则执行步骤C,如果接收探测响应包超时或者探测响应包标示服务在节点L2上运行异常,则执行步骤D ;
C.探测响应包标示服务运行正常,等待时间间隔T后启动下一次检测;D.当服务连续检测失败次数达到最大检测失败次数N,说明服务在节点L2上不可用,此时节点Ll向集群系统中的集中式远程电源管理器发送重启请求,集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;E.节点L2重启完成后,重新加入集群系统。启动集群后,进行系统状态测试,节点L2上有运行服务,在L2上运行测试程序导致L2假死,该状态持续TXN秒后,节点Ll连续N次服务远程检测失败,Ll通告节点L2异常;集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;整个集群系统能正常对外提供服务。实施例2如图2所示的高可用集群系统拓扑图,系统有L个节点,所有节点连接至一个集中式的远程电源管理器。每个节点有三张网卡eth0、ethl、eth2。ethO和ethl作为两个不同的心跳网卡,负责传输心跳信号和各节点间通信。eth2作为工作链路网卡连接至边界路由器,并通过浮动IP对外提供服务。集群软件启动后选举一个主节点。主节点负责集群节点间状态同步、节点调度、服务部署等。每次服务部署时,节点调度算法会为每个服务选择合适的节点进行部署,运行服务的节点即为活动节点。基于远程检测和电源管理的高可用集群系统假死解决方法,包括以下步骤A.集群系统启动时,读取配置文件,取得服务检测时间间隔T和最大检测失败次数N,初始化远程电源管理模块,启动远程检测定时器;集群启动后服务部署的节点即为 L2 ;B.每隔时间T后,其它任意节点Ll向节点L2发送TCP连接请求,在规定的时间内收到节点L2返回的探测响应包则执行步骤C,如果接收探测响应包超时或者探测响应包标示服务在节点L2上运行异常,则执行步骤D ;C.探测响应包标示服务运行正常,等待时间间隔T后启动下一次检测;D.当服务连续检测失败次数达到最大检测失败次数N,说明服务在节点L2上不可用,此时节点Ll向集群系统中的集中式远程电源管理器发送重启请求,集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;E.节点L2重启完成后,重新加入集群系统。步骤D中,所述远程电源管理器重启对端节点的方法为与服务器所支持的电源管理接口相对应的方法;如IBM服务器的RSAII卡、HP服务器的iLO卡、DELL服务器的DRAC 卡、智能平台管理接口 IPMI对应于远程电源管理的方法。启动集群后,进行系统状态测试,节点L2上有运行服务,在L2上运行测试程序导致L2假死,该状态持续TXN秒后,节点Ll连续N次服务远程检测失败,Ll通告节点L2异常;集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;整个集群系统能正常对外提供服务。上述的实施例仅为本发明的优选实施例,不能以此来限定本发明的权利范围,因此,依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
权利要求
1.基于远程检测和电源管理的高可用集群系统假死解决方法,其特征在于包括以下步骤A.集群系统启动时,读取配置文件,取得服务检测时间间隔T和最大检测失败次数N, 初始化远程电源管理模块,启动远程检测定时器;集群启动后服务部署的节点即为L2 ;B.每隔时间T后,其它任意节点Ll向节点L2发送探测请求包,在规定的时间内收到节点L2返回的探测响应包则执行步骤C,如果接收探测响应包超时或者探测响应包标示服务在节点L2上运行异常,则执行步骤D ;C.探测响应包标示服务运行正常,等待时间间隔T后启动下一次检测;D.当服务连续检测失败次数达到最大检测失败次数N,说明服务在节点L2上不可用, 此时节点Ll向集群系统中的集中式远程电源管理器发送重启请求,集中式远程电源管理器重启对端节点L2,节点L2关机成功后把运行在节点L2上的服务迁移到备份节点L3 ;E.节点L2重启完成后,重新加入集群系统。
2.根据权利要求1所述的基于远程检测和电源管理的高可用集群系统假死解决方法, 其特征在于步骤B中,所述探测请求包为TCP连接请求、SQL查询、特定的服务消息、带协议标志位的包、二进制流中的至少一种。
3.根据权利要求,2所述的基于远程检测和电源管理的高可用集群系统假死解决方法,其特征在于步骤D中,所述远程电源管理器重启对端节点的方法为与服务器所支持的电源管理接口相对应的方法。
全文摘要
本发明提供的基于远程检测和管理的高可用集群系统假死解决方法,属于计算机集群技术领域。该方法通过服务检测脚本来检测服务运行节点状况,然后通过远程电源管理技术重启节点,节点重启后服务能迁移到备份节点,从而保证了系统的高可用性和数据安全性,避免主机假死恢复后服务在两个节点同时运行的状况。保证了整个系统运行的稳定性。该方法可广泛应用于计算机集群技术领域。
文档编号H04L29/08GK102510343SQ20111036291
公开日2012年6月20日 申请日期2011年11月16日 优先权日2011年11月16日
发明者王幸福, 蔡强, 袁泉 申请人:广东新支点技术服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1