一种云计算集群中节点自修复的方法

文档序号:7777717阅读:297来源:国知局
一种云计算集群中节点自修复的方法
【专利摘要】一种云计算集群中节点自修复的方法,它涉及云计算【技术领域】,它的修复方法为:(1)、云管理系统监控每台节点的运行状态;(2)、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;(3)、管理系统通过IPMI系统控制节点重新启动,并检测状态;(4)、如果启动之后正常则该节点继续加入集群使用;(5)、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;(6)、如果修复失败则通过控制台发布警报通知管理员。它降低服务器管理员的工作量与工作时间,节省人力资源成本。
【专利说明】一种云计算集群中节点自修复的方法
【技术领域】:
[0001]本发明涉及云计算【技术领域】,具体涉及一种云计算集群中节点自修复的方法。
【背景技术】:
[0002]随着互联网技术与应用的不断发展,承载互联网服务的数据中心规模也再不断扩大,一些大型的数据中心服务器数量已有数百台,甚至上千台,面对如此庞大的服务器维护工作,服务器管理员的一大部分时间都被服务器重启这样简单操作所占用,服务器管理员迫切需求一种技术方法可以实现服务器自检与重启,从而降低服务器管理与维护繁杂度,并更好的实现服务器管理人员的人力资源分配与优化。
[0003]参看图1,云管理系统中有多台服务器用于承载云虚机运行,这些服务器被组成一个集群,而其中的每台服务器被称作节点。集群中的某个节点出现故障时,云管理系统将会自动启用故障转移功能,即将该台服务器上运行的云虚机全部转移到运行良好的设备上,从而保证云虚机的正常运行。对于出现故障的服务器,管理人员需要手动检测并重启,服务器重启且正常运行后便可以再次用于承载云虚机。
[0004]现有的云管理系统中集群节点自动化部署技术,当发现集群中节点宕机之后会启动故障转移程序,然后需要管理员去检测故障节点并修复。对于规模庞大的云管理系统集群,这样的技术管理将耗费大量的维护成本。

【发明内容】
:
[0005]本发明的目的是提供一种云计算集群中节点自修复的方法,它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
[0006]为了解决【背景技术】所存在的问题,本发明是采用以下技术方案:它的修复方法为:
1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
[0007]本发明具有以下有益效果:它基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。【专利附图】

【附图说明】:
[0008]图1为【背景技术】中传统云管理系统中集群节点运行与修复流程图,
[0009]图2为本发明的工作流程图,
[0010]图3为实施例的的分析图示。
【具体实施方式】:
[0011]参看图2,本【具体实施方式】采用以下技术方案:它的修复方法为:1、云管理系统监控每台节点的运行状态;2、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;3、管理系统通过IPMI系统控制节点重新启动,并检测状态;4、如果启动之后正常则该节点继续加入集群使用;5、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;6、如果修复失败则通过控制台发布警报通知管理员。
[0012]本【具体实施方式】具有以下特点:1、自愈能力:当云管理系统中有节点运行不正常或宕机时,系统可以通过本方案来实现自愈能力,该过程需要手动操作的非常少;2、高安全性:云管理系统会通过监测、判断与自动启用功能来实现节点宕机时的修复工作,整个过程几乎无需人工干涉,因此安全性更高;3、更具时效性:传统情况下,云管理系统中节点宕机需要管理员手动修复,但是发现宕机、到达现场、手动修复及监测是否修复成功这一系列的工作都需要耗费不少的时间,因此一定程度上影响了云管理系统中节点的正常运行。而通过本方案可以实现整个修复过程的自动化,从而更具时效性;4、降低管理成本:整个修复过程由系统自主监测与修复,无需人工操作,因此可以节省管理人员及管理成本;5、优化管理人员结构:由于管理员可以从本来繁杂的工作中解脱出来,因此他们可以有时间与精力从事其它更重要的工作。
[0013]本【具体实施方式】通过几个步骤对故障节点进行修复,首先通过简单的重启来修复问题,如果失败则自动重装系统和重新配置并加入集群。对于没有硬件故障的服务器,本方案都可以成功进行修复,因此可节省云计算数据中心中节点的维护成本。
[0014]本【具体实施方式】基于现有的云管理系统中集群节点自动化部署技术,以及IPMI技术,通过将这两种技术优化结合,并采用一定技术手段来使之更符合现在的市场需求,实现云管理系统中集群节点的自动修复功能,从而在保证云管理系统运行正常且不被影响的情况下,降低服务器管理员的工作量与工作时间,节省人力资源成本。
[0015]实施例:
[0016]参看图3,集群中A节点出现宕机情况时的系统工作步骤:
[0017]步骤1:云系统实时监测A节点的状态,判断其是否宕机;
[0018]步骤2:如果A节点宕机,那么A节点上所有运行的云虚机将自动迁移到运行正常的B节点上,从而保证云虚机的正常运行;
[0019]步骤3:云系统启用IPMI ;
[0020]步骤4: IPMI对A节点进行重启操作;
[0021]步骤5:云系统再次监测A节点的状态,重启成功则完成,否则进入步骤6。
[0022]步骤6:云系统启用IPMI ;[0023]步骤7 =IPMI对A节点执行网络启动,再利用云管理系统的自动发现安装功能给该节点重装系统和设置;
[0024]步骤8:云系统再次监测A节点的状态,A节点运行正常则完成,否则进行步骤9。
[0025]步骤9:云系统发出警报;
[0026]步骤10:管理人员看到警报后手动修复A节点;至此,A节点运行正常。
[0027]云管理系统中各节点对外而言无区别,即云虚机运行在任何一个节点上都没有影响。
[0028]实例初始状态:A、B节点运行正常,云虚机运行于A节点之上。
[0029]实例最终状态:A、B节点运行正常,云虚机运行于B节点之上。
[0030]由于云管理系统中节点对外表现无差别,因此执行本方案使得实例最终恢复到了初始的状态。
【权利要求】
1.一种云计算集群中节点自修复的方法,其特征在于它的修复方法为:(1)、云管理系统监控每台节点的运行状态;⑵、当某节点出现故障时,系统启动故障转移进程,该节点上的所有云虚机在其他资源充足且运行正常的节点上自动启动;(3)、管理系统通过IPMI系统控制节点重新启动,并检测状态;(4)、如果启动之后正常则该节点继续加入集群使用;(5)、如果重启修复失败,则通过IPMI控制节点实现网络启动,然后利用云管理系统的自动发现安装功能给该节点重装系统和设置,待设置完成后加入集群;(6)、如果修复失败则通过控制台发布警报通知管理员。
【文档编号】H04L29/08GK103595572SQ201310607512
【公开日】2014年2月19日 申请日期:2013年11月27日 优先权日:2013年11月27日
【发明者】牛永伟 申请人:牛永伟
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1