云计算操作系统的控制器服务状态监控和故障恢复方法

文档序号:7957744阅读:522来源:国知局

专利名称::云计算操作系统的控制器服务状态监控和故障恢复方法
技术领域
:本发明涉及云计算
技术领域
,尤其是一种云计算操作系统的控制器服务状态监控和故障恢复方法。
背景技术
:云计算作为新一代的网络资源计算模型,具有超强的计算能力和低成本、高安全性,以用户为中心等特点。云计算操作系统是云计算的基础设施管理平台,通过云控制器服务将大型基础架构集合(CPU、存储、网络)作为一个无缝、灵活和动态的操作环境进行全面管理,将服务器、存储设备和网络资源进行虚拟化并聚合资源,最终按需分配给用户使用。目前国际知名的IT公司如Google、亚马逊、微软、Oracle、IBM、SUN等都在积极地研究云计算并开展相关商业应用。云计算操作系统由云控制器、集群控制器、计算节点控制器组成。云控制器管理云系统的集群信息;集群控制器管理云系统的网络资源信息、计算节点信息、集群虚拟机信息;计算节点提供了硬盘、内存、CPU等物理资源的虚拟化基础设施,计算节点控制器管理节点虚拟机实例详细信息。因服务器故障、网络故障、软件故障等问题,云计算中心很难保证云系统中控制器随时随地提供正常的服务,例如亚马逊在弗吉尼亚州(Virginia)北部的云计算系统出现过云系统中控制器故障问题。目前一般是研究物理服务器故障问题,而面向云计算操作系统的控制器故障服务技术甚少,而控制器故障恢复在云计算中有重要意义,保证云计算操作系统的高可靠性。
发明内容本发明解决的技术问题之一在于提供一种云计算操作系统的控制器服务状态监控方法。本发明解决的技术问题之二在于提供一种云计算操作系统的控制器服务故障恢复方法。本发明解决前述技术问题之一的技术方案是包括如下步骤第1步,建立状态监控模块,所述的模型包括有集群控制器服务监控模块和节点控制器服务监控模块,服务状态有正常状态、故障状态;第2步,状态监控;所述的集群控制器服务监控模块添加在云控制器上,云控制器调用集群控制器服务监控模块,根据返回结果来设定集群控制器的状态;所述的节点控制器服务监控模块添加在集群控制器上,根据返回结果来设定节点控制器的状态。本发明解决前述技术问题之二的技术方案是包括如下步骤第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、虚拟机信息的内存块,并将内存块映射到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,并备份到硬盘文件上;第2步,通过集群控制器或节点控制器服务监控模块,将故障的集群控制器或节点控制器标识反馈给系统管理员;根据反馈的标识对发生故障的集群控制器服务和/或节点控制器服务进行重启。集群控制器服务发生故障时,重启集群控制服务,将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息。节点控制器服务发生故障时,重启节点控制服务,首先扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中;然后同步虚拟机监视器上的虚拟机状态信息。节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。本发明提出了一种基于云计算服务状态模型来监控云计算控制器服务是否正常,基于硬盘文件的内存映射机制的云计算控制器服务重启和跨计算节点启动虚拟机的故障恢复方法。有效解决了现有服务故障后重新恢复软件服务,但原先软件程序使用的内存数据很难恢复的问题。本发明的方法可以确保服务恢复后所有内存数据都可以保留;避免了数据丢失。下面结合附图对本发明进一步说明图1是本发明的整体系统示意图;图2是本发明的控制器服务状态转换图;图3是本发明的控制器故障恢复流程具体实施例方式如附图1-3所示,本发明提出了一种基于云计算服务状态模型来监控云计算控制器服务是否正常,基于硬盘文件的内存映射机制的云计算控制器服务重启和跨计算节点启动虚拟机的故障恢复方法。具体的状态监控和故障恢复按照如下步骤进行第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、集群虚拟机信息的内存块,将内存块的数据结构热备到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,同时备份到硬盘文件上。其中硬盘文件保存在数据中心上,保证单集群控制器节点和节点控制器物理机故障时,能够跨集群控制器节点和计算控制器节点恢复用户的网络资源、虚拟机信息。第2步,建立云计算操作系统的云计算控制器服务监控模块,云计算控制器服务状态有正常状态、故障状态,其模块属于动态变迁模型,服务处于故障状态恢复后服务状态将变为正常状态,服务由于异常原因不能提供服务时将标识为故障状态,可以动态变更集群控制器服务、计算节点控制器服务的状态。第3步,在云控制节点器和集群控制器上添加服务监控模块,云控制器上的集群控制器服务监控模块根据设定的时间间隔定期通过SOAP(简单对象访问协议)调用扫描集群信息服务,将返回信息为空的集群节点服务标识为集群控制器服务故障状态;集群控制器上的节点控制器服务监控模块根据设定的时间间隔定期通过SOAP(简单对象访问协议)调用扫描计算节点服务,将返回信息为空的计算节点服务标识为节点控制器服务故障状态。第4步,通过集群控制器或节点控制器服务监控模块,将发生故障的集群控制器或节点控制器反馈给云计算操作系统管理员;集群控制器服务发生故障时,重启集群控制服务,服务将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,然后读取内存中用户组安全规则和虚拟机网络地址信息,构造iptable命令集和DHCP服务配置文件,重新生成防火墙规则和虚拟机私有地址,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息。集群控制器物理机发生故障不能修复时,将重建根据原有集群控制器的备份硬盘文件备重建集群控制器,具体步骤如前所述;节点控制器服务发生故障时,重启节点控制服务,服务首先将扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中,然后同步虚拟机监视器上的虚拟机状态信息;节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。权利要求1.一种云计算操作系统的控制器服务状态监控方法,其特征在于包括如下步骤第1步,建立状态监控模块,所述的模型包括有集群控制器服务监控模块和节点控制器服务监控模块,服务状态有正常状态、故障状态;第2步,状态监控;所述的集群控制器服务监控模块添加在云控制器上,云控制器调用集群控制器服务监控模块,根据返回结果来设定集群控制器的状态;所述的节点控制器服务监控模块添加在集群控制器上,根据返回结果来设定节点控制器的状态。2.—种权利要求1所述的控制器服务状态监控方法的云计算操作系统的控制器服务故障恢复方法,其特征在于包括如下步骤第1步,建立云计算操作系统集群控制器服务所需要的网络资源、计算节点资源信息、虚拟机信息的内存块,并将内存块映射到硬盘文件上;节点控制器服务随着虚拟机的创建并相应构造虚拟机元数据的内存块,并备份到硬盘文件上;第2步,通过集群控制器或节点控制器服务监控模块,将故障的集群控制器或节点控制器标识反馈给系统管理员;根据反馈的标识对发生故障的集群控制器服务和/或节点控制器服务进行重启。3.根据权利要求2所述的控制器服务故障恢复方法,其特征在于集群控制器服务发生故障时,重启集群控制服务,将包含着网络资源、计算节点资源信息的硬盘文件重新映射到内存中,恢复集群控制器所管理的网络资源信息、节点资源信息、虚拟机信息。4.根据权利要求2或3所述的控制器服务故障恢复方法,其特征在于节点控制器服务发生故障时,重启节点控制服务,首先扫描虚拟机实例存储的数据中心,读取虚拟机元数据的硬盘文件并将其映射到内存中;然后同步虚拟机监视器上的虚拟机状态信息。节点控制器物理机发生故障时,集群控制器将通过计算节点资源调度算法为故障控制器上的虚拟机分配新的计算节点,新的节点控制器将读取虚拟机元数据的硬盘文件并将其映射到内存中,最后利用虚拟机的配置文件启动虚拟机。全文摘要本发明涉及云计算
技术领域
,尤其是一种云计算操作系统的控制器服务状态监控和故障恢复方法。本发明在云控制器和集群控制器上分别设置服务监控模块;集群控制器故障恢复时,重启集群控制器,恢复集群控制管理的网络信息、计算节点资源和集群虚拟机信息;节点控制器故障恢复时,重启节点控制器,恢复计算节点控制器所管理的节点资源和虚拟机信息。本发明有效解决了服务恢复内存数据丢失的问题,保证云计算操作系统服务的高可靠性;可广泛应用于云计算操作系统中。文档编号H04L12/24GK102394774SQ20111033908公开日2012年3月28日申请日期2011年10月31日优先权日2011年10月31日发明者季统凯,岳强,罗义兵,莫展鹏,邓校明申请人:广东电子工业研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1