一种基于虚拟化的高可用计算机系统的制作方法

文档序号:6397892阅读:161来源:国知局
专利名称:一种基于虚拟化的高可用计算机系统的制作方法
技术领域
本发明涉及计算机应用技术领域,具体地说是一种基于虚拟化的高可用计算机系统。
背景技术
基于虚拟化的高可用计算机系统的研制主要面复杂业务系统。复杂业务系统是一种实时复杂的信息与控制系统,它担负着数据收集、数据融合、数据分发及指令的处理等重要任务。一般采用全分布式的体系结构,所有的设备均与网络相连,进行信息交换。作为复杂业务系统的核心,其服务器平台需要完成系统管理、数据收发、数据处理、指令处理、文电处理以及软件处理等重要功能,对计算机系统同时提出了高可用性和高处理能力的需求,此外考虑到可能出现的在多个不同层次的部署的需求,还要求计算机系统具备规模可伸缩性,对可扩展性存在较高要求。目前在高可用计算机系统的设计及评测方面开展了一些研究,突破了一些关键技术。在一些项目的研制过程中,积累了关于基于集群的服务器研制的宝贵经验,在系统管理、可用性设计方面取得了一定成果。在这些研究基础上,重点研究基于虚拟化技术的主动故障管理机制,进一步展开以故障为核心的高可用服务器的研制。虚拟化技术可以主动故障管理系统在任务的管理、故障管理和恢复等方面的性能得到更大的提升。在硬件方面,采用基于国产处理器及TCM芯片的全国产硬件计算平台,使用基于CPCI总线架构的刀片设计,也可以提供高效的多机处理能力及良好的可扩展性。

发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于虚拟化的高可用计算机系统。本发明的技术方案是按以下方式实现的,系统采用基于国产处理器及TCM芯片的全国产硬件计算平台,使用基于CPCI总线架构的刀片设计,提供高效的多机处理能力及良好的可扩展性,该系统的核心为主动故障管理系统,其通过带内、带外两种方式对系统硬件及软件状态进行实时监测,通过对获取数据的分析,以实现故障的预测、检测及诊断过程,及时完成对故障的隔离与恢复,基于虚拟化的高可用计算机系统分为三部分设计,即系统硬件平台、主动故障管理系统、系统管理软件平台,其中:
系统硬件平台:由计算单元通过高速互连单元形成一个并行处理系统,计算单元之间没有直接联系,所有的业务数据及系统管理都通过上层两个冗余的互连模块传输到计算单元上,互连模块的上行端口直接连接到两个容错管理模块,两个容错管理模块相互为备份,通过心跳检测相互检查是否处于active状态和进行故障时两个容错管理模块之间的数据同步;
主动故障管理系统,主动故障管理系统是整个系统的核心,包括局部故障管理模块和整体故障管理模块,局部故障管理模块包括带内、带外监控模块和故障处理模块,整体故障管理模块包括主动故障管理模块、通讯模块和用户管理接口,在本系统中,将消息传输层独立于管理组件来设计,其间定义标准的消息规范和定义,便于模块化设计,提高故障管理系统的扩展性和可移植性,通过监视器对系统资源的状态和行为进行检测,将异常状态或行为形成故障描述传递给诊断组件,对故障位置、传播途径及影响范围做出评价,并根据知识/规则库形成处理规则,由执行器对涉及的故障组件进行隔离、恢复相关操作。系统管理软件平台,具有管理系统资源、任务调度与切换、为客户端提供系统映像功能,系统管理软件平台采一种双层容错机制实现,系统管理软件平台统一有序地管理双容错管理、各计算单元、共享存储器,并借助有效的故障处理机制,保证系统高可用的工作,协同管理模块协调管理其他各模块的工作,并为管理员提供友良好的管理界面。系统硬件平台采用CPCI系统结构,以其高效的多机并行处理能力提供系统所需的处理能力和良好的可扩展性,其接口简单集中,便于热插拔设计,对可维护性设计提供支持,同时可大大缩短系统“展开时间”,另外,在通信与存储接口、电源/散热模块都采用了冗余设计。本发明的有益效果:作为复杂业务系统的核心,其服务器平台需要完成系统管理、数据收发、数据处理、指令处理、文电处理以及软件处理等重要功能,对计算机系统同时提出了高可用性和高处理能力的需求,同时考虑到可能出现的在多个不同层次的部署的需求,还要求计算机系统具备规模可伸缩性,对可扩展性存在较高要求。高可用技术与虚拟化技术相结合是一种比较简单有效且节约成本的方法。高可用技术作为虚拟化的保障,为虚拟化提供可以稳定运行环境;将负载在虚拟化环境中,使得负载可以在可用的虚拟化环境中动态地在线迁移,从而保证了业务的不间断性,使系统的可用性得到了满足。本发明提出的系统结构,能够对本身的部件和系统性能要进行复杂的管理,能够及时发现解决系统的故障,动态迁移故障设备上的任务,监控设备性能,从而提高系统的可用性。主动故障管理系统作为整个系统的核心,通过带内、带外两种方式对系统硬件及软件状态进行实时监测,通过对获取数据的分析,以实现故障的预测、检测及诊断过程,及时完成对故障的隔离与恢复。


图1是系统硬件设计拓扑 图2是故障管理系统结构 图3是主动故障管理系统设计 图4是管理态软件的结构 图5是系统在线迁移方案图。
具体实施例方式下面参照附图,对本发明的内容以一个具体实例来描述实现这一体系结构的过程。在系统启动后,通过高速互连单元形成一个并行处理系统,计算单元之间没有直接联系,所有的业务数据及系统管理都通过上层两个冗余的互连模块传输到计算单元上。互连模块的上行端口直接连接到两个容错管理模块,容错管理模块A和容错管理模块B模块相互为备份。正常情况下,容错管理模块A负责整个系统的业务管理,同时容错管理模块B和容错管理模块A也在做相互状态备份,当容错管理A出现问题或整体故障管理系统发现容错管理模块A有可能出现问题时。主动故障管理系统会对故障进行隔离与恢复,从而将业务管理交由容错管理模块B处理,使系统具备较高的可用性。主动故障管理系统中的局部故障管理模块负责完成节点自身的故障检测和故障处理。当预测或检测出故障后,通过故障消息发送接口发送给局部故障管理单元;监控模块定期存储历史采集数据,当接收到局部故障管理单元数据请求后,通过周期性消息发送接口将本周期内的采样数据通过局部故障管理单元发送给整体故障管理单元,供整体故障管理单元做全局健康分析;当通过故障修复接口接收到局部故障管理单元发送的故障处理指令时,监控模块对处理指令作出分析,并对系统进行带内故障修复;监控模块为系统管理者提供用户查询接口,允许用户动态查询当前能进行故障检测的对象相关信息,增强检测对象的可控制性;监控模块为系统管理者提供用户配置接口,允许用户动态配置故障检测对象,增加带内故障检测的可扩展性;监控模块通过管理软件查询接口,为系统管理软件提供本地节点的系统运行状态数据,方便系统管理软件的全局资源调度。对于局部故障管理单元发送给整体故障管理单元的带内外异常信息首先由主动故障管理单元中的诊断器进行诊断,而对于整体故障管理单元周期性主动获取的各计算单元的信息则由分析器进行分析,两者工作的结果都传递给计划器,然后由计划器对照故障知识规则库规划出将要执行的故障处理行为,最后由执行器执行。执行器会形成相应的指令流发送给用户管理接口或者是局部故障管理单元。而学习器则针对整个过程进行学习。另外,分析器还要用周期性获取的各计算单元的软硬件信息来维护计算单元状态信息表以便系统管理软件获取。系统的资源由系统软件管理平台统一管理。包扩由两个容错管理单元组成的一个高可用的容错管理层,以及由运行在计算单元上的从态软件和辅助管理态软件组成的从态单元。当故障管理模块检测到目标虚拟机发生故障或虚拟机运行硬件发生故障时,虚拟机管理模块立即对该虚拟机实施现场保护,例如保存内存中的数据、记录设备状态等。同时,自动重新创建虚拟机并在新的虚拟机中恢复运行环境,或者通知另外一个健康的计算节点上的虚拟机管理模块,创建相同的虚拟机,并接管原故障虚拟机上的运行数据,最终实现系统的整体迁移。除本发明的说明书公开的技术特征外均为本专业技术人员的公职技术。
权利要求
1.一种基于虚拟化的高可用计算机系统的设计方法,其特征在于,系统采用基于国产处理器及TCM芯片的全国产硬件计算平台,使用基于CPCI总线架构的刀片设计,提供高效的多机处理能力及良好的可扩展性,该系统的核心为主动故障管理系统,其通过带内、带外两种方式对系统硬件及软件状态进行实时监测,通过对获取数据的分析,以实现故障的预测、检测及诊断过程,及时完成对故障的隔离与恢复,基于虚拟化的高可用计算机系统分为三部分设计,即系统硬件平台、主动故障管理系统、系统管理软件平台,其中: 系统硬件平台:由计算单元通过高速互连单元形成一个并行处理系统,计算单元之间没有直接联系,所有的业务数据及系统管理都通过上层两个冗余的互连模块传输到计算单元上,互连模块的上行端口直接连接到两个容错管理模块,两个容错管理模块相互为备份,通过心跳检测相互检查是否处于active状态和进行故障时两个容错管理模块之间的数据同步; 主动故障管理系统,主动故障管理系统是整个系统的核心,包括局部故障管理模块和整体故障管理模块,局部故障管理模块包括带内、带外监控模块和故障处理模块,整体故障管理模块包括主动故障管理模块、通讯模块和用户管理接口,在本系统中,将消息传输层独立于管理组件来设计,其间定义标准的消息规范和定义,便于模块化设计,提高故障管理系统的扩展性和可移植性,通过监视器对系统资源的状态和行为进行检测,将异常状态或行为形成故障描述传递给诊断组件,对故障位置、传播途径及影响范围做出评价,并根据知识/规则库形成处理规则,由执行器对涉及的故障组件进行隔离、恢复相关操作; 系统管理软件平台,具有管理系统资源、任务调度与切换、为客户端提供系统映像功能,系统管理软件平台采一种双层容错机制实现,系统管理软件平台统一有序地管理双容错管理、各计算单元、共享存储器,并借助有效的故障处理机制,保证系统高可用的工作,协同管理模块协调管理其他各模块的工作,并为管理员提供友良好的管理界面。
2.根据权利要求1所述的方法,其特征在于,系统硬件平台采用CPCI系统结构,以其高效的多机并行处理能力提供系统所需的处理能力和良好的可扩展性,其接口简单集中,便于热插拔设计,对可维护性设计提供支持,同时可大大缩短系统“展开时间”,另外,在通信与存储接口、电源/散热模块都采用了冗余设计。
全文摘要
本发明提供一种基于虚拟化的高可用计算机系统,高可用技术与虚拟化技术相结合是一种比较简单有效且节约成本的方法,高可用技术作为虚拟化的保障,为虚拟化提供可以稳定运行环境;将负载在虚拟化环境中,使得负载可以在可用的虚拟化环境中动态地在线迁移,从而保证了业务的不间断性,使系统的可用性得到了满足。作为复杂业务系统的核心,其服务器平台需要完成系统管理、数据收发、数据处理、指令处理、文电处理以及软件处理等重要功能,对计算机系统同时提出了高可用性和高处理能力的需求,同时考虑到可能出现的在多个不同层次的部署的需求,还要求计算机系统具备规模可伸缩性,对可扩展性存在较高要求。
文档编号G06F9/455GK103106126SQ20131001481
公开日2013年5月15日 申请日期2013年1月16日 优先权日2013年1月16日
发明者丛戎, 吴楠 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1