一种刀片服务器多固件同步更新升级方法

文档序号:6507529阅读:259来源:国知局
一种刀片服务器多固件同步更新升级方法
【专利摘要】本发明提出一种刀片服务器多固件同步更新升级方法,可同步对刀片服务器中所有刀片的监控管理单元进行固件升级。根据刀片服务器的架构设计,首先将固件程序上传到管理模块并校验,然后将此固件同步上传到所有刀片模块并校验,再然后启动固件恢复机制,对原有固件备份保护,接着启动固件更新升级动作,并在更新升级过程中和更新升级结束进行双重校验,最后退出更新升级并重启,本方法特别适合于大规模刀片服务器集群的监控管理系统固件更新升级,既可以提高工作效率,也可以保障固件更新升级失败后系统正常工作。
【专利说明】一种刀片服务器多固件同步更新升级方法
【技术领域】
[0001]本发明涉及服务器应用【技术领域】,具体地说是一种刀片服务器多固件同步更新升级方法。
【背景技术】
[0002]刀片服务器以其高计算密度、优化部署、资源共享和便于集中管理的特点被大量应用在高性能计算和云计算服务领域中,它已成为服务器发展的主要方向。
[0003]刀片服务器系统通常由多个刀片模块,电源及风扇模块、管理模块和交换机模块等组成。监控管理系统是服务器正常工作的保障,监控管理系统主要分为带内系统和带外系统,带外监控管理系统无论服务器是否开机都可以对服务器各关键指标进行监控管理,应用十分广泛。其主要是在刀片模块板级监控管理单元(BMC)及管理模块系统级监控管理单元(SMC)来实现的。
[0004]由于监控管理需求的增加及软件优化设计,需要不定期的对监控管理单元的固件程序进行更新升级。目前,对于刀片服务器各模块的固件更新升级方法更新升级方法主要由两种:一、通过离线方式利用专用工具逐一更新升级,此方法不仅生产效率低,而且实施时需要关闭服务器电源,这样会严重影响用户的正常使用;二、通过WEB Browser方式登录到各模块利用更新升级工具逐一更新升级,此方法要求用户更新升级时分别登录各模块启动更新升级,用户操作复杂。尤其是在大规模服务器集群系统固件升级场景下显得捉襟见肘。另外,目前大部分固件更新升级的流程主要包括上传更新升级文件、校验、写入、重启系统的几个步骤,这样的流程一旦更新升级失败,必定会影响监控管理单元的功能。
[0005]因此,如何既能高效率的对刀片服务器监控管理系统固件更新升级,又能优化更新升级流程,提供错误恢复机制就成了亟需解决的问题。

【发明内容】

[0006]本发明的目的是提供一种刀片服务器多固件同步更新升级方法。
[0007]本发明的目的是按以下方式实现的,包括:刀片服务器需固件更新升级的各部件连接方式;刀片服务器中多部件按照同步流程进行固件更新升级同步性;多各部件固件更新升级失败后的恢复方法,其中:
1)刀片服务器需固件更新升级的各部件连接方式;各部件为刀片计算模块的BMC单元,它们间通过以太网总线方式与管理模块的SMC单元进行连接通信,管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接,
2)刀片服务器中多部件按照同步流程进行固件更新升级同步性;是指各刀片模块同步接收固件更新升级控制指令,并同步启动更新升级流程,整个固件更新升级流程包括:上传更新升级文件、分发、校验、双重校验、及备份、迁移、重新写入、恢复、重启系统,涉及BMC单元,但不限于BMC单元,SMC单元的固件更新升级也适用,固件更新升级采用双重校验方式如下: (1)按BLOCK写入固件信息后的BLOCK读出校验;
(2)整体固件更新升级结束后的整体读出校验;
3)多各部件固件更新升级失败后的恢复方法,是完成更新升级流程,但未通过最终校验后的处理方法,即将部件的固件恢复成更新升级前的状态,固件恢复步骤如下:
(1)备份已有固件程序到指定的FLASH备份区;
(2)将新固件程序写入原固件程序区,并进行校验;
(3)若校验失败,则尝试重新写入;
(4)重新次数可以自行设定;
(5)若校验成功,则标记系统启动首地址;
(6)若校验失败,将系统启动地址设为备份区的启动首地址;
(7)引导系统重新启动。
[0008]本发明的有益效果是:可同步对刀片服务器中所有刀片的监控管理单元进行固件升级。根据刀片服务器的架构设计,首先将固件程序上传到管理模块并校验,然后将此固件同步上传到所有刀片模块并校验,再然后启动固件恢复机制,对原有固件备份保护,接着启动固件更新升级动作,并在更新升级过程中和更新升级结束进行双重校验,最后退出更新升级并重启。本方法特别适合于大规模刀片服务器集群的监控管理系统固件更新升级,既可以提高工作效率,也可以保障固件更新升级失败后系统正常工作。
【专利附图】

【附图说明】
[0009]图1是根据本发明的典型刀片服务器各模块组成及连接图;
图2是根据本发明的刀片服务器多固件同步更新升级流程图;
图3是根据本发明的刀片服务器固件恢复机制流程图。
【具体实施方式】
[0010]参照说明书附图对本发明的方法作以下详细地说明。
[0011]针对刀片服务器监控管理单元固件升级中,如何准确快速地完成固件升级,并在升级失败时实现系统自动恢复,本发明提出了一种刀片服务器多固件同步更新升级方法。
[0012]本发明包括:对刀片服务器中多刀片监控管理单元固件同步更新升级,以及更新升级失败后监控管理单元系统恢复的实现机制。
[0013]其中,多刀片固件更新升级是通过管理模块进行的;
其中,多刀片监控管理单元固件更新升级流程是同步进行的,流程包括:模块进入更新升级模式、上传更新升级文件、校验与分发文件、启动更新升级并校验、退出更新升级模式、系统重启;
其中,固件更新升级有校验,并有重新更新升级机制。
[0014]其中,固件恢复机制的程序区和备份区每次固件更新升级会进行交替。
[0015]其中,固件备份有校验,并有重新备份机制
本发明的其他特征及优点在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。实施例
[0016]以下结合附图对本发明的实施例进行说明,应当理解,以此所描述的实施例仅用于说明和理解本发明,并不用于限定本发明。
[0017]图1:是根据本发明的刀片服务器各模块组成及连接图。
[0018]如图1所示,典型刀片服务器包含一定数量计算刀片模块(包含BMC单元),本实例中计算刀片模块数量为二十刀片,管理模块(包含SMC单元),若干电源和风扇等。
[0019]图2:是根据本发明的刀片服务器多固件同步更新升级流程图。如图2所示,具体过程描述如下:
步骤1:以Web browser方式登录刀片服务器监控管理系统,进入刀片管理页面,点击刀片固件更新升级;
步骤2:上传目标固件更新升级文件到管理模块的SMC单元;
步骤3:选择需要更新升级固件的刀片模块;
步骤4:管理模块启动分发,将固件镜像通过网络上传到各个刀片模块的BMC单元; 步骤5:管理模块同步发送校验指令到各BMC单元,BMC单元收到指令后启动校验; 步骤6:如果校验成功,则各刀片BMC单元将原有固件镜像备份到备份区;
步骤7:如果校验失败,则退出更新升级模式,重新启动系统;
步骤8:管理模块同步将启动更新升级指令发送到校验成功的刀片BMC单元,BMC单元收到指令到通知启动更新升级,将固件按块写入程序区;
步骤9:对写入FLASH中的数据进行读出校验;
步骤10:如果校验成功,则校验是否全部固件更新升级结束;
步骤11:如果校验失败,则退出更新升级模式,重新启动系统;
步骤12:如果全部更新升级结束,则重新启动系统;
步骤13:如果校验失败,进图更新升级错误恢复流程;
图3:是根据本发明的刀片服务器固件恢复机制流程图。其他模块包含各个刀片计算模块和以太网交换机模块,如图3所示,具体过程描述如下:
步骤1:更新升级中校验失败或更新升级完成校验失败;
步骤2:判断更新升级次数是否小于五次;
步骤3:如果小于五次,则将启动重新更新升级固件;
步骤4:如果大于五次,将系统启动地址指向备份区,重新启动系统 步骤5:更新升级过程中校验,更新升级完毕后校验;
步骤6:如果校验成功,重新启动系统;
步骤7:如果校验失败,跳到步骤3继续执行;
利用本实施例的刀片服务器多固件同步更新升级方法,可以在对大规模部署刀片服务器系统多固件同步更新升级时得到优化利用,大大提高系统更新升级的效率。除此之外,本发明也涉及多固件更新升级失败时的固件恢复机制设计,根据上述的实施流程,保障固件更新升级失败后系统仍可以正常工作,避免了因固件更新升级失败导致系统无法正常工作的问题。
[0020]以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种刀片服务器多固件同步更新升级方法,其特征在于包括:刀片服务器需固件更新升级的各部件连接方式;刀片服务器中多部件按照同步流程进行固件更新升级同步性;多各部件固件更新升级失败后的恢复方法,其中: 1)刀片服务器需固件更新升级的各部件连接方式;各部件为刀片计算模块的BMC单元,它们间通过以太网总线方式与管理模块的SMC单元进行连接通信,管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接, 2)刀片服务器中多部件按照同步流程进行固件更新升级同步性;是指各刀片模块同步接收固件更新升级控制指令,并同步启动更新升级流程,整个固件更新升级流程包括:上传更新升级文件、分发、校验、双重校验、及备份、迁移、重新写入、恢复、重启系统,涉及BMC单元,但不限于BMC单元,SMC单元的固件更新升级也适用,固件更新升级采用双重校验方式如下: (1)按BLOCK写入固件信息后的BLOCK读出校验; (2)整体固件更新升级结束后的整体读出校验; 3)多各部件固件更新升级失败后的恢复方法,是完成更新升级流程,但未通过最终校验后的处理方法,即将部件的固件恢复成更新升级前的状态,固件恢复步骤如下: (1)备份已有固件程序到指定的FLASH备份区; (2)将新固件程序写入原固件程序区,并进行校验; (3)若校验失败,则尝试重新写入; (4)重新次数可以自行设定; (5)若校验成功,则标记系统启动首地址; (6)若校验失败,将系统启动地址设为备份区的启动首地址; (7)引导系统重新启动。
【文档编号】G06F9/445GK103488494SQ201310348358
【公开日】2014年1月1日 申请日期:2013年8月12日 优先权日:2013年8月12日
【发明者】陈刚 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1