一种持续服务的高性能集群操作系统在线升级方法_2

文档序号:9288333阅读:来源:国知局
br>[0035]在实际应用中,首先升级哪一批计算节点,可以有管理员根据升级需要进行确定,如考虑计算节点上的作业处理能力及集群系统的作业处理需要,一批待升级的计算节点中,计算节点可以是连续的,也可以不连续的。
[0036]步骤S200:作业调度和资源管理系统控制用户通过第一提交节点向集群系统提交作业请求,并将作业请求分配到待升级计算节点之外的计算节点上;
[0037]在确定好需要升级的一批计算节点后,高性能集群系统中的作业调度和资源管理系统就会控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上。其中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点。
[0038]在实际应用中,作业调度和资源管理系统中的提交节点至少是两个,当然可以是多个,这样才能保证在一些计算节点升级完成后,有与未升级的计算节点相对应的提交节点,也有与升级后的计算节点的相对应的提交节点(后文中的第二提交节点)。
[0039]管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点和并行文件系统通过两者之间的1/0端口通信。
[0040]步骤S300:隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级;
[0041]由于步骤S200中,在确定了待升级计算节点后,作业调度和资源管理系统的管理节点只会将用户提交的作业请求分配到待升级计算节点之外的计算节点上,因此待升级计算节点上不会再接受到新的作业请求(即计算任务),在所述待升级计算节点处理完其节点上的作业请求(确定为当前待升级节点之前接收到的作业请求)后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级。
[0042]其中,由高性能集群系统的集群装机系统进行待升级计算节点的操作系统的升级的具体方式为现有技术,在此不再详细描述。
[0043]本实施方式中,隔离所述待升级计算节点还包括隔离待升级计算节点与所述并行文件系统的I/O端口。这是因为,在待升级计算节点的操作系统升级后,升级前的原有并行文件系统的版本很有可能是与升级后的计算节点的操作系统是不匹配的,因此,需要对计算节点与升级前的并行文件系统的I/O端口进行隔离,在升级完成后,再安装与升级后的计算节点的操作系统相匹配的并行文件系统。
[0044]步骤S400:完成待升级计算节点的操作系统升级后,将部分用户提交的作业请求搬迀到升级后的计算节点上;
[0045]完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上。
[0046]其中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。也就是说,在确定了待升级节点之后,需要对作业调度和资源管理系统中的一个提交节点(如果原来有多个提交节点,也可以是多个提交节点中的一部分)进行系统升级,使升级后的提交节点的配置与升级后的计算节点的操作系统相匹配。
[0047]完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,即告知作业调度和资源管理系统哪些是完成了升级后的计算节点,将升级后的计算节点加入到集群系统中,此时,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。
[0048]在作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,可以根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。例如,集群系统中共有100个计算节点,此次升级完成后共有10个计算节点完成了升级,此时可以考虑将原有集群用户中的十分之一用户的作业请求搬迀到这10个计算节点上,当然,也可以根据需要,将处理优先级别不高的用户的作用请求搬迀到升级后的计算节点上。
[0049]步骤S500:确定新的一批待升级计算节点,重复升级步骤进行新的待升级计算节点的操作系统升级,直至完成所有计算节点的操作系统升级。
[0050]在完成一批计算节点的操作系统的升级后,确定步骤SlOO中分批后的计算节点中新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复S400和步骤S500,直至完成所有高性能集群系统中所有计算节点的操作系统的升级。
[0051]本实施方式中,在确定新的一批待升级计算节点后,步骤S400中所述的部分用户会向作业调度和资源管理系统的第二提交节点提交作业请求,管理节点将该部分用户的作业请求分配到已完成升级的计算节点上,该部分用户之外的其它用户仍然向第一提交节点提交作业请求,管理节点将第一提交节点上的作业请求分配到除新的一批待升级计算节点和升级完成后的计算节点之外的计算几点上。
[0052]在完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求,即在完成整个集群系统的计算节点的操作系统的升级后,所有用户都向第二提交节点提交作业请求,再由管理节点将作业请求分配到所有计算节点上。
[0053]本实施方式中,当升级后的计算节点发生故障(如操作系统软件与上层用户应用软件不兼容、新的操作系统不稳定)时,可以将升级后的计算节点的操作系统回退到升级前的操作系统。回退的过程与待升级计算节点的升级过程类似,即:首先确定一批待回退的计算节点,隔离该批节点,由集群装机系统将该批节点的操作系统回退到原有的操作系统上,回退完成后,将部分用户搬迀到该批节点上,然后再确定新的一批待回退计算节点,重复上述回退过程,直至所有计算节点都回退到原有操作系统。
[0054]下面结合具体实施例对本发明所述的方法进行进一步说明。
[0055]实施例
[0056]本实施例中,待升级的HPC系统中采用的的作业调度和资源管理系统是LSF,并行文件系统为GPFS存储资源池,集群装机系统为XCAT。本实施例中所涉及的技术术语解释如下:
[0057]1.管理员:为集群软件升级提供支持的管理人员;
[0058]2.用户:使用该集群的实际用户,利用LSF提交应用作业;
[0059]3.XCAT:可扩展分布式计算机管理和准备工具,它提供了一个统一的用户界面来进行硬件控制、扫面和操作系统的部署;
[0060]4.LSF:Load Sharing Facility是Platform公司开发的基于负载均衡的作业调度和资源管理软件系统,是商用网格计算系统的代表性产品,对于解决大规模的计算问题具有很强的优势。
[0061]5.未升级窗口:还未进行升级的节点窗口,数量是动态减少的;
[0062]6.当前升级窗口:当前正在进行升级的节点窗口,数量是动态增加的;
[0063]7.已升级窗口:已升级完成的节点窗口,数量是动态增加的;
[0064]8.GPFS存储资源池:指利用GPFS并行文件系统构建的存储系统,其下连接一些异构的不同厂家的磁盘阵列或存储系统。
[0065]图2示出了本实施例中待升级的高性能集群系统的示意图,该实施例中的集群节点数量为100,即计算节点的数量为100,当前升级窗口的窗口宽度设置为10,即每次升级10个计算节点的操作系统。
[0066]本实施例中,LSF中包括两个提交节点(用户登录的节点),即提交节点01和提交节点02,本实施例中记为LoginOl和Login02,集群用户通过提交节点提交作业请求,在集群系统不需要升级,正常运行时
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1