一种持续服务的高性能集群操作系统在线升级方法_3

文档序号:9288333阅读:来源:国知局
,LoginOl和Login02的作用是相同的,用户通过提交节点提交的作业请求由管理节点分配到计算节点上。
[0067]采用本发明所述的升级方法对图2中所示的集群系统进行操作系统升级的具体步骤如下:
[0068]步骤一:集群系统在正常运行状态,系统管理员使用root用户登录集群的mgt节点即管理节点,管理员通过管理节点集中管理和配置整个集群。
[0069]步骤二:安装XCAT升级环境并测试,即安装XCAT开源软件,如果集群系统在升级之前已经安装了 XCAT,该步骤即可省略。
[0070]步骤三:确定提交节点中一个与升级后的计算节点操作系统相对应的提交节点;
[0071]由于计算节点的操作系统升级后,原有的提交节点很可能与升级后的节点操作系统是不匹配的,因此,需要选择一个提交节点作为升级后的操作系统的提交节点,即将原有的两个提交节点一个作为与原操作系统对应的提交节点(本实施例中称为第一提交节点),一个作为与升级后的操作系统对应的提交节点(本实施例中称为第二提交节点)。本实施例中将Login02作为第二提交节点。
[0072]之后,对原有Login02进行系统升级,以使其与升级后的计算节点操作系统相匹配,对原有Login02进行系统升级的方式为现有技术,升级时还需将/Share/util/lsf913/conf/lsf.conf配置文件(LSF的主配置文件)里面的LSF_MASTER_LIST设置成login02,即将LSF的主控制器设置为login02,其作为升级后的集群系统的提交节点。
[0073]步骤四:确定第一批进行升级的计算节点为计算节点31-计算节点40,即node31-node40,在node31-node40执行完其节点上的任务(作业请求)后,隔离这10台计算节点,并修改这10待升级计算节点的启动方式,由硬盘启动方式修改为网络启动方式,这是因为采用XCAT进行系统时,要求带升级计算节点的启动方式为网络启动方式;最后关闭需要升级系统的计算节点即psh node31-node40〃shutdown_h now〃。
[0074]步骤五:XCAT升级本批10台计算节点:选择安装的系统镜像nodesetnode31_node40 osimage = rhels7.0-x86_64-1nstal 1-compute ;设置从网络启动节点rsetboot node31_node40net ;节点开机rpower node31_node40on ;查看节点状态nodestatnode31_node40,系统安装完成后nodestat会显示sshd,此时表示升级完成。
[0075]步骤六:升级完成后,GPFS安装本批10台计算节点客户端并挂载,即在升级后的计算节点上重新部署GPFS客户端软件和进行相应配置,重启完成升级后的计算节点与所述并行文件系统的1/0端口。
[0076]步骤七:LSF安装本批升级后的10台计算节点客户端,即告诉LSF哪些是升级后的计算节点,将完成升级后的计算节点加入到LSF所管理的计算节点列表中。
[0077]步骤八:迀移部分用户至已升级的计算节点:视LSF作业状态,通知部分用户通过已升级的Login02提交作业请求,由管理节点将这些用户的作业请求分配到升级后的计算节点上,即将部分用户的作业任务迀移至升级的计算节点上。
[0078]步骤九:采用给上述升级方式升级下一批10台计算节点,直至完成所有计算节点的升级,将全部用户都迀移至升级后的计算节点上,升级任务完成。
[0079]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种持续服务的高性能集群操作系统在线升级方法,包括以下步骤: (1)将待升级的高性能集群系统的计算节点进行分批,确定一批当前的待升级计算节占.V, (2)高性能集群系统的作业调度和资源管理系统控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上; (3)所述待升级计算节点处理完其节点上的作业请求后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级; (4)完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上; (5)确定新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复步骤三和步骤四直至完成所有高性能集群系统中所有计算节点的操作系统的升级。2.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(2)中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点;步骤四中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。3.根据权利要求1所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(2)中,管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点与并行文件系统通过两者之间的I/O端口通信。4.根据权利要求3所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(3)中,隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。5.根据权利要求4所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(4)中,完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。6.根据权利要求1或5所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(4)中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。7.根据权利要求6所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:步骤(5)中,完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求。8.根据权利要求7所述的一种持续服务的高性能集群操作系统在线升级方法,其特征在于:当升级后的计算节点发生故障时,将升级后的计算节点的操作系统回退到升级前的操作系统。
【专利摘要】本发明公开了一种持续服务的高性能集群操作系统在线升级方法,包括:确定集群系统中的一批待升级计算节点,作业调度和资源管理系统将作业请求分配到待升级计算节点之外的计算节点上,在待升级计算节点处理完其节点上的作业请求后,隔离待升级计算节点,由集群装机系统进行待升级计算节点的操作系统的升级;完成升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并将该部分用户的作业请求分配到升级后的计算节点上;之后确定新一批待升级计算节点,重复升级步骤直至完成所有计算节点的操作系统升级。该方法可在保持持续服务的状态下对集群进行升级改造,且升级对用户的影响较小,提高了用户满意度。
【IPC分类】G06F9/445
【公开号】CN105005487
【申请号】CN201510369044
【发明人】杨涛, 王亚坤, 林宇, 葛云峰
【申请人】清华大学
【公开日】2015年10月28日
【申请日】2015年6月29日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1