一种持续服务的高性能集群操作系统在线升级方法

文档序号:9288333阅读:661来源:国知局
一种持续服务的高性能集群操作系统在线升级方法
【技术领域】
[0001]本发明属于高性能科学计算领域,具体涉及一种持续服务的高性能集群操作系统在线升级方法。
【背景技术】
[0002]随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,越来越多的领域对高性能计算的需求迅猛增长。高性能计算(High performance computing,缩写HPC)指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC系统,其范围从标准计算机的大型集群,到高度专用的硬件。大多数基于集群的HPC系统使用高性能网络互连,比如基于InfiniBand(40GB或56GB带宽)的网络互连。基本的网络拓扑和组织可以使用一个简单的总线拓扑,在性能很高的环境中,网状网络系统在主机之间提供较短的潜伏期,所以可改善总体网络性能和传输速率。
[0003]高性能计算集群,英文原文为High Performance Computing Cluster,简称HPC集群,是指以提高科学计算能力为目的计算机集群技术。HPC集群上的软件安装和配置是一个比较复杂的工作,特别是集群规模达到100个以上的时候。随着操作系统的不断升级和工具软件的优化,如何在保持持续服务的状态下对集群进行升级改造,让升级对上层的实际用户透明化,是现有HPC集群操作系统升级中HPC管理员所面临的挑战,本发明正是针对该问题而提供的一种持续服务的高性能集群操作系统在线升级方法。

【发明内容】

[0004]针对现有技术中存在的缺陷,本发明的目的在于提供一种持续服务的高性能集群操作系统在线升级方法,该方法可在保持持续服务的状态下对集群进行升级改造。
[0005]为实现上述目的,本发明采用的技术方案如下:
[0006]—种持续服务的高性能集群操作系统在线升级方法,包括以下步骤:
[0007](I)将待升级的高性能集群系统的计算节点进行分批,确定一批当前的待升级计算节点;
[0008](2)高性能集群系统的作业调度和资源管理系统控制用户通过第一提交节点向高性能集群系统提交作业请求,并由管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上;
[0009](3)所述待升级计算节点处理完其节点上的作业请求后,隔离所述待升级计算节点,由高性能集群系统的集群装机系统进行所述待升级计算节点的操作系统的升级;
[0010](4)完成所述待升级计算节点的操作系统的升级后,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求,并由管理节点将该部分用户提交的作业请求分配到完成升级后的计算节点上;
[0011](5)确定新的一批待升级计算节点,作业调度和资源管理系统的管理节点将用户提交的作业请求分配到所述待升级计算节点之外的计算节点上,重复步骤三和步骤四直至完成所有高性能集群系统中所有计算节点的操作系统的升级。
[0012]进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(2)中,所述第一提交节点为与升级前的计算节点的操作系统相匹配的提交节点;步骤四中,所述第二提交节点为与升级后的计算节点的操作系统相匹配的提交节点。
[0013]进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(2)中,管理节点分配给计算节点的作业请求存储在高性能集群系统的并行文件系统中,计算节点与并行文件系统通过两者之间的I/O端口通信。
[0014]进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(3)中,隔离所述待升级计算节点包括隔离待升级计算节点与所述并行文件系统的I/O端口。
[0015]进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(4)中,完成所述待升级计算节点的操作系统的升级后,在完成升级后的计算节点中重新安装所述并行文件系统,重启完成升级后的计算节点与所述并行文件系统的I/O端口,并将完成升级后的计算节点加入到作业调度和资源管理系统所管理的计算节点列表中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求。
[0016]进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤(4)中,作业调度和资源管理系统控制部分用户通过第二提交节点向高性能集群系统提交作业请求时,根据已升级的计算节点的数量以及用户作业请求的优先级别确定哪些用户通过第二提交节点向高性能集群系统提交作业请求。
[0017]再进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,步骤
(5)中,完成所有计算节点的操作系统升级后,所有用户都通过第二提交节点向高性能集群系统提交作业请求。
[0018]更进一步,如上所述的一种持续服务的高性能集群操作系统在线升级方法,当升级后的计算节点发生故障时,将升级后的计算节点的操作系统回退到升级前的操作系统。
[0019]本发明的有益效果在于:
[0020]I)本发明所述的在线升级方法,不需要集群停机,可在保持持续服务的状态下对集群进行升级改造,对提高HPC集群的连续服务能力有很好的效果;
[0021]2)集群承载的用户任务(作业请求)基本不受影响,用户基本感受不到升级所造成的影响,提高了集群用户的满意度;
[0022]3)采用分批次渐进的升级方式,能够有效减轻管理员的劳动强度,升级风险较小;
[0023]4)在升级后的系发生不可预测的问题时,还可平稳的会退到原有的操作系统。
【附图说明】
[0024]图1为本发明【具体实施方式】中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图;
[0025]图2为实施例中的待升级的高性能集群系统的示意图。
【具体实施方式】
[0026]下面结合说明书附图与【具体实施方式】对本发明做进一步的详细说明。
[0027]本实施方式中的高性能集群系统即HPC系统主要包括了以下几个部分:
[0028]作业调度和资源管理系统,如LSF (Load Sharing Facility)系统,用于集群系统的作业调度、管理及负载均衡等,包括提交节点和管理节点,集群用户通过作业调度和资源管理系统的提交节点(即用户登录节点)向集群系统提交作业请求(即计算节点需要处理的任务),提交节点将接收到的作业请求提交给管理节点,管理节点对集群的资源进行统一的监控和合理调度后,将作业请求分发到各计算节点上;
[0029]计算节点,用于接收并处理作业调度和资源管理系统的管理节点分配的作业请求;
[0030]并行文件系统,如GPFS(General Parallel File System)存储资源池,主要用于存储计算节点的待处理的作业任务,其下可以连接一些异构的不同厂家的磁盘阵列或存储系统,计算节点通过I/O接口与并行文件系统通信;
[0031]集群装机系统,如XCAT (Extreme Cloud Administrat1n Toolkit),用于集群中计算节点的操作系统的升级。
[0032]图1示出了本发明【具体实施方式】中提供的一种持续服务的高性能集群操作系统在线升级方法的流程图,由图中可以看出,该方法可以包括以下几个步骤:
[0033]步骤S100:确定高性能集群系统中的一批待升级计算节点;
[0034]由于高性能集群系统中计算节点很多,为了降低集群操作系统的升过程中对用户造成的影响,在高性能集群系统正常运行状态下,将待升级的高性能集群系统的计算节点进行分批,对计算节点进行分批次升级,在分批完成后,确定一批当前的待升级计算节点。例如,计算中的计算节点数量在100左右,可以将计算节点的升级窗口设置为10,即每次升级10个计算节点。<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1