计算环境资源管理系统及其管理方法与流程

文档序号:12664869阅读:265来源:国知局

本发明涉及一种管理系统及其管理方法,具体地,涉及一种计算环境资源管理系统及其管理方法。



背景技术:

SLURM是一个可用于大型集群系统的高可用、可伸缩、可容错、可升级的集群资源管理器和任务调度系统,主要具有三个功能:首先,将集群资源动态分配给任务。其次,提供一个完整的框架,对任务进行启动、执行和监控。最后,管理任务队列,实现资源竞争的仲裁。该系统主要包括一个管理守护进程和多个代理守护进程,管理守护进程运行于管理节点,接收集群状态监控数据、对资源进行调度分配,分发任务与回收结果。代理守护进程运行于计算节点,等待、执行并返回任务状态,同时对集群状态、任务状态等信息进行统计、记录,并上报给管理节点。两者配合即实现了集群的管理功能。

申威平台是由江南计算技术研究所研发的国产CPU平台,其具有十六个核,分成四个核组,分别为一个主核组和三个从核组,每个核组安装一个系统,主核组运行主系统,从核组上运行从系统。从系统依赖于主系统,需要通过主系统获取系统资源、访问底层硬件设备。

因此,主系统上的代理进程可以充分监控四个核组的系统状态,真实反映四个核组的资源情况。而从系统上的代理进程无法真实反映本系统的资源消耗,而只能监控到从系统上的任务运行状态,进行任务的分发、监控、回收等操作。

因此,如果按照SLURM的原有架构进行部署的话,从系统上的代理进程只能获取错误信息,无法反映计算节点的真实情况;管理节点无法监控到集群正确状态,导致资源消耗的误判,最终集群无法正常运行。



技术实现要素:

针对现有技术中的缺陷,本发明的目的是提供一种计算环境资源管理系统及其管理方法,其整合主从系统资源,将由一个主系统、三个从系统构成的整个CPU平台作为一个资源调度单位,真实反映系统状态,提高资源管理效率。

根据本发明的一个方面,提供一种计算环境资源管理系统,其特征在于,所述计算环境资源管理系统包括相互连接的第一统计单元和第二统计单元,第一统计单元包括第一通信单元、第一任务管理单元、第一任务信息统计单元、第一操作系统,第一通信单元、第一任务信息统计单元、第一操作系统都与第一任务管理单元练级;第二统计单元包括第二任务管理单元、第二通信单元、状态信息整合单元、从系统信息接收单元、第二任务信息统计单元、系统状态统计单元、第二操作系统,第二任务管理单元、第二通信单元、从系统信息接收单元、第二任务信息统计单元、系统状态统计单元都与状态信息整合单元连接,第二任务管理单元、第二任务信息统计单元、系统状态统计单元都与第二操作系统连接。

优选地,所述计算环境资源管理系统对主系统、从系统做区分,运行不同的代理守护进程。

优选地,所述主系统中的代理守护进程进行功能的修改、添加。

本发明还提供一种计算环境资源管理方法,其特征在于,包括任务分发流程和状态信息上报流程;

任务分发流程如下:管理守护进程接收系统管理员提交的计算任务;根据管理员指定的任务优先级、占用资源、运行时长等参数以及资源调度策略,对任务进行适当的划分,并分配到恰当分区中的某个计算节点主系统;状态信息整合单元由从系统信息接收单元、第二任务信息统计单元、系统状态统计单元这三个单元中分别取得从系统中的任务运行状态信息、主系统中的任务运行状态信息以及主系统的系统状态、资源消耗信息,并将上述信息整合到一起,得到一主系统、三从系统的整体状态信息;第二任务管理单元由第二通信单元取得分配的任务,由状态信息整合单元取得整体状态信息,然后根据调度规则对任务进行再次分解,在本主系统启动部分任务、另一部分任务通过第二通信单元下发给从系统;第二任务管理单元由第二通信单元取得分配的任务,由第二任务信息统计单元取得任务运行状态,在资源满足要求时启动任务;

状态信息上报流程如下:第一任务信息统计单元定期统计从系统中运行的任务的状态信息,并通过第一通信单元上报给主系统;从系统信息接收单元负责接收三个从系统上报的任务信息;第二任务信息统计单元负责对主系统中的任务进行监控、统计;系统状态统计单元则监控一个主系统、三个从系统的运行状况、资源消耗等信息;状态信息整合单元对前述三种信息进行整合,得到一个主系统、三个从系统的整体状态信息,并通过第二通信单元将整体状态信息上报给管理守护进程。

与现有技术相比,本发明具有如下的有益效果:本发明减少了集群中需要管理的节点个数,降低为原有个数的四分之一,这不仅简化了集群结构,也减少了集群管理所需要的通信量。同时,将管理守护进程的部分功能转移至主系统代理守护进程,降低了管理节点的负载压力,提高了集群系统的稳定性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明计算环境资源管理系统的原理框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示,本发明计算环境资源管理系统包括相互连接的第一统计单元和第二统计单元,第一统计单元包括第一通信单元、第一任务管理单元、第一任务信息统计单元、第一操作系统,第一通信单元、第一任务信息统计单元、第一操作系统都与第一任务管理单元练级;第二统计单元包括第二任务管理单元、第二通信单元、状态信息整合单元、从系统信息接收单元、第二任务信息统计单元、系统状态统计单元、第二操作系统,第二任务管理单元、第二通信单元、从系统信息接收单元、第二任务信息统计单元、系统状态统计单元都与状态信息整合单元连接,第二任务管理单元、第二任务信息统计单元、系统状态统计单元都与第二操作系统连接。

结合本发明的附图,对本发明的技术方案进行详述。标准SLURM包括一个(或多个,相互之间为热备关系,同一时间只有一个生效)管理守护进程和多个代理守护进程,管理守护进程运行于管理节点,接收集群状态监控数据、对资源进行调度分配,分发任务与回收结果。代理守护进程运行于计算节点,等待、执行并返回任务状态,同时对集群状态、任务状态等信息进行统计、记录,并上报给管理节点。

但由于申威平台的十六个核分成一个主核组和三个从核组,每个核组安装一个系统。从系统依赖于主系统,需要通过主系统获取系统资源、访问底层硬件设备,导致从系统上的代理进程无法真实反映本系统的资源消耗。因此,如果按照SLURM的原有架构进行部署的话,从系统上的代理进程只能获取错误信息,无法反映计算节点的真实情况;管理节点无法监控到集群正确状态,导致资源消耗的误判,最终集群无法正常运行。

为了解决这一问题,基于SLURM软件,本发明提供一种申威平台的计算环境资源管理系统,对主系统、从系统做区分,运行不同的代理守护进程。基于SLURM代理进程,从系统中的代理进程进行功能裁剪,去掉系统状态监控等功能,仅保留任务的管理功能。基于SLURM代理进程,主系统中的代理守护进程进行功能的修改、添加,包括主、从系统的状态信息整合功能,优先级的再次分配功能以及任务管理功能等。

本发明计算环境资源管理方法包括任务分发流程和状态信息上报流程。

本发明的任务分发流程如下:管理守护进程接收系统管理员提交的计算任务;根据管理员指定的任务优先级、占用资源、运行时长等参数以及资源调度策略,对任务进行适当的划分,并分配到恰当分区中的某个计算节点主系统;状态信息整合单元由从系统信息接收单元、第二任务信息统计单元、系统状态统计单元这三个单元中分别取得从系统中的任务运行状态信息、主系统中的任务运行状态信息以及主系统的系统状态、资源消耗信息,并将上述信息整合到一起,得到一主系统、三从系统的整体状态信息;第二任务管理单元由第二通信单元取得分配的任务,由状态信息整合单元取得整体状态信息,然后根据调度规则对任务进行再次分解,在本主系统启动部分任务、另一部分任务通过第二通信单元下发给从系统。第二任务管理单元由第二通信单元取得分配的任务,由第二任务信息统计单元取得任务运行状态,在资源满足要求时启动任务。

本发明的状态信息上报流程如下:第一任务信息统计单元定期统计从系统中运行的任务的状态信息,并通过第一通信单元上报给主系统;从系统信息接收单元负责接收三个从系统上报的任务信息;第二任务信息统计单元负责对主系统中的任务进行监控、统计;系统状态统计单元则监控一个主系统、三个从系统的运行状况、资源消耗等信息;状态信息整合单元对前述三种信息进行整合,得到一个主系统、三个从系统的整体状态信息,并通过第二通信单元将整体状态信息上报给管理守护进程。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1