超算云作业调度系统EHPC镜像集成实现方法与流程

文档序号:36805830发布日期:2024-01-23 12:34阅读:20来源:国知局
超算云作业调度系统EHPC镜像集成实现方法与流程

本发明涉及云计算系统作业调度,具体而言,涉及一种超算云作业调度系统ehpc镜像集成实现方法。


背景技术:

1、ehpc(high performance computing)弹性高性能计算机集群是由计算、存储和网络三种产品组成的集群,以云平台设施为基础,基于计算机上多个处理器或集群中多个计算机的硬件资源、计算系统和环境,将大规模的计算任务分成许多小任务,并分发给每个服务器并行计算。

2、ehpc弹性高性能计算中的集群是高性能并行计算的资源集,由云平台弹性计算实例组成,包括调度管理集群资源的高性能调度器和运营业务所需的软件堆栈,以解决大规模的科学、工程和业务问题。

3、构建ehpc高性能计算系统的主要目的就是提高运算速度,ehpc集群适用于高性能计算场景。要达到每秒万亿次级的计算速度,对系统的处理器、内存带宽、运算方式、系统i/o、存储等方面的要求都十分高,这其中的每一个环节都将直接影响到系统的运算速度,这类集群主要解决大规模科学问题的计算和海量数据的处理,如科学研究、气象预报、计算模拟、军事研究、生物制药、基因测序、图像处理、生命科学、cae仿真模拟、海洋气象、影视渲染、石油勘探、深度学习、测绘地理等。

4、高性能计算用户为了获得hpc集群计算能力,需要花费大量人力物力财力在服务器购买、运维、软件开发和软件许可上。有了ehpc,企业就能快速获得高性能计算集群能力,高性能计算调度能力和软件能力,按需组建自己的“云上超算中心”,再也不用一次性巨额资金投入,从而帮助降低计算成本,提高计算灵活性。

5、然而,基于openstack的ehpc集群具有弹性特征,新建立节点必须要求快速启动,或者快速销毁。为了加快启动速度,采取镜像内预装好所有环境和软件的策略以达到启动镜像便可使用的目的,因此对ehpc专属镜像制作的性能提出了更高的需求。

6、但是,现有技术的ehpc镜像制作中存在常见的以下缺点和难点问题:

7、缺乏定制化需求:对于一些特定的高性能计算应用,需要特定的镜像来满足特定的软硬件要求,导致云计算服务的成本较高,效率较低。


技术实现思路

1、鉴于此,本发明的目的在于提供一种超算云作业调度系统ehpc镜像集成实现的技术方案,使用diskimage-builder工具制作ehpc镜像,能够通过自定义方式和灵活的方法构建ehpc镜像,以解决现有技术的上述问题和缺点,满足特定的高性能计算应用需求。

2、本发明提供超算云作业调度系统ehpc镜像集成实现方法,采用云平台openstack的diskimage-builder镜像制作工具,编写内置的elements元素,构建定制化的基于slurm作业调度系统的ehpc镜像;

3、openstack是一个开源的云计算平台,通过一系列模块和服务提供了构建和管理云环境的能力,涵盖了计算、存储、网络、认证等方面的功能。它可以用于构建私有云、公有云和混合云环境,为用户提供弹性、可扩展的计算资源。

4、ehpc是将弹性计算和高性能计算相结合的概念,利用云计算的自动化和资源共享特性来提供灵活的高性能计算解决方案。

5、slurm(simple linux utility for resource management)是一个开源的集群和作业管理系统,广泛用于高性能计算(hpc)环境中。它提供了作业调度、资源管理、任务分配和监控等功能,用于有效地管理和协调集群中的计算资源,以实现高效的作业执行。

6、所述构建定制化的基于slurm作业调度系统的ehpc镜像的方法包括以下步骤:

7、s1、选择linux操作系统,在linux操作系统上安装diskimage-builder镜像制作工具及一系列依赖;

8、linux操作系统的linux gui是一种通过图形和图像来实现用户与计算机交互的界面,它包括桌面环境、窗口管理器、图形服务器等组件,使用户能够以直观的方式操作和控制计算机。

9、s2、配置slurm作业调度系统运行的操作系统环境、网络配置和存储配置,包括:

10、s21、编写slurm作业调度系统的bash脚本的变量00-check-slurm-user.bash,设置环境变量脚本,用于后续的脚本或命令使用该变量引用slurm相关用户信息;

11、s22、编写slurm作业调度系统的munge脚本的变量50-start-munge,启动munge工具脚本,保持ehpc集群中用户和计算节点之间的通信安全;

12、s23、编写slurm作业调度系统的users脚本的变量41-add-slurm-users,提供munge,slurm这两个组和用户在linux系统中的脚本;

13、s24、编写slurm作业调度系统的file脚本的变量43-create-slurm-file,提供slurm需要的文件及文件夹脚本;

14、s25、编写slurm作业调度系统的repo脚本的变量44-set-slurm-repo,保持能够找到slurm软件的地方;

15、s3、在所述diskimage-builder镜像制作工具上执行包含disk-image-create命令的脚本,生成ehpc镜像。

16、进一步地,每个所述elements元素里包括以下元素内容:

17、root.d:创建或调整初始根文件系统内容;

18、environment.d:定义环境变量;

19、preinstall.d:安装前准备工作,如定义镜像版本号;

20、install.d:安装过程中执行脚本;

21、finalise.d:安装结束后执行脚本;

22、element-deps:保存依赖的元素列表(在执行这个元素之前先执行的该元素依赖的元素);

23、element-provides:保存该元素的别名列表(该元素提供哪些元素的功能,就是若执行该元素,其额外提供的元素就不会执行)。

24、进一步地,所述编写内置的elements元素的方法包括以下步骤:

25、s01、准备root根目录文件;

26、s02、编写diskimage-builder镜像制作工具的.d文件夹内容,用以定制化制作镜像。

27、进一步地,所述s3步骤之后还包括:

28、执行上传镜像命令测试生成的所述ehpc镜像,验证ehpc镜像制作是否成功。

29、进一步地,所述s3步骤的脚本中包含的disk-image-create命令包括:

30、disk-image-create-traw-o slurm.raw centos vm slurm,其中,-t表示设置创建完成后镜像文件的格式,-o表示设置镜像的名字,centos、vm、slurm是构建镜像时引用的元素element。

31、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的超算云作业调度系统ehpc镜像集成实现方法的步骤。

32、本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的超算云作业调度系统ehpc镜像集成实现方法的步骤。

33、与现有技术相比,本发明的有益效果在于:

34、本发明设计基于diskimage-builder工具构建ehpc镜像的实现方法,提供更灵活、定制化的ehpc镜像集成,能够适应高性能计算的需求,为不同领域的高性能计算任务提供高效、一致和可靠的解决方案,将高性能计算应用程序和库集成到镜像中,减少用户在部署时的配置工作,降低了云计算成本,有效提升了云计算效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1