多用户协同使用图形处理器算力的方法及装置

文档序号：38028412发布日期：2024-05-17 13:05阅读：6来源：国知局

本发明涉及电数字数据处理，特别涉及一种多用户协同使用图形处理器算力的方法及装置。

背景技术：

1、在agi（artificial general intelligence，人工通用智能）的时代，gpu（graphics processing unit，图形处理器）的计算能力成为了一个至关重要的资源。随着agi系统的复杂度和需求日益增长，各大应用方对多用户协同使用gpu计算的需求也随之增加。例如，大模型，尤其是在自然语言处理和计算机视觉等领域的模型，通常具有大量的参数和复杂的网络结构。这些模型需要大量的计算资源来进行训练，而gpu因其并行处理能力强大，成为执行这类计算任务的理想选择。gpu算力是大模型训练的基石，并直接影响模型训练的效率、性能和成本。

2、相关技术中，可以利用如商汤大装置（基于k8s等）、并行云计算（基于slurm、hpc等）、autodl（基于docker等）等技术，为用户提供gpu算力平台服务。目前现有的多用户协同使用gpu计算方法主要如下：

3、第一种：直接登录linux主机，利用linux主机的多用户机制，共享使用gpu。

4、第二种：在linux主机上启动若干docker容器，利用如nvidia-container-runtime等方法，将gpu映射进入docker容器，每个用户在分别的docker容器里使用gpu。

5、第三种：通过slurm、hpc（high-performance computing，高性能计算）等调度程序调度gpu。用户登录调度节点，并发出运行指令，调度节点控制计算节点的gpu进行计算。

6、第四种：通过k8s等容器管理程序开启若干带gpu的pod。为用户在节点上开启支持gpu的pod，用户在pod上使用gpu。

7、第五种：通过kvm等虚拟机手段，每个用户使用不同的虚拟机。

8、然而，相关技术中，部署docker、slurm或k8s等需要大量的维护成本，并有一些尚未解决的缺点，如用户环境不统一、用户认证及鉴权不统一、用户间环境无法做到真正隔离等。在企业、研究机构等算力使用方的私有机房，一般用户难以部署一套gpu算力平台，通常的解决方案仅仅是使用linux的多用户机制，但linux的多用户机制中，也存在上述问题，难以解决，有待改进。

技术实现思路

1、本发明提供一种多用户协同使用图形处理器算力的方法及装置，以解决相关技术中，多用户协同使用gpu算力时，难以保证用户环境统一、用户认证及鉴权统一以及无法真正隔离用户间环境等技术问题。

2、本发明第一方面实施例提供一种多用户协同使用图形处理器算力的方法，包括以下步骤：接收用户访问多个图形处理器（gpu）服务器中的第一gpu服务器上的目标计算实例的请求，其中所述请求包括用户的登录信息和目标计算实例的信息，并且所述目标计算实例是所述第一gpu服务器上的第一计算实例管理系统已经创建好的；通过用户认证服务系统基于所述用户的登录信息对所述用户进行身份认证，其中所述用户认证服务系统是所述多个gpu服务器共用的；响应于确定所述用户的身份认证通过，通过所述目标计算实例基于存储的权限信息，确定用户是否具有访问所述目标计算实例的权限；响应于确定所述用户具有访问所述目标计算实例的权限，允许所述用户访问所述目标计算实例。

3、可选地，在本发明的一个实施例中，所述目标计算实例为第一计算实例，所述方法还包括：接收第二用户的新增请求，所述新增请求用于请求增加所述第二用户对所述多个gpu服务器中的第二gpu服务器上的第二目标计算实例的访问权限；响应于确定所述第二gpu服务器包括第二目标计算实例，其中第二目标计算实例是由第二gpu服务器上的第二计算实例管理系统已经创建好的，更新所述第二目标计算实例存储的权限信息以允许所述第二用户访问第二目标计算实例。

4、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的方法还包括：响应于确定所述第二gpu服务器不包括第二目标计算实例，利用所述第二计算实例管理系统在第二gpu服务器上生成所述第二目标计算实例，并初始化所述第二目标计算实例存储的权限信息以允许第二用户访问第二目标计算实例。

5、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的方法还包括：响应于确定所述用户的身份认证不通过，返回登录失败信息。

6、可选地，在本发明的一个实施例中，所述多个gpu服务器中的同一gpu服务器上的不同计算实例共享该gpu服务器的操作系统内核，并且所述不同计算实例之间呈隔离关系。

7、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的方法还包括：将所述第一gpu服务器作为网关，为所述目标计算实例分配相应网段的地址，以使得用户利用所述第一gpu服务器的端口访问所述目标计算实例的端口；或者，将所述第一gpu服务器作为网桥，为所述目标计算实例分配与所述第一gpu服务器相同网段的地址。

8、可选地，在本发明的一个实施例中，所述目标计算实例的根分区使用预设稀疏文件系统。

9、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的方法还包括：在所述第一gpu服务器上搭载网络文件共享服务，以统一用户环境。

10、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的方法还包括：在所述第一gpu服务器上设置监控程序，以收集资源占用数据。

11、本发明第二方面实施例提供一种多用户协同使用图形处理器算力的装置，包括：第一接收模块，用于接收用户访问多个图形处理器（gpu）服务器中的第一gpu服务器上的目标计算实例的请求，其中所述请求包括用户的登录信息和目标计算实例的信息，并且所述目标计算实例是所述第一gpu服务器上的第一计算实例管理系统已经创建好的；认证模块，用于通过用户认证服务系统基于所述用户的登录信息对所述用户进行身份认证，其中所述用户认证服务系统是所述多个gpu服务器共用的；确权模块，用于响应于确定所述用户的身份认证通过，通过所述目标计算实例基于存储的权限信息，确定用户是否具有访问所述目标计算实例的权限；第一许可模块，用于响应于确定所述用户具有访问所述目标计算实例的权限，允许所述用户访问所述目标计算实例。

12、可选地，在本发明的一个实施例中，所述目标计算实例为第一计算实例，所述装置还包括：第二接收模块，用于接收第二用户的新增请求，所述新增请求用于请求增加所述第二用户对所述多个gpu服务器中的第二gpu服务器上的第二目标计算实例的访问权限；更新模块，用于响应于确定所述第二gpu服务器包括第二目标计算实例，其中第二目标计算实例是由第二gpu服务器上的第二计算实例管理系统已经创建好的，更新所述第二目标计算实例存储的权限信息以允许所述第二用户访问第二目标计算实例。

13、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的装置还包括：第二许可模块，用于响应于确定所述第二gpu服务器不包括第二目标计算实例，利用所述第二计算实例管理系统在第二gpu服务器上生成所述第二目标计算实例，并初始化所述第二目标计算实例存储的权限信息以允许第二用户访问第二目标计算实例。

14、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的装置还包括：返回模块，用于响应于确定所述用户的身份认证不通过，返回登录失败信息。

15、可选地，在本发明的一个实施例中，所述多个gpu服务器中的同一gpu服务器上的不同计算实例共享该gpu服务器的操作系统内核，并且所述不同计算实例之间呈隔离关系。

16、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的装置还包括：第一分配模块，用于将所述第一gpu服务器作为网关，为所述目标计算实例分配相应网段的地址，以使得用户利用所述第一gpu服务器的端口访问所述目标计算实例的端口；或者，第二分配模块，用于将所述第一gpu服务器作为网桥，为所述目标计算实例分配与所述第一gpu服务器相同网段的地址。

17、可选地，在本发明的一个实施例中，所述目标计算实例的根分区使用预设稀疏文件系统。

18、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的装置还包括：搭载模块，用于在所述第一gpu服务器上搭载网络文件共享服务，以统一用户环境。

19、可选地，在本发明的一个实施例中，所述多用户协同使用图形处理器算力的装置还包括：设置模块，用于在所述第一gpu服务器上设置监控程序，以收集资源占用数据。

20、本发明第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的多用户协同使用图形处理器算力的方法。

21、本发明第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的多用户协同使用图形处理器算力的方法。

22、本发明第五方面实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被执行时，用于实现如上的多用户协同使用图形处理器算力的方法。

23、本发明实施例可以在接收到用户访问目标计算实例的请求后，通过多个gpu服务器共用的用户认证服务系统对用户的身份进行认证，并在认证成功后，通过目标计算实例本身判断该用户是否具有目标计算实例的访问权限，从而在用户具有访问权限时，允许用户访问目标计算实例，从而实现多用户协同使用图形处理器算力，部署简单，可以快速启动停止，节约硬件资源，且每个计算实例都运行在独立的环境中，可以实现用户间的环境隔离并提高了安全性，且在保护私密性的同时，仅需进行一次身份验证，用户即可在权限信息许可的情况下使用不同的计算实例，资源开销小，从而提高整体效率，资源占用少且易于管理和维护。由此，解决了相关技术中，多用户协同使用gpu算力时，难以保证用户环境统一、用户认证及鉴权统一以及无法真正隔离用户间环境等技术问题。

24、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪玉,毛秋力
技术所有人：清华大学
我是此专利的发明人

上一篇：一种装饰板等离子切割机的制作方法
上一篇：一种主铣头中置式对称双面铣镗加工中心的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。