GPU算力资源调度方法、装置、设备和介质与流程

文档序号:35696977发布日期:2023-10-11 19:58阅读:126来源:国知局
GPU算力资源调度方法、装置、设备和介质与流程

本公开涉及云计算领域,特别是涉及gpu算力资源调度方法、装置、设备和介质。


背景技术:

1、在当前云计算中,为了提高计算效率,需要使用额外的算力资源,例如,gpu算力资源。如果直接将gpu算力资源与进行计算的设备进行绑定,会带来很高的计算成本。因此,在现有技术中,将多个gpu设备的算力资源进行池化,在服务器上形成资源池。用户可以根据任务需要调用资源池中的算力资源。但是,在进行资源池化时,还需要对所有gpu卡进行显存划分,这会造成算力资源的损耗。而且用户每一次使用gpu算力资源时,都需要经过服务器才能读取到算力资源存储的位置,降低了数据传输效率,在传输过程中,也会出现算力资源的损耗。


技术实现思路

1、本公开实施例提供了gpu算力资源调度方法、装置、设备和介质,能够实现自动化调用gpu算力资源的同时,减少算力资源的损耗,提高数据传输效率。

2、根据本公开的一方面,提供了一种gpu算力资源调度方法,包括:

3、接收来自目标虚拟机的gpu算力资源请求;

4、根据所述gpu算力资源请求在多个所述gpu设备中选择目标gpu设备;

5、基于目标gpu设备,生成配置文件;

6、利用设备管理驱动加载所述配置文件,利用设备传输驱动建立所述目标虚拟机与所述目标gpu设备的直通连接;

7、利用所述设备传输驱动将所述目标gpu设备中的资源数据透传给所述目标虚拟机;

8、在所述目标虚拟机使用所述目标gpu设备中的算力资源计算结束后,修改所述配置文件,并利用所述设备管理驱动加载所述配置文件,解除所述目标虚拟机与所述目标gpu设备的直通连接。

9、根据本公开的一方面,提供了一种gpu算力资源调度装置,包括:

10、接收单元,用于接收来自目标虚拟机的gpu算力资源请求;

11、分配单元,用于根据所述gpu算力资源请求在多个所述gpu设备中选择目标gpu设备;

12、生成单元,用于基于目标gpu设备,生成配置文件;

13、直通建立单元,用于利用设备管理驱动加载所述配置文件,利用设备传输驱动建立所述目标虚拟机与所述目标gpu设备的直通连接;

14、透传单元,用于利用设备传输驱动将所述目标gpu设备中的资源数据透传给所述目标虚拟机;

15、直通解绑单元,用于在所述目标虚拟机使用所述目标gpu设备中的算力资源计算结束后,修改所述配置文件,并利用所述设备管理驱动加载所述配置文件,解除所述目标虚拟机与所述目标gpu设备的直通连接。

16、可选地,多个所述gpu设备与所述服务器绑定;

17、所述直通建立单元还用于:

18、获取所述目标虚拟机的节点地址;

19、解除所述目标gpu设备与所述服务器的绑定;

20、利用所述设备管理驱动加载所述配置文件,利用所述设备传输驱动按照所述节点地址建立所述目标虚拟机与所述目标gpu设备的直通连接。

21、可选地,所述直通建立单元还用于:

22、获取所述目标gpu设备的总端口地址;

23、将所述总端口地址转化为第一虚拟地址;

24、获取所述目标gpu设备的功能端口地址;

25、将所述功能端口地址转换为第二虚拟地址;

26、建立所述总端口地址与所述第一虚拟地址、所述功能端口地址与所述第二虚拟地址之间的映射关系。

27、可选地,所述直通建立单元还用于:

28、基于所述第一虚拟地址与所述第二虚拟地址,利用所述设备传输驱动在所述目标虚拟机中创建一个虚拟gpu设备;

29、建立所述虚拟gpu设备与所述目标gpu设备的直通连接。

30、可选的,所述透传单元包括:

31、将所述目标gpu设备中的所述资源数据封装为资源包,对所述资源包进行加密;

32、将加密后的资源包透传给所述目标虚拟机。

33、可选地,所述直通解绑单元还用于:

34、按照预定周期检测所述目标gpu设备的算力资源使用情况;

35、如果所述目标gpu设备停止计算,在预定时间段后再次检测,如果所述目标gpu设备依旧停止计算,修改所述配置文件;

36、利用所述设备管理驱动加载所述配置文件,解除所述目标gpu设备与所述目标虚拟机之间的所述直通连接。

37、可选地,所述gpu算力资源调度装置还包括:

38、监测单元,用于实时监测所述目标gpu设备的算力资源使用情况;

39、可视化单元,用于将所述算力资源使用情况可视化呈现;

40、特征生成单元,用于基于所述算力资源使用情况生成gpu设备算力资源使用特征。

41、可选地,所述gpu算力资源调度装置还包括:

42、训练单元,用于利用所述算力资源使用特征训练目标gpu设备确定模型;

43、所述分配单元还用于:将所述gpu算力资源请求输入所述目标gpu设备确定模型,得到所述目标gpu设备。

44、根据本公开的一方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的gpu算力资源调度方法。

45、根据本公开的一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的gpu算力资源调度方法。

46、根据本公开的一方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器读取并执行,使得该计算机设备执行如上所述的gpu算力资源调度方法。

47、本公开实施例中,服务器在接收到来自目标虚拟机的gpu算力资源请求后,在多个gpu设备中选择一个作为分配给目标虚拟机的目标gpu设备;生成目标gpu的配置文件,利用设备管理驱动加载配置文件,并利用建立目标虚拟机与目标gpu设备之间的直通连接。设备管理驱动用来管理目标虚拟机,并且检测目标gpu设备的使用情况,使得gpu算力资源调度过程是可监测的,以便应对突发情况进行处理。通过配置文件对目标虚拟机与目标gpu设备建立连接可以提高连接稳定性。设备传输驱动可以提高建立直通连接的效率,还可以将目标gpu设备中的资源数据透传给目标虚拟机,提高了数据传输的准确性。通过上述框架,目标虚拟机可以使用一个完整的gpu设备,gpu设备也不需要进行显存划分,保留了完整的计算性能。同时,目标虚拟机可以直接访问目标gpu设备存储的位置,不需要再经过服务器才能找到分配的gpu算力资源,提高了数据传输效率,减少了算力资源损耗。在目标虚拟机计算完成后,解除与目标gpu设备的直通连接,避免因持续绑定而导致的计算成本增高与资源浪费的问题。因此,本公开实施例实现了自动化gpu资源调度,在节省计算成本的同时,提高了gpu算力资源调度过程中的数据传输效率,减少了算力资源损耗。

48、本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1