针对显存访问异常的处理方法、系统、介质及设备与流程

文档序号:37114252发布日期:2024-02-22 21:13阅读:16来源:国知局
针对显存访问异常的处理方法、系统、介质及设备与流程

本公开涉及gpu显存,具体地,涉及一种针对显存访问异常的处理方法、系统、介质及设备。


背景技术:

1、gpu(graphics processing unit,图形处理器)是一种并行计算设备,通常被广泛应用在图形处理、ai(artificial intelligence,人工智能)、高性能计算等领域,gpu在访问显存时,如果碰到缺页/非法地址/权限受限等异常情况,可能会触发gpu内存访问异常(page fault),此时可以进入到gpu page fault处理程序,以便恢复gpu显存访问。


技术实现思路

1、本公开的目的是提供一种针对显存访问异常的处理方法、系统、介质及设备,在出现gpu由于访问的目标数据对应的地址在第二终端而出现访问出错时,也可以通过本公开的方式获取到目标数据,从而实现gpu针对目标数据的正常访问。进一步地,由于可以使得第一终端的gpu可以访问到第二终端的数据,这样,相当于扩展了第一终端的gpu的显存,实现了多个终端之间的资源共享。

2、为了实现上述目的,第一方面,本公开提供一种针对显存访问异常的处理方法,应用于第一终端,上述针对显存访问异常的处理方法包括:

3、响应于检测到gpu在内核态中访问目标数据失败,确定上述目标数据是否位于第二终端;

4、在上述目标数据位于第二终端的情况下,将访问失败对应的访问异常信息上报至用户态,以使上述用户态中的i/o接口从上述第二终端获取上述目标数据;其中,访问异常信息至少包括:上述目标数据对应的地址信息;

5、将上述目标数据拷贝至显存中,以及,控制gpu在内核态中重新访问目标数据。

6、可选地,上述确定上述目标数据是否位于第二终端,包括:

7、获取预先建立的地址终端对应关系信息;

8、根据上述目标数据对应的地址和上述地址终端对应关系信息,确定上述目标数据是否位于第二终端。

9、可选地,上述将上述目标数据拷贝至显存中,包括:

10、从显存中确定用于存储上述目标数据的第一子空间,以及,将上述目标数据拷贝至上述第一子空间;

11、以及,上述方法还包括:

12、将上述第一子空间与上述目标数据对应的获取地址建立映射关系。

13、可选地,上述控制gpu在内核态中重新访问目标数据,包括:

14、利用上述目标数据对应的获取地址从上述第一子空间中获取上述目标数据。

15、可选地,在上述将上述目标数据拷贝至上述第一子空间之后,上述方法还包括:

16、在用户态生成用于上报运行系统的第一通知信息;

17、上述运行系统基于上述第一通知信息,将当前处理进程由用户态转换至内核态。

18、可选地,在上述目标数据没有位于第二终端的情况下,上述方法还包括:

19、清除针对访问目标数据失败的访问异常信息,以及,将gpu访问相关硬件恢复至访问上述目标数据之前的状态。

20、可选地,上述方法还包括:

21、在上述i/o接口与上述第二终端已建立通信链路的情形下,上述i/o接口利用已建立通信链路,从上述第二终端获取目标数据;

22、在上述i/o接口未与上述第二终端已建立通信链路的情形下,生成用于建立通信链路的指示信息。

23、第二方面,本公开还提供一种针对显存访问异常的处理系统,应用于第一终端,上述针对显存访问异常的处理系统,包括:

24、检测单元,用于响应于检测到gpu在内核态中访问目标数据失败,确定上述目标数据是否位于第二终端;

25、获取单元,用于在上述目标数据位于第二终端的情况下,将访问失败对应的访问异常信息上报至用户态,以使上述用户态中的i/o接口从上述第二终端获取上述目标数据;其中,访问异常信息至少包括:上述目标数据对应的地址信息;

26、恢复单元,用于将上述目标数据拷贝至显存中,以及,控制gpu在内核态中重新访问目标数据。

27、第三方面,本公开还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述第一方面中任一项针对显存访问异常的处理方法的步骤。

28、第四方面,本公开还提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行上述存储器中的上述计算机程序,以实现前述第一方面中任一项针对显存访问异常的处理方法的步骤。

29、采用上述技术方案,至少可以达到如下的有益技术效果:

30、在检测到gpu访问目标数据失败时,可以确定目标数据是否位于第二终端,而当目标数据位于第二终端时,则可以将访问失败对应的访问异常信息上报至用户态,从而可以利用用户态中的i/o接口从第二终端获取目标数据,并在获取到目标数据之后,将目标数据拷贝至显存中,此时,通过重新执行gpu访问目标数据的步骤,即可实现gpu针对目标数据的正常访问。这样,在出现gpu由于访问的目标数据对应的地址在第二终端而出现访问出错时,也可以通过本公开的方式获取到目标数据,从而实现gpu针对目标数据的正常访问。

31、同时,由于第一终端的gpu可以访问到第二终端的数据,这样,相当于扩展了第一终端的gpu的显存,实现了多个终端之间的资源共享。

32、本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。



技术特征:

1.一种针对显存访问异常的处理方法,其特征在于,应用于第一终端,所述针对显存访问异常的处理方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述目标数据是否位于第二终端,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述目标数据拷贝至显存中,包括:

4.根据权利要求3所述的方法,其特征在于,所述控制gpu在内核态中重新访问目标数据,包括:

5.根据权利要求3所述的方法,其特征在于,在所述将所述目标数据拷贝至所述第一子空间之后,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在所述目标数据没有位于第二终端的情况下,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种针对显存访问异常的处理系统,其特征在于,应用于第一终端,所述针对显存访问异常的处理系统,包括:

9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述的针对显存访问异常的处理方法的步骤。

10.一种电子设备,其特征在于,包括:


技术总结
本公开涉及一种针对显存访问异常的处理方法、系统、介质及设备,涉及GPU显存技术领域,在检测到GPU访问目标数据失败时,可以确定目标数据是否位于第二终端,而当目标数据位于第二终端时,则可以将访问失败对应的访问异常信息上报至用户态,从而可以利用用户态中的I/O接口从第二终端获取目标数据,并在获取到目标数据之后,将目标数据拷贝至显存中,此时,通过重新执行GPU访问目标数据的步骤,即可实现GPU针对目标数据的正常访问。这样,在出现GPU由于访问的目标数据对应的地址在第二终端而出现访问出错时,也可以通过本公开的方式获取到目标数据,从而实现GPU针对目标数据的正常访问。

技术研发人员:郭帆,王鲲,陈飞,邹懋
受保护的技术使用者:北京趋动智能科技有限公司
技术研发日:
技术公布日:2024/2/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1