一种基于检查点的应用转储和恢复方法、设备及存储介质与流程

文档序号:35205660发布日期:2023-08-22 17:08阅读:28来源:国知局
一种基于检查点的应用转储和恢复方法、设备及存储介质与流程

本申请涉及云计算,尤其涉及一种基于检查点的应用转储和恢复方法、设备及存储介质。


背景技术:

1、公共云面向多租户环境,对客户的各种突发性需求提供弹性供给的计算能力。通常许多hpc(high performance computing,高性能计算)应用都属于重载型应用,对计算资源的负载压力很大,并且很多应用需要多节点并行计算,因此,在云环境下,支持hpc应用弹性使用计算资源,是降低客户的总体拥有成本的一种重要手段。

2、目前,云环境中计算节点的结构不断多样化,在计算节点上支持应用运行的底层逻辑也不断多样化,这导致按照传统的检查点和恢复(checkpoint and restart,cr)方案将hpc应用的内存数据简单地进行拷贝后,经常出现hpc应用无法恢复的问题,从而无法支持hpc应用弹性使用计算资源。


技术实现思路

1、本申请的多个方面提供一种基于检查点的应用转储和恢复方法、设备及存储介质,用以更好地支持应用的转储和恢复。

2、本申请实施例提供一种基于检查点的应用转储方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:

3、响应于针对目标应用的检查点创建指令,获取所述目标特定设备在所述目标应用下的状态描述信息,所述状态描述信息用于支持将所述目标特定设备在所述目标应用下的设备状态恢复至当前检查点;

4、将所述状态描述信息添加至为所述目标应用构建的检查点文件中;

5、对所述检查点文件进行转储,以在将所述目标应用恢复至所述当前检查点时基于所述状态描述信息对所述目标特定设备的设备状态进行恢复。

6、本申请实施例还提供一种基于检查点的应用恢复方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:

7、响应于将目标应用恢复至指定检查点的恢复指令,获取所述目标应用在所述指定检查点对应的检查点文件;

8、从所述检查点文件中读取所述目标特定设备在所述目标应用下的状态描述信息;

9、根据所述状态描述信息,将所述目标特定设备在所述目标应用下的设备状态恢复至所述指定检查点,以将所述目标应用恢复至所述指定检查点。

10、本申请实施例还提供一种计算节点,包括存储器、处理器和通信组件;

11、所述存储器用于存储一条或多条计算机指令;

12、所述处理器与所述存储器和所述通信组件耦合,用于执行所述一条或多条计算机指令,以用于执行前述的基于检查点的应用转储方法或前述的基于检查点的应用恢复方法。

13、本申请实施例还一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的基于检查点的应用转储方法或前述的基于检查点的应用恢复方法。

14、在本申请实施例中,在基于检查点对目标应用进行转储的过程中,开拓性地提出了为计算节点上装配的目标特定设备整合出在目标应用下的状态描述信息,并将该状态描述信息添加到为目标应用构建的检查点文件中,这样,检查点文件中除了包含传统的应用恢复所需内容外,还增加了用于支持将目标特定设备在目标应用下的设备状态恢复至指定检查点的状态描述信息。在此基础上,在基于检查点对目标应用进行恢复的过程中,可从检查点文件中读取到该状态描述信息,并基于该状态描述信息将目标特定设备在目标应用下的设备状态恢复至指定检查点,这可为目标应用提供正确的设备状态,从而保证目标应用的正常恢复。因此,本申请实施例中,通过对转储过程和恢复过程的改造,可保证目标应用在使用到有状态的特定设备的情况下,依然可以正常恢复。



技术特征:

1.一种基于检查点的应用转储方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:

2.根据权利要求1所述的方法,所述状态描述信息中包含所述目标特定设备在所述目标应用中至少一个进程下的状态描述数据,在响应于针对目标应用的检查点创建指令之前,所述方法还包括:

3.根据权利要求2所述的方法,所述获取所述状态访问操作对应的状态描述数据,包括:

4.根据权利要求2所述的方法,还包括:

5.根据权利要求1-4任一项所述的方法,所述状态描述信息包括所述目标特定设备中设备寄存器的标识、设备寄存器的属性、设备寄存器的状态值、设备内存的状态值、设备驱动软件的状态值、用于支持状态转换的上下文信息和用于支持状态映射的映射关系中的一种或多种。

6.根据权利要求2所述的方法,所述状态描述信息存储在为所述目标应用分配的指定内存区域中,将所述目标特定设备在所述目标进程下的状态描述数据,更新为所述状态访问操作对应的状态描述数据息,包括:

7.根据权利要求1所述的方法,还包括:

8.根据权利要求1所述的方法,所述目标特定设备为有状态的网络设备或有状态的异构加速设备。

9.一种基于检查点的应用恢复方法,适用于计算节点,所述计算节点上装配有目标特定设备,所述方法包括:

10.根据权利要求9所述的方法,所述状态描述信息中包含所述目标特定设备在所述目标应用中至少一个进程下的状态描述数据,根据所述状态描述信息,将所述目标特定设备在所述目标应用下的设备状态恢复至所述指定检查点,包括:

11.根据权利要求10所述的方法,还包括:

12.一种计算节点,包括存储器、处理器和通信组件;

13.一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-8任一项所述的基于检查点的应用转储方法或权利要求9-11任一项所述的基于检查点的应用恢复方法。


技术总结
本申请实施例提供一种基于检查点的应用转储和恢复方法、设备及存储介质。开拓性地提出了为计算节点上装配的目标特定设备整合出在目标应用下的状态描述信息,并将该状态描述信息添加到为目标应用构建的检查点文件中。在此基础上,在基于检查点对目标应用进行恢复的过程中,可从检查点文件中读取到该状态描述信息,并基于该状态描述信息将目标特定设备在目标应用下的设备状态恢复至指定检查点,这可为目标应用提供正确的设备状态,从而保证目标应用的正常恢复。因此,本申请实施例中,通过对转储过程和恢复过程的改造,可保证目标应用在使用到有状态的特定设备的情况下,依然可以正常恢复。

技术研发人员:林沐晖
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1