基于检查点的作业调度方法和系统的制作方法

文档序号:6432690阅读:317来源:国知局
专利名称:基于检查点的作业调度方法和系统的制作方法
技术领域
本发明总体上涉及网络领域,更具体地,涉及基于检查点的作业调度方法和系统。
背景技术
在目前的网络硬件配置中,集群环境下用户作业的运行需要依赖节点计算环境的稳定,而集群环境节点众多,由于误操作、硬件故障等不可抗力因素导致作业停止,为用户带来损失。运用检查点技术,可以在固定时间对用户作业进行保护,在作业停止时可以迅速恢复作业的运行,减少损失,提高作业的运行效率。很多软件自身也有类似的功能,但是缺乏通用性。并且这样的软件收费昂贵,用户难以接受。

发明内容
为解决上述问题,本发明提供了一种基于检查点的作业调度方法,包括以下步骤 用户作业进入队列进行等待,当获取资源时,用户作业进入内存区域运行;按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,进行用户作业的再次提交,用户作业进入队列进行等待,当获取资源时,用户作业运行, 读取与检查点对应的用户作业的信息,并继续执行用户作业。其中,当用户作业没有异常中断时,用户作业完成。其中,当用户作业的提交发生错误时,退出用户作业。其中,在用户作业进入队列进行等待的步骤之前,提交用户作业,并在用户作业开始时设置作业参数和迁移参数。此外,本发明还提供了一种基于检查点的作业调度系统,包括等待模块,用于使用户作业进入队列进行等待,当获取资源时,用户作业进入内存区域运行;检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;其中,用户作业异常中断时,进行用户作业的再次提交,用户作业进入队列进行等待,当获取资源时,用户作业运行,读取与检查点对应的用户作业的信息,并继续执行用户作业。该系统还包括退出模块,用于在用户作业的提交发生错误时,退出用户作业。该系统还包括提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。我们提出的检查点与作业调度系统的结合技术可以使得停止的作业自动重新运行,利用作业队列的特性,在作业是失效的情况下自动重新提交恢复作业,自动完成作业的再次运行,并且具有广泛的用途,适用于大部分的软件系统。


当结合附图进行阅读时,根据下面详细的描述可以更好地理解本发明。应该强调的是,根据工业中的标准实践,各种部件没有被按比例绘制。实际上,为了清楚的讨论,各种部件的尺寸可以被任意增加或减少图1示出了根据本发明的示例性实施例的基于检查点的作业调度方法的流程图。
具体实施例方式为了实施本发明的不同部件,以下描述提供了许多不同的实施例或示例。以下描述元件和布置的特定示例以简化本发明。当然这些仅仅是示例并不打算限定。再者,以下描述中第一部件形成在第二部件上可包括其中第一和第二部件以直接接触形成的实施例, 并且也可包括其中额外的部件形成插入到第一和第二部件中的实施例,使得第一和第二部件不直接接触。为了简明和清楚,可以任意地以不同的尺寸绘制各种部件。本发明大体的技术方案思路如下1.利用Checkpoing/Restart技术,对特定时间的进程进行保护,将保存文件存储到硬件存储空间上,当用户进程由于异常中断导致停止运行时,可以迅速从存储空间的检查点文件中将进程进行恢复。2.利用作业调度系统,将作业的再次提交,保证用户作业不间断执行。图1示出了根据本发明的示例性实施例的基于检查点的作业调度方法的流程图。 如图1所示,本发明提供了一种基于检查点的作业调度方法,包括以下步骤S101,提交用户作业,并在用户作业开始时设置作业参数和迁移参数;S103,用户作业进入队列进行等待,当获取资源时,用户作业进入内存区域运行;S105,按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,停机检查故障问题,其中,当故障排除时,通过读取检查点所对应的用户作业信息来重新恢复用户作业。优选地,当用户作业没有异常中断时,用户作业完成。优选地,当用户作业的提交发生错误时,退出用户作业。优选地,在用户作业进入队列进行等待的步骤之前,提交用户作业,并在用户作业开始时设置作业参数和迁移参数。此外,本发明还提供了一种基于检查点的作业调度系统(未示出),包括等待模块,用于使用户作业进入队列进行等待,当获取资源时,用户作业进入内存区域运行;检查点保存模块,用于按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;其中,用户作业异常中断时,进行用户作业的再次提交,用户作业进入队列进行等待,当获取资源时,用户作业运行,读取与检查点对应的用户作业的信息,并继续执行用户作业。该系统还包括退出模块,用于在用户作业的提交发生错误时,退出用户作业。该系统还包括提交模块,用于提交用户作业;以及参数设置模块,用于在用户作业开始时设置作业参数和迁移参数。具体地,可以按照如下流程进行处理用户提交作业,在作业运行开始时设置作业参数和迁移参数。在作业调度系统中提交作业,作业进入队列进行等待,一旦获取资源,作业进入内存区域运行,体现为用户进程。按照设置的迁移参数时间,作业进程按时进行进程检查点保存,将检查点信息写入物理存储区域。
如果作业异常中断,则通过作业提交系统进行作业的再次提交,此时作业开始进入作业队列进行排队,获得资源后进入运行状态,读取检查点信息,继续执行,如果出错,则重复此操作。如果没有异常中断,作业顺利完成。
如果作业提交错误,作业退出。通过上述处理,可以获得如下技术效果1.高性能计算环境中,由于异常中断导致用户作业无法执行的情况时有发生,在检查点技术的帮助下,可以按时对用户作业进行检查点保护,保证用户作业不会因为异常中断而从新开始。2.利用祖业调度系统,可以将用户作业再次进行提交,此技术可以迅速恢复用户作业,保证用户作业在异常中断情况下也能正常运行。上面论述了若干实施例的部件,使得本领域普通技术人员可以更好地理解本发明的各个方面。本领域普通技术人员应该理解,可以很容易地使用本发明作为基础来设计或更改其他用于达到与这里所介绍实施例相同的目的和/或实现相同优点的处理和结构。本领域普通技术人员也应该意识到,这种等效构造并不背离本发明的精神和范围,并且在不背离本发明的精神和范围的情况下,可以进行多种变化、替换以及改变。
权利要求
1.一种基于检查点的作业调度方法,其特征在于,包括以下步骤用户作业进入队列进行等待,当获取资源时,所述用户作业进入内存区域运行;按照预先设置的迁移参数,将所述用户作业按时间点进行保存,并将所述时间点设置为检查点;当所述用户作业异常中断时,进行所述用户作业的再次提交,所述用户作业进入队列进行等待,当获取资源时,所述用户作业运行,读取与所述检查点对应的所述用户作业的信息,并继续执行所述用户作业。
2.根据权利要求1所述的方法,其特征在于,当所述用户作业没有异常中断时,所述用户作业完成。
3.根据权利要求1或2所述的方法,其特征在于,当所述用户作业的提交发生错误时, 退出所述用户作业。
4.根据权利要求1所述的方法,其特征在于,在所述用户作业进入队列进行等待的步骤之前,提交所述用户作业,并在所述用户作业开始时设置作业参数和所述迁移参数。
5.一种基于检查点的作业调度系统,其特征在于,包括等待模块,用于使用户作业进入队列进行等待,当获取资源时,所述用户作业进入内存区域运行;检查点保存模块,用于按照预先设置的迁移参数,将所述用户作业按时间点进行保存, 并将所述时间点设置为检查点;其中,所述用户作业异常中断时,进行所述用户作业的再次提交,所述用户作业进入队列进行等待,当获取资源时,所述用户作业运行,读取与所述检查点对应的所述用户作业的信息,并继续执行所述用户作业。
6.根据权利要求5所述的系统,其特征在于,还包括退出模块,用于在所述用户作业的提交发生错误时,退出所述用户作业。
7.根据权利要求5所述的系统,其特征在于,还包括提交模块,用于提交所述用户作业;以及参数设置模块,用于在所述用户作业开始时设置作业参数和所述迁移参数。
全文摘要
本发明提供了一种基于检查点的作业调度方法,包括以下步骤用户作业进入队列进行等待,当获取资源时,用户作业进入内存区域运行;按照预先设置的迁移参数,将用户作业按时间点进行保存,并将时间点设置为检查点;当用户作业异常中断时,进行用户作业的再次提交,用户作业进入队列进行等待,当获取资源时,用户作业运行,读取与检查点对应的用户作业的信息,并继续执行用户作业。此外,本发明还提供了一种基于检查点的作业调度系统。
文档编号G06F9/48GK102289392SQ20111026536
公开日2011年12月21日 申请日期2011年9月8日 优先权日2011年9月8日
发明者戴荣, 李斌, 李程, 王璟, 许涛, 马少杰 申请人:曙光信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1