一种任务局部最优检查点间隔搜索方法

文档序号:6590524阅读:256来源:国知局
专利名称:一种任务局部最优检查点间隔搜索方法
技术领域
本发明涉及计算机系统任务瞬时故障容错技术领域。具体涉及一种任务瞬时故障容错局部最优检查点间隔搜索方法。
背景技术
随着信息化进程的发展,计算机已成为当前科研、商用、军事作战不可或缺的设备,其性能的提升成为人们不断追求的目标。在性能提升过程中,集成电路制造工艺不断发展,电路中晶体管尺寸和工作电压的减小,集成度进一步提高使芯片更易受瞬时故障影响;器件速度的加快导致功耗也越来越高,器件寿命及可靠性受到影响,从而影响系统可靠性。恶劣的环境也使得计算机面临更加严峻的瞬时故障的影响,外部环境中的高能粒子辐照和电压扰动、电磁干扰等电子噪声可能导致晶体管PN结瞬间充放电,从而改变其内部逻辑状态。瞬时故障虽然一般不会损坏物理电路,也不会持久存在,但可能影响系统的正常运行,严重时会造成系统崩溃。瞬时故障影响计算机的性能及其中任务的可靠、有效及正确执行,因此瞬时故障容错技术对系统的可靠性保证至关重要。容错技术是在冗余资源(硬件冗余、时间冗余、信息冗余、软件冗余)的基础上,通过设计合理的体系结构及算法而形成。由于瞬时故障具有影响瞬时性、随机性强、相同故障重复发生概率极小、故障不会持久存在的特点,当重新写入新数据后故障现象即消失,基于软件实现的瞬时故障容错技术能够通过重复执行程序来实现错误检测和恢复功能。基于检查点设置与卷回恢复技术的时间冗余容错方式具有实现简单,能够通过卷回恢复实现瞬时故障的容错。检查点设置与卷回恢复技术能够在瞬时故障多次发生的情况下,将任务恢复至过去某一正确状态,使任务从该状态继续执行,把计算损失降低到检查点设置时刻至故障发生时刻所做的计算,避免了任务的重新执行所造成的执行时间浪费。检查点设置与卷回恢复技术给任务执行带来了一定的额外开销,这主要包括无故障时的检查点设置开销和故障后的卷回恢复开销;故障检测也给任务带来了额外开销。检查点设置、故障的恢复及检测是实现容错必需的过程,且对于不同的任务这三者的开销各不相同,即使相同任务在不同的时间和负载条件下运行时,三者的开销也是不同的。因此在实现容错时,最小化三者引起的额外开销成为研究者所关注的热点。任务的执行时间与检查点间隔密切相关,局部最优检查点间隔能够在为任务提供容错能力的同时,最小化容错带来的任务额外执行开销。检查点卷回恢复的开销由检查点间隔决定,因此检查点间隔对于实时任务的容错调度性能至关重要。在不同的故障发生间隔下,任务所发生的故障次数是不相同的,局部最优检查点间隔也是不同的,因此其最坏响应时间也不同。2OOl 年 Punnekkat S、Burns A 和 Davis R 在期刊《Real-Time Systems》上发表了文章“Analysis of checkpointing for real-time systems”,在该论文中提出了单次故障情况下的最优检查点间隔计算公式。但是在任务的实际执行过程中,发生多次故障是极有可能的,因此该检查点间隔并不适合任务的实际执行情况。2009年Paul Pop、Viacheslav Izosimov、Petru Eles 和 Zebo Peng 在期干丨J《IEEE Trans on Very LargeScale Intergration Systems))上发表了文章“Design Optimization of Time-andCost-Constrained Fault-Tolerant Embedded Systems With Checkpointing andReplication”,在该论文中提出任务在发生k次故障情况下的任务容错执行模型,建立了任务最坏响应时间计算公式,并推导出任务在k次故障情况下的最优检查点间隔计算公式。但是其故障发生次数k的值是一个假定的定值,这并不适合于任务的实际执行情况,因为在实际运行时任务τ i执行过程中发生故障的次数k是由任务的最坏响应时间Ri (n,, k)及系统的故障发生间隔Te决定的。在Te小于任务最坏响应时间时,任务可能会发生多次故障。不同配置的任务其故障发生次数是不相同的,即使相同的任务在不同系统环境下其故障发生间隔也不同,导致其故障发生次数也是不同的。因此设计本发明,该方法能够根据任务的具体配置(任务的最坏执行时间Cp检查点设置开销Op卷回恢复开销μ 1、故障检测开销a J和任务运行环境的配置(故障发生间隔TE),确定任务局部最优检查点间隔。

发明内容
本发明的目的在于提供一种适应更复杂环境的为容错计算机系统任务提供的局部最优检查点间隔搜索方法。本发明包括如下步骤:( I)将任务最坏执行时间Ci设为任务的最坏响应时间Ri (Hi, k)的初始值;(2)将任务最坏响应时间RiOii, k)除以系统故障发生间隔Te所得商的上取整的值,即设为故障发生次数k的当前值;(3)依据任务最坏执行时间C1、故障检测开销a 1、检查点设置开销Oi及所求得故障发生次数k的当前值,获取局部最优检查点数量Ili:
权利要求
1.一种任务局部最优检查点间隔搜索方法,其特征在于,包括如下步骤: (1)将任务最坏执行时间Ci设为任务的最坏响应时间Ri(Hi, k)的初始值; (2)将任务最坏响应时间Ri(n,, k)除以系统故障发生间隔Te所得商的上取整的值,即「J ,设为故障发生次数k的当前值; (3)依据任务最坏执行时间Cp故障检测开销a1、检查点设置开销Oi及所求得故障发生次数k的当前值,获取局部最优检查点数量Ili: 如果
全文摘要
本发明涉及计算机系统任务瞬时故障容错技术领域。具体涉及一种任务瞬时故障容错局部最优检查点间隔搜索方法。本发明包括设任务的最坏响应时间的初始值;将任务最坏响应时间除以系统故障发生间隔所得商的上取整的值;获取局部最优检查点数量;获取任务的最坏响应时间;判断的值;确定故障发生次数,局部最优检查点数量。本发明在最小化检查点设置与卷回恢复容错开销的情况下,为任务提供瞬时故障容错能力。该方法实现简单,能够为不同系统更为复杂环境下的不同配置任务确定其对应的局部最优检查点间隔。
文档编号G06F17/30GK103197982SQ201310104518
公开日2013年7月10日 申请日期2013年3月28日 优先权日2013年3月28日
发明者门朝光, 何忠政, 李香 申请人:哈尔滨工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1