一种用于三机变结构容错计算机系统管理方法

文档序号:6438584阅读:177来源:国知局
专利名称:一种用于三机变结构容错计算机系统管理方法
技术领域
本发明涉及一种用于三机变结构容错计算机系统管理方法,特别适用于具有三台单机,并以可变结构的形式进行冗余容错工作的计算机系统。
背景技术
空间站的容错控制计算机需要同时满足高实时性和长寿命的要求。在关键任务段,如交汇对接和变轨等操作中,要能实时容忍任何一台单机发生的故障,以满足实时容错的要求;在一般任务段,要工作在三机冷备份状态,以延长容错控制计算机的寿命,满足长寿命的要求。由于容错计算机需要变换工作模式,这就带来了由冷备份工作模式切换到热备份工作模式的并机问题,即新加电的计算机没有上下文现场数据,需要获得上下文现场数据。现有的容错计算机只能工作于固定的冗余模式,无法同时满足上述两个要求。例如1.神舟飞船的容错控制计算机采用三机热备份模式,即三台单机全部加电工作。 通过三取二表决容错,该机可实时屏蔽一个故障,能满足关键段GNC控制任务的实时性和可靠性要求。但是三机热备份容错控制计算机的三台单机只能全部加电,导致三机热备份的功耗大,而且受太空辐射的影响,加电工作计算机的可靠性会严重衰退,无法满足长寿命工作的要求,只能应用在载人飞船这样的短期项目中;2.其它卫星控制计算机基本采用三机冷备份工作方式,即一台计算机加电工作, 其余的备份计算机不加电。未加电的计算机所受的辐射损要远低于未加电的计算机,因此该方式可显著延长冗余备份计算机的使用寿命。当加电计算机发生故障时,需要将该加电计算机断电,然后给冷备份计算机加电,这个过程需要较长的时间,在此期间无法执行控制任务,航天器将处于没有控制的状态,因此三机冷备份冗余容错计算机无法满足实时性的要求。现有的专利中也没有能同时满足长寿命和高实时性容错的计算机1.北京航空航天大学于2009年公开的CN200910086598. X号专利中,提出了一种可降级的容错控制计算机,除能完成三机热备份工作、提供强实时的容错能力外,该专利还实现了从三机热备份降级到三机冷备份的情况,但该专利未考虑从三机冷备份转换到三机热备份的并机工作情况;2.首都师范大学于 2009 年公开的 CN200910000652. 4 和 CN200910000651. X 号专
利中,提出了一种三机热备份的同步和重构方法,这些技术都只考虑了三机热备份冗余容错,但未考虑冷备份工作模式,也未考虑由冷备份工作模式切换到热备份工作模式的并机问题;3.哈尔滨工业大学于2007年公开的CN200710144973. 2号专利中,提出了一种 TMR容错计算机,但该容错计算机未考虑冷备份工作模式,也未考虑由冷备份工作模式切换到热备份工作模式的并机问题。发明内容
本发明的目的在于提供了一种用于三机变结构容错计算机系统管理方法。本方法实现的容错计算机可工作在热备份工作模式或冷备份工作模式下,并且可以从冷备份工作模式平滑的切换到热备份工作模式。可实现同时实现实时容错能力和长寿命容错控制能力。
本发明的技术解决方案是
一种用于三机变结构容错计算机系统管理方法,针对三机变结构容错计算机系统不同工作模式进行管理,包括热备份工作模式下的管理步骤、冷备份工作模式下的管理步骤和并机模式下的管理步骤;所述系统包括三台单机和容错管理模块;所述单机具有通信模块和应用程序模块,应用程序模块为单机的功能模块,通信模块为单机负责三台单机间以及单机与容错管理模块间的数据传输;所述容错管理模块在不同工作模式下对加电单机进行监控、对加电单机的计算结果进行表决;
在所述热备份工作模式下,三台单机同时加电工作,并有一台单机作为主机输出控制信号;在冷备份工作模式下,仅有一台单机加电,并作为主机输出控制信号;在所述并机工作模式下,在三台单机从冷备份模式向热备份模式转换,或在热备份模式下,由一台单机发生故障,失去上下文数据时,进行单机间的上下文数据并机处理;
在热备份工作模式下,具体管理步骤为
步骤11 三台单机分别在控制周期中调用应用程序模块执行控制任务,获得单机的计算结果;转入步骤12 ;
步骤12 各单机的应用程序模块通过通信模块将计算结果发送到其它单机;并利用通信模块接收由其它单机传入的计算结果;数据发送结束后,转入步骤13 ;
步骤13 各单机应用程序模块读取通信模块中其余单机的计算结果,并对计算结果进行三选二表决;根据表决结果产生本单机的健康状态信号并输出到容错管理模块;转入步骤14 ;
步骤14 容错管理模块利用三台单机的健康状态信号确定主机;
在冷备份工作模式下,具体管理步骤为
步骤21 容错管理模块通过计数监控主机状态;主机在每个控制周期中向容错管理模块发送状态正常信号;
步骤22 容错管理模块接收到状态正常信号,则将计数值清零;返回步骤21 ;若容错管理模块未接收到状态正常信号,则计数值将达到预设计数门限值,转入步骤23 ;
步骤23 容错管理模块将加电主机断电;并加电启动备份单机;所述备份单机为未加电的单机;
在并机模式下,具体管理步骤为
步骤31 新加电单机或故障单机通过通信模块向每台单机发送并机请求;
步骤32 若加电单机为主机则在接收到并机请求时,先完成控制周期中的控制任务,再响应并机请求,转入步骤33 ;若加电单机不是主机,则在接收到并机请求后不响应并机请求;
步骤33 主机调用应用程序模块将上下文数据装订到通信模块;并通过通信模块发送到其他单机;并转入步骤34 ;步骤34:仅发送并机请求的加电单机在接收到上下文数据后,根据上下文数据, 在控制周期中,同步启动工作。所述步骤14中容错管理模块以固定的优先级顺序按健康状态确定主机或根据接收到的指令选择指令中的单机为主机。所述步骤23中未加电单机以固定顺序依次作为备份单机进行启动,加电单机启动顺序不可逆;或直接指定所要启动的备份单机。所述步骤22中若容错管理模块在计数过程中,接收到禁止加电主机切换的指令, 则加电主机将不再进行切换。本发明与现有技术相比具有如下优点(1)本方法通过使三台冗余单机在三机热备份模式下工作,实现了关键任务阶段所需的强实时容错。即当某机出现故障时,通过三取二表决,可无缝屏蔽掉故障的单机,避免了控制上的间断问题。( 同时,在冷备份工作模式下,仅采用一台单机工作,适应了一般任务段对长寿命和节约能源的要求,延长了冗余容错计算机系统的工作寿命。(3)采用本发明法还解决了无缝并机问题,使得在由冷备份工作模式切换到热备份工作模式、以及热备份工作模式下某单机因为瞬态故障失去上下文数据时,实现了多个单机间上下文数据并机操作,从而保证了输出控制的平滑流畅,并避免了控制间断问题的发生。


图1为CTMR结构示意图;图2为热备份工作模式管理流程图;图3为冷备份工作模式管理流程图;图4为并机模式管理流程图。
具体实施例方式下面就结合附图1、2、3、4对本发明具体实施方式
作进一步介绍。该三机变结构容错计算机(CTMR,Configurable Triple Module Redundancy)系统包括三台同构或异构的容错计算机单机和容错管理模块。单机内按照功能可划分为通信模块和应用程序模块,通信模块用于负责三台单机间点到点的机间通信;应用程序模块又分为用户软件和系统软件,其中用户软件由以下功能模块实现轨道和姿态计算模块、遥控遥测、导航模块、故障诊断与处理模块等。系统软件包括板级支持包、操作系统内核、系统服务程序、数据交换、数据表决、并机请求、并机应答、容错策略等功能。CTMR 是空间站 GNC(General Navigation Controller)分系统的主控制器。CTMR 的功能简述入下1、GNC控制能力利用CTMR的单机采集敏感器信息,利用单机的应用程序模块进行任务计算,输出控制信号进而控制相应的执行机构;2、CTMR的控制方式具有遥控和自主控制并存的控制方式,遥控方式是更加外部(地面控制中心)的控制指令进行工作的方式,自主控制方式则是CTMR在无需控制的情况下自主工作的方式;
3、测控能力CTMR可接收并执行外部发送的遥控命令,并回馈遥测数据;
4、容错能力CTMR具有两种工作模式(热备份工作模式和冷备份工作模式),从而实现了无单点故障,考虑并解决了部分双重故障;热备份工作模式下,任意单机的单一故障不影响系统的正确性和实时性;冷备份工作模式下,任意单机的单一故障不影响系统的正确性;
5、CTMR内部隔离三台单机的加断电状态不影响其他单机的功能;
6、CTMR外部隔离CTMR整机断电时,不影响分系统(尤其是备份控制器)的正常工作;
7、自检能力具有一定的自检能力,但任何情况下,自检都应保障GNC控制所需的实时性。
如图1所示,为CTMR结构示意图。三台单机A、B、C分别具有应用程序模块和通信模块。单机中的应用程序模块可与通信模块相交互,并利用通信模块在三台单机间进行点对点的通信。通信模块还用于传递由单机的应用程序模块向容错管理模块的计算结果。
本发明所述的方法即是对如图1所示的计算机系统中的单机进行综合管理的方法,下面就对上述自主控制方式下的工作模式进行介绍。
工作模式
除上述热备份工作模式和冷备份工作模式,CTMR还可根据任务需要,在高可靠性以及实时性的要求下,从冷备份工作模式向热备份工作模式切换的并机或在热备份模式下,当一台单机丢失上下文数据,需要同其他两台单机进行同步时的并机处理。
在热备份工作模式下,三台单机同时加电进行同样的计算工作,但仅由一台单机作为主机用于负责最终控制信号的输出,利用容错管理模块对三台单机的状态进行表决, 并对状态正常(健康状态)的单机输出结果进行表决,决定作为主机。在冷备份工作模式下,在一个时刻仅有一台单机加电作为主机进行工作,其余两台单机不加电,作为备份机使用。
在系统初始加电时,该系统首先工作在三机热备份模式下。之后可通过外部的加断电指令,控制单机的加断电状态,从而实现在从三机热备份模式到三机冷备份模式的切换。
三机热备份模式中,由同一个控制周期中断源触发三台单机同步进入控制周期中断,同步进行工作。在控制周期中断中,三台单机调用应用程序模块分别进行任务计算,获得计算结果;控制周期结束后,再利用通信模块在三台机间采用点对点的方式互相传递计算结果,从而可使每台单机同时用于三个计算结果;三台单机同时对计算结果进行三取二表决,从而实时屏蔽掉任何一个故障,实现高实时性能的容错计算。在三取二表决之后,根据表决结果设定本机的健康状态,即若本机的计算结果通过表决后为正确结果,则本机为健康状态;设定完本机的工作状态后,将单机单独将本机的健康状态信号发送给容错管理模块;由容错管理模块再根据健康状态选择主机,并由选定的主机执行控制任务,在主机将控制信号输出的同时,另外两台非当班机也执行控制任务,但是其输出被屏蔽。
三机冷备份模式中,加电单机同样在对控制周期中断源的响应后进入控制周期中断,在控制周期中断中进行计算,同时加电单机还在每个控制周期中向容错管理模块发送状态正常信号;容错管理模块采用计数器对加电单机进行监控,利用收到状态正常信号对计数器进行清零,若在设定的时间(如三个控制周期)内未状态正常信号,则计数器的计数值将达到设定的门限值,则容错管理模块将判定当前的加电单机出现故障,并将加电单机断电;加电单机断电的同时,将选择备份单机加电启动,从而由健康的单机替换故障的单机,实现容错控制。当需要进行并机处理时,首先由初始的加电单机或故障单机利用通信模块向其他单机点对点的发送并机请求。在各加电单机(在冷备份模式下为1台,在热备份模式下最多为2台)接收到并机请求后,仅由主机进行响应;主机首先对本机的工作情况进行判断, 若主机正处于控制周期中断中,则先针对高优先级的控制周期任务进行执行,在执行完控制周期任务后处理并机请求;否则直接处理并机请求;主机对并机请求的响应调用应用程序模块将当前主机上的上下文数据装订到通信模块,再利用通信模块发送到其他单机,上下文数据的发送不针对特定目标单机,同样采用点对点的方式;发送并机请求的单机利用通信模块接收到的上下文数据,启动应用程序模块,在控制周期中同步启动工作;未发送并机请求的加电单机在接收上下文数据后不做处理。容错管理模块容错管理模块具备下述功能a)强制当班指令接收电路接收对外部送来的强制当班指令,并根据指令进行操作。若收到强制当班指令,则三机变结构容错计算机处于强制当班状态,若没有收到强制当班指令,则三机变结构容错计算机处于自主当班状态。在处于强制当班状态时,在三机热备份模式,无论其状态如何,始终以强制当班指令所指定的单机作为主机,且无论主机健康状态如何;所述外部为三机变结构容错计算机外部的控制逻辑,一般指地面遥控电路;b)仲裁电路在三级热备份模式下,利用该电路对三台单机的健康状态进行仲裁,确定作为主机的单机,作为输出控制信号的主机;c)切机电路在三机冷备份模式下,容错管理电路监控单机健康状态,若判断加电单机发生故障后,则利用切机电路将加电单机断电,并按并按一定顺序对备份单机加电。机间通信链路的实现三机变结构容错计算机具有点到点的通信链路,该点对点通信链路可进行三机比对数据交换和并机数据传递,这两类数据复用该点到点机间通信链路,具体实现技术为公知常识,此处不做赘述。下面就结合图1中的单机A、B、C对各个工作模式的具体步骤流程做进一步描述。如图2所示,为热备份工作模式管理流程图(1)单机A、B、C在控制周期中调用应用程序模块执行控制任务,获得计算结果;(2)单机A、B、C利用通信模块采用点对点的方式,将计算结果发送到其他两台单机;(3)单机A、B、C分别调用应用程序模块读取通信模块接收到计算结果,并对三个计算结果进行三选二表决;确定自身健康状态并输出到容错管理模块;三选二表决即认为三个计算结果中的多数为正确,若自身的计算结果正确则为健康状态;否则为不健康状态;(4)容错管理模块根据收到的三台单机的健康状态确定主机;
容错管理模块采用固定的顺序确定主机若预先设定的单机优先级顺序为A > B > C,则确定主机时始终首选单机A,其次为单机B,再次为单机C。
(5)被确定为主机的单机输出控制信号。
如图3所示,为冷备份工作模式管理流程图
(1)容错管理模块采用计数的方式对冷备份工作模式下的加电单机(主机)进行状态监控,即容错管理模块利用计数器对进行循环计数,计数器具有预设的计数门限;主机则在每个控制周期中向容错管理模块发送状态正常信号;
(2)容错管理模块接收主机送入的状态正常信号;状态正常信号用于对计数器的计数值清零,若主机状态正常,状态正常信号总能在每个控制周期中到达容错管理模块,可使得计数值始终不会达到计数门限;若主机出现故障无法发送状态正常信号,则容错管理模块的计数值达到计数门限,从而触发容错管理模块对主机断电。
(3)容错管理模块将加电主机断电,并对备份单机加电,启动备份单机工作,备份单机的选择同样遵循特定的顺序,若当前主机为单机A,且单机A故障,则启动单机B作为主机;若单机B再发生故障,则启动单机C作为主机,而不重新选择单机A,各个单机间在启动的次序上一次启动。
如图4所示,为并机模式管理流程图
(1)若是从冷备份工作模式向热备份工作模式,则由新加电的单机向其他单机发送并机请求;若是在热备份工作模式下,由与单机故障造成上下文数据丢失,则由故障单机向其他单机发送并机请求。
(2)在冷备份工作模式下,主机将接收到并机请求,并根据主机当前的状态响应并机请求;在热备份工作模式下,由于并机请求以点对点的形式方式,所有加电单机都将收到并机请求,但也仅有主机根据当前状态进行响应。
若主机当前正处于控制周期中,由于控制周期中的控制任务优先级较高,则继续执行控制周期中的任务,待任务执行完成后,再响应并机请求;若主机未在控制周期中,则判断下次控制周期的到来前是否足够完成执行并机请求的任务,时间足够则响应并机请求。
(3)主机响应并机请求的过程中首先调用应用程序模块将当前的上下文数据装订到通信模块中,并由通信模块同样采用点对点的方式发送到其他单机。
(4)其他单机利用通信模块接收上下文数据,但仅由发送并机请求的单机利用上下文数据,在控制周期中同步启动进行工作。
上述步骤为CTMR的自主管理步骤,CTMR在工作过程中,还受到来自于控制中的外部指令的控制。在热备份工作模式管理过程中,若容错管理模块接收到用于指定主机的外部指令,则直接根据外部指令的指示确定主机,而不再根据单机的健康状态进行选择,即使被选定的主机为故障主机。在冷备份工作模式管理过程中,若容错管理模块接收到用于指定主机的外部指令,则不再按照上述原则选择备份主机,而是直接加电启动外部指令指定的备份单机。同样,在冷备份工作模式下,若容错管理模块在计数过程中接收到禁止切换主机的指令,则即使计数值达到计数门限也不再切换当前主机。
本发明所述方法的测试验证和结果为经故障注入测试,该机在热备份工作模式下,能实时屏蔽掉任何一个故障,确保了高实时容错。该机在冷备份工作模式、自主当班状态下,可自动切换掉一个故障单机,实现冗余容错,该模式下可显著延长未加电单机的抗辐射能力,从而能满足长寿命要求。 本发明未详细说明部分属本领域技术人员公知常识。
权利要求
1.一种用于三机变结构容错计算机系统管理方法,其特征在于所述方法针对三机变结构容错计算机系统不同工作模式进行管理,包括热备份工作模式下的管理步骤、冷备份工作模式下的管理步骤和并机模式下的管理步骤;所述系统包括三台单机和容错管理模块;所述单机具有通信模块和应用程序模块,应用程序模块为单机的功能模块,通信模块为单机负责三台单机间以及单机与容错管理模块间的数据传输;所述容错管理模块在不同工作模式下对加电单机进行监控、对加电单机的计算结果进行表决;在所述热备份工作模式下,三台单机同时加电工作,并有一台单机作为主机输出控制信号;在冷备份工作模式下,仅有一台单机加电,并作为主机输出控制信号;在所述并机工作模式下,在三台单机从冷备份模式向热备份模式转换,或在热备份模式下,由一台单机发生故障,失去上下文数据时,进行单机间的上下文数据并机处理; 在热备份工作模式下,具体管理步骤为步骤11 三台单机分别在控制周期中调用应用程序模块执行控制任务,获得单机的计算结果;转入步骤12 ;步骤12 各单机的应用程序模块通过通信模块将计算结果发送到其它单机;并利用通信模块接收由其它单机传入的计算结果;数据发送结束后,转入步骤13 ;步骤13 各单机应用程序模块读取通信模块中其余单机的计算结果,并对计算结果进行三选二表决;根据表决结果产生本单机的健康状态信号并输出到容错管理模块;转入步骤14;步骤14 容错管理模块利用三台单机的健康状态信号确定主机; 在冷备份工作模式下,具体管理步骤为步骤21 容错管理模块通过计数监控主机状态;主机在每个控制周期中向容错管理模块发送状态正常信号;步骤22 容错管理模块接收到状态正常信号,则将计数值清零;返回步骤21 ;若容错管理模块未接收到状态正常信号,则计数值将达到预设计数门限值,转入步骤23 ;步骤23 容错管理模块将加电主机断电;并加电启动备份单机;所述备份单机为未加电的单机;在并机模式下,具体管理步骤为步骤31 新加电单机或故障单机通过通信模块向每台单机发送并机请求; 步骤32 若加电单机为主机则在接收到并机请求时,先完成控制周期中的控制任务, 再响应并机请求,转入步骤33;若加电单机不是主机,则在接收到并机请求后不响应并机请求;步骤33 主机调用应用程序模块将上下文数据装订到通信模块;并通过通信模块发送到其他单机;并转入步骤34;步骤34 仅发送并机请求的加电单机在接收到上下文数据后,根据上下文数据,在控制周期中,同步启动工作。
2.根据权利要求1所述的一种用于三机变结构冗余容错计算机系统管理方法,其特征在于所述步骤14中容错管理模块以固定的优先级顺序按健康状态确定主机或根据接收到的指令选择指令中的单机为主机。
3.根据权利要求1所述的一种用于三机变结构冗余容错计算机系统管理方法,其特征在于所述步骤23中未加电单机以固定顺序依次作为备份单机进行启动,加电单机启动顺序不可逆;或直接指定所要启动的备份单机。
4.根据权利要求1所述的一种用于三机变结构冗余容错计算机系统管理方法,其特征在于所述步骤22中若容错管理模块在计数过程中,接收到禁止加电主机切换的指令,则加电主机将不再进行切换。
全文摘要
本发明公开了一种用于三机变结构容错计算机系统管理方法,针对三机变结构容错计算机系统不同工作模式进行管理,包括热备份工作模式下的管理步骤、冷备份工作模式下的管理步骤和并机模式下的管理步骤。采用本方法实现的容错计算机可工作在热备份工作模式或冷备份工作模式下,并且可以从冷备份工作模式平滑的切换到热备份工作模式。可实现同时实现实时容错能力和长寿命容错控制能力。
文档编号G06F11/16GK102508746SQ20111036410
公开日2012年6月20日 申请日期2011年11月15日 优先权日2011年11月15日
发明者乔磊, 冯彦君, 华更新, 李任欣, 杨桦, 赵卫华 申请人:北京控制工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1