一种提升可用性的监控对容错系统余度管理方法

文档序号:9787261阅读:740来源:国知局
一种提升可用性的监控对容错系统余度管理方法
【技术领域】
[0001 ]本技术属高可靠机载容错计算机技术及应用。
【背景技术】
[0002]长航时无人飞行器有着飞行时间长,可靠性与可用性要求高的特点。通常提高工 作可靠性与可用性通常采用具有容错能力的多节点容错计算机实现对核心功能的可靠执 行,如具有一次故障安全的双节点容错计算机,一次故障/工作能力的三节点容错计算机、 二次故障/工作能力的四节点容错计算机等,容错是利用冗余的元件或者部件来屏蔽已发 生故障对系统产生的影响,但它需要增加系统内软件和硬件的资源开销。所以故障容错可 定义为:若一个系统在出现运行性故障时,能依靠系统内驻的能力来保持系统连续正确地 执行其预定的流程和输入输出功能,这个系统称作故障容错系统。
[0003]飞行控制与管理计算机系统的余度管理是容错关键技术之一。余度管理的基本功 能是检测计算机的故障及隔离故障部件,另外还应负责故障的复位、故障记录、申报和处理 等功能。余度管理是通过监控和表决余度信号来实现的。在信息正确的基础上,可使任何已 故障的子系统从系统中隔离。余度管理是建立在容错构型的基础上对所有余度通道均采用 相同的工作程序,从而,余度管理均采用了相同的输入、相同的处理和计算,具有相同的输 出。

【发明内容】

[0004] 为了解决【背景技术】中所存在的技术问题,本发明提供一种提高系统可用性的余度 管理方法。该方法在基于故障静默的容错基础上结合系统的可用性需求,针对故障静默容 错方式系统降级过快的缺点,通过增加容错层级,增加系统可恢复能力,改进了基于监控对 容错的多节点故障逻辑,实现新的高可用性余度管理方法。
[0005] 本发明的技术解决方案是:一种提升可用性的监控对容错系统余度管理方法,其 特征在于:所述方法包括以下步骤:
[0006] 1)节点内表决监控
[0007] 1.1)状态信号一致性比较监控,对离散量、数字状态量信号采取一致性监控,A控 制器与B控制器比较一致,选择A控制器数据进入节点级表决监控;
[0008] 1.2)非状态信号门限比较监控,对模拟量信号、数字量还原的非状态信号采取设 置门限方式的比较监控,当A控制器与B控制器的差值绝对值小于门限值,认为节点内比较 一致,选择A控制器数据进入节点级表决监控;
[0009] 1.3)当步骤1.1)和步骤1.2)出现比较不一致时,记录为故障状态,置该节点为问 题节点,分别选择A控制器数据和B控制器数据进入节点级表决监控;
[0010] 2)节点级表决监控
[0011] 2.1)状态指示信号,当三节点的状态指示信号比较一致时,表决值取采样值;
[0012] 2.2)进行非状态信号三节点表决;
[0013] 三信号中选择中值,作为监控的基准值,如果其他两非中值信号与中值信号之间 的差在门限范围内,则该非中值信号为正常,否则该非中值信号为故障;
[0014] 若两个非中值信号与中值信号之差均超过门限,则形成1:1:1的奇异故障,认为信 号均故障;
[0015] 若其中一个非中值信号与中值信号之差超过门限,另外一个非中值信号与中值信 号之差在监控门限之内,形成2:1的情况,判定超出监控门限的为故障,另一个非中值信号 为正常。
[0016] 上述方法还包括
[0017] 3)故障检测、故障隔离、故障重构策略;
[0018] 3.1)当出现节点内比较不一致时,置为问题节点,使用问题节点A控制器数据参与 节点间的表决监控,监控到该A控制器数据故障时,认为问题节点A控制器故障,进行重构, 问题节点B控制器参与节点间的表决监控;
[0019] 当问题节点A控制器正常,B控制器故障,则置问题节点B控制器故障,由A控制器单 独参与节点间的表决监控,此时三节点间均正常工作,余度不降级;
[0020] 3.2)当节点内比较一致,节点间三余度监控出现某一节点故障,则判定为该节点 失效,置该节点失效,放弃对系统的控制权,系统余度降级为2节点;
[0021] 3.3)系统降级为两节点后,节点内比较监控策略不变,节点间比较不一致时,降级 策略为:出现问题节点的首先降级,未出现问题节点的不降级;当无问题节点仍出现节点比 较不一致时,缺省使用当前控制节点,剔除故障节点。
[0022]本发明的优点是:
[0023] 1)本余度管理方法实现基于监控对的容错三节点、双节点容错计算机的冗余管 理;
[0024] 2)本方法能够确保节点容错计算机系统系统数据的可信,在飞行控制与管理等领 域的应用有效性;
[0025] 3)本方法比基于故障静默的监控对容错减缓了系统的余度降级,通过软硬件结合 方式,当某一节点内发生一次故障时,实现备份控制器可重构为主控制器,保证了系统的不 降级;
[0026] 4)本方法提高了基于监控对容错系统的可靠性与可用性,再考虑安全的同时,增 加了容错方式的灵活性;
[0027] 5)本方法采用节点内监控、节点间监控的两级监控方式,确保了数据有效可信;
[0028] 6)本方法对故障的检测准确,可实现对故障的重构隔离;
[0029] 7)本方法实现简洁,具有较好的扩展应用,可实现对双节点,四节点的容错系统使 用。
[0030] 8)本方案具有工程可实现性,可以被广泛应用。
【附图说明】
[0031] 图1为本发明三节点同步硬件电路框图;
[0032] 图2为本发明节点内处理器状态转换图;
[0033]图3为本发明余度管理算法流程图;
【具体实施方式】
[0034] 本方案建立了三节点的容错计算机平台,每个节点由双处理器的监控对处理单元 和总线接口单元组成。通过实现节点内和节点间的表决监控、故障检测、故障隔离、故障重 构等策略,将将系统的性能损失降低到最小,达到提升可用性的目的。容错计算机余度配置 见图1。
[0035]节点内处理器状态转换图见图2,
[0036] 1.三节点容错平台同时工作,每个节点内包含两个控制器,A控制器和B控制器,正 常时A控
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1