一种可重构三冗余计算机系统及其重构降级方法与流程

文档序号:11690986阅读:184来源:国知局
一种可重构三冗余计算机系统及其重构降级方法与流程
本发明涉及一种可重构三冗余计算机系统及其重构降级方法,尤其是一种长时间、高可靠、全自主的运载火箭与航天器控制系统中计算机故障诊断与决策方法,属于计算机
技术领域

背景技术
:由于三冗余计算机独特的优势,在未来的各种类型的上面级、快速响应的液体小火箭、固体小运载、空射小运载和用于载人探月的重型运载火箭上将具有广泛的应用。随着我国空间应用、科学探测、载人航天的发展,国际商业发射与国际合作的日益加深,运载火箭发射任务越来越多,高密度快速发射成为运载火箭的发展趋势。为了提高中国运载火箭的整体水平和能力,满足未来20—30年航天发展的需求,保持我国运载技术在世界航天领域的地位,我国开展了研制新一代快速发射运载火箭与航天器。运载火箭与航天器采用三冗余架构计算机的型号较多,一般采用单点表决、单点接口或多台冗余等方案,从冗余程度与经济性上无法做到平衡,且无法适应长航时航天器计算机应用。在实时性、自主性控制要求较高的应用环境,如火星探测、大机动变轨运输器等,不仅需要自主故障诊断与决策的能力,现有航天器计算机一般采用双机冗余、三机不可恢复故障冗余,所以需要设计一种一度故障后恢复与故障隔离技术,通过可重构与降级设计实现长时间的自主故障诊断与决策的能力。技术实现要素:本发明的技术解决问题:克服现有技术的不足,提供一种可重构三冗余计算机系统及其重构降级方法,解决火箭与航天器计算机系统在实时性较高应用环境下长时间全自主故障诊断问题,以及通过故障恢复重构方法保证长航时工作可靠性。本发明的技术解决方案:一种可重构三冗余计算机系统,包括三个控制计算机,每个控制计算机包括接口通信模块、cpu模块和表决控制模块,三个控制计算机上电完成初始化配置和时间同步之后工作在三机冗余工作模式下,各控制计算机cpu模块分别接收外部数据,同步进行控制计算,将计算结果发送至对应的接口通信模块;同时,各控制计算机cpu模块通过表决控制模块进行数据交互,获取三个控制计算机的计算结果,对三个控制计算机的计算结果,进行故障诊断得到故障判断结果,根据故障判断结果和预设的权切换顺序,形成表示当权控制计算机编号的表决状态指令,将表决状态指令发送至三个控制计算机的表决控制模块,每个控制计算机的表决控制模块根据表决状态指令,按照3取2的原则配置当权机,由当权机输出权使能控制信号至对应的接口通信模块,并由当权机向故障机输出复位指令;在权使能信号的控制下,仅当权控制计算机接口通信模块将计算结果输出至对外接口,故障机复位重启后,通过三机交互接口同步当班机的关键数据,使故障机重新运行与其它两机保持状态一致,完成重构。所述每个控制计算机cpu模块与三个控制计算机表决控制模块相连,cpu模块写操作将交互数据同时写入三个控制计算机表决控制模块的存储缓冲区,cpu模块读操作读取所属控制计算机的表决控制模块存储缓冲区中三个控制计算机交互数据。当任意一个控制计算机发生故障次数超过预设次数时,当权机对该故障机进行断电操作,三冗余计算机系统运行在双机主从工作模式,一个控制计算机为当权机,另一个控制计算机为非当权机,其中,当权机通过表决控制模块向非当权机发送健康状态信号,非当权机根据当权机健康状态信号判断当权机的健康状态,当当权机“不健康”时,非当权机表决控制模块向当权机发送夺权指令,并对当权机进行复位操作,非当权机切换自身为当权机,发出权使能有效信号,接管三冗余计算机系统对外接口通信权,三冗余计算机系统工作在单机工作模式;否则,三冗余计算机系统保持在双机工作模式。所述当权机健康状态信号包括心跳信号、电压状态信息和双机时间信息,当所有健康状态信号与预设值均一致时,认为当权机“健康”,否则,认为当权机“不健康”。每个控制计算机对三个控制计算机的计算结果进行表决的原则为:对三份计算结果进行比对,如果三份计算结果相互之间的偏差均未超出设定阈值,则认为无故障机,如果其中一份计算结果与这两份计算结果偏差超出设定阈值,则认为该计算结果所对应的控制计算机为故障机;如果三份计算结果相互之间的偏差均超出设定阈值,则认为三机均为故障机。所述三个控制计算机独立供电。所述三个控制计算机之间的所有外部接口信号和内部交互信号均采取隔离措施进行隔离。所述控制计算机中的表决控制单元通过fpga实现。本发明的另一个技术解决方案:一种可重构三冗余计算机系统的重构降级方法,三个控制计算机上完成初始化配置与时间同步之后,三冗余计算机系统工作在三机工作模式下,一个为当权机,另外两控制计算机为非当权机,三个控制计算机进行如下步骤:(1)、每个控制计算机同步进行控制计算,每个控制计算机实时获取另外两个控制计算机的计算结果,之后,对三个控制计算机的计算结果,进行故障诊断,得到故障判断结果,根据故障判断结果和预设的权切换顺序,形成表示当权控制计算机编号的表决状态指令;(2)、采用3取2的原则对表示当权控制计算机编号的表决状态指令配置当权机,由当权机输出权使能信号,所述权使能信号控制当权控制计算机将计算结果输出至外部接口,之后转入步骤(3);(3)、当故障判断结果为三个控制计算机均无故障机时,三冗余计算机系统保持在三机工作模式下,由当权机将计算结果三取二输出,下一个周期到来时从步骤(1)开始执行;当故障判断结果为存在一个故障机时,转入步骤(4);当故障判断结果为存在三个故障机时,系统停止工作;(4)、判断该故障机发生故障的次数是否超过预设值,如果未超过,则转入步骤(5),超过则转入步骤(6);(5)、由当权机将故障机复位,故障机复位重启后,获取当权机的所有运行过程数据,使故障机与其它两机保持同步,完成重构,三个控制计算机保持在三机工作模式下,下一个周期到来时从步骤(1)开始执行;(6)、由当权机对故障机进行断电操作,三冗余计算机系统工作在双机主从工作模式,一个控制计算机为当权机,另一个控制计算机为非当权机;当权机向非当权机发送健康状态信号,之后进入步骤(7);(7)、非当权机判断当权机健康状态信号是否与预设值一致,如果一致,则在下一个周期到来时,重复执行步骤(6)~步骤(7);如果不一致,则非当权机向当权机发送夺权指令,接管三冗余计算机系统对外接口通信权,三冗余计算机系统工作在单机工作模式。本发明与现有技术相比的优点在于:(1)、本发明通过故障恢复重构手段,延长计算机工作时间,突破三机冗余工作时间短的瓶颈,可应用于更广泛工作环境。(2)、本发明控制计算机对先采用3取2的原则进行故障识别,再采用3取2的原则对故障判断结果进行确认,最终获得故障机和当权机,提高计算机系统的可靠性。(3)、本发明三冗余控制机算机之间采用三个相同设计的表决控制模块进行数据交互,每个表决控制模块内部包含三个并行数据存储缓冲区,可以三机数据实现快速同步,而且,可同步数据量大,有利于计算机系统重构。(4)、本发明三冗余控制计算机采用耦合隔离设计,避免任何机故障导致计算机系统故障。(5)、本发明提出了一种重构降级方法,管理重构过程中软件流程、冗余数据交互,实现故障机的故障恢复,该方法逻辑实现简单,可解决计算机所有一度,以及部分二度故障,提高计算机系统可靠性,便于工程应用。附图说明图1为本发明实施例三冗余重构降级计算机硬件架构;图2为本发明实施例表决控制模块设计与信号互连图;图3为本发明实施例三机冗余重构与降级状态迁移图;图4为本发明实施例工作模式逻辑管理图。具体实施方式以下将结合附图和实施例对本发明作进一步详细描述。随着我国航天计算机技术发展和冗余技术应用,及对火箭与航天器快低成本、高可靠的要求,利用三冗余重构降级技术的计算机系统是不错的选择。如图1所示,本发明提供了一种三冗余重构计算机系统,三冗余重构计算机系统架构设计,提供有效手段识别计算机软硬件的故障状态,并管理计算机硬件输出控制权。该系统由三个互为冗余的控制计算机。第一控制计算机包括:供电模块a、接口通信模块a、cpu模块a、表决控制模块a;第二控制计算机包括:供电模块b、接口通信模块b、cpu模块b、表决控制模块b;第三控制计算机包括:供电模块c、接口通信模块c、cpu模块c、表决控制模块c。三个控制计算机各有一个1553b总线接口,三个接口连接在同一套1553b总线上。初始上电时,三个计算机工作在三冗余工作模式下,其中一个控制计算机为当权机,另外两个控制计算机为非当权机。当权机为bc,其他两机为mt。三冗余计算机系统三个控制计算机独立供电,即供电单元a将外部输入电源转换成独立的二次电源,经隔离保护之后,为接口通信模块a、cpu模块a和表决控制单元a供电,其它两路类同,即供电单元b为接口通信模块b、cpu模块b和表决控制单元b供电;供电单元c为接口通信模块c、cpu模块c和表决控制单元c供电。任何一套电源发生故障后系统仍能正常工作。三个控制计算机的通信模块:接口通信模块a、接口通信模块b和接口通信模块c,在权使能信号的控制下,输出数据至对外接口,同一时刻仅一机具有对外输出接口的控制权,权使能信号由表决控制模块输出。如,当第一控制计算机为当权机时,表决控制模块a输出“有效”的权使能信号,表决控制模块b和表决控制模块c输出“无效”的权使能信号,这样,接口通信模块a在“有效”的权使能信号控制下输出数据至对外接口,接口通信模块b和接口通信模块c不输出。三个控制计算机的cpu模块:cpu模块a、cpu模块b和cpu模块c在系统启动后均为热机,运行相同版本的软件,做相同的数据处理工作,它们之间没有连接,各cpu模块通过16位并口与各互对应的表决控制模块中表决控制单元交互数据,控制表决控制模块输出权信号,驱动接口通信模块输出接口的使能端,控制通信接口权。如图2所示,每个控制计算机表决控制模块通过fpga实现。每个表决控制模块包括三个并行数据存储缓冲区,每个控制计算机cpu模块与三个控制计算机表决控制模块相连,cpu模块写操作将交互数据同时写入三个控制计算机表决控制模块的存储缓冲区,cpu模块读操作读取所属控制计算机的表决控制模块存储缓冲区中三个控制计算机交互数据,从而实现三机之间的数据交互。比如,各控制计算机cpu模块通过表决控制模块进行数据交互,获取三个控制计算机的计算结果的具体方法为:首先,第一控制计算机、第二控制计算机、第三控制计算机的cpu模块分别将计算结果同时发送至三个控制计算机表决控制模块中的第一并行数据存储缓冲区,第二并行数据存储缓冲区和第三并行数据存储缓冲区;然后,第一控制计算机、第二控制计算机、第三控制计算机cpu模块再分别读取第一控制计算机、第二控制计算机、第三控制计算机表决控制模块中三个并行数据存储缓冲区中的三机数据,从而实现三个控制计算机之间数据交互。为了兼容多种类型的信号输入和输出,增强其通用性,每个控制计算机外部接口包括对外接口包括oc门、模拟量、同步和异步rs422接口。所有外部接口信号和内部交互信号均采取隔离措施进行隔离,三个控制计算机各模块硬件之间采用耦合隔离设计,避免一机故障导致的计算机系统故障。三机冗余隔离接口设计见下表。表1三机隔离接口设计汇总表上表中,一次电源输入、422输入接口、ttl(或cmos)电平输入接口、模拟量输入接口、热敏电阻采集、oc门输入接口、1553b通讯输入和输出接口、422输出接口、oc门输出接口均为对外输入输出接口信号,三机交互内总线信号和板内的三机交互信号是内部交互信号,包括各控制计算机的表决控制模块之间的心跳信号、三个并行数据存储区进行数据交互的16位数据总线等。三冗余控制计算机上电后采用热备冗余方式工作,当任意一个控制计算机中的供电模块、接口通信模块、表决控制模块或cpu模块故障时,对该故障机(即三冗余中的一组cpu模块、接口通信单元和表决控制单元组成)进行复位或下电处理,消除一机可恢复故障(如外界电磁影响、静电、单粒子导致的软件运行异常故障);重启后的故障机获取其它两机当前工作状态信息完成重构,当一机多次(一般不超3次)故障,即进行降级处理,对其进行断电操作,剩余正常工作两机运行在双机主从工作模式(即一主一备工作模式,备机监测主机工作状态),当双机中主机故障时,备机夺取对外接口通信权,工作在单机模式。根据设计的故障状态和处理策略,将三冗余控制计算机划分为不同的工作模式和工作状态,确定模式间的转入转出条件,并对模式进行管理。各工作状态转换关系如表2和图3所示。表2模式转入转出条件上述三冗余计算机采用了完全三机冗余架构,元器件规模为原来的三倍,为了降低研制成本,可以仅考虑核心元件具备高等级与抗幅照指标要求,其它元件可选用军温级或工业级器件,这样可以扩升航天领域计算机市场的竞争力,进而占有更多的市场份额。本发明在上述可重构三冗余计算机的基础上提出了一种可重构三冗余计算机系统的重构降级方法,一个为当权机,另外两控制计算机为非当权机,三个控制计算机进行如下步骤:(1)、各控制计算机cpu模块分别接收外部数据,同步进行控制计算,将计算结果发送至对应的接口通信模块;同时,各控制计算机cpu模块通过表决控制模块进行数据交互,获取三个控制计算机的计算结果,对三个控制计算机的计算结果,进行故障诊断得到故障判断结果,根据故障判断结果和预设的权切换顺序,形成表示当权控制计算机编号的表决状态指令,将表决状态指令发送至三个控制计算机的表决控制模块;每个控制计算机cpu模块,进行故障诊断的原则为:每个控制计算机cpu模块对三份计算结果进行比对,如果三份计算结果相互之间的偏差均未超出设定阈值,则认为无故障机,如果其中一份计算结果与这两份计算结果偏差超出设定阈值,则认为该计算结果所对应的控制计算机为故障机;如果三份计算结果相互之间的偏差均超出设定阈值,则认为三机均为故障机。预设的权切换顺序根据实际情况预先设计并装订至计算机内部,如图4所示。a机为当权机时,a机出现故障,则选择b机为当权机输出;b机为当权机时,b机出现故障,则选择a机为当权机输出;c机为当权机时,c机出现故障,则选择a机为当权机输出。表决状态指令采用2位二进制表示,“00”表示a机权输出,“01”表示b机权输出,“10”表示c机权输出。(2)、表决控制模块接收三机cpu模块软件发送的权状态指令,采用3取2的原则对表示当权控制计算机编号的表决状态指令配置当权机,由当权机输出权使能信号,所述权使能信号控制接口通信模块将计算结果输出至外部接口,之后转入步骤(3);如:三机中大于两机输出“00”标表决a机权输出,三机中大于两机“01”表决b机权输出,三机中大于两机“10”表决c机权输出。由当权机的表决控制模块输出权使能信号,权使能信号控制相应接口通信模块输出数据。(3)、当故障判断结果为三个控制计算机均无故障机时,三冗余计算机系统保持在三机工作模式下,由当权机将计算结果三取二输出,下一个周期到来时从步骤(1)开始执行;当故障判断结果为存在一个故障机时,转入步骤(4);当故障判断结果为存在三个故障机时,系统停止工作;(4)、判断该故障机发生故障的次数是否超过预设值,如果未超过,则转入步骤(5),超过则转入步骤(6);(5)、由当权机将故障机复位,故障机复位重启后,获取当权机的所有运行过程数据,使故障机与其它两机保持同步,完成重构,三个控制计算机保持在三机工作模式下,下一个周期到来时从步骤(1)开始执行;所述运行过程数据包括了时间同步信息、进行控制计算用到的中间变量、当前当权机号、每台控制计算机已经发生故障状态等信息,这些数据也是通过表决控制模块中的三个并行数据存储缓冲区进行数据交互的。(6)、由当权机对故障机进行断电操作,三冗余计算机系统工作在双机主从工作模式,一个控制计算机为当权机,另一个控制计算机为非当权机;当权机向非当权机发送健康状态信号,之后进入步骤(7);(7)、非当权机判断当权机健康状态信号是否与预设值一致,如果一致,则在下一个周期到来时,重复执行步骤(6)~步骤(7);如果不一致,则非当权机向当权机发送夺权指令,接管三冗余计算机系统对外接口通信权,三冗余计算机系统工作在单机工作模式。当权机健康状态信号包括心跳信号、电压状态信息和双机时间信息,当所有健康状态信号与预设值均一致时,认为当权机“健康”,否则,认为当权机“不健康”。双机工作模式两机独立运算,主、备机的切换关系见下表所示。表3双机模式的夺权关系表序号双机模式故障机故障夺权关系备注1b主、c备模式b机故障c机表决控制单元发夺b机权指令,控制输出2a主、c备模式a机故障c机表决控制单元夺a机权指令,控制输出3a主、b备模式a机故障b机表决控制单元夺a机权指令,控制输出所述电压状态信息和双机时间信息通过遥测信息传送,备机工作过程中以40ms周期监测当权机的遥测信息,判别准则如下所示。表4遥测信息判别表序号判断值指标连续故障时间1双机时间信息误差小于1ms200ms2计算机12v基准电压误差小于±1v200ms3计算机5v基准电压误差小于±1v200ms4计算机0v基准电压误差小于±1v200ms以a机故障b机当权为例,当c机监测到b机故障后,由表决控制单元向b机发送夺权信号。单机工作模式为在双机热备的当权机发生故障时,由备份机夺权固定输出,从而进入单机工作模式。该模式下,仅当权机具有接口控制权,其它两机禁止使能端输出。由上所述,当三冗余控制计算机中的冗余单元发生故障,需要进行切权、重构、降级等操作时,各冗余单元的工作行为需要进行相应切换。cpu按照约定的顺序进行模式切换和双机模式内的主、备切换。如图4所示,三机模式下,如果a机出现故障,则对a机进行故障恢复,如果a机故障恢复之后,a机工作正常,重新回到三机冗余工作模式,如果故障恢复三次之后a机仍然不正常,则认为a机发生了不可恢复故障,将a机断电,选择b机作为当权机、c机作为热备份机,系统进入双机工作模式;在双机工作模式下,b机出现故障时,c机夺权输出。运载火箭与航天器,要求保证实时性的前提下,具有全自主、高可靠的能力,通过三机冗余方式,可实现自主故障诊断与决策,在高实时性需求下无需人工干预。采用本发明的技术方案实现的控制计算机实时故障诊断时间小于40ms,故障切换时间小于40ms,配置重构降级手段可保证长时间的高可靠运行,可适应运载与航天器的计算机应用,以及长航时高机动能力的航天器。本发明说明书中未进行详细描述的内容属于本领域公知常识。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1