容错双工计算机系统及其控制方法

文档序号:6651597阅读:270来源:国知局
专利名称:容错双工计算机系统及其控制方法
技术领域
本发明涉及一种容错双工计算机系统,其中两个系统在监控相互的操作情况的同时同步地执行双工运行。
背景技术
对于具有双工处理器的系统,现有情况下可用的计算机系统是这样的,即当计算机系统发生故障时,暂时停止双工操作,并且根据故障情况,继续进行被认定为正常的处理器的操作(例如,参见JP-H06-266574A)。
为了制止这种处理的中断,在没有实施有关要修复的故障的信息收集的情况下继续双工系统的操作。
不过,现有情况下,双工运行被暂时停止,以收集要修复的故障的信息,这会造成处理的中断的问题。
而且,不收集要修复的故障的信息以制止处理的中断,会引起活动或备用系统的确定准确度下降的问题。

发明内容
因此,本发明的目的是提出一种容错双工计算机系统及其控制方法,该容错双工计算机系统能够甚至在有要修复故障的情况下,通过收集故障信息来增加要继续的处理的精度,而不停止双工运行,并且当非同步情况发生时使用收集的故障信息作为活动或备用系统的确定资料,以提高确定准确度。
为了解决上述问题,提出了本发明。本发明的特征在于容错双工计算机系统,其中两个系统在监控相互操作情况的同时同步地执行双工运行,该容错双工计算机系统包括数据处理部件,其使每一个系统修复并通知在其中传输数据或执行算术运算的过程中产生的故障;错误诊断处理器,其通知在系统中产生的故障信息并且执行指示给系统的处理;以及错误监控部件,其对从各系统接收的多个故障信息进行分类,以将它们记录成可修复故障信息或不可修复故障信息,并且根据该信息来指示系统进行故障修复处理,其中当从每一个系统接收到可修复故障时,错误监控部件更新相关系统的可修复故障信息;当接收到不可修复故障时,更新相关系统的不可修复故障信息,以指示系统的诊断;并且当接收到非同步情况时,对来自各系统的多个故障信息进行相互比较,以通过将包括有较少量故障信息的系统设定为活动系统并且将包括有较大量故障信息的系统设定为备用系统来指示同步处理。
根据该结构,在执行双工运行的同时可以与每一个系统相对应地记录可修复故障信息和不可修复故障信息,并且当发生非同步情况时,记录的故障信息可被用作活动或备用系统的确定资料。
本发明的第一效果是通过提高活动或备用系统的确定准确度可以增加要继续的处理的准确度。这是因为即使是在可修复故障的情况下,也收集故障信息,并且即使当发生了非同步情况时,收集的故障信息被用作活动或备用系统的确定资料。
本发明的第二效果是当发生了非同步情况时处理的中断可被限制到最小。这是因为在不停止双工运行的情况下也可以收集故障信息。


图1为框图,示出了本发明的第一实施例;图2为错误诊断处理器的内部框图;
图3为流程图,示出了错误监控部件的操作;图4为当在一个系统中发生了可修复故障时的解释图;图5为当在一个系统中发生了不可修复故障时的解释图;以及图6为当在系统之间发生了非同步情况时的解释图。
具体实施例方式
接下来,参照附图来讲述本发明的优选实施例。
图1为框图,示出了本发明的第一实施例。系统110、120在经由同步总线140监控相互的操作情况的同时来进行同步双工运行。通过分别包括作为数据处理单元的如下部件来构造系统110、120,即CPU 112、122,存储器113、123,IO处理器114、124和错误诊断处理器116、126。
CPU 112、122,存储器113、123,以及IO处理器114、124通过数据总线111、121来传输数据,以实现算术运算。当在数据传输或算术运算的过程中发生故障时,CPU 112、122,存储器113、123和IO处理器114、124根据诸如误差校正代码(ECC)等附加数据来确定是否可以修复故障,当故障可以修复时通过诊断总线115、125将故障的可修复性通知给错误诊断处理器116、126,并且修复故障,以继续其后的处理。
当产生的故障不可修复时,通过诊断总线115、125将不可修复的故障通知给错误诊断处理器116、126,停止其后的处理,并且等待来自错误诊断处理器116、126的指令。当在同步总线140上确认发生了非同步情况时,CPU 112、122,存储器113、123和IO处理器114、124通过诊断总线115、125将非同步情况通知给错误诊断处理器116、126。
错误监控部件130对从系统110和120接收的多个故障信息进行分类,并且记录各信息,作为与各系统相对应的可修复故障信息131和不可修复故障信息132。
图2示出了错误诊断处理器的内部结构。错误诊断处理器116、126通过错误检测部件201从CPU 112、122,存储器113、123和IO处理器114、124经过诊断总线115、125接收可修复故障、不可修复故障和非同步情况。
错误信息通信部件202通过通信总线141、142向错误监控部件130询问在可修复故障的情况下的单独的通知、在不可修复故障和非同步情况下的通知和其后的处理内容,并且将询问的结果通知给错误对策部件203。
错误对策部件203根据向错误监控部件130询问的结果,在系统110、120发生了不可修复故障和非同步情况之后指示对CPU 112、122,存储器113、123和IO处理器114、124进行处理。
接下来,参照图3的流程图来讲述错误监控部件的操作概况。错误监控部件130从系统110、120经过通信总线141、142来接收可修复故障、不可修复故障和非同步情况的通知(步骤301)。
当接收到可修复故障时,更新相关系统的可修复故障信息131(步骤310)。当接收到不可修复故障时,更新相关系统的不可修复故障信息132(步骤320),并且指示系统进行诊断(步骤321)。当确定出可操作时,再次将同步处理(步骤323)的指令通知给系统(步骤325)。当确定出不可操作时,停止相关系统的处理,以进行系统切换通知(步骤324)。当接收到非同步情况时,对系统110和120的多个故障信息进行相互比较,并且通过将故障信息量较小的系统110设定为活动系统并且将故障信息量较大的系统120设定为备用系统来进行同步处理指令(步骤330)。备用系统的同步处理指令是经过通信总线142通知给系统120的(步骤331)。
接下来,讲述与每一个故障信息相对应的错误监控部件的操作。首先,参照图4来讲述当在同步操作的两个系统的一个中发生了可修复故障时的操作。
假设由于某种原因在系统120的IO处理器124中发生了故障。IO处理器124确定故障的内容,确定故障可被修复,修复故障以继续其后的处理,并且经过诊断总线125将可修复故障的发生通知给错误诊断处理器126。
错误诊断处理器126通过错误检测部件201从IO处理器124接收可修复故障的通知。错误信息通信部件202通过通信总线142将可修复故障的发生通知给错误监控部件130。
错误监控部件130从系统120经过通信总线142接收可修复故障的通知(步骤301)。由于接收的通知为可修复的故障,因此更新系统120的可修复故障信息131(步骤310),以完成处理。
接下来参照图5来讲述当在同步操作的两个系统的一个中发生了不可修复故障时的操作。
假设由于某种原因在系统120的IO处理器124中发生了故障。IO处理器124确定故障的内容,确定故障不可被修复,取消其后的处理,并且经过诊断总线125将不可修复故障的发生通知给错误诊断处理器126。
错误诊断处理器126通过错误检测部件201从IO处理器124接收不可修复故障的通知。错误信息通信部件202通过通信总线142将不可修复故障的发生和对其后处理内容的询问通知给错误监控部件130。
错误监控部件130从系统120经过通信总线142接收不可修复故障的通知(步骤301)。由于接收的通知为不可修复的故障,因此更新系统120的不可修复故障信息132(步骤320),以进行对系统120的诊断指示(步骤321)。
错误诊断处理器126通过错误信息通信部件202从错误监控部件130经过通信总线142接收诊断指令。错误对策部件203经过诊断总线125将接收的诊断指令传输给通知发生了不可修复故障的IO处理器124。
IO处理器124根据来自错误诊断处理器126的诊断指令对内容进行诊断,并且将其结果经过诊断总线125通知给错误诊断处理器126。
错误诊断处理器126经过通信总线142将从IO处理器124接收的诊断结果通知给错误监控部件130。
错误诊断处理器126确定接收的诊断结果(步骤322)。当确定出可操作时,再次将同步处理指令(步骤323)通知给系统120(步骤325)。由错误诊断处理器126来确定其可操作性的系统120接收同步处理指令,并且开始与系统110的同步处理,以恢复双工运行。当确定出不可操作时,不对系统120发出任何通知,保持其后面的处理的停止状态,并且将系统120的切换请求显示在显示器等设备上,以将其通知给系统管理员(步骤324)。
接下来,参照图6来讲述当在同步操作的两个系统之间发生了非同步情况时的操作。
假设由于某种原因在系统110和120之间发生了非同步情况。在系统110中,CPU 112通过同步总线140监控系统120的操作情况,并且检测非同步情况的发生。当检测到非同步情况时,CPU 112停止对系统120的非同步情况检测处理,并且经过诊断总线115将非同步情况通知给错误诊断处理器116。
错误诊断处理器116通过错误检测部件201从CPU 112接收非同步情况的通知。错误信息通信部件202经过通信总线141将非同步情况的发生和对其后处理的内容的询问通知给错误监控部件130。
在系统120中,CPU 122通过同步总线140监控系统110的操作状态,并且检测非同步情况的发生。当检测到非同步情况时,CPU 122停止对系统110的非同步情况检测处理,并且经过诊断总线125将非同步情况通知给错误诊断处理器126。
错误诊断处理器126通过错误检测部件201从CPU 122接收非同步情况的通知。错误信息通信部件202经过通信总线142将非同步情况的发生和对其后处理的内容的询问通知给错误监控部件130。
错误监控部件130从系统110经过通信总线141接收非同步情况的通知,并且从系统120经过通信总线142接收非同步情况的通知(步骤301)。
由于接收的通知为非同步情况(步骤302),因此对系统110和120的多个故障信息进行相互比较,并且通过将故障信息量较小的系统110设定为活动系统并且将故障信息量较大的系统120设定为备用系统来进行同步处理指令(步骤330)。备用系统的同步处理是经过通信总线142通知给系统120的(步骤331)。
错误诊断处理器126通过错误信息通信部件202从错误监控部件130经过通信总线142接收备用系统的同步处理。接收到备用系统的同步处理的错误诊断处理器126停止系统120的处理,并且执行与系统110的同步处理,以恢复系统110和120的双工运行。
例如,本发明可以应用于双工计算机系统,其中双工计算机系统应用于24小时或365天都不能停止处理以管理诸如网上购物等用户信息的数据服务器。
权利要求
1.一种容错双工计算机系统,其中两个系统在监控相互操作情况的同时同步地执行双工运行,它包括数据处理部件,其使每一个系统修复并通知在其中传输数据或执行算术运算的过程中产生的故障;错误诊断处理器,其通知在系统中产生的故障信息,并且执行指示给系统的处理;以及错误监控部件,其对从系统接收的多个故障信息进行分类,以将它们记录成可修复故障信息或不可修复故障信息,并且根据该信息来指示系统进行故障修复处理,其中当从每一个系统接收到可修复故障时,错误监控部件更新相关系统的可修复故障信息;当接收到不可修复故障时,更新相关系统的不可修复故障信息,以指示系统的诊断;并且当接收到非同步情况时,对来自各系统的多个故障信息进行相互比较,以通过将包括有较少量故障信息的系统设定为活动系统并且将包括有较大量故障信息的系统设定为备用系统来指示同步处理。
2.如权利要求1所述的系统,其中当在接收到不可修复故障的情况下诊断结果被确定为允许操作时,再次将同步处理的指令通知给相关系统。
3.如权利要求1所述的系统,其中当在接收到不可修复故障的情况下诊断结果被确定为禁止操作时,停止相关系统的处理,以通知其进行切换。
4.一种双工计算机系统的容错控制方法,该双工计算机系统在每一个系统中都包括有数据处理部件,以修复和通知在传输数据或在其中执行算术运算的过程中产生的故障,并且在该双工计算机系统中,各系统在监控相互操作情况的同时同步地执行双工运行,该方法包括错误诊断步骤,用于通知在系统中产生的故障信息,并且执行指示给系统的处理;以及错误监控步骤,用于对从各系统接收的多个故障信息进行分类,以将它们记录成可修复故障信息或不可修复故障信息,并且根据该信息来指示系统进行故障修复处理,其中在错误监控步骤中,当从每一个系统接收到可修复故障时,更新相关系统的可修复故障信息;当接收到不可修复故障时,更新相关系统的不可修复故障信息,以指示系统的诊断;并且当接收到非同步情况时,对来自各系统的多个故障信息进行相互比较,并且通过将故障信息量较小的系统设定为活动系统并且将故障信息量较大的系统设定为备用系统来指示同步处理。
5.如权利要求4所述的方法,其中当在接收到不可修复故障的情况下诊断结果被确定为允许操作时,再次将同步处理的指令通知给相关系统。
6.如权利要求4所述的方法,其中当在接收到不可修复故障的情况下诊断结果被确定为禁止操作时,停止相关系统的处理,以通知其进行切换。
全文摘要
本发明公开了一种能够在不停止双工运行的情况下通过收集故障信息来增加要继续的处理的准确度的容错双工计算机系统。当产生的故障可修复时,系统(110,120)的CPU(112,122)、存储器(113,123)和IO处理器(114,124)将可修复故障通知给错误诊断处理器(116,126),并且当产生的故障不可修复时,将不可修复故障通知给错误诊断处理器(116,126)。当确认发生了非同步情况时,通知非同步情况。当接收到可修复故障时,错误监控部件(130)更新相关系统的可修复故障信息(131),并且当接收到不可修复故障时,更新相关系统的不可修复故障信息(132)。当接收到非同步情况时,通过将故障信息量较小的系统设定为活动系统并且将故障信息量较大的系统设定为备用系统来进行同步处理指令。
文档编号G06F11/16GK1794198SQ200510133920
公开日2006年6月28日 申请日期2005年12月20日 优先权日2004年12月20日
发明者吉田雅広 申请人:日本电气株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1