数据处理系统启动期间定位故障部件的方法和系统的制作方法

文档序号:6352236阅读:169来源:国知局
专利名称:数据处理系统启动期间定位故障部件的方法和系统的制作方法
技术领域
本发明一般地涉及用于数据处理的方法和设备,尤其涉及用于定位数据处理系统中的故障部件的方法和系统。更具体地说,本发明涉及在系统启动期间用于定位数据处理系统中的故障部件的方法和设备。
数据处理系统在系统启动时典型地进行一系列的初始化过程。在启动或“冷引导”时,数据处理系统的每个不同的硬件部件首先执行它自己的内部复位过程以得到已知的稳定状态。一旦成功地完成这些硬件复位过程,数据处理系统的每个部件就启动逻辑内装自测试(LBIST)或阵列内装自测试(ABIST)。接着服务处理器对某已知签名值进行LBIST或ABIST签名验证。一旦完成该验证,服务处理器就开始初始化数据处理系统的每个部件。
接着,执行固件以完成初始化处理。在许多数据处理系统中,该固件包括对系统硬件进行检查和健全检验的通电自检(POST)软件,对从处理器(组)到诸如键盘、显示监视器之类的关键外设进行接口的基本输入输出系统(BIOS),以及对选定操作系统发起执行的操作系统装入(引导)程序。这些通常汇集在快速启动存储器中的基本固件过程使数据处理系统达到一种能在其上执行用户的应用的操作状态。
在执行固件期间,固件典型地每次和数据处理系统内的某具体部件交互。当启动期间出现系统“中止”时,系统“中止”的原因和此刻固件或服务处理器正在访问的部件有关的概率是高的。在不具有任何其它了解的情况下,典型地通过更换数据处理系统中的每块适配器卡以判定该适配器卡是否造成系统“中止”,实现对错误源的确定。该过程非常耗时并且容易出错。从而,需要提供一种改进方法,用于在系统启动期间定位数据处理系统中的故障部件。
依据本发明的优选实施方式,向数据处理系统内的每个部件分配一个位置代码。这样,某进展代码就和某位置代码以及部件中装入的或执行的例程相关。在向数据处理系统供电后,对数据处理系统的各部件进行初始化以建立配置。在初始化期间,某部件的位置代码和对应的进展代码显示在显示屏面上。可响应系统中止,利用显示屏面上显示的位置代码和进展代码识别故障部件。
在下面的详细书面说明中,本发明的所有目的、特征和优点将变为清晰。
通过连带着附图参阅下述示范实施例的详细说明,会最好地理解本发明本身以及使用的优选方式以及它的其它目的和优点,附图是

图1是可借助其有益地应用本发明的数据处理系统的一个示范实施例的方块图;图2是依据本发明的优选实施例的、用于在图1的数据处理系统中执行系统启动的一种方法的高层逻辑流程图;图3图示地示出依据本发明的优选实施例显示进展代码和位置代码的显示屏面;图4是依据本发明的优选实施例、在图2中示出的验证步骤期间实现进展码和位置码的显示的方法的高层逻辑流程图;以及图5是依据本发明的优选实施例、在图2中示出的初始化步骤期间实现进展码和位置码的显示的方法的高层逻辑流程图。
现参照各图尤其是图1,图1是可借助其有益地应用本发明的数据处理系统的一个示范实施例的方块图。如所示,数据处理系统10包括多个处理器卡11a-11n。每个处理器卡11a-11n包括一个处理器和一个高速缓存器。例如,处理器卡11a包含处理器12a和高速缓存器13a,而处理器卡11n包含处理器12n和高速缓存器13n。
处理器卡11a-11n和主总线15连接。主总线15支持系统平面20,后者包含数据开关21和存储器控制器/高速缓存器22。存储器控制器/高速缓存器22支持存储器卡23,存储器卡23包括一个具有二个双列直插式存储器模块(DIHM)的局部存储器16。
数据开关21与位于本机I/O(NIO)平面24内的总线桥17和总线桥18连接。如所示,总线桥18通过系统总线19和外部部件互连(PCI)桥路25和26连接。PCI桥路25通过PCI总线28和各种I/O部件连接。如所示,硬盘36可通过小计算机系统接口(SCSI)主适配器30和PCI总线28连接。图形适配器31可直接或间接和PCI总线28连接。PCI桥路26经PCI总线27通过网络适配器34和适配器卡槽35a-35n提供对外部数据流的连接。
产业标准体系结构(ISA)总线29通过ISA桥路32和PCI总线28连接。ISA桥路32通过具有串行接插件1和2的NIO控制器33提供互连能力。通过NIO控制器33提供软盘驱动器连接37、键盘连接38和鼠标连接39,以允许数据处理系统10接收用户通过相应输入部件输入的数据。此外,非易失性RAM(NVRAM)40提供非易失性存储器,用于针对系统损坏或系统故障,例如供电问题,保护某些类型的数据。与ISA总线29连接的还有系统固件41,用于实现初始基本输入/输出系统(BIOS)例程。服务处理器44和ISA总线29连接以提供系统诊断或系统检查功能。
现参照图2,其描述依据本发明的优选实施例的、执行数据处理系统10中的系统启动的方法的高层逻辑流程图。为了易于说明,该系统启动处理是按顺序方式示出的;然而,如本领域内普通技术人员能从下述说明清楚那样,许多示出的步骤能以不同于图2中示出的次序执行或并行执行。
从框50开始,接通系统的备用电源,如框51中所示。接着,开始服务处理器44的初始化,如框52中所描述。该初始化可能要求服务处理器44执行某些低层硬件检查,并最好包括由服务处理器44执行存储在服务处理器存储器中的固件以完成服务处理器44的检查。接着,接通系统电源,如框53中所示。然后,服务处理器44验证硬件,如框54中所示。接着服务处理器44执行系统初始化,如框55中所描述。
接着如框56中所示,服务处理器44释放各处理器复位。在初始化处理的此刻,执行剩余初始化过程的责任从服务处理器44转移到系统固件41。从而,如框57中所描述,诸如处理器12a-12n的处理器执行系统固件41以进行剩余初始化过程,其中包括确定数据处理系统10的当前硬件配置。数据处理系统10的硬件配置被定义成包括数据处理系统10中存在的部件、各部件间的互连关系以及各部件对操作系统的可访问性。如框58中所指出,在由服务处理器44执行的初始化硬件和由各处理器执行的系统固件41之间的控制转移处理,包括初始化固件向系统固件41传送指示由供电控制固件检测出的I/O抽屉数量的供电信息(或系该供电信息的指针)。
然后,处理器12a-12n执行的系统固件开始剩余的初始化过程,包括I/O抽屉的初始化过程,如框58所示。除了检查各I/O抽屉是否适当安装外,系统固件41还检查确定能否建立与各安装的I/O部件,例如LAN适配器、SCSI控制器等的通信。在如框59中所示完成固件初始化后,系统固件41接着从诸如硬盘36的存储部件引导操作系统,例如可从纽约州Armork镇的国际商用机器公司购买的先进的交互执行程序(AIX),如框60中所描述。然后,在该操作系统的控制下数据处理系统10继续运行。
服务处理器44检测故障并向操作系统传送信息。在检测到故障的时刻可能能或不能适当肯定地知道故障源。操作系统可能仅对系统平面20记录其各故障。例如,可由服务处理器44把引导时期故障、严重间发问题以及诸如条件带宽瓶颈的有害环境计算条件记录到一个故障报告缓冲器(未示出)中。最后输出这些故障并以某种形式报告给硬盘36或报告给一种或多种类型的备用系统。每个检测出的故障可能造成生成一个故障记录,其包括检测时间的时戳、有关出故障功能的详细数据(包括物理位置码、故障现象位组)等。若故障记录存储在故障记录文件中或者若故障记录缓冲器含有某些问题确定过程需要分析的数据,则晚些时候可进行进一步分析。
记录和处理某检测出的故障的方式可能取决于故障类型以及故障发生的时间,例如,故障是否出现在系统初始化过程期间。若在系统初始化期间检测出某故障,则可能尚未初始化数据处理系统10中的所有设备、部件或服务。例如,若在系统初始化期间检测出某故障,则系统固件41可能通过把故障代码或故障消息写到物理上和数据处理系统10连接的液晶显示器(LCD)屏面、光发射显示器(LED),或系统显示器监视器,向系统操作员呈示某些故障,而不能把故障推论数据记录到系统记录文件。在其它情况下,记录数据的行动可能自动启动操作系统中的问题确定过程。
作为本发明的优选实施方式,向数据处理系统10中的每个部件分配一个位置代码。另外,向系统启动各过程中的每个任务分配一个进展代码。该进展代码最好具有四个字符。还可为每个任务把各进展代码分成子群。这允许一个进展代码支持数据处理系统10中的许多不同的部件而无需增加许多新的进展代码。
在系统启动期间,每个位置代码都和一个特定的进展代码相关联,其中从某特定部件装入或对其执行例程。这样,若在系统启动期间出现造成系统中止的故障,则在LCD显示屏面上显示进展代码(指示正被执行或检查的例程)和位置代码(指示被检查的部件)以方便故障部件的定位处理。
如图3中所示,最好在LCD显示屏面63的第一行显示进展代码61,并且最好在LCD显示屏面63的第二行显示位置代码62。系统固件41每次访问一个新部件时,相应地更新位置代码以反映系统固件41正在访问或测试的部件。例如,若利用本发明从某部件装入主要产品数据(VPD)的进展代码是十六进制的EO50,则一个进展代码代表正由系统固件41执行的例程(例如读VPD),并且位置代码指示正在从其访问VPD的部件(例如某处理器、某DIMN或某PCI卡)。若出现使系统中止的故障,则进展代码描述正执行的例程(例如读VPD)而位置代码指示出现系统中止时正被访问的部件。
利用上述信息,可在服务指南中定义特定服务行动,以指示服务人员把与该位置代码相关的FRU换成最有可能要修理的FRU。在大多数情况下,上述信息使得不再需要求助最小配置去试图解决系统启动期间的系统中止。从而,明显减小与系统启动期间修理系统中止相关的停机时间并提高系统的总可用性。
现参照图4,图中描述依据本发明的优选例、在图2框54中示出的验证步骤期间实现进展码和位置码的显示的方法的高层逻辑流程图。例如如图所示,在LCD显示器屏面63上显示用于处理器卡11a上LBIST验证的进展码和位置码;接着,如框54a中所示,在处理器卡11a上进行LBIST验证。然后,在LCD显示器屏面63上显示用于处理器卡11b上LBIST验证的进展码和位置码;接着,如框54b中所示,在处理器卡11b上进行LBIST验证。类似地,在LCD显示器屏面63上显示用于处理器11n上LBIST验证的进展码和位置码;接着,如框54C中所示,在处理器卡11n上进行LBIST验证。然后,在LCD显示器屏面63上显示用于系统平面20上的LBIST验证的进展码和位置码,并接着如框54d中所示,在系统平面30上进行LBIST验证。最后,在LCD显示器屏面63上显示用于NIO平面24上的LBIST验证的进展码和位置码,并接着如框54e中所示,在NIO平面24上进行LBIST验证。
现参照图5,图中描述依据本发明的优选实施例,在图2的框57和58中示出的初始化步骤期间实现进展码和位置码的显示的方法的高层逻辑流程图。例如如所示,在LCD显示器屏面63上显示用于初始化槽35a中的适配器的进展码和位置码;接着如框57a中所示初始化槽35a中的适配器。类似地,在LCD显示器屏面63上显示用于初始化槽35n中的适配器的进展码和位置码;接着如框57b中所示,初始化槽35n中的适配器。下一步,在LCD显示器屏面63上显示用于初始化端口1上的I/O抽屉的进展码和位置码,并接着如框58a中所示,初始化端口1上的I/O抽屉。类似地,在LCD显示器屏面63上显示用于初始化端口2上的I/O抽屉的进展码和位置码,并接着如框58b中所示,初始化端口2上的I/O抽屉。
如上面所描述,本发明提供一种改进方法,用于在系统启动期间定位数据处理系统中的故障部件。本发明提供标识正由系统固件访问或测试的部件的进展代码和位置代码。在显示器屏面上公布部件的进展代码和位置代码,可提供一种标识在系统启动期间造成系统中止的可能故障源的机制。
重要的是要注意,尽管本发明是在全功能的计算机系统的环境下说明的,但本领域内普通技术人员会理解,可以以各种形式的程序产品分布本发明的机制,并且和实际上实现这种分布的具体的信号承载介质的类型无关而同等地应用本发明。信号承载介质的例子包括但不限于可记录式介质如软盘或光盘以及传输型介质如模拟或数字通信链路。
虽然参照优选实施例具体地示出和说明了本发明,但本领域内普通技术人员理解,在不背离本发明的精神和范围下在形式上和细节上可做出各种修改。
权利要求
1.一种在系统启动期间用于定位数据处理系统中的故障部件的方法,所述方法包括步骤向所述数据处理系统内的每个部件分配一个相应的位置代码;向所述数据处理系统的部件供电;初始化该数据处理系统的各部件以建立配置;在所述初始化期间在显示屏面上显示某部件的位置代码;以及响应系统中止,保持所述显示屏面上显示的位置代码以便于定位故障部件。
2.依据权利要求1的方法,其中所述方法还包括把进展代码和从某部件装入的或在其中执行的各例程关联起来的步骤。
3.依据权利要求2的方法,其中所述方法还包括在所述初始化期间在所述显示屏面上显示和位置代码对应的进展代码的步骤。
4.权利要求3的方法,其中所述步骤还包括保持所述显示屏面上显示的进展代码以便于定位所述故障部件的步骤。
5.一种在系统启动期间用于定位数据处理系统中的故障部件的系统,包括用于向所述数据处理系统内的每个部件分配一个相应的位置代码的装置;用于向所述数据处理系统的部件供电的装置;用于初始化该数据处理系统的各部件以建立配置的装置;一个显示屏面,用于在所述初始化期间显示某部件的位置代码;以及用于响应系统中止,保持所述显示屏面上显示的位置代码以便于定位故障部件的装置。
6.依据权利要求5的设备,其中所述设备还包括用于把进展代码和从某部件装入的或在其中执行的各例程关联起来的装置。
7.依据权利要求6的设备,其中所述显示屏面还在所述初始化期间显示与位置代码对应的进展代码。
8.依据权利要求7的设备,其中所述设备还包括保持所述显示屏面上显示的进展代码以便于定位所述故障部件的装置。
9.一种驻留在计算机可使用介质上的用于在系统启动期间定位数据处理系统中的故障部件的计算机程序产品,所述计算机程序产品包括用于向所述数据处理系统内的每个部件分配一个相应的位置代码的程序代码装置,用于向所述数据处理系统的部件供电的程序代码装置;用于初始化该数据处理系统的各部件以建立配置的程序代码装置;用于在所述初始化期间在显示屏面上显示某部件的位置代码的程序代码装置;以及用于响应系统中止,保持所述显示屏面上显示的位置代码以便于定位故障部件的程序代码装置。
10.依据权利要求9的计算机程序产品,其中所述计算机程序产品还包括用于把进展代码和从某部件装入的或在其中执行的各例程关联起来的程序代码装置。
11.依据权利要求10的计算机程序产品,其中所述计算机程序产品还包括用于在所述初始化期间在所述显示屏面上显示和位置代码对应的进展代码的程序代码装置。
12.依据权利要求11的计算机程序产品,其中所述计算机程序产品还包括用于保持所述显示屏面上显示的进展代码以便于定位所述故障部件的程序代码装置。
全文摘要
公开一种在系统启动期间定位数据处理系统中的故障部件的方法。对数据处理系统内的每个部件分配一个位置代码。接着,使进展代码和位置代码以及装入该部件的、被测试的或在该部件中执行的例程相关联。在向数据处埋系统供电后,初始化和检测数据处理系统的部件以建立配置。在初始化和检测期间,在显示屏面上显示某部件的位置代码和对应的进展代码。响应系统中止,可利用显示屏面上显示的位置代码和进展代码识别故障部件。
文档编号G06F11/22GK1303046SQ00131950
公开日2001年7月11日 申请日期2000年11月1日 优先权日1999年11月2日
发明者乔治·亨利·阿伦斯, 乔治·约翰·道金斯, 迈克尔·尤霍尔·利姆, 托马斯·弗朗西斯·波郎司基, 戴维·李·兰戴尔, 老丹尼尔·约翰·李本特罗普 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1