用于确定在互连/控制器之间的故障的位置的方法和系统的制作方法

文档序号:8282164阅读:327来源:国知局
用于确定在互连/控制器之间的故障的位置的方法和系统的制作方法
【技术领域】
[0001] 本公开内容涉及分布式计算机系统,并且更具体地涉及针对分布式计算机系统的 故障数据。
【背景技术】
[0002] 计算机系统中的硬件和软件部件的组合如今已经发展至这样的程度以使得这些 计算机系统可以高度地可靠。可以通过使用冗余部件来提供计算机系统中的可靠性。例 如,在一些计算机系统中,部件(比如节点控制器(这些节点控制器管理计算机系统的节点 的硬件错误请求))是按冗余对(一个主节点控制器和一个冗余(备份)节点控制器)提 供的。在这样的主节点控制器故障时,冗余节点控制器接管主节点控制器的操作。冗余对 也可以出于相同目的而用于系统控制器。节点控制器和系统控制器也可以被称为服务处理 器。服务处理器是在分布式计算机系统中的如下部件,该部件提供操作任务,比如初始化、 配置、运行时错误检测、诊断和纠正以及密切地监视其它硬件部件的故障。
[0003] 系统转储(dump)是冗余节点控制器的工作存储器在具体时间(比如当在冗余节 点控制器上运行内的程序已经确定失去与系统控制器的通信时)的记录的状态。第一故障 数据捕获(FFDC)是与由节点和/或系统控制器检测到的某个错误有关的最小信息集合。调 试转储数据是FFDC的超集合,并且它包括来自控制器的所有信息、包括可能不与具体错误 调查直接有关的信息。在错误在节点之一中出现时,从主节点控制器立即捕获对调试信息 的转储以用于进一步分析。然而,备份节点控制器仅如果主节点控制器故障并且因而备份 节点控制器作为主节点控制器而接管则才可以变成了解错误。这一过程被称为故障转移。 等待故障转移过程完成以捕获转储可能延迟对调试信息的转储并且负面地影响用于分析 错误的能力。

【发明内容】

[0004] 本发明的实施例公开了一种用于确定在互连/控制器之间的故障的位置的方法、 计算机程序产品和系统。该方法包括计算机在耦合到互连的多个节点同时收集调试信息。 在收集调试信息之后,计算机分析同时收集的调试信息、由此确定互连的哪端引起故障。
【附图说明】
[0005] 图1是图示了根据本发明的一个实施例的包括服务器计算机的分布式计算机系 统环境的功能框图。
[0006] 图2是描绘了根据本发明的一个实施例的用于同步调试信息生成的在图1的分布 式计算机系统环境内的部件的相互通信的数据流程图。
[0007] 图3图示了根据本发明的一个实施例的用于根据预定映射同步调试信息生成的 场景的示例。
[0008] 图4描绘了根据本发明的一个实施例的图1的服务器计算机的部件的框图。
【具体实施方式】
[0009] 在分布式计算机系统内的正常操作期间,特定节点控制器可以检测错误。该错误 可以包括许多不同类型的故障,比如通信故障错误、应用或者进程故障错误、特定节点或者 节点控制器操作的崩溃或者锁定以及其它错误。在节点控制器检测到在分布式计算机系 统中的错误时,分布式计算机系统的资源尝试存储与该错误相关的错误信息以用于以后取 回。分布式计算机系统监视具有高优先级的进程、应用和其它资源而保持那些资源始终可 用于用户和其它实体。分布式计算机系统可以运用一个或者多个系统控制器,该一个或者 多个系统控制器监视分布式计算机系统的节点控制器和其它设备的操作并且管理节点控 制器错误信息。在节点控制器检测到错误时,该错误可能在分布式计算机系统内引起通信 故障。通信故障可能给系统控制器在取回节点控制器错误检测信息时带来挑战。
[0010] 在具有在分级架构中配置的多个服务处理器的系统架构中,在遇到任何错误条件 时从多于一个服务处理器同时收集调试信息可以改进错误分析。例如,如果节点内互连经 历故障,则没有用于确定互连的哪端是故障的原因的可靠方法。同时从在其之间经历互连 故障的节点二者上的服务处理器收集调试信息提供用于错误分析的附加数据。可以从收集 同时调试信息受益的故障的另一示例是在节点控制器故障时。在这种情况出现时,主系统 控制器不能与故障的节点控制器通信。从备份系统控制器和在经历故障的节点中的备份节 点控制器二者同时收集故障数据可以是有益的。可以从收集同时调试信息受益的故障的又 一示例是在主节点控制器难以访问在节点内的硬件时。这时,同时从主节点控制器和备份 节点控制器二者收集的故障数据可以向系统管理员给予对错误的附加认识。
[0011] 本发明的实施例认识到如果同时从所有涉及到的服务处理器(即节点控制器和 系统控制器)捕获第一故障数据捕获(FFDC)和调试转储数据则可以改进对在分布式计算 机系统内的错误的分析。本发明的实施例检测在分布式计算机系统中的错误、确定从哪些 服务处理器收集调试信息并且将数据聚合成单个报告。本发明的实施例的实现方式可以采 用多种形式,并且随后参照各图讨论示例性实现方式细节。
[0012] 所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算 机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、 完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方 式,这里可以统称为"电路"、"模块"或"系统"。此外,在一些实施例中,本发明的各个方面 还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介 质中包含计算机可读的程序代码。
[0013] 可以采用计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号 介质或者计算机可读存储介质。计算机可读存储介质例如可以是一但不限于一电、磁、 光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介 质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机 盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪 存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意 合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该 程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0014] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号, 其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括一但 不限于一电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是 计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者 传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0015] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括一但不限 于一无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0016] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算 机程序代码,所述程序设计语言包括面向对象的程序设计语言一诸如』£^^ (备注:术语 "Java"可以在全世界各管辖地有商标权并且这里仅用来在这样的商标权可以存在的程度 上指代被商标恰当命名的产品或者服务)、Smalltalk、C++等,还包括常规的过程式程序设 计语言一诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执 行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在 远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中, 远程计
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1