用于确定在互连/控制器之间的故障的位置的方法和系统的制作方法_2

文档序号:8282164阅读:来源:国知局
算机可以通过任意种类的网络--包括局域网(LAN)或广域网(WAN)-连接到用户 计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0017] 下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图 和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图 中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计 算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计 算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程 图和/或框图中的一个或多个方框中规定的功能/动作的装置。
[0018] 也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、 其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的 指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令 的制造品(article of manufacture) 〇
[0019] 也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备 上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计 算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/ 或框图中的一个或多个方框中规定的功能/动作的过程。
[0020] 现在将参照各图详细描述本发明。图1是图示了根据本发明的一个实施例的被总 体上表示为100的分布式计算机系统环境的功能框图。如在本说明书中使用的术语"分布 式"描述如下计算机系统,该计算机系统包括一起作为单个计算机系统操作的多个物理上 不同的设备。图1仅提供了一个实现方式的例示而不意味着关于可以在其中实施不同实施 例的环境的任何限制。可以进行对描绘的环境的许多修改。
[0021] 分布式计算机系统环境100包括服务器计算机102。服务器计算机102可以是管 理服务器、web服务器或者能够接收和发送数据的任何其它电子设备或者计算系统。在其 它实施例中,服务器计算机102可以代表如下服务器计算系统,该服务器计算系统比如在 云计算环境中利用多个计算机作为服务器系统。在另一实施例中,服务器计算机102可以 是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理 (PDA)、智能电话或者能够与其它电子设备通信的任何可编程电子设备。在另一实施例中, 服务器计算机102代表如下计算系统,该计算系统利用群集的计算机和部件以充当单个无 缝资源池。服务器计算机102包括节点104、106、108和110以及系统控制器112和系统控 制器114。服务器计算机102可以包括如关于图4进一步详细描绘和描述的内部和外部硬 件部件。
[0022] 节点104至节点110中的每个节点是执行用户应用的处理设备并且被包含在服务 器计算机102中。每个这样的节点可以是web服务器、数据库或者任何其它计算设备。图 1中所示实施例描绘每个节点包括处理器(例如,节点104的处理器118等)、存储器(例 如,节点104的存储器120等)和两个节点控制器(例如,节点104的节点控制器116a和 116b等)。每个节点控制器可以是服务处理器类型。虽然在图1中未全部示出,但是节点 可以包括如本领域技术人员将想到的任何数目的设备,比如附加计算机处理器、附加计算 机存储器、盘驱动适配器、盘驱动、通信适配器、总线适配器等。如在图1中描绘的那样,月艮 务器计算机102被配置有四个节点(104,106,108,110),但是本领域读者将认识到根据本 发明的实施例监管在计算机的冗余节点控制器上的系统转储时有用的计算机系统。例如, 在本发明的各种实施例中,计算机系统可以包括一到八个节点。
[0023] 在服务器计算机102中的每个节点(104,106,108,110)包括在冗余关系中配置的 能够相互接管某些职责的两个节点控制器。节点控制器是在节点中包含的设备,该设备照 管节点的在计算机系统的操作期间出现的任何硬件错误请求。在节点中的一对节点控制器 由于冗余性而提供可靠节点控制器操作作为组--在一个节点控制器故障时,冗余节点控 制器接管用于计算机系统的节点的节点控制器操作。一次将在一对中的仅一个节点控制器 配置为主节点控制器。主节点控制器是在其中为计算机系统的节点执行所有节点控制器操 作的节点控制器。对照而言,冗余节点控制器直至主节点控制器故障才执行用于计算机系 统的节点的节点控制器操作。例如,在服务器计算机102的情境中,在节点104中,节点控 制器116a是主节点控制器并且节点控制器116b是备份节点控制器。在节点106中,节点 控制器122a是主节点控制器并且节点控制器122b是备份节点控制器。在节点108中,节 点控制器128a是主节点控制器并且节点控制器128b是备份节点控制器。在节点110中, 节点控制器134a是主节点控制器并且节点控制器134b是备份节点控制器。
[0024] 服务器计算机102包括两个系统控制器(112,114)。每个系统控制器可以是服务 处理器类型。系统控制器是管理在计算机系统中的节点的控制器。系统控制器可以在计算 机系统的操作期间从节点收集错误和操作状态信息以及指引节点的操作。在本发明的一个 实施例中,服务器计算机102包括用于提供可靠性的冗余系统控制器。特别地,在服务器计 算机102中,系统控制器112是主系统控制器并且系统控制器114是备份系统控制器。
[0025] 每个系统控制器包括非易失性存储器存储装置(140,142),比如硬盘驱动、⑶驱 动、DVD驱动或者其它非易失性存储装置。非易失性存储器存储装置用来如以下详细讨论 的那样聚合在故障情形期间生成的所有调试信息。
[0026] 图2是描绘了根据本发明的一个实施例的用于同步调试信息生成的在图1的分布 式计算机系统环境内的部件的相互通信的数据流程图。
[0027] 在检测到错误时,服务处理器(比如节点控制器或者另一系统控制器)向主系统 控制器信号通知故障已经出现(步骤202)。在所示实施例中,节点控制器116a向系统控制 器112信号通知故障已经出现。例如,节点控制器116a可以观测失去与节点控制器122a 的通信。主系统控制器确定故障条件(步骤204)。如在先前示例中指出的那样,系统控制 器112确定通信故障已经由于失去在节点控制器116a与节点控制器122a之间的通信而在 节点104与节点106之间出现。在另一实施例中,主系统控制器可以确定故障条件而未从 节点控制器接收故障已经出现这样的信号。例如,主系统控制器可以确定与特定节点控制 器失去通信而节点控制器未发送警告。
[0028] 主系统控制器确定故障条件是否需要对调试信息的同时转储(判决块206)。同 时转储是在并行工作的多个服务处理器同时提供调试信息时。调试信息可以包括第一故障 数据捕获(FFDC)以及调试转储数据,其中调试转储数据是包括来自控制器的所有信息的 FFDC的超集合,包括可以不与具体错误调查直接相关的信息。对调试信息的同时转储可以 通过在错误出现的相同时刻从不同服务处理器提供信息来改进对在分布式计算机系统内 的错误的分析。例如,在主节点控制器的故障的时间从备用节点控制器和/或系统控制器 捕获数据可以提供关于在该时间的系统性能的有价值信息。例如,如果主系统控制器检测 到互连问题在多个节点之间出现则可能需要对调试信息的同时转储。如果主系统控制器确 定故障条件无需对来自多个服
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1