服务器集群系统故障定位方法

文档序号:7814751阅读:296来源:国知局
专利名称:服务器集群系统故障定位方法
技术领域
本发明基本上设计服务器领域,更具体地来说,设计一种服务器集群系统故障定位方法。
背景技术
服务器作为集成网络系统中一个非常重要的核心设备,其使用环境离不开网络环境。现在的服务器集群网络,往往由少则数十,多则数千台的服务器组成。在实际部署时, 其操作系统不可能是一台一台去手工安装,而是依赖于稳定可靠的网络环境,由机房管理软件进行集中自动安装。这样在操作系统安装之前,一旦出现网络故障,我们会发现可以使用的定位分析手段相对就非常匮乏。对于这些在机房进行实际的服务器集群部署时,我们经常会遇到这样那样的网络问题。目前对这些网络问题的定位,基本是在操作系统的应用环境下,利用相应的诊断调试工具进行的。由于这些诊断调试工具都是依赖于操作系统的,对于不同的操作系统,虽然网络协议是标准的,但诊断调试工具本身对报文的处理,解析都存在一定的差异。再加上操作系统环境下其他相关软件的影响,经常会对问题的定位分析造成干扰。现有技术提供了一种远程控制并诊断服务器电源故障的方法,是通过远程管理中心的程序界面控制服务器电源模块的开关,查看服务器电源的工作状态、风扇转速、温度、 电流、功率数据信息,有效地诊断电源有无损坏。该现有技术在一定程度上提高了效率。然而,上述现有技术只能用于诊断服务器内部的问题,则无法应用于诊断服务器集群系统中的服务器之间的通信故障,况且现有的诊断方法都要运行于操作系统下,而在没有安装操作系统时便无法进行诊断。

发明内容
根据上述现有技术的缺陷,本发明提供了一种服务器集群系统故障定位方法,通过该方法,解决了如何对集群服务器系统中的服务器的故障进行定位的技术问题,特别是解决了如何在没有安装操作系统的情况下对于服务器进行诊断的技术问题。根据本发明的一个方面,提供了一种服务器集群系统故障定位方法,所述服务器集群系统包括第一服务器、传输通路和第二服务器,所述第一服务器和所述第二服务器均运行在UEFI环境下,所述第一服务器通过所述传输通路向所述第二服务器发送的信号与所述第二服务器接收到的信号不同,其特征在于,所述方法包括步骤Sl 所述第一服务器通过以太网网卡向所述第二服务器发送第一信号,所述第二服务器通过以太网网卡的对外环回功能,把所述第一信号反向发送回所述第一服务器;步骤S2 所述第一服务器接收到第二信号;以及步骤S3 通过比较所述第一信号和所述第二信号确定所述服务器集群系统的故障位置。在该服务器集群系统故障定位方法中,所述步骤S3包括如果所述第一信号与所述第二信号相同,则故障发生在所述第二服务器。
在该服务器集群系统故障定位方法中,所述步骤S3包括如果所述第一信号与所述第二信号不同,则故障发生在所述第一服务器或者所述传输通路。在该服务器集群系统故障定位方法中,所述第一服务器或者所述第二服务器中未安装操作系统和应用软件。在该服务器集群系统故障定位方法中,所述步骤Sl包括步骤Sll 向所述管理模块输入第一信号或者所述管理模块采集与其相连接的功能模块的信息作为第一信号;以及步骤S12:所述第一服务器在UEFI环境下通过以太网网卡将所述第一信号发送到所述第二服务器,所述第二服务器通过以太网网卡的对外环回功能,把所述第一信号反向发送回所述第一服务器。在该服务器集群系统故障定位方法中,所述步骤Sl进一步包括以下步骤中的至少一个通过所述管理模块查询帮助信息;通过所述管理模块生成第一报文,并将所述第一报文发送到所述第一服务器;通过所述管理模块生成第二报文,并将所述第二报文发送到所述第二服务器;通过所述管理模块配置所述第一服务器的参数;以及通过所述管理模块配置所述第二服务器的参数。在该服务器集群系统故障定位方法中,所述管理模块为计算机,在该服务器集群系统故障定位方法中,所述功能模块为所述第一服务器。在该服务器集群系统故障定位方法中,所述传输通路为以太网。通过上述服务器集群系统故障定位方法,可以排除网络诊断对操作系统环境的依赖,同时可以排除集群中不同服务器节点因为操作系统差异,及操作系统上面运行各种应用程序,对故障定位的干扰,使得定位准确,高效。同时在不依赖操作系统的环境下提前把集群网络的联通性调试好,可以为后续对整个集群各个节点进行远程操作系统部署安装提供条件,从而大大提高整个集群的部署速度。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中图1是根据本发明的服务器集群系统故障定位方法的总体流程图;图2是根据本发明的服务器集群系统故障定位方法的具体流程图;图3是根据本发明的服务器集群系统故障定位方法的实例的具体流程图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。图1是根据本发明的服务器集群系统故障定位方法的总体流程图。在使用图1 所示出的服务器集群系统故障定位方法的服务器集群系统包括第一服务器、传输通路和第二服务器,其中,第一服务器和第二服务器均运行在UEFI (Unified Extensible Firmware hterface,通用可扩展性固件接口)软件环境下,未进入操作系统。第一服务器通过传输通路向第二服务器发送的信号与第二服务器接收到的信号不同,也就是说,该第一服务器、 传输通路和第二服务器的连接具有故障,需要通过故障定位方法对该故障进行定位,在图1中步骤SlOO 第一服务器通过以太网网卡向第二服务器发送第一信号,第二服务器通过以太网网卡的对外环回功能,把该第一信号反向发送回第一服务器。实际应用环境下的的服务器集群系统,软件环境往往是非常复杂的,不说各种各样的应用程序,光是操作系统本身就可能同时存在各种类型及统一类型的各种版本。而与之相反,对于服务器集群的硬件环境相应就会简单统一得多了。而取代传统BIOS的UEFI作为和硬件紧密相关的系统固件,其版本种类也会相对简单统一得多。本发明正是利用UEFI比传统BIOS相对强大,同时又比操作系统“干净”的运行环境。通过UEFI的SHELL环境对服务器集群系统的故障进行定位。步骤S102 第一服务器接收到第二信号。步骤S104 通过比较第一信号和第二信号确定服务器集群系统的故障位置。经过判断,如果第一信号与第二信号相同,则故障发生在第二服务器;如果第一信号与第二信号不同,则故障发生在第一服务器或者传输通路。优选地,传输通路为以太网。通过上述服务器集群系统故障定位方法,可以排除网络诊断对操作系统环境的依赖,同时可以排除集群中不同服务器节点因为操作系统差异,及操作系统上面运行各种应用程序,对故障定位的干扰,使得定位准确,高效。同时在不依赖操作系统的环境下提前把集群网络的联通性调试好,可以为后续对整个集群各个节点进行远程操作系统部署安装提供条件,从而大大提高整个集群的部署速度。图2是根据本发明的服务器集群系统故障定位方法的具体流程图。在图2中步骤S200 向管理模块输入第一信号或者管理模块采集与其相连接的功能模块的信息作为第一信号。优选地,该管理模块为计算机,优选为笔记本电脑。该功能模块为第一服务器。在一个实施例中,可以通过键盘将指令输入到笔记本电脑中,由笔记本电脑经过处理转换为第一信号。在另一个实施例中,可以将笔记本电脑与刀片服务器相连接,该笔记本电脑从第一服务器中采集信息(比如,机箱信息、刀片信息、电源信息、系统风扇信息、低速交换模块信息、高速交换模块信息、存储模块信息等等),然后将该信息转换为第一信号。步骤S202 第一服务器在UEFI环境下通过以太网网卡将第一信号发送到第二服务器,第二服务器通过以太网网卡的对外环回功能,把第一信号反向发送回第一服务器。其中,该第一服务器或者第二服务器中未安装操作系统和应用软件。步骤S204 第一服务器接收到第二信号。步骤S206 判断第一信号与第二信号是否相同。如果第一信号与第二信号相同, 则该方法进行到步骤S208,即故障发生在第二服务器;如果第一信号与第二信号不同,则该方法进行到步骤S210,故障发生在第一服务器或者所述传输通路。通过上述服务器集群系统故障定位方法,可以排除网络诊断对操作系统环境的依赖,同时可以排除集群中不同服务器节点因为操作系统差异,及操作系统上面运行各种应用程序,对故障定位的干扰,使得定位准确,高效。同时在不依赖操作系统的环境下提前把集群网络的联通性调试好,可以为后续对整个集群各个节点进行远程操作系统部署安装提供条件,从而大大提高整个集群的部署速度。根据本发明所涉及的方法,可以在操作系统为安装前,或操作系统无法正常工作的情况下,为服务器集群系统提供一种有效的故障诊断手段。这在大型服务器集群部署过
5程中将发挥很大的作用。以曙光6000(星云)项目为例,如果在这样的大型服务器集群中可以在操作系统安装之前能够有手段进行网络调试,配合交换机等联网设备划分好网段。这样对后续所导致的网络连接问题就可以很好的及时发现,并缩小故障范围。同时可以为后期的操作系统集中安装提供条件,这样就可以大量节省前期在生产线上由工人小规模进行系统安装的大量时间。可以大大缩减项目周期。图3是根据本发明的服务器集群系统故障定位方法的实例的具体流程图。根据图 3所示,将指令发送到笔记本电脑(管理模块)上,经过笔记本电脑的分析,可以执行以下操作查看帮助信息,执行外环回(如上所述),生成报文、发送/接收报文、配置与该笔记本相连接的服务器。通过上述服务器集群系统故障定位方法,可以排除网络诊断对操作系统环境的依赖,同时可以排除集群中不同服务器节点因为操作系统差异,及操作系统上面运行各种应用程序,对故障定位的干扰,使得定位准确,高效。同时在不依赖操作系统的环境下提前把集群网络的联通性调试好,可以为后续对整个集群各个节点进行远程操作系统部署安装提供条件,从而大大提高整个集群的部署速度。根据本发明所涉及的方法,可以在操作系统为安装前,或操作系统无法正常工作的情况下,为服务器集群系统提供一种有效的故障诊断手段。这在大型服务器集群部署过程中将发挥很大的作用。以曙光6000(星云)项目为例,如果在这样的大型服务器集群中可以在操作系统安装之前能够有手段进行网络调试,配合交换机等联网设备划分好网段。这样对后续所导致的网络连接问题就可以很好的及时发现,并缩小故障范围。同时可以为后期的操作系统集中安装提供条件,这样就可以大量节省前期在生产线上由工人小规模进行系统安装的大量时间。可以大大缩减项目周期。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种服务器集群系统故障定位方法,所述服务器集群系统包括第一服务器、传输通路和第二服务器,所述第一服务器和所述第二服务器均运行在UEFI环境下,所述第一服务器通过所述传输通路向所述第二服务器发送的信号与所述第二服务器接收到的信号不同, 其特征在于,所述方法包括步骤Sl 所述第一服务器通过以太网网卡向所述第二服务器发送第一信号,所述第二服务器通过以太网网卡的对外环回功能,把所述第一信号反向发送回所述第一服务器; 步骤S2 所述第一服务器接收到第二信号;以及步骤S3 通过比较所述第一信号和所述第二信号确定所述服务器集群系统的故障位置。
2.根据权利要求1所述的服务器集群系统故障定位方法,其特征在于,所述步骤S3包括如果所述第一信号与所述第二信号相同,则故障发生在所述第二服务器。
3.根据权利要求1所述的服务器集群系统故障定位方法,其特征在于,所述步骤S3包括如果所述第一信号与所述第二信号不同,则故障发生在所述第一服务器或者所述传输通路。
4.根据权利要求2或3所述的服务器集群系统故障定位方法,其特征在于,所述第一服务器或者所述第二服务器中未安装操作系统和应用软件。
5.根据权利要求4所述的服务器集群系统故障定位方法,其特征在于,所述步骤Sl包括步骤Sll 向所述管理模块输入第一信号或者所述管理模块采集与其相连接的功能模块的信息作为第一信号;以及步骤S12 所述第一服务器在UEFI环境下通过以太网网卡将所述第一信号发送到所述第二服务器,所述第二服务器通过以太网网卡的对外环回功能,把所述第一信号反向发送回所述第一服务器。
6.根据权利要求5所述的服务器集群系统故障定位方法,其特征在于,所述步骤Sl进一步包括以下步骤中的至少一个通过所述管理模块查询帮助信息;通过所述管理模块生成第一报文,并将所述第一报文发送到所述第一服务器; 通过所述管理模块生成第二报文,并将所述第二报文发送到所述第二服务器; 通过所述管理模块配置所述第一服务器的参数;以及通过所述管理模块配置所述第二服务器的参数。
7.根据权利要求6所述的服务器集群系统故障定位方法,其特征在于,所述管理模块为计算机,
8.根据权利要求7所述的服务器集群系统故障定位方法,其特征在于,所述功能模块为所述第一服务器。
9.根据权利要求8所述的服务器集群系统故障定位方法,其特征在于,所述传输通路为以太网。
全文摘要
一种服务器集群系统故障定位方法,服务器集群系统包括第一服务器、传输通路和第二服务器,第一服务器和第二服务器均运行在UEFI环境下,第一服务器通过传输通路向第二服务器发送的信号与第二服务器接收到的信号不同,该方法包括步骤S1第一服务器通过以太网网卡向第二服务器发送第一信号,第二服务器通过以太网网卡的对外环回功能,把该第一信号反向发送回第一服务器;通过一种在UEFI环境下的服务器集群系统故障定位方法,可以排除网络诊断对操作系统环境的依赖,同时可以排除集群中不同服务器节点因为操作系统差异,及操作系统上面运行各种应用程序,对故障定位的干扰,使得定位准确,高效。同时在不依赖操作系统的环境下提前把集群网络的联通性调试好,可以为后续对整个集群各个节点进行远程操作系统部署安装提供条件,从而大大提高整个集群的部署速度。
文档编号H04L12/24GK102420710SQ201110460059
公开日2012年4月18日 申请日期2011年12月31日 优先权日2011年12月31日
发明者张考华 申请人:曙光信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1