硬件报修方法、系统、设备、硬件管理服务器与存储介质与流程

文档序号:14748507发布日期:2018-06-22 08:47阅读:113来源:国知局

本发明涉及设备运维领域,特别涉及一种硬件报修方法、系统、设备、硬件管理服务器与可读存储介质。



背景技术:

众所周知,服务器是整个网络系统和计算平台的核心,随着云计算和大数据技术的快速发展,国内建设的数据中心也越来越多,服务器系统的数量呈现指数级别的增长,特别是云服务器系统更是得到全球各大互联网公司的大量采购。云服务器系统主要由四大部件:处理器、内存、I/O设备(包括硬盘等存储设备)组成,另外还有其他大大小小的各种部件及元器件组成。其中任何一个部件出现错误,都有可能导致服务器系统宕机或重启,特别是前面提到的四个主要部件造成的系统宕机的可能性更高。面对如此庞大数量的服务器,如何能够高效快速的定位并恢复出现硬件问题的服务器,该问题成为了服务器运维人员面临的一大挑战。

目前主流的X86云服务器管理过程是服务器运维人员基于个人的经验自己开发一套基于BMC(Baseboard Management Controller,板载管理控制器)IPMI(Intelligent Platform Management Controller,智能平台管理接口)协议的带外管理软件,该软件不断的巡检云服务器BMC SEL日志(System Event Log,系统事件日志),发现SEL日志中有错误日志后,产生报警通知运维人员。运维人员就会查看相应的SEL错误日志,如果日志中有明显的问题原因指向则只要替换掉对应的问题部件就好(如果问题部件是可更换的部件的话)。如果SEL问题日志中没有明确的原因指向,则运维人员就会把故障服务器上的所有BMC SEL日志以及OS内的系统日志文件打包,然后发送给服务器厂商的客服人员请求分析问题原因。这一发送过程可能要花费一天甚至数天时间,效率较低。而且类似的服务器问题的报修都是运维人员的人为参与,增加了运维人员的工作负担。



技术实现要素:

有鉴于此,本发明的目的在于提供一种可以自动报修的硬件报修方法、系统、设备、硬件管理服务器与可读存储介质。其具体方案如下:

一种硬件报修方法,应用于硬件管理服务器,包括:

获取集群服务器的SEL日志;

分析所述SEL日志,判断是否出现错误日志;

如果是,获取所述集群服务器中与所述错误日志对应的故障服务器;

将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端来对所述故障服务器进行处理。

优选的,所述从中获取所述集群服务器中与所述错误日志对应的故障服务器的过程同时,还包括:

向运维终端发送所述故障服务器发生错误的警告。

优选的,所述硬件报修方法还包括:

向所述运维终端发送对所述故障服务器的处理过程。

优选的,所述将所述错误日志发送给处理服务器的过程,还包括:

将所述SEL日志中与所述故障服务器相关的关联日志均发送给所述处理服务器,以便所述处理服务器将所述关联日志分配至所述预设处理终端。

优选的,所述将所述SEL日志中与所述故障服务器相关的关联日志均发送给处理服务器的过程之前,还包括:

根据所述错误日志和所述故障服务器,获取所述SEL日志中的所述关联日志。

优选的,所述集群服务器包括多个云服务器。

相应的,本发明还公开了一种硬件报修系统,应用于硬件管理服务器,包括:

第一获取模块,用于获取集群服务器的SEL日志;

判断模块,用于分析所述SEL日志,判断是否出现错误日志;如果是,则触发第二获取模块;

所述第二获取模块,用于获取所述集群服务器中与所述错误日志对应的故障服务器;

发送模块,用于将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端。

相应的,本发明还公开了一种硬件管理服务器,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上文所述硬件报修方法的步骤。

相应的,本发明还公开了一种硬件报修设备,包括:

上文所述硬件管理服务器;

将所述硬件管理服务器发送的错误日志分配至预设处理终端的处理服务器。

相应的,本发明还公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述硬件报修方法的步骤。

本发明公开了一种硬件报修方法,应用于硬件管理服务器,包括:获取集群服务器的SEL日志;分析所述SEL日志,判断是否出现错误日志;如果是,获取所述集群服务器中与所述错误日志对应的故障服务器;将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端。本发明中硬件管理服务器自动对集群服务器的SEL日志进行分析,当发现错误日志时将其发送给处理服务器,处理服务器会将错误日志分配到预设处理终端,预设处理终端会对错误日志对应的故障服务器进行相应的措施。本发明中硬件问题能够自动报修,减轻了运维人员的工作负担,而且与人工报修相比效率更高,大大提高了集群服务器的使用效率,使客户成本更低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例中一种硬件报修方法的步骤流程图;

图2为本发明实施例中一种硬件报修系统的结构分布图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种硬件报修方法,应用于硬件管理服务器(Hardware Management Server,HMS),参见图1所示,包括:

S1:获取集群服务器的SEL日志;

其中,集群服务器包括多个服务器,例如云服务器等。

可以理解的是,获取SEL日志的频率可以设定,既可以设定为某一周期,也可以实时获取并监测。鉴于SEL日志的内容较多,也可以按照预设条件进行有筛选的获取包含基础、重要信息的SEL日志。

S2:分析所述SEL日志,判断是否出现错误日志;

其中,SEL日志中记载了集群服务器的运行状态,当其中有服务器出现故障时,其对应的SEL日志也会发生错误,因此对SEL日志进行分析,一旦发现错误日志,即证明有服务器发生故障,需要运维人员或服务器厂商进行对故障服务器进行更换或调整,一般的服务器故障包括硬件和软件两方面,硬件故障可以更换故障硬件,软件故障可以修改程序等。

S3:如果是,获取所述集群服务器中与所述错误日志对应的故障服务器;

如果否,则继续执行步骤S1和S2。

S4:将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端来对所述故障服务器进行处理。

其中,处理服务器在分配错误日志时,会进行初步分析错误日志和筛选错误日志的类型,然后将错误日志分配至对应的预设处理终端,以便能够快速高效地解决故障服务器中的问题。

本发明实施例公开了一种硬件报修方法,应用于硬件管理服务器,包括:获取集群服务器的SEL日志;分析所述SEL日志,判断是否出现错误日志;如果是,获取所述集群服务器中与所述错误日志对应的故障服务器;将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端。本发明中硬件管理服务器自动对集群服务器的SEL日志进行分析,当发现错误日志时将其发送给处理服务器,处理服务器会将错误日志分配到预设处理终端,预设处理终端会对错误日志对应的故障服务器进行相应的措施。本发明中硬件问题能够自动报修,减轻了运维人员的工作负担,而且与人工报修相比效率更高,大大提高了集群服务器的使用效率,使客户成本更低。

本发明实施例公开了一种具体的硬件报修方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:

步骤S3中所述将所述错误日志发送给处理服务器的过程,还包括:

将所述SEL日志中与所述故障服务器相关的关联日志均发送给所述处理服务器,以便所述处理服务器将所述关联日志分配至所述预设处理终端。

可以理解的是,由于服务器系统相互关联,如果SEL日志没有明显的问题原因指向,只根据错误日志有可能无法准确判断出故障服务器的故障原因,因此需要将与故障服务器相关的关联日志均发送给处理服务器。

相应的,所述将所述SEL日志中与所述故障服务器相关的关联日志均发送给处理服务器的过程之前,还包括:

根据所述错误日志和所述故障服务器,获取所述SEL日志中的所述关联日志。

可以理解的是,这里的关联日志是与故障服务器对应的地SEL日志中可能隐含故障服务器故障原因的SEL日志。预设处理终端结合错误日志和关联日志来了解故障服务器的状态信息,从而做出更准确的判断,解决故障。

本发明实施例公开了一种具体的硬件报修方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:

在步骤S3中所述从中获取所述集群服务器中与所述错误日志对应的故障服务器的过程同时,还包括:

向运维终端发送所述故障服务器发生错误的警告。

可以理解的是,运维终端的运维人员应当了解故障服务器的状态信息,在运维终端接收到警告后,可以按照预定的程序进行后续动作,例如关闭故障服务器、重启故障服务器、保存重要资料等,尽可能将故障服务器发生故障的损失控制在较小的范围内。

进一步的,所述硬件报修方法还可以包括:

向所述运维终端发送对所述故障服务器的处理过程。

可以理解的是,处理服务器对故障服务器及其错误日志的处理过程可以记录下来并发送给运维终端,以便运维终端的运维人员进行管理查找。具体的,处理服务器可以通过硬件管理服务器实时向运维终端发送故障服务器的处理进度,从而运维终端的运维人员能够合理地安排集群服务器的工作内容。

相应的,本发明实施例还公开了一种硬件报修系统,应用于硬件管理服务器,参见图2所示,包括:

第一获取模块1,用于获取集群服务器的SEL日志;

判断模块2,用于分析所述SEL日志,判断是否出现错误日志;如果是,则触发第二获取模块3;

所述第二获取模块3,用于获取所述集群服务器中与所述错误日志对应的故障服务器;

发送模块4,用于将所述错误日志发送给处理服务器,以使所述处理服务器将所述错误日志分配至预设处理终端。

本实施例中的硬件报修系统具有与上述实施例中硬件报修方法相同的有益效果。

相应的,本发明实施例还公开了一种硬件管理服务器,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上文实施例所述硬件报修方法的步骤。

其中,本实施例中硬件管理服务器的具体细节参照上述实施例中有关硬件报修方法的描述,此处不再进行赘述。

本实施例中硬件管理服务器具有与上述实施例中硬件报修方法相同的有益效果。

相应的,本发明还公开了一种硬件报修设备,包括:

上文实施例中所述硬件管理服务器;

将所述硬件管理服务器发送的错误日志分配至预设处理终端的处理服务器。

其中,本实施例中硬件管理服务器的具体细节参照上述实施例中有关硬件报修方法的描述,此处不再进行赘述。

本实施例中硬件报修设备具有与上述实施例中硬件报修方法相同的有益效果。

相应的,本发明还公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述硬件报修方法的步骤。

其中,本实施例中可读存储介质的具体细节参照上述实施例中有关硬件报修方法的描述,此处不再进行赘述。

本实施例中可读存储介质具有与上述实施例中硬件报修方法相同的有益效果。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种硬件报修方法、系统、设备、硬件管理服务器与可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1