一种服务器管理单元的故障自诊断方法、装置及存储介质与流程

文档序号:16390279发布日期:2018-12-22 11:20阅读:139来源:国知局
一种服务器管理单元的故障自诊断方法、装置及存储介质与流程
本发明涉及计算机
技术领域
,特别涉及一种服务器管理单元故障自诊断方法、装置及存储介质。
背景技术
随着网络技术和计算机技术的飞速发展,服务器的数量越来越多。服务器管理单元(baseboardmanagementcontroller,bmc)是服务器的核心管理单元,用来诊断服务器的故障。如果服务器管理单元发生故障,服务器故障的诊断将无法正常进行。所以,服务器管理单元的稳定性是十分重要的。现有技术中,服务器管理单元发生故障后,首先收集日志信息,通过初步分析后进一步判断故障可能的原因,再收集bmc运行现场,内存使用情况,应用程序运行现场等信息,判断bmc和应用程序是否存在异常,最后可能需要接入串口,现场排查问题的可能原因。服务器管理单元的故障诊断是分步进行的,并且需要分析人员对每一步做出正确的分析判断,有时,还需要多次收集诊断。因此,服务器管理单元故障诊断的过程复杂,诊断效率低。因此,如何提高简化服务器管理单元故障诊断过程,从而提高诊断效率是本领域人员目前需要解决的技术问题。技术实现要素:本发明的目的是提供一种服务器管理单元的故障自诊断方法、装置及存储介质,显著的简化服务器管理单元故障诊断过程,从而提高诊断效率。为解决上述技术问题,本发明提供一种服务器管理单元的故障自诊断方法,包括:预先建立故障诊断信息库,所述故障诊断信息库包括故障信息和故障类型,每种所述故障信息对应于一种所述故障类型;同时收集当前故障信息所包含的全部子故障信息;在所述故障诊断信息库中,查找出所述当前故障信息所对应的目标故障类型。优选地,还包括:保存所述当前故障信息,以供下载。优选地,所述保存所述当前故障信息具体包括:判断所述当前故障信息的容量是否大于阈值;如果否,则压缩成一个文件,如果是,则按照所述阈值压缩成多个文件;将所述文件存储于预设存储空间中,并输出下载链接。优选地,还包括:下载所述文件以获取所述当前故障信息。优选地,还包括:判断所述当前故障信息对应的所述目标故障类型是否正确;如果否,修改所述故障诊断信息库以进行更新。优选地,所述子故障信息具体包括:bmc应用程序运行现场信息、os运行现场信息、日志信息、fw版本信息、bmc配置信息、bios配置信息、bmc监控设备寄存器和存储区信息。优选地,所述文件的下载采用http协议或者https协议的方式。优选地,下载工具具体为web工具、wget、curl、redfish或restful。为了解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的服务器管理单元的故障自诊断方法的步骤。为了解决上述技术问题,本发明还提供一种服务器管理单元的故障自诊断装置,所述服务器管理单元的故障自诊断装置包括:建立单元,用于预先建立故障诊断信息库,所述故障诊断信息库包括故障信息和故障类型,每种所述故障信息对应于一种所述故障类型;收集单元,用于同时收集当前故障信息所包含的全部子故障信息;查找单元,用于在所述故障诊断信息库中,查找出所述当前故障信息所对应的目标故障类型。为了解决上述技术问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的服务器管理单元的故障自诊断方法的步骤。相对于上述现有技术而言,本发明提供的服务器管理单元的故障自诊断方法,首先预先建立故障诊断信息库;然后,同时收集当前故障信息包含的全部子故障信息;最后,在故障诊断信息库中,查找出当前故障信息所对应的目标故障类型。由此可见,同时收集当前故障信息所包含的全部子故障信息,相对于现有技术中依次对子故障信息收集判断的方法而言,本方法能够提高收集的速度,另一方面由于预先建立了故障信息和故障类型的对应关系,因此无需现场逐步分析,只要通过故障诊断信息库就可以快速确定与当前故障信息对应的目标故障类型,从而进一步提高了诊断的效率。因此,本方法简化了服务器管理单元故障诊断过程,进而提高诊断效率。此外,本发明还提供一种服务器管理单元的故障自诊断装置和存储介质,效果如上。附图说明为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的第一种服务器管理单元的故障自诊断方法的流程图;图2为本发明实施例提供的第二种服务器管理单元的故障自诊断方法的流程图;图3为本发明实施例提供的第三种服务器管理单元的故障自诊断方法的流程图;图4为本发明实施例提供的第四种服务器管理单元的故障自诊断方法的流程图;图5为本发明实施例提供的一种服务器管理单元的故障自诊断装置的结构图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。本发明的目的是提供一种服务器管理单元的故障自诊断方法、存储介质及装置,能够简化服务器管理单元故障诊断过程,从而提高诊断效率。为了使本
技术领域
的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。图1为本发明实施例提供的第一种服务器管理单元的故障自诊断方法的流程图。如图1所示,服务器管理单元的故障自诊断方法包括:s10:预先建立故障诊断信息库。s11:同时收集当前故障信息所包含的全部子故障信息。s12:在故障诊断信息库中,查找出当前故障信息所对应的目标故障类型。对于s10来说,故障诊断信息库是根据历史故障信息和历史故障类型建立的。故障诊断信息库中,每种故障信息均有唯一的故障类型与其对应,但是,每种故障类型所对应的故障信息不限于一种。为了使本领域人员更好的理解本发明技术方案,下面对故障诊断信息库中故障信息和故障类型的对应关系进行举例说明,如表1所示。需要说明的是,表1只是故障信息和故障类型的部分内容,具体情况不限于此。a、b、c、d代表子故障信息,本发明中所说的故障信息是由子故障信息组成的,例如故障信息a+b是由子故障信息a和子故障信息b组成的。每种故障信息可能含有1个或者多个子故障信息,例如,故障信息a、故障信息a+b+c。在表1中每种故障信息均对应一种故障类型,例如,故障信息a对应故障类型f1,故障信息a+b对应故障类型f2。每种故障类型所对应的故障信息不限于一种,例如,故障信息a+b+c和故障信息a+b+d均对应故障类型f3。表1故障信息故障类型af1a+bf2a+b+cf3a+b+df3a+b+c+df4对于s11来说,同时收集当前故障信息所包含的全部子故障信息的操作可通过外部命令一键触发完成。如表1所示,当前故障信息含有至少2种子故障信息时,同时收集当前故障信息所包含的全部子故障信息,可减少收集次数,提高效率。优选地,子故障信息具体包括:bmc应用程序运行现场信息、os运行现场信息、日志信息、fw版本信息、bmc配置信息、bios配置信息、bmc监控设备寄存器和存储区信息。当然子故障信息的种类不限于此,还可以是其他的信息。需要说明的是,当前故障信息所包含的子故障信息可以是其中的几个也可以全部。对于s12来说,在故障诊断信息库中查找到与当前故障信息相同的故障信息,调取故障信息所对应的故障类型。例如,当前故障信息为a+b+c,在故障诊断信息中查找到对应的故障类型为f3。避免了分析人员逐个收集和分析子故障信息的过程。由此可见,本发明实施例提供的服务器管理单元的故障自诊断方法可以通过同时收集当前故障信息所包含的全部子故障信息,然后在故障诊断信息库中查找与当前故障信息对应的故障类型。由此可见,同时收集当前故障信息所包含的全部子故障信息,相对于现有技术中依次对子故障信息收集判断的方法而言,本方法能够提高收集的速度,另一方面由于预先建立了故障信息和故障类型的对应关系,因此无需现场逐步分析,只要通过故障诊断信息库就可以快速确定与当前故障信息对应的目标故障类型,从而进一步提高了诊断的效率。因此,本方法简化了服务器管理单元故障诊断过程,进而提高诊断效率。图2为本发明实施例提供的第二种服务器管理单元的故障自诊断方法的流程图。本实施例中,保存当前故障信息,如图2所示,作为优选地实施方式,在图1的基础上,在步骤s12之后,还包括:s20:保存当前故障信息,以供下载。需要说明的是,步骤20与步骤12无顺序关系。可以同时执行步骤12和步骤20,以便节省时间;当然,也可以先执行步骤20,再执行步骤12;也可以先执行步骤12,在执行步骤20。可以理解的是,如何保存当前故障信息有多种方式,可以是直接将当前故障信息存储,或者将其压缩后再存储;可以将当前故障信息存储在本地,也可以通过远程的存储方式将其存储于其它服务器。在上述实施例的基础上,作为优选地实施方式,步骤s20具体包括:判断所述当前故障信息的容量是否大于阈值。如果否,则压缩成一个文件,如果是,则按照阈值压缩成多个文件;将所述文件存储于预设存储空间中,并输出下载链接。需要说明的是本发明所说的当前故障信息的容量是指当前故障信息占用存储空间的大小。可以理解的是,本实施例中的阈值可以根据实际情况而定,例如可以为5m,按照该阈值,判断当前故障信息压缩情况。如果当前故障信息的容量不大于5m,压缩为1个文件,否则,压缩成多个文件。例如,如果当前故障信息的容量为15m,就可以将当前故障信息压缩为3个文件,每个文件含有5m的当前故障信息;如果当前故障信息的容量为22.5m,当前故障信息压缩为5个文件,其中4个文件含有5m的当前故障信息,1个文件含有2.5m的当前故障信息。根据故障信息的容量,将当前故障信息压缩成一个或多个文件,可以避免由于文件太大,下载时需要较长的时间,带来的不便于下载的问题。压缩成多个文件,可以实现每个文件的单独下载,每个文件的下载时间短,避免了由于无法预测的原因,如停电,引起的下载中断,需要全部重新下载的问题。而且,可以理解的是,即使阈值设置为其他合理的容量值也可以达到上述效果,如2.5m、15m或20m等。在步骤s20之后,还包括:判断存储空间是否已满。如果是,清理存储空间。清理存储空间的方式可以是清除存储空间中日期最早的当前故障信息,或者清除存储空间中已经被查验的当前故障信息。需要说明的是,还可以采用其他清理存储空间的方式,这里不再赘述。当存储空间已满时,清理存储空间,避免了由于存储空间已满,无法保存当前故障信息的问题,保证了当前故障信息的可存储,以便下载。除上述根据存储空间是否已满判断是否清理存储空间,还可根据存储空间大小,判断是否清理存储空间。在步骤s20之后,还包括:判断存储空间是否小于阈值。如果是,清理存储空间。可以理解的是,本实施例中的阈值可以根据实际情况而定,例如可以为20m。如果存储空间小于20m,清理存储空间。否则,不清理。可以理解的是,即使阈值设置为其他合理的数值也可以达到上述效果,如15m、25m或30m等。如果存储空间小于阈值,则清理存储空间,可以保证有足够的存储空间以供新的当前故障信息保存,有效避免了由于存储空间不足而造成的最新的当前故障信息无法保存或者保存不完整的情况。本发明实施例提供的服务器管理单元的故障自诊断方法,在本发明实施例提供的第一种服务器管理单元的故障自诊断方法的基础上,在查找出当前故障信息所对应的目标故障类型之后,还包括:保存当前故障信息。这样,方便后续直接查找所需的当前故障信息或者根据需要选择性的下载,例如,研究人员查验故障问题时,可以通过下载当前故障信息,查看历史记录。图3为本发明实施例提供的第三种服务器管理单元的故障自诊断方法的流程图。本实施例中,下载文件以获取当前故障信息,如图3所示,作为优选地实施方式,在图2的基础上,执行完成步骤s20后,还包括:s30:下载含有当前故障信息的文件。本发明实施例提供的服务器管理单元的故障自诊断方法,在本发明实施例提供的第二种服务器管理单元的故障自诊断方法的基础上,还下载含有当前故障信息的文件,以便对当前故障信息进行备份或查验历史记录,使当前故障信息的获取更加便捷。图4为本发明实施例提供的第四种服务器管理单元的故障自诊断方法的流程图。如图4所示,为了更新故障诊断信息库,作为优选地实施方式,在图3的基础上,执行完成步骤s30后,还包括:s40:判断当前故障信息对应的目标故障类型是否正确。s41:如果否,修改故障诊断信息库以进行更新。在具体实施中,故障诊断信息库中可能存在故障信息与故障类型的匹配关系是不正确的问题,所以需要研究人员下载含有当前故障信息的文件,检查步骤s12给出的当前故障信息对应的目标故障类型是否正确,如果不正确,将故障信息对应的正确的故障类型补充到故障诊断信息库中,更新故障诊断信息库。如果正确,则无需执行步骤s41。需要说明的是,虽然预先建立的故障诊断信息库中含有的故障信息和与其对应的故障类型尽可能的全面,但是,服务器管理单元在工作中,也许会出现故障诊断信息库中未包含的新的故障类型。所以,在具体实施中,当研究人员查验当前故障信息时,发现有新的故障信息与故障类型的对应关系后,将会修改故障诊断信息库以便更新。需要说明的是,不是每一次执行完s30后,都执行s40、s41。可以执行多次s30后,下载一定数目的含有当前故障信息的文件后,再执行s40、s41步骤,以提供给研究人员足够多的当前故障信息,减少研究人员查验的次数,提高效率。本发明实施例提供的服务器管理单元的故障自诊断方法,在本发明实施例提供的第三种服务器管理单元的故障自诊断方法的基础上,还通过查验当前故障信息对应的目标故障类型是否正确,修改故障诊断信息库以进行更新,使故障诊断信息库更加完善,有利于提高服务器管理单元的故障自诊断的正确率。本发明实施例提供的第三种服务器管理单元的故障自诊断方法的基础上,作为优选地实施方式,下载含有当前故障信息的文件的具体方式为:文件的下载采用http协议或者https协议的方式。除了http协议或者https协议,还可以采用其它通信协议,本实例不再赘述。下载工具具体为web工具、wget、curl、redfish或restful,还可以是其它的下载工具,本实例不再赘述。本发明实施例提供的服务器管理单元的故障自诊断方法,在本发明实施例提供的第三种服务器管理单元的故障自诊断方法的基础上,限定了下载含有当前故障信息文件的下载方式和下载工具。需要说明的是,不限于上述几种协议以及下载工具,还可以是其它的协议以及下载工具。需要说明的是,本发明实施例提供的服务器管理单元的故障自诊断方法不仅可以用于服务器管理单元的故障诊断,也可以应用在其他嵌入式
技术领域
,如智能终端设备,交换机,路由器等。上文对于本发明提供的一种服务器管理单元的故障自诊断方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的计算机可读存储介质,由于存储介质部分的实施例与方法部分的实施例相互照应,因此存储介质部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行上述任一项提供的方法的步骤。存储介质可以是光盘、u盘或sd卡,还可以是其它的具有存储功能的工具。由此可见,本实例提供的存储介质上存储有计算机程序,处理器调用计算机程序,完成同时收集当前故障信息所包含的全部子故障信息,在故障诊断信息库中找到当前故障信息对应的目标故障类型。由此可见,相对于现有技术中的依次对子故障信息收集判断,同时收集当前故障信息所包含的全部子故障信息,能够提高收集的速度,另一方面由于预先建立了故障信息和故障类型的对应关系,因此无需现场逐步分析,只要通过故障诊断信息库就可以快速确定与当前故障信息对应的目标故障类型,从而进一步提高了诊断的效率。因此,本存储介质简化了服务器管理单元故障诊断过程,进而提高诊断效率。上文对于本发明提供的一种服务器管理单元的故障自诊断方法的实施例进行了详细的描述,本发明还提供了一种与该方法对应的服务器管理单元的故障自诊断装置,由于装置部分的实施例与方法部分的实施例相互照应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。图5为本发明实施例提供的一种服务器管理单元的故障自诊断装置的结构图。如图5所示,该装置包括:建立单元50,用于预先建立故障诊断信息库,故障诊断信息库包括故障信息和故障类型,每种所述故障信息对应于一种故障类型;收集单元51,用于同时收集当前故障信息所包含的全部子故障信息;查找单元52,用于在所述故障诊断信息库中,查找出当前故障信息所对应的目标故障类型。本实施例提供的服务器管理单元的故障自诊断装置,首先预先建立故障诊断信息库,故障诊断信息库包括故障信息和故障类型,每种所述故障信息对应于一种故障类型;然后,同时收集当前故障信息所包含的全部子故障信息;最后,在故障诊断信息库中,查找出收集的当前故障信息所对应的目标故障类型。由此可见,相对于现有技术中的依次对子故障信息收集判断,同时收集当前故障信息所包含的全部子故障信息,能够提高收集的速度,另一方面由于预先建立了故障信息和故障类型的对应关系,因此无需现场逐步分析,只要通过故障诊断信息库就可以快速确定与当前故障信息对应的目标故障类型,从而进一步提高了诊断的效率。因此,本装置简化了服务器管理单元故障诊断过程,进而提高诊断效率。以上对本发明所提供的本发明实施例提供的服务器管理单元的故障自诊断方法、装置及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明都是与其它实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。还需要说明的是,在本说明书中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何变体意在涵盖非排他性的包含,从而使得包括一系列的要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1