一种内核故障收集方法及装置与流程

文档序号:15850669发布日期:2018-11-07 09:50阅读:242来源:国知局
一种内核故障收集方法及装置与流程

本发明涉及服务器的技术领域,具体涉及一种内核故障收集方法及装置。

背景技术

随着客户业务需求不断增大,服务器的性能必须不断增加,服务器的硬件配置也不断提升,如cpu可能达到千核以上、内存达到tb以上。服务器硬件增加的同时也提升了故障率,操作系统也越来越复杂,随着硬件的增加,驱动程序也相应的增加,引入的bug也会越来越多。当服务器发生故障的时候,必须快速的分析故障原因并找到解决方案,就需要保存或者获取相应的数据进行分析,尤其是当服务器上部署关键业务的时候,快速地解决问题将给客户减少经济损失,保证业务快速恢复。

现有技术中,通常的故障收集方法为在服务器上安装k-ux操作系统并运行,正常情况下k-ux操作系统运行在k-ux内核中,当发生严重故障的时候,k-ux内核挂起,然后启动crash内核(crash内核:一个小的linux内核,主要用于将k-ux内核的内存数据保存到磁盘);crash内核将k-ux内核使用的内存数据保存到磁盘上,以便下次重启后分析定位问题;crash内核收集完k-ux内核内存信息后,重启系统进去bios中,bios开始进行硬件初始化等操作,bios最后阶段开始加载k-ux内核启动系统;进入k-ux系统后,分析crash内核保存到磁盘上内存数据(如附图4所示)。现有技术的缺点为:1、需要用户配置crash内核,并分配内存,浪费一定的内存空间;2、保存内存数据需要大量磁盘空间,浪费磁盘空间;3、很多用户在安装k-ux时候没有配置crash内核,给后续定位问题带来很大难度。



技术实现要素:

基于上述问题,本发明提出了一种内核故障收集方法及装置,快速的分析故障的原因并定位故障。

本发明提供如下技术方案:

一方面,本发明提供了一种内核故障收集方法,包括:

步骤101,监测k-ux内核和/或硬件是否故障以及系统是否被挂起;

步骤102,预先保留cpu核,所述cpu核独立运行故障日志收集进程,若k-ux内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述cpu核不参与进程调度;

步骤103,通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。

其中,所述定位故障之后还包括解决故障,恢复服务器正常运行。

其中,所述故障系统为k-ux系统或硬件系统。

其中,所述k-ux内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、cpu核无法正常工作至少之一。

另外,本发明还提供了一种内核故障收集装置,所述装置包括:

监测模块,用于监测k-ux内核和/或硬件是否故障以及系统是否被挂起;

收集模块,用于预先保留cpu核,所述cpu核独立运行故障日志收集进程,若k-ux内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述cpu核不参与进程调度;定位模块,用于通过串口获取故障日志信息,分析故障系统的内存信息,定位故障。

其中,所述定位故障之后还包括解决故障,恢复服务器正常运行。

其中,所述故障系统为k-ux系统或硬件系统。

其中,所述k-ux内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、cpu核无法正常工作至少之一。

本发明提供了一种内核故障收集方法及装置,当k-ux内核启动时,预先保留一颗cpu核,该cpu核仅运行故障信息收集进程并且不参与进程调度,当k-ux内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的cpu核外其他cpu核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。

附图说明

图1是本发明的方法流程图;

图2是本发明的装置结构示意图。

图3是本发明的工作原理图;

图4是现有技术的工作原理图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

基于上述,一方面,本发明的实施方式提供了一种内核故障收集方法,附图1是本发明的方法流程图,附图3是本发明的工作原理图,所述方法包括:

步骤101,监测k-ux内核和/或硬件是否故障以及系统是否被挂起;

k-ux:浪潮操作系统,类linux。将k-ux操作系统安装到服务器上并正常运行,监测k-ux内核或者其他硬件故障且系统是否被hang住(挂起);

步骤102,预先保留cpu核,所述cpu核独立运行故障日志收集进程,若k-ux内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述cpu核不参与进程调度;

当k-ux内核启动时,预先保留一颗cpu核,该cpu核仅运行故障信息收集进程并且不参与进程调度,当k-ux内核出现故障/硬件出现故障且系统被挂起的时候,故障日志收集进程进行日志收集。k-ux内核严重故障:如空指针、数组越界、软死锁、硬死锁等导致k-ux系统无法继续工作的故障。硬件故障:导致硬件无法继续使用的故障,如磁盘某些扇区无法读写,某些cpu核无法正常工作等。

步骤103,通过串口查看故障日志信息,分析故障系统的内存信息,定位故障。

当k-ux内核发生严重故障或者硬件发生故障时,操作系统被hang住,内核无法进行进程调度,除了保留的cpu核外其他cpu核都被hang住,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题;解决故障,恢复服务器正常运行。

本发明的关键在于通过预先保留一颗cpu核来独立运行故障日志收集进程,该进程用于收集故障日志,来分析问题原因,定位问题。

本发明提供了一种内核故障收集方法,当k-ux内核启动时,预先保留一颗cpu核,该cpu核仅运行故障信息收集进程并且不参与进程调度,当k-ux内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的cpu核外其他cpu核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。

另一方面,本发明的实施方式提供了一种内核故障收集装置,附图2是本发明的装置结构示意图,附图3是本发明的工作原理图,所述装置包括:

监测模块201,用于监测k-ux内核和/或硬件是否故障以及系统是否被挂起;

k-ux:浪潮操作系统,类linux。将k-ux操作系统安装到服务器上并正常运行,监测k-ux内核或者其他硬件故障且系统是否被hang住(挂起);

收集模块202,用于预先保留cpu核,所述cpu核独立运行故障日志收集进程,若k-ux内核和/或硬件故障,则所述故障日志收集进程收集日志;其中,所述cpu核不参与进程调度;

当k-ux内核启动时,预先保留一颗cpu核,该cpu核仅运行故障信息收集进程并且不参与进程调度,当k-ux内核出现故障/硬件出现故障且系统被挂起的时候,故障日志收集进程进行日志收集。k-ux内核严重故障:如空指针、数组越界、软死锁、硬死锁等导致k-ux系统无法继续工作的故障。硬件故障:导致硬件无法继续使用的故障,如磁盘某些扇区无法读写,某些cpu核无法正常工作等。

定位模块203,用于通过串口查看故障日志信息,分析故障系统的内存信息,定位故障。

当k-ux内核发生严重故障或者硬件发生故障时,操作系统被hang住,内核无法进行进程调度,除了保留的cpu核外其他cpu核都被hang住,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题;解决故障,恢复服务器正常运行。

其中,所述k-ux内核故障包括空指针、数组越界、软死锁、硬死锁至少之一;所述硬件故障包括磁盘扇区无法读写、cpu核无法正常工作至少之一。

本发明的关键在于通过预先保留一颗cpu核来独立运行故障日志收集进程,该进程用于收集故障日志,来分析问题原因,定位问题。

本发明提供了一种内核故障收集装置,当k-ux内核启动时,预先保留一颗cpu核,该cpu核仅运行故障信息收集进程并且不参与进程调度,当k-ux内核发生严重故障或者硬件发生故障时,操作系统被挂起,内核无法进行进程调度,除了保留的cpu核外其他cpu核都被挂起,系统无法登录进去时,通过故障信息收集进程收集故障日志并通过串口传输,快速定位问题,快速地分析故障的原因并定位故障,找到解决故障方法,本发明能够保证服务器上的业务能够快速恢复,减少损失。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1