SAN存储系统的故障保存方法、装置及可读存储介质与流程

文档序号:13735869阅读:221来源:国知局
SAN存储系统的故障保存方法、装置及可读存储介质与流程

本发明涉及san存储领域,特别涉及san存储系统的故障保存方法、装置及可读存储介质。



背景技术:

一款产品不管是在测试阶段还是正式上市阶段,都会出现各种故障,都需要提供一种最有效最快速的方法定位问题原因进而解决问题。出现产品故障时,需要一种有效的保存故障现场的方法从而提供故障信息给客服人员、维护支持人员、开发人员等来进行分析解决问题。

目前,存储系统故障信息保存大都是通过日志方式进行保存且保存的故障信息较少,而且有些真正导致问题的业务逻辑在日志中体现不到,只能通过故障时的代码堆栈信息等才能分析到,然而,存储系统只是对一些致命的代码错误触发dump文件来保存当时的代码堆栈信息,而且保存的信息较少,要么是一个功能模块的信息,要么是一个子系统的信息,而并不是整个系统相关的信息,无法追溯到源头。其次,正常的存储业务系统不可能24小时人工监控,系统出现故障之后不能在第一时间保存故障现场,从而错失了很多有用的定位问题的信息。

因此,如何有效解决存储系统发生故障时的故障保存方式单一、故障信息保存不全面是本领域技术人员需要解决的问题。



技术实现要素:

本发明的目的在于提供一种san存储系统的故障保存方法、装置及可读存储介质,解决了解决存储系统发生故障时的故障保存方式单一、故障信息保存不全面的问题。

为实现上述目的,本发明实施例提供了如下技术方案:

一方面,本发明实施例提供了一种san存储系统的故障保存方法,包括:

检测目标对象是否发生故障;

若是,则确定与所述故障对应的故障级别;

根据所述故障级别确定所述故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。

优选的,所述检测目标对象发生故障时,则确定与所述故障对应的故障级别包括:

检测客户端是否发生数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障中的至少一者;

若是,则确定所述故障对应的故障级别为第一故障。

优选的,所述检测目标对象发生故障时,则确定与所述故障对应的故障级别包括:

检测存储系统是否发生磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的任意一者;

若是,则确定磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的至少一者对应的故障级别为第一故障;

检测存储系统是否发生网络异常故障、存储空间不足故障、硬盘降级故障中的任意一者;

若是,则确定网络异常故障、存储空间不足故障、硬盘降级故障中的至少一者对应的故障级别为第二故障。

优选的,所述根据所述故障级别确定所述故障的故障保存方式以保存所述故障包括:

当所述故障级别为第一故障时,则确定所述故障的保存方式为日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式;

当所述故障级别为第二故障时,则确定所述故障的保存方式为日志保存方式以及故障事件保存方式。

另一方面,本发明实施例提供了一种san存储系统的故障保存装置,包括:

故障检测模块,用于检测目标对象是否发生故障;

故障级别确定模块,用于目标对象发生故障时,确定与所述故障对应的故障级别;

故障保存方式确定模块,用于根据所述故障级别确定所述故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。

优选的,所述故障级别确定模块包括:

第一故障第一确定单元,用于客户端发生数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障中的至少一者时,确定所述故障对应的故障级别为第一故障。

优选的,所述故障级别确定模块包括:

第一故障第二确定单元,用于存储系统发生磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的任意一者时,确定磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的至少一者对应的故障级别为第一故障;

第二故障确定单元,用于存储系统发生网络异常故障、存储空间不足故障、硬盘降级故障中的任意一者时,确定网络异常故障、存储空间不足故障、硬盘降级故障中的至少一者对应的故障级别为第二故障。

优选的,所述故障保存方式确定模块包括:

故障保存方式第一确定单元,用于当所述故障级别为第一故障时,确定所述故障的保存方式为日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式;

故障保存方式第二确定单元,用于当所述故障级别为第二故障时,确定所述故障的保存方式为日志保存方式以及故障事件保存方式。

另一方面,本发明实施例提供了一种san存储系统的故障保存装置,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述存储器中存储的计算机程序以实现如上任意一项所述san存储系统的故障保存方法的步骤。

另一方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的san存储系统的故障保存方法的步骤。

可见,本方案中,通过检测目标对象发生故障时,先确定与所述故障对应的故障级别,再根据确定的故障级别确定故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。因此,在存储系统发生故障时,通过确定故障对应的故障级别确定具体的故障保存方式,对于不同级别的故障分配不同的故障保存方式,对存储系统的故障的保存更加具有针对性,从而保存更加全面的存储系统的故障信息;同时,针对每种故障级别都具有至少一种故障保存方式,因此,存储系统发生故障时的故障保存方式更加多样化,故障信息的保存也更加的全面。本发明还公开了一种san存储系统的故障保存装置及可读存储介质,同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种san存储系统的故障保存方法流程示意图;

图2为本发明实施例公开的一种测试阶段san存储系统的故障保存方法流程示意图;

图3为本发明实施例公开的一种san存储系统的故障保存装置结构示意图;

图4为本发明实施例公开的另一种san存储系统的故障保存装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种san存储系统的故障保存方法、装置及可读存储介质,解决了解决存储系统发生故障时的故障保存方式单一、故障信息保存不全面的问题。

请参见图1,图1为本发明实施例提供的一种san存储系统的故障保存方法流程示意图,包括:

s101、检测目标对象是否发生故障;

具体的,本实施例中的目标对象为测试阶段的客户端和存储系统本身;其中,客户端为产品在测试阶段时通过模拟i/o读写操作的客户端,通过向该客户端中添加故障监控功能后,实时检测客户端是否发生故障;客户端的故障可以为数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障等;存储系统通过自身的故障监控功能,实时检测存储系统是否发生故障;存储系统发生的故障可以为磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障、网络异常故障、存储空间不足故障、硬盘降级故障等,当然,客户端与存储端具体的故障类型根据实际环境也可以为其他故障,在此并不作限定。

s102、若是,则确定与故障对应的故障级别;

具体的,本实施例中的故障级别为高级别故障与低级别故障,当客户端发生数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障中的至少一者时,存储系统发生磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的任意一者时,则故障对应的故障级别为高级别故障,当存储系统是否发生网络异常故障、存储空间不足故障、硬盘降级故障中的任意一者时,则故障对应的故障级别为低级别故障。

s103、根据故障级别确定故障的故障保存方式以保存故障,其中,每种故障级别的故障保存方式至少为一种。

具体的,本实施例中的故障保存方式为日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式;对于低级别的故障,其可以根据日志的跟踪信息、告警或者错误信息就能定位问题根源,其故障保存方式可以同时采用日志保存方式以及故障事件保存方式进行故障保存,当然,也可以只采用其中的一种故障保存方式进行保存,在此并不作限定。对于高级别的故障,其可以采用日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式进行故障保存,其中,系统的全备份保存方式能将日志、系统配置、软硬件配置、内存等与故障相关的信息整体打包备份。

需要说明的是,本实施例中产品若在测试阶段时,可以保存客户端i/o故障,也可以保存存储系统的故障;请参见图2,图2为测试阶段san存储系统的故障保存方法流程图,客户端发生i/o故障时,可以通过客户端远程触发存储系统的故障保存功能,从而确定故障对应的故障级别并根据故障级别分配对应的故障保存方式,一般情况下,客户端出现故障时通过dump故障保存方式和系统全备份保存方式以保存更全面的故障信息;根据存储系统是否能重启的情况,可以选择不同的dump保存方式,若在客户端发生i/o操作故障时,不能停止存储的正常业务可以选择活动dump故障保存方式保存主要的系统代码信息,若存储系统允许重启可选择核心dump故障保存方式以保存更完整的系统代码信息;另一方面,存储系统发生故障时,通过存储系统的存储故障监控功能自动触发故障保存,从而确定故障对应级别并根据故障级别分配对应的故障保存方式以保存存储系统故障或客户端i/o故障相关信息。其中,客户端故障和存储系统故障时,其故障保存方式都可以为业务跟踪日志、故障事件保存、系统dump以及系统全备份。

进一步,存储系统故障或客户端故障通过对应的故障保存方式保存后,可以将保存的故障信息进行下载备份,以便于系统操作人员分析对应的故障信息以确定故障问题,从而对故障进行全面的修复。

可见,本实施例中,通过检测目标对象发生故障时,先确定与所述故障对应的故障级别,再根据确定的故障级别确定故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。因此,在存储系统发生故障时,通过确定故障对应的故障级别确定具体的故障保存方式,对于不同级别的故障分配不同的故障保存方式,对存储系统的故障的保存更加具有针对性,从而保证保存更加全面的存储系统的故障信息;同时,针对每种故障级别都具有至少一种故障保存方式,因此,存储系统发生故障时的故障保存方式更加多样化,故障信息的保存也更加的全面。

基于上述实施例,本实施例中所述检测目标对象发生故障时,则确定与故障对应的故障级别包括:检测客户端是否发生数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障中的至少一者;若是,则确定故障对应的故障级别为第一故障。

具体的,本实施例中客户端为测试环境下模拟i/o操作的客户端,当模拟i/o操作的客户端出现数据操作故障时,则确定其故障级别为第一故障,其中,第一故障为高级别故障。

可见,本实施例中,当检测到测试环境的客户端发生故障时,确定其故障级别,从而有针对性的分配故障保存方式,以保存更加全面的故障信息。

基于上述实施例,本实施例中,检测目标对象发生故障时,则确定与故障对应的故障级别包括:检测存储系统是否发生磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的任意一者;若是,则确定磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的至少一者对应的故障级别为第一故障;

检测存储系统是否发生网络异常故障、存储空间不足故障、硬盘降级故障中的任意一者;若是,则确定网络异常故障、存储空间不足故障、硬盘降级故障中的至少一者对应的故障级别为第二故障。

具体的,本实施例中的第二故障为低级别故障,存储系统可以同时发生上述故障,也可以只发生其中的一种故障,在此并不作限定。

可见,本实施例中,当检测到存储系统发生故障时,确定其故障级别,从而有针对性的分配故障保存方式,以保存更加全面的故障信息。

基于上述实施例,在本实施例中,根据所述故障级别确定所述故障的故障保存方式以保存所述故障包括:

当所述故障级别为第一故障时,则确定所述故障的保存方式为日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式;

当所述故障级别为第二故障时,则确定所述故障的保存方式为日志保存方式以及故障事件保存方式。

可见,在本实施例中,在存储系统发生故障时,通过确定故障对应的故障级别确定具体的故障保存方式,对于不同级别的故障分配不同的故障保存方式,对存储系统的故障的保存更加具有针对性,从而保存更加全面的存储系统的故障信息。

需要说明的是,当故障级别为第一故障时,其故障保存方式可同时采用日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式进行保存,当然,也可以只选择其中一种故障保存方式进行保存,在此并不作限定;当故障级别为第二故障时,其故障保存方式为日志保存方式以及故障事件保存方式进行保存,当然,也可以采用其他类型的故障保存方式进行保存,在此并不作限定。

请参见图3,图3为本发明实施例提供的一种san存储系统的故障保存装置示意图,包括:

故障检测模块100,用于检测目标对象是否发生故障;

故障级别确定模块200,用于目标对象发生故障时,确定与所述故障对应的故障级别;

故障保存方式确定模块300,用于根据所述故障级别确定所述故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。

可见,本实施例中,通过故障检测模块100检测目标对象发生故障时,故障级别确定模块200先确定与所述故障对应的故障级别,故障保存方式确定模块300再根据确定的故障级别确定故障的故障保存方式以保存所述故障,其中,每种故障级别的故障保存方式至少为一种。因此,通过确定故障对应的故障级别确定具体的故障保存方式,对于不同级别的故障分配不同的故障保存方式,对存储系统的故障的保存更加具有针对性,从而保存更加全面的存储系统的故障信息;同时,针对每种故障级别都具有至少一种故障保存方式,因此,存储系统发生故障时的故障保存方式更加多样化,故障信息的保存也更加的全面。

基于上述实施例,在本实施例中,故障级别确定模块200包括:

第一故障第一确定单元,用于客户端发生数据读写操作应答超时故障、数据读写不一致故障、i/o操作非正常中断故障中的至少一者时,确定所述故障对应的故障级别为第一故障。

基于上述实施例,在本实施例中,故障级别确定模块200包括:

第一故障第二确定单元,用于存储系统发生磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的任意一者时,确定磁盘阵列控制器重启故障、存储系统重启故障、数据丢失故障中的至少一者对应的故障级别为第一故障;

第二故障确定单元,用于存储系统发生网络异常故障、存储空间不足故障、硬盘降级故障中的任意一者时,确定网络异常故障、存储空间不足故障、硬盘降级故障中的至少一者对应的故障级别为第二故障。

基于上述实施例,在本实施例中,故障保存方式确定模块300包括:

故障保存方式第一确定单元,用于当所述故障级别为第一故障时,确定所述故障的保存方式为日志保存方式、故障事件保存方式、系统dump保存方式以及系统全备份保存方式;

故障保存方式第二确定单元,用于当所述故障级别为第二故障时,确定所述故障的保存方式为日志保存方式以及故障事件保存方式。

请参见图4,图4为本发明实施例提供的另一种san存储系统的故障保存装置示意图,包括:

存储器10,用于存储计算机程序;

处理器20,用于执行所述存储器中存储的计算机程序以实现上述任一项所述san存储系统的故障保存方法的步骤。

为了更好的理解本发明,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的san存储系统的故障保存方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1