用于在存储系统中确定故障位置的方法和装置的制造方法

文档序号:9708187阅读:200来源:国知局
用于在存储系统中确定故障位置的方法和装置的制造方法
【技术领域】
[0001]本发明的实施方式涉及存储系统领域,更具体地,涉及一种用于在存储系统中确定故障位置的方法和装置。
【背景技术】
[0002]随着计算机技术的发展,对存储系统中硬盘故障的处理成为当前研究的一个热点。故障处理中的常见的问题可以是如何判定硬盘故障,如何预测硬盘故障从而防止数据丢失等等。现有技术中往往依赖于RAID之类的系统,它们在对磁盘的读写发生错误的情况下会通知系统磁盘出错。然而,由于存储系统除了磁盘之外,通常包括多个连接磁盘的结构或元件,如果并非磁盘本身的故障而是连接结构中的某一元件存在故障也可能会引起磁盘的读写错误,RAID往往不能甄别这种情况,并且同样会向系统报告磁盘发生故障。如果因为连接元件的故障而误判为磁盘故障,并因此更换掉磁盘,显然会造成不必要的浪费。另一方面,现有技术中也没有提供能够提前预测磁盘故障、从而在磁盘发生故障前提前采取措施以避免数据丢失的解决方案。

【发明内容】

[0003]为了解决现有技术中存在的上述问题,本说明书提出如下方案。
[0004]根据本发明的第一方面,提供一种用于在存储系统中确定故障位置的方法,包括:获取磁盘的性能信息;以及响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
[0005]在本发明的可选实施方式中,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置进一步包括:依次获取所述连通路径上的元件的健康状况信息;以及响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
[0006]在本发明的可选实施方式中,所述至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常进一步包括:当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。在本发明的进一步可选实施方式中,当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
[0007]在本发明的可选实施方式中,所述方法被定期执行、手动触发、响应于检测到所述磁盘的I/O性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。在本发明的进一步可选实施方式中,所述磁盘I/O错误的信息由磁盘阵列RAID报告。
[0008]在本发明的可选实施方式中,所述性能指标包括以下中的一个或多个:1/0错误计数、平均I/o延迟、数据错误、重映射扇区计数、SAS G-列表计数以及SAS背景介质扫描信息。
[0009]在本发明的可选实施方式中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
[0010]在本发明的可选实施方式中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得。
[0011]根据本发明的第二方面,提供一种用于在存储系统中确定故障位置的装置,包括:获取单元,被配置为获取磁盘的性能信息;故障诊断单元,被配置为响应于所述性能信息指示一个或多个性能指标超过相应的预定阈值,执行如下操作:至少基于所述一个或多个性能指标确定所述磁盘的健康状况是否正常;以及响应于确定所述磁盘的健康状况为正常,基于所述磁盘的连通路径上的一个或多个元件的健康状况信息,确定所述故障位置。
[0012]在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:依次获取所述连通路径上的元件的健康状况信息;以及响应于所述连通路径上一个元件的所述健康状况信息出现异常,确定所述一个元件发生故障。
[0013]在本发明的可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况不相关,并且所述磁盘的健康状况信息无异常时,将所述磁盘的健康状况确定为正常。在本发明的进一步可选实施方式中,所述故障诊断单元进一步被配置为:当所述一个或多个性能指标与所述磁盘的健康状况相关,和/或所述磁盘的健康状况信息存在异常时,将所述磁盘的健康状况确定为异常,并且确定所述磁盘存在故障。
[0014]在本发明的可选实施方式中,所述装置被定期触发、手动触发、响应于检测到所述磁盘的I/o性能异常而触发、或者响应于接收到报告所述磁盘I/O错误的信息而触发。在本发明的进一步可选实施方式中,所述磁盘I/o错误的信息由磁盘阵列RAID报告。
[0015]在本发明的可选实施方式中,所述性能指标包括以下中的一个或多个:1/0错误计数、平均I/o延迟、数据错误、重映射扇区计数、SAS G-列表计数以及SAS背景介质扫描信息。
[0016]在本发明的可选实施方式中,所述健康状况信息包括历史健康状况信息和/或当前健康状况信息。
[0017]在本发明的可选实施方式中,所述健康状况信息通过硬盘的自动监视分析和报告技术S.M.A.R.T.报告获得
[0018]根据本发明的实施方式,可以在出现对磁盘的异常访问时,清楚地得知是磁盘本身的故障还是其连通路径上的故障,也可以在磁盘可能发生故障之前预测到该故障从而防止数据的丢失。
【附图说明】
[0019]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0020]图1示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意图。
[0021]图2示出了根据本发明的实施方式的用于在存储系统中确定故障位置的方法200。
[0022]图3示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意性分层拓扑图。
[0023]图4示出了根据本发明示例性实施方式的用于在存储系统中预测并确定故障位置的装置400的示意性框图。
[0024]图5示出了根据本发明实施方式的用于在存储系统中预测并确定故障位置的装置的状态流程图;
[0025]图6示出了适于用来实现本发明实施方式的示例性计算系统600的框图。
【具体实施方式】
[0026]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0027]图1示出了适于用来实现本发明的实施方式的存储系统后端连接结构的示意图。本领域技术人员应当理解,图1显示的连接结构仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1