Raid调查器的制造方法

文档序号:8491699阅读:435来源:国知局
Raid调查器的制造方法
【技术领域】
[0001]本公开一般涉及调查数据存储系统的潜在错误的系统和方法。特别地,本公开涉及在磁盘失效之前调查数据存储子系统或其他信息处理系统的潜在错误的系统和方法,从而改进了容错性。
【背景技术】
[0002]随着信息价值和使用的持续增长,个人和商务都在探寻更多的处理和存储信息的方法。用户可用的一种选择是信息处理系统。信息处理系统通常处理、编译、存储和/或传送用于商务、个人或其他用途的信息或数据,从而允许用户利用该信息的价值。由于技术和信息处理需求和要求因不同用户或应用而变化,所以信息处理系统还可以随着以下情况而变化:处理什么样的信息,如何处理信息,处理、存储或传递多少信息,以及可以多快和多高效地处理、存储或传递信息。信息处理系统的多样性允许信息处理系统可以是一般的信息处理系统,也可以是针对特定用户或特定用途而配置的信息处理系统,所述特定用途例如是金融业务处理、航班预约、企业数据存储或全球通信。另外,信息处理系统可以包括各种被设置用来处理、存储和传送信息的硬件和软件部件,且可以包括一个或多个计算机系统、数据存储系统和联网系统。
[0003]许多信息处理系统尤其是数据存储系统中持续关注的问题是数据可靠性。当然,已经开发了许多解决方案来增加数据可靠性,包括例如利用RAID(独立磁盘冗余阵列)系统,RAID系统通常基于期望或需求的容量、冗余和性能水平来将多个磁盘组合到逻辑单元中,其中数据被分布在称为RAID级(RAID level)的若干路径之一中的磁盘之间。请见1988年加利福尼亚伯克利大学的David A.Patterson、Garth Gibson和Randy H.Katz的文章“ACase for Redundant Arrays of Inexpensive Diste (RAID),,。RAID 技术已经一般性地增加了数据可靠性。
[0004]尽管如此,仍然存在着要失效的磁盘能够使得用户数据处于不可恢复状态的若干状况。例如,在一个单冗余RAID例子中,特定的磁盘可能累积太多的错误恢复尝试并因此触发重构以将每个RAID扩展区(extent)从要失效的磁盘迀移到备份磁盘。同时,在扩展区正在重构时,重构条(rebuilding stripe)中另一磁盘的数据会因潜在错误(即,非显而易见的错误)而变得不可读,因为被写入区块中的数据不是可读的。然而,对该数据的读取是需要的,以便重建正在被重构的磁盘的数据,因此重构不能继续,使得用户的数据处于不可恢复状态中。
[0005]已经引入数据清理(data scrubbing)作为RAID控制器周期性地读取并检查RAID阵列中的所有区块以在这些区块被使用之前检测坏区块的方式。然而,传统的RAID清理并没有足够快地检测潜在错误以便明显地改进数据可靠性。传统RAID清理操作在某一时间对单个RAID设备起作用并对RAID逻辑区块地址起作用,而非“垂直地”也即概念地说对磁盘或磁盘扩展区起作用。作为通过RAID设备上的条进行的清理过程,其向与RAID设备相关联的所有磁盘发送输入/输出(I/O)。在特定磁盘受到怀疑的情况中,其读取RAID设备的所有其他磁盘,这在可疑磁盘处于即将失效风险中时浪费了宝贵的时间。另外,在具有多个磁盘层级(tier)的系统中,传统RAID清理操作没有针对磁盘类型(诸如具有更高失效趋势的那些磁盘)划分优先顺序。例如,如果更低、不太昂贵存储层级中的磁盘相比于其他相对更昂贵存储层级中的磁盘而言相对更经常地被怀疑失效,则花费时间清理更高、相对更昂贵存储层级中的磁盘在本质上是浪费的。
[0006]鉴于前面所述,如果怀疑磁盘处于失效风险中,则在那个磁盘性能恶化以需要替换之前获悉那个磁盘上所有扩展区的关联RAID条都是可读的以便重建驻留在要失效磁盘上的所有数据或尽可能多的数据会是非常有用的。通过采用传统RAID清理操作,通常没有方法来快速而高效地确定与存储层级中的所有磁盘相关联的所有RAID设备上的该缺席的启动清理。然而,在与存储层级中的所有磁盘相关联的所有RAID设备上启动清理是太慢并消耗太多的资源。图1中提供了该问题的特定示例,其中图1示出了显示了 10个分离磁盘的示例性数据存储系统100,其中简化起见在附图中垂直地示出了仅“磁盘X” 102,磁盘X102被完全示出并被标记以便于讨论。如图1所示,数据分布在三个RAID配置下的10个所示磁盘中:RAID 5遍布5个扩展区;RAID 10遍布2个扩展区;以及RAID 6遍布6个扩展区。如本领域技术人员将意识到的,扩展区和RAID条数据的实际物理配置和布局将典型地依赖于若干因素;因此,图1仅是出于讨论目的的概念性示例。假设磁盘X将失效或者将以其他方式返回太多的明显错误。为了确定磁盘X上的所有数据是否能够利用传统清理操作进行重建,全部RAID 5、RAID 10和RAID6设备将需要被清理。然而,如果存在着一种系统和方法来读取或调查该图中所示的仅水平条中包含的信息,则该决定能够更高效地做出。现在,假设数据存储系统100包括明显比仅所示10个磁盘更多数量的磁盘,例如90个额外的磁盘,并且数据也是类似进行分布;这种新颖系统和方法的效率将明显增加。
[0007]因此,传统RAID清理操作不足以确定与要失效磁盘上的所有扩展区的相关联RAID条有关的期望信息。本领域中需要一种改进的方法来确定磁盘或磁盘扩展区级处的该信息。更一般地,本领域中需要一种系统和方法来调查数据存储系统的潜在错误,并特别地,需要一种系统和方法来在磁盘失效之前调查数据存储子系统或其他信息处理系统的潜在错误,从而改进容错性。

【发明内容】

[0008]在一个实施方式中,本公开涉及一种在数据存储子系统的将要失效的磁盘于失效之前调查该数据存储子系统的潜在错误并恢复重建该将要失效的磁盘的数据所使用的不可读数据的方法,其中该数据存储子系统提供多个磁盘的存储摘要。该方法包括:确定多个磁盘中的磁盘达到被识别为将要失效的磁盘的阈值,并在将要失效的磁盘于失效之前调查多个磁盘中的其他磁盘上的至少一部分数据以识别具有潜在错误的数据存储区域。该方法还包括至少部分地利用存储在将要失效的磁盘上的数据来重建已识别的数据存储区域。在一些实施方式中,调查可以包括识别将要失效的磁盘上的RAID扩展区,识别RAID条中多个磁盘中的剩余磁盘上与在将要失效的磁盘上识别的RAID扩展区相对应的数据存储区域,并执行读取操作以识别具有潜在错误的数据存储区域。调查可以依赖于将要失效的磁盘的识别而自动发起,或者可以基于用户请求而被发起。在一些实施方式中,确定磁盘将将要失效的可以基于与磁盘有关的信息和/或磁盘的使用来执行。另外,确定磁盘将将要失效的可以自动执行。在进一步的实施方式中,确定磁盘将将要失效的可以包括根据预定标准来跟踪磁盘的错误,并在已跟踪错误的数量达到阈值数量的错误时将磁盘识别为将将要失效的。将要失效的的磁盘可以被移除和替换;将要失效的的磁盘的数据可以之后利用来自多个磁盘中的剩余磁盘的数据被重建在替换磁盘上。在一些实施方式中,重建的数据存储区域可以被再次调查,以确认成功校正了潜在错误。
[0009]在另一实施方式中,本公开涉及信息处理系统。该信息处理系统可以包括磁盘控制器和用于提供多个磁盘的存储摘要的数据存储子系统。磁盘控制器可以具有访问数据存储子系统的权限,并且被配置成:确定多个磁盘中的磁盘是否达到被识别为将要失效的磁盘的阈值;在将要失效的磁盘于失效之前,调查多个磁盘中的剩余磁盘上的至少一部分数据以识别具有潜在错误的数据存储区域;以及至少部分地利用将要失效的磁盘上存储的数据来重建已识别的数据存储区域。
[0010]在另一实施方式中,本公开涉及一种在数据存储子系统的将要失效的磁盘于失效之前调查该数据存储子系统的潜在错误并恢复重建该将要失效的磁盘的数据所使用的不可读数据。该方法可以包括根据预定标准来自动跟踪数据存储子系统的多个磁盘的错误并在该磁盘的已
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1