用于通信系统中的动态阈值缩放的方法和系统的制作方法

文档序号:6650736阅读:145来源:国知局
专利名称:用于通信系统中的动态阈值缩放的方法和系统的制作方法
技术领域
本发明一般地涉及数据存储系统领域。尤其是,本发明包括用于动态地缩放数据通信构造设备中的错误阈值的系统。
背景技术
在图1中,计算机存储系统10包括主机服务器(“主机”)12、数据处理服务器14、包括多个数据存储设备诸如廉价/独立磁盘冗余阵列(“RAID”)的数据存储系统16、以及数据通信系统18。通常由主机12发起的对信息的请求由通信系统18传输,并且由数据处理服务器14处理。数据处理服务器从数据存储设备16中检索数据,并通过通信系统将数据传输回主机12。类似地,主机12可以将数据写到数据存储设备16。
通信系统18可以是通信总线、点到点网络或者其它通信方案。图2示出了一种通信构造设备20,包括系统资源诸如对称多处理器(“SMP复合体”)22、构造设备控制器24以及主机适配器26。SMP复合体22是数据处理服务器14(图1)的组件,并且主机适配器26是用于主机服务器12(图1)的接口。这些组件的任意一个中都可能发生各种错误状态。这些错误状态可能是非常严重的,即,妨碍设备运行,或者实质上是暂时的。如果发生严重的错误,则出现故障的设备必需被重新启动或者被替换。然而,暂时的错误可以根据该错误的严重性和频率被解决。
一些错误是由故障电缆、电源瞬变或者有缺陷的组件造成的。通信构造设备20可以容忍并作为虚假事件接纳这些类型的错误中的一些错误。然而,大量的非严重错误可能指示即将发生的组件故障或者组件处于需要进行重新启动的不稳定状态。计数器可以被用于跟踪这些非严重错误。当计数器超过预定阈值时,可以通过复位设备、使设备静止以便可以修复该设备、或者隔开设备采取纠正活动,从而可以使其离线以便替换。
典型地,一种系统被配置为具有用于错误恢复的一组默认阈值,而不考虑每种类型的系统资源的数量如何。然而,由于系统资源用于错误恢复的使用可能发生得太早或太晚,一体适用(one-size-fits-all)的方法往往导致系统资源的无效的使用。
在美国专利5,331,476中,Fry等公开了一种结合错误恢复系统的数据存储装置,它被动态地控制以便执行基于知识的错误恢复。然而,Fry的发明没有考虑当动态地执行错误恢复时可用资源的数量。这可能导致所有资源都参与错误恢复而未留有可用于数据传送的执行的资源。因此,需要具有一种用于相对于相应的系统资源的数量缩放错误阈值的系统。

发明内容
此处公开的发明使用一种基于所有类似系统资源设备的总数来增加或减少这些设备的错误阈值的系统。当只有很少设备可用时,即使一个设备离线也能够严重地限制通信系统的带宽。由此,只有当错误状态很严重或者以很高程度的频率发生时才应当使设备离线。相反,当大量设备可用时,使一个或多个设备离线可能对系统吞吐量产生微不足道的影响。因此,阈值被与可用设备的数量成反比例的设置。当设备的数量相对大时,错误阈值被设置得低,而当设备的数量相对低时,错误阈值被设置得高。
根据后面说明中的描述,并且根据在所附权利要求中被具体指出的新特征,本发明的各种其它目的和优点将变得很清楚。因此,为了实现以上所述的目的,本发明包括此后在附图中所示的、在优选实施例的详细说明中被全面描述的、并且在权利要求中被具体指出的特征。然而,这样的附图和说明仅公开了可以实施本发明的各种方式中的一些。


图1是示出了计算机存储系统的方块图,所述计算机存储系统包括主机服务器、数据处理服务器、数据存储设备以及数据通信系统;图2是示出了通信构造设备的方块图,所述通信构造设备包括处理设备、构造设备控制器和主机适配器;图3是示出了按照本发明的包括错误计数器和错误阈值的通信构造设备的方块图;图4是示出了动态阈值缩放算法的流程图。
具体实施例方式
本发明基于这样的思想,即使用动态缩放的错误阈值调整计算机存储系统的通信构造设备内的错误恢复动作。此处公开的发明可以被实现为使用标准编程或工程技术产生软件、固件、硬件或其任意组合的方法、装置或制造产品。此处使用的术语“制造产品”是指在硬件或计算机可读介质中实现的代码或逻辑,所述计算机可读介质诸如光存储设备以及易失的或非易失的存储器设备。这样的硬件可以包括,但并不限于,场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)、复杂可编程逻辑设备(“CPLD”)、可编程逻辑阵列(“PLA”)、微处理器或其它类似的处理设备。
参见附图,其中相似的部分被指定采用相同的参考标号和符号,图3是示出了通信构造设备120的方块图,所述通信构造设备120包括处理设备122、构造设备控制器124以及多个主机适配器126。处理设备122包括软件子组件122a和相应于所述多个主机适配器126的多个错误计数器122b。此外,处理设备122包括具有多个存储器单元125的存储器设备122c,每个所述存储器单元相应于所述主机适配器126中的一个主机适配器。
由软件子组件122a将错误阈值127写到每个存储器单元125。构造设备控制器124将处理设备122连接到主机适配器126,并且主机适配器将通信构造设备120连接到主机服务器(“主机”)。处理设备122可以是数据处理服务器或对称多处理器(“SMP”)复合体。本发明调整错误恢复动作,以便基于动态缩放的错误阈值纠正这些错误状态。
在本发明的这个实施例中,可以存在五种异类的错误状态(1)组件超时,(2)适配器热启动超时,(3)构造设备中断,(4)适配器故障,以及(5)适配器中断。组件超时表示构造设备组件已不能提供确认。适配器中断表示适配器已检测到故障但没有出现内部故障。构造设备中断表示已经发生了总线协议违规。
图4的流程图示出了动态阈值缩放算法200。在步骤202,由软件子组件122a检测启动事件。启动事件可以是主机适配器126的激活或失活(deactivation)。在步骤204,软件子组件122a评估相似类型的全部可用资源的数量。
在步骤206,以与可用资源的数量成反比例地动态调整错误阈值。如果资源的数量因主机适配器126的激活而增加,则减小错误阈值。如果资源的数量因主机适配器126的失活而减少,则增大错误阈值。
制造错误恢复系统领域的技术人员可以开发本发明的其它实施例。然而,上述说明中采用的术语和表述在此处被用作说明的术语而不是限定,并且使用这样的术语和表述并不旨在将示出和描述的特征或其部分的等效物排除在外,应当认识到,本发明的范围仅由后面的权利要求规定和限定。
权利要求
1.一种错误恢复系统,包括多个系统资源;包括存储器设备的处理设备,所述存储器设备包括多个存储器单元,并且所述多个存储器单元中的每一个对应于所述多个系统资源中的一个;以及通信通道,将所述多个系统资源连接到所述处理设备;其中所述处理设备还包括软件子组件,所述软件子组件用于检测所述多个系统资源、计算表示所述多个系统资源的第一数量、计算与所述第一数量成反比例的错误阈值、以及将所述错误阈值写到所述多个存储器单元中的每一个。
2.如权利要求1的错误恢复系统,其中所述处理设备包括对称多处理器(“SMP”)复合体。
3.如权利要求1的错误恢复系统,其中所述多个系统资源包括多个主机适配器。
4.如权利要求1的错误恢复系统,其中所述软件子组件适用于检测与所述多个系统资源中的第一个系统资源相关的错误状态,并且增加相应于所述多个系统资源中的所述第一个系统资源的错误计数器内的值。
5.如权利要求4的错误恢复系统,其中如果所述值超过了相应于所述多个系统资源中的所述第一个系统资源的所述错误阈值,则复位所述多个系统资源中的所述第一个系统资源。
6.如权利要求4的错误恢复系统,其中如果所述值超过了相应于所述多个系统资源中的所述第一个系统资源的所述错误阈值,则隔开所述多个系统资源中的所述第一个系统资源。
7.如权利要求6的错误恢复系统,其中所述多个系统资源中的所述第一个系统资源被静止。
8.如权利要求3的错误恢复系统,其中当所述多个主机适配器中的一个被启动时,所述软件子组件计算所述错误阈值。
9.如权利要求3的错误恢复系统,其中当所述多个主机适配器中的一个失活时,所述软件子组件计算所述错误阈值。
10.一种错误恢复的方法,包括如下步骤检测多个系统资源;计算表示所述多个系统资源的第一数量;计算与所述第一数量成反比例的错误阈值;以及将所述错误阈值写到所述多个存储器单元中的每一个。
11.如权利要求10的方法,还包括步骤检测与所述多个系统资源中的第一个系统资源相关的错误状态;以及增加相应于所述多个系统资源中的所述第一个系统资源的错误计数器内的值。
12.如权利要求11的方法,还包括步骤,如果所述值超过了相应于所述多个系统资源中的所述第一个系统资源的错误阈值,则复位所述多个系统资源中的所述第一个系统资源。
13.如权利要求11的方法,还包括步骤,如果所述值超过了相应于所述多个系统资源中的所述第一个系统资源的错误阈值,则静止所述多个系统资源中的所述第一个系统资源。
14.如权利要求11的方法,还包括步骤,如果所述值超过了相应于所述多个系统资源中的所述第一个系统资源的错误阈值,则隔开所述多个系统资源中的所述第一个系统资源。
15.如权利要求10的方法,其中当所述多个系统资源中的一个系统资源启动时,发生所述检测多个系统资源的步骤。
16.如权利要求10的方法,其中当所述多个系统资源中的一个系统资源失活时,发生所述检测多个系统资源的步骤。
17.一种包括数据存储介质的制造产品,所述数据存储介质包括可以由处理设备执行以便实现一种算法的一组机器可读指令,所述算法包括如下步骤检测多个系统资源;计算表示所述多个系统资源的第一数量;计算与所述第一数量成反比例的错误阈值;以及将所述错误阈值写到所述多个存储器单元中的每一个。
18.如权利要求17的制造产品,还包括如下步骤检测与所述多个系统资源中的第一个系统资源相关的错误状态;以及增加相应于所述多个系统资源中的所述第一个系统资源的错误计数器内的值。
19.一种提供用于管理支持系统的服务的方法,包括将计算机可读代码集成到计算系统中,其中与所述计算系统结合的所述计算机可读代码能够执行以下步骤检测多个系统资源;计算表示所述多个系统资源的第一数量;计算与所述第一数量成反比例的错误阈值;以及将所述错误阈值写到多个存储器单元中的每一个。
20.如权利要求19的方法,还包括如下步骤检测与所述多个系统资源中的第一个系统资源相关的错误状态;以及增加相应于所述多个系统资源中的所述第一个系统资源的错误计数器内的值。
全文摘要
一种包括错误恢复系统的计算机系统与相似类型的系统资源诸如主机适配器的数量成反比例地建立错误阈值。当主机适配器启动或失活时,处理设备的软件子组件计算新的阈值数量,并且将其写到与每个主机适配器相关的存储器单元。当错误的数量超过了所述阈值数量时,所述主机适配器被复位、被静止以便修复、或被隔开以便进行替换。
文档编号G06F11/00GK1776633SQ200510123299
公开日2006年5月24日 申请日期2005年11月15日 优先权日2004年11月16日
发明者D·F·德阿劳约, P·M·里查兹, B·A·里纳尔迪, T·C·索伦森 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1