用于直接附连存储系统的活动-活动故障转移的制作方法

文档序号:6479988阅读:137来源:国知局
专利名称:用于直接附连存储系统的活动-活动故障转移的制作方法
技术领域
本发明一般涉及存储系统,尤其是涉及直接附连存储系统。
背景技术
在商业环境中应用的计算机网络持续要求更多的存储。典型地,企业使用集中式数据存储系统,并且计算机网络包括各种个人电脑、膝上型电脑等,其通过网络与数据存储系统进行通信。数据存储系统典型地包括一个或更多个服务器,控制专用数据存储资源(如,硬盘驱动器、磁盘或光盘)上的信息存储以及从专用数据存储资源的信息检索 (retrieval)。随着存储需求的持续增加,集中式存储系统的存储容量变得越来越大,且系统变得越来越复杂,操作代价很高。由于对冗余存储能力的附加需求,复杂性和成本增加。
一些企业已经将存储资源迁移到存储域网络(SAN)。SAN是专用的高速计算机网络,典型地用于将具有少量或没有本地存储的计算机系统或服务器(将其共同称为“主机”)附连到提供大部分存储和共享存储的后端存储设备。SAN的主要用途是在主机和存储设备之间传送数据。SAN典型地包括提供物理连接的通信基础结构和组织所述连接、存储元件和计算机系统的管理层,以使数据传送安全且鲁棒。尽管不是必需的,但SAN典型地以块输入/输出(I/O)服务加以标识。SAN提供了对于传统的在服务器和本地存储元件之间的专用连接以及对服务器可以存取的数据量的任何限制的替代方式。相反,SAN提供了网络化的灵活性,使得一个服务器或多个异构服务器能够共享公共存储单元,所述公共存储单元可以包括存储控制器和许多存储设备,如盘式、带式、光学的、或其他的存储设备或系统。 尽管基于SAN的方案有很多优点,其对许多较小型的企业而言或在小型的交换机部署中仍是极其昂贵的。
另一存储解决方案涉及直接附连存储(DAQ,其中所有的存储都被每一服务器看作是本地的,并且都在与服务器集成的存储控制器的直接控制之下。所述存储可物理地在服务器内或在服务器外或是两者的组合,但DAS系统的关键区别是这种存储的控制器对于每个服务器被看作是本地的,且不与其他服务器共享。该方法的主要优点是,其成本明显低于SAN,至少对于小型配置来说。然而,DAS方法也有缺点。例如,主要的限制是存储仅是本地的,且不能在服务器间共享,因此产生的主要限制在容错性方面。如果服务器“死掉”(die),则其所有的存储随其而死掉,并且无法再访问这些数据。相反,SAN方法允许相同数据由其他服务器存取,这可以(以高成本)提供方便的故障转移机制。
尽管冗余存储系统和基于SAN的存储方案有许多优点并获得商业成功,但是在本领域中仍存在对更加成本有效的冗余存储系统的需要。

发明内容
公开了用于向无故障转移(non-failover)能力的直接附连存储(DAS)服务器提供活动-活动(active-active)故障转移(failover)能力的系统、方法、计算机系统和计算机程序的多种实施例。一个实施例是一种直接附连存储(DAQ系统,其包括包括第一存储控制器的第一 DAS服务器;包括第二存储控制器的第二 DAS服务器,该第二 DAS服务器通过本地接口与第一 DAS服务器通信;和与第一 DAS服务器和第二 DAS服务器中的至少一个相关联的区域扩展器设备,该区域扩展器设备适于将第一和第二 DAS服务器附连到第一存储设备和第二存储设备,该区域扩展器设备包括适于配置第一存储区域和第二存储区域的区域配置模块,该第一存储区域包括第一 DAS服务器和第一存储设备,该第二存储区域包括第二 DAS服务器和第二存储设备;其中该第一 DAS服务器进一步包括活动-活动故障转移模块,其适于检测该第二 DAS服务器的故障;禁止(disable)第二存储区域;和将第二存储设备加到第一存储区域。
另一实施例是一种用于向无故障转移能力的直接附连存储(DAS)服务器提供活动-活动故障转移能力的方法。一种这样的方法包括附连第一和第二无故障转移能力的直接附连存储(DAQ服务器;通过支持存储分区的扩展器将第一和第二 DAS服务器直接附连到共享存储池;配置包括第一 DAS服务器和共享存储池的第一部分的第一存储区域;配置包括第二 DAS服务器和共享存储池的第二部分的第二存储区域;检测该第二 DAS服务器已经故障;将共享存储池的第二部分划分出去;以及将该共享存储池的第二部分映射到第一存储区域。
另一实施例包括用于向通过区域扩展器直接附连到多个存储设备的无故障转移能力的直接附连存储(DAQ服务器提供活动-活动故障转移能力的计算机程序。在计算机可读介质中实现的且可由处理器执行的一种这样的计算机程序包括如下的逻辑,所述逻辑被配置来配置包括第一 DAS服务器和存储设备的第一部分的第一存储区域;配置包括第二 DAS服务器和存储设备的第二部分的第二存储区域;检测第二 DAS服务器的故障;将第二存储区域划分出去;以及将所述存储设备的第二部分映射到第一存储区域。


图1是示出具有活动-活动故障转移能力的直接附连存储(DAS)系统的实施例的框图。
图2是示出与图1的DAS系统的操作相关联的活动-活动故障转移方法的实施例的某些方面的流程图。
图3示出了图1的DAS系统的示例性分区配置。
图4是示出与图1的DAS系统的操作相关联的活动-活动故障转移方法的另一实施例的附加方面的流程图。
图5示出了在故障转移模式期间的图4的DAS系统。
图6是示出了图1的区域管理模块和/或活动-活动故障转移模块的实施例的体系结构、操作和/或功能性的流程图。
具体实施例方式图1示出了用于实施活动-活动故障转移功能的多种实施例的直接附连存储 (DAS)系统100的实施例。该DAS系统100典型地包括一个或更多个DAS服务器102,其通过端口扩展器110直接附连到共享存储池104。一般地,在服务器故障的情况下,活动-活动故障转移功能使能一个DAS服务器102以接管另一个DAS服务器102的存储服务,并且当故障的服务器返回到服务时,将存储服务返还给先前故障的DAS服务器102。如下面更详细描述地,该活动-活动故障转移功能提供了冗余存储机制,以在系统故障的情况下,使能 DAS服务器102之一接管另一 DAS服务器102的存储任务。在一实施例中,该活动-活动故障转移功能至少部分地通过操作由端口扩展器110和/或一个或更多个存储控制器106提供的存储分区特征来实现。存储控制器106和/或端口扩展器110可以与DAS服务器102 集成,或被提供作为连接到DAS服务器102的外部设备。应当理解,在一些实施例中,存储控制器106和/或端口扩展器110的某些方面可以与存储设备104集成。
一般地,存储控制器106包括处理设备,处理设备用于管理相关联的存储设备104 上的物理存储,以及将该存储作为逻辑单元呈现。存储设备104可以包括任何合适的存储装置,例如,盘系统(如,盘簇(JBOD)、独立盘冗余阵列(RAID)等)、光学系统、或带式系统 (如,带驱动器、带自动加载机、带库)。存储控制器106与端口扩展器110相关联地操作, 来将DAS服务器102直接连接到存储池104的相应部分。DAS服务器102和存储池104之间的连接由连接118表示。连接118包括任何如下的非网络化的连接,通过该连接存储池 104或其它数字存储系统连接到DAS服务器102,而两者之间没有存储网络。连接118可以包括任何期望的一个或更多个物理连接或配置,并且可以支持任何合适的数据传送技术、 物理接口或通信协议。
在一实施例中,连接118和DAS系统100中的组件和/或接口可以被配置为支持一个或更多个小型计算机系统接口(SCSI)标准。本领域普通技术人员将理解,DAS系统100 可以实现任何其他合适的数据传送技术。例如,一示意性工作环境支持串行附连SCSI (SAS) 数据传送技术。在这些实施例中,端口扩展器110可以包括SAS扩展器。一般地,端口扩展器110包括用于促进大量的存储设备104和DAS服务器102之间的通信的组件。SAS扩展器是一种这样的设备,其可以在任何附连到它的连接(即,端口)之间创建通信路径。称其为“扩展器”是由于这样的事实在实施例中,通常的用法是在少量服务器(或“主机”)端口和设备(或“盘”)端口之间创建通信路径,因此实际上“扩展”了主机到设备的连接性。 某些类型的扩展器包括被称为“分区(zoning) ”的特征,其允许用户配置将哪些端口连接到哪些其他端口。这是保护数据路径安全性和下面描述的“区域”的关键特征。然而,应当理解,在实施例中,分区特征可以以所有可能端口的活动矩阵(activation matrix)来实现, 并且用户可以对每个端口编程(如,通过引导代码或在线地)其是否可以与任何其他端口连接。连接的(即,被分区在内的)端口不需要知道中间存在扩展器。未连接的(即,被分区在外的)端口甚至无法知道其他端口的存在,就此意义而言,就好像有“线,,连接那些被连接的端口一样。
参考图1,DAS服务器102可以包括活动-活动故障转移模块116,其可以与存储控制器106集成,或者以另外的方式与DAS服务器102集成。如下面更详细描述的,活动-活动故障转移模块116可以被配置来检测DAS服务器102之一的故障,并且随后在故障转移和故障恢复(fail back)过程期间命令端口扩展器(如,通过存储控制器106)重新编程区域表114中定义的存储区域。就这一点而言,活动-活动故障转移模块116被配置来与端口扩展器通信。端口扩展器110包括若干与活动-活动故障转移模块116结合以通过操作区域能力来实现活动-活动故障转移功能的组件区域管理模块112 ;和用于存储分区信息的一个或更多个数据结构(如,区域表114)。应当理解,区域管理模块112和DAS服务器102中的活动-活动故障转移模块116包括用于提供与活动-活动故障转移和故障恢复过程相关联的特定功能的逻辑。尽管在图1中被示出为单独的模块,但是这些模块可以包括多个模块,并且在特定实施例中,相关联的逻辑可以组合成一个或更多个相关联模块。本领域普通技术人员将理解,这些组件可以以软件、硬件、固件或它们的任何组合实现。在某些实施例中,所述模块可以以存储在存储器中并由存储控制器106或其他任何处理器或合适的指令执行系统执行的软件或固件实现。
本领域普通技术人员将理解,与模块112、114和16 (或者,与DAS系统100相关联的任何其他模块)的操作相关联的任何过程或方法说明,可以表示代码的部分、或逻辑、 段、模块,其包括一个或多个用以实现该过程中的逻辑功能或步骤的可执行指令。应进一步理解,根据涉及的功能性,任何逻辑功能可不按照描述的顺序执行,包括基本上同时地或以相反的顺序进行,正如本领域技术人员将理解的那样。而且,这些模块可以实施在任何计算机可读介质中,由或结合指令执行系统、装置或设备(诸如,基于计算机的系统、含处理器的系统)或者可从指令执行系统、装置或设备取回指令并执行该指令的其它系统使用。
一般地,区域管理模块112包括用于配置存储区域的逻辑。如上所述,存储区域用于定义存储池104的哪些部分要由任何特定的DAS服务器102服务。例如,参考附图3,存储区域A可以定义第一存储系统A,其包括DAS服务器10 和由DAS服务器10 服务的存储设备104a,而第二存储区域B可以定义第二存储系统B,其包括DAS服务器102b和由 DAS服务器102b服务的存储设备104b。可使用任何期望的分区配置定义各种存储系统。尽管为了说明活动-活动故障转移功能的操作,剩余的描述将使用简化的包括区域A和B的两分区配置来描述活动-活动故障转移功能的操作,但是,应当理解,任何数目(M)的区域和任何数目(N)的DAS服务器可以在M个区域上提供N-路故障转移机制。应进一步理解, DAS服务器102中的活动-活动故障转移模块116 —般包括用于实现故障转移和故障恢复 (fallback)过程的逻辑,如下文所述。
下面参考图2-5描述用于使用由端口扩展器110提供的分区特征实现活动-活动故障转移功能的方法的多个实施例的操作。图2、3和5 —般性地示出了区域配置和故障转移过程。图4 一般性地示出了故障恢复过程。
参考图2所示的方法200,在框202,DAS服务器10 和10 通过支持分区能力的端口扩展器110直接连接(即,连接118)到存储池104。在框204和206,该DAS系统100 以任意的常规的或其他方式配置两个或多个存储区域。如图3所示,第一存储区域A可被配置来定义DAS服务器10 和相关联的要由DAS服务器10 服务的存储设备10如。第二存储区域B可被配置来定义DAS服务器102b和相关联的要由DAS服务器102b服务的存储设备104b。尽管DAS服务器10 和102b可被配置为共享存储池104,但是在其中存储控制器106被实现为RAID控制器的实施例中,存储区域可以被限制为例如使得DAS服务器 10 和102b每一都具有静态分配的虚拟盘,且DAS系统100中的每个虚拟盘在任何时候都不能由多个DAS服务器102共享或访问。在另一非RAID实施例中,这种限制可以被减少、 改变或移除。
在DAS系统100被配置且根据区域操作之后,在框208,DAS系统100确定活动的 (active)DAS服务器102之一已故障。故障检测可以任何合适的方式执行。在一实施例中, 可以通过本地接口(图1)连接DAS服务器102,在这种情况下,可以使用心跳(heartbeat)机制或查验(Ping)机制来检测服务器故障。在一实施例中,可以使用局域网络(LAN)上的心跳机制。其他实施例可以使用例如SAS上的后端心跳,或者可以通过各种机制(如,服务控制台等)通知对系统进行控制的共享管理工具。在该示例中,DAS服务器102b表示故障的服务器。在框210,由DAS服务器102b服务的存储设备104b被划分出去。所述划分出去可以由与端口扩展器110通信(如,经过存储控制器106或边带)的活动-活动故障转移模块116控制。在框212,在该示例中,存储设备104b被映射到活动的区域,即区域A。 应当理解,端口扩展器110基于内部配置表(如,表114)控制这些区域。初始映射可以由创建具有合适区域的基础配置的引导代码或系统控制台完成。在故障转移的情况下,幸存的DAS控制器可以覆写除死的控制器端口以外的区域,并将设备端口加到其自身的区域映射中。在故障恢复的情况下,幸存的控制器可以把要返回给再生效的(revived)DAS服务器的盘端口划分出去,并且划分入其他DAS服务器。有多种方式实现区域映射。在基于RAID 的实施例中,例如,RAID控制器将看到呈现到盘端口的一组外部盘。活动-活动故障转移模块116可以对控制器通信以引入这些外部盘,并随后对DAS服务器公开这些配置。以这种方式,如框214和图5所示的,在故障转移过程完成之后,DAS服务器10 服务存储设备 10 和104b两者。
参考图4所示的方法400,在框402和404,可以在检测到先前故障的服务器(即, DAS服务器102b)已回到服务时,发起故障恢复过程。再次地,这可以通过心跳或查验 (ping)或其他机制实现。在框406,DAS服务器10 可以终止与存储设备104b相关联的服务,从而使得它们可以准备故障恢复。在框408,DAS系统100将存储设备104b从区域A 中划分出去。在框410,DAS系统100将结合区域B将存储设备104b划分在区域中。如上所述,可以通过一个或更多个区域表114管理该分区信息。在框412,重新活动的DAS服务器102b可以检测存储设备104b,并恢复操作。
图6是示出了区域管理模块112和活动-活动故障转移模块116的实施例的体系结构、操作和/或功能的流程图。在框602和604,区域管理模块112根据需要配置存储区域。区域管理模块112可以被配置为使得DAS服务器102(或其他计算机系统)的用户能够人工地配置存储区域。在判断框606,活动-活动故障转移模块116检测DAS服务器102b 的故障。在框608和610,活动-活动故障转移模块116将存储设备104b从区域B中划分出去,并将其映射到区域A。活动-活动故障转移模块116监视DAS系统100,以确定故障的DAS服务器102b何时返回在线(on line)(判断框612)。当故障的DAS服务器102b返回到服务时,在框614和616,活动-活动故障转移模块116将存储设备104b从区域A中划分出去,并将存储设备104b划分入区域B。
应当注意,本公开已参考一个或多个示意性或描述的实施例进行描述,以说明本发明的原理和概念。本发明不限于这些实施例。如本领域技术人员将理解的,根据此处提供的描述,可以对此处描述的实施例作出许多变型,并且所有这些变型都在本发明的范围内。
权利要求
1.一种直接附连存储(DAS)系统,包括 第一 DAS服务器,其包括第一存储控制器;第二 DAS服务器,其包括第二存储控制器,所述第二 DAS服务器通过本地接口与所述第一 DAS服务器通信;和区域扩展器设备,其与所述第一 DAS服务器和所述第二 DAS服务器中的至少一个相关联,所述区域扩展器设备适于将所述第一 DAS服务器和所述第二 DAS服务器连接到第一存储设备和第二存储设备,所述区域扩展器设备包括区域配置模块,其适于配置第一存储区域和第二存储区域,所述第一存储区域包括所述第一 DAS服务器和所述第一存储设备,所述第二存储区域包括所述第二 DAS服务器和所述第二存储设备;其中,所述第一 DAS服务器进一步包括活动-活动故障转移模块,所述活动-活动故障转移模块适于检测所述第二 DAS服务器的故障;禁止所述第二存储区域;和将所述第二存储设备加到所述第一存储区域。
2.如权利要求1所述的DAS系统,其中所述第一存储设备和第二存储设备包括独立盘冗余阵列(RAID)控制器。
3.如权利要求1所述的DAS系统,其中所述区域扩展器设备支持小型计算机系统接口 (SCSI)标准。
4.如权利要求3所述的DAS系统,其中所述区域扩展器包括串行附连SCSI(SAS)扩展ο
5.如权利要求1所述的DAS系统,其中所述区域扩展器设备包括外部切换单元。
6.如权利要求1所述的DAS系统,其中所述区域扩展器设备与所述第一存储控制器和所述第二存储控制器中的至少一个集成。
7.如权利要求1所述的DAS系统,其中所述区域扩展器设备与所述第一存储设备和所述第二存储设备中的至少一个集成。
8.如权利要求1所述的DAS系统,其中所述区域扩展器设备与公共背板互连单元集成。
9.如权利要求1所述的DAS系统,其中所述活动-活动故障转移模块进一步适于 检测所述第二 DAS服务器返回到服务中;从所述第一存储区域中移除所述第二存储设备;和使能所述第二存储区域。
10.一种用于向无故障转移能力的直接附连存储(DAS)服务器提供活动-活动故障转移能力的方法,所述方法包括连接第一和第二无故障转移能力的直接附连存储(DAQ服务器; 通过支持存储分区的扩展器将所述第一和第二 DAS服务器直接连接到共享存储池; 配置包括所述第一 DAS服务器和所述共享存储池的第一部分的第一存储区域; 配置包括所述第二 DAS服务器和所述共享存储池的第二部分的第二存储区域; 检测所述第二 DAS服务器已经故障; 将所述共享存储池的所述第二部分划分出去;和将所述共享存储池的所述第二部分映射到所述第一存储区域。
11.如权利要求10所述的方法,其中所述第一和第二DAS服务器实现小型计算机系统接口(SCSI)标准。
12.如权利要求11所述的方法,其中所述扩展器包括串行附连SCSI(SAQ扩展器。
13.如权利要求10所述的方法,进一步包括 检测所述第二 DAS服务器返回到服务中;将所述共享存储池的所述第二部分划分出去;将所述共享存储池的所述第二部分映射到所述第二存储区域。
14.一种用于向通过区域扩展器直接附连到多个存储设备的无故障转移能力的直接附连存储(DAQ服务器提供活动-活动故障转移能力的计算机程序,所述计算机程序实现在计算机可读介质中,并能够由处理器执行,所述计算机程序包括如下的逻辑,所述逻辑被配置来配置包括第一 DAS服务器和所述存储设备的第一部分的第一存储区域; 配置包括第二 DAS服务器和所述存储设备的第二部分的第二存储区域; 检测所述第二 DAS服务器的故障; 将所述第二存储区域划分出去;和将所述存储设备的所述第二部分映射到所述第一存储区域。
15.如权利要求14所述的计算机程序,其中所述逻辑的至少一部分与和所述第一和第二 DAS服务器中的至少一个相关联的存储控制器集成。
16.如权利要求14所述的计算机程序,其中所述逻辑的至少一部分与所述区域扩展器集成。
17.如权利要求14所述的计算机程序,进一步包括如下的逻辑,该逻辑被配置来 检测所述第二 DAS服务器返回到服务中;将所述存储设备的所述第二部分划分出去;将所述存储设备的所述第二部分映射到所述第二存储区域。
全文摘要
向无故障转移能力的直接附连存储(DAS)服务器提供活动-活动故障转移能力包括通过支持存储分区的扩展器将第一和第二无故障转移能力的直接附连存储(DAS)服务器直接连接到共享存储池;配置包括所述第一DAS服务器和所述共享存储池第一部分的第一存储区域;配置包括所述第二DAS服务器和所述共享存储池第二部分的第二存储区域;检测所述第二DAS服务器已经故障;将所述共享存储池的所述第二部分划分出去;和将所述共享存储池的所述第二部分映射到所述第一存储区域。
文档编号G06F13/00GK102187324SQ200880131619
公开日2011年9月14日 申请日期2008年11月13日 优先权日2008年11月13日
发明者L·伯特 申请人:Lsi公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1