协调的灾难恢复生产接管操作的制作方法

文档序号:7989819阅读:180来源:国知局
协调的灾难恢复生产接管操作的制作方法
【专利摘要】提供了用于协调灾难恢复的示范性方法、系统和计算机程序产品的实施例。在一个实施例中,仅作为示例,调节处理被执行用于解析接管操作所用的灾难恢复系统中的相交数据和不相交数据。拥有权同步处理被协调用于在灾难恢复系统中通过调节处理复制磁带盒。灾难恢复系统继续作为用于源系统的复制目标并且继续作为用于本地备份应用程序的备份目标。还公开了另外的系统和计算机程序产品的实施例并提供了相关优点。
【专利说明】协调的灾难恢复生产接管操作
【技术领域】
[0001]本发明主要涉及计算机,并且更具体地涉及协调的灾难恢复生产接管操作。
【背景技术】
[0002]在当今社会,计算机系统已经普及。在工作场所、在家中或者在学校都能见到计算机系统。计算机系统可以包括用于处理和存储数据的数据存储系统或磁盘存储系统。数据存储系统或磁盘存储系统被用于处理和存储数据。存储系统可以包括ー个或多个磁盘驱动器。这些数据处理系统通常需要大量的数据存储器。客户数据或者由用户在数据处理系统内生成的数据占用了此类数据存储器的一大部分。这些计算机系统中有很多包括虚拟存储组件。
[0003]虚拟存储组件可以在各种不同的计算环境中见到。典型的虚拟存储组件是通过磁带驱动器使用的磁带盒。在磁带库中可以包含多个磁带驱动器以及用于容纳磁带盒的若干插槽。这样的数据存储系统利用存储组件(通常是直接访问的存储器例如磁盘阵列)来虚拟地给出磁带库或磁带驱动器。两种类型的技木通常用于备份和恢复用途。集成有现有的备份软件以及现有的备份和恢复处理的虚拟磁带库通常都能实现较快的备份和恢复操作。经常需要将这样的数据存储实体从其起源站点复制到远程站点。复制的数据系统可以具体化为各种逻辑数据存储实体例如文件、数据对象、备份图像、数据快照或虚拟磁带盒。
[0004]复制的数据实体增强了数据的容错能力和可用性。因此,特别是在当今的全球经济背景下,建立用于这些大規模计算机系统的灾难恢复(DR)方案就变得非常关键。规模可变的公司以及大多数西方国家的政府都需要有DR方案。大多数现代标准都指定了 3-4个站点(多对多)的拓扑组用于在存储系统之间复制数据,其目的在于在存储系统内保持数据的3到4份副本。

【发明内容】

[0005]如前所述,现代标准通常指定了 3-4个站点(多对多)的拓扑组用于在存储系统之间复制数据,其目的在于在存储系统内保持数据的3到4份副本。在多对多的拓扑结构中,难点在于确保作为灾难恢复(DR)方案一部分的接管处理避免形成降低生产率和效率的情况。这样的难点包括避免可能出现的数据损坏状况——特别是在涉及多个交错系统之间的同步处理时和/或在用户于特定的生产现场最終使用了错误的磁带盒的情况下。这种低效率降低了性能并且可能有损于在存储系统内保持数据副本的完整性。
[0006]因此并且鉴于上述内容,提供了各种不同的用于协调灾难恢复的示范性方法、系统和计算机程序产品的实施例。在一个实施例中,仅作为示例,调节处理被执行用于解析灾难恢复系统中的相交数据和不相交数据供接管操作使用。拥有权同步处理被协调用于在灾难恢复系统处通过调节处理复制磁带盒。灾难恢复系统继续作为用于源系统的复制目标并且继续作为用于本地备份应用程序的备份目标。还公开了另外的系统和计算机程序产品的实施例并提供了相关优点。[0007]除了以上的示范性方法实施例以外,还提供了其他的示范性系统和计算机产品的实施例并给出了相关优点。提供以上的
【发明内容】
以用简化的形式引入选择的概念,以下在【具体实施方式】部分还要进行进ー步的介绍。本
【发明内容】
部分既不是为了指明要求保护的主题内容的关键特征或本质特征,也不是为了用于帮助确定要求保护的主题内容的范围。要求保护的主题内容并不局限于解决了【背景技术】中所述的任意或全部缺点的实施方式。
【专利附图】

【附图说明】
[0008]为了便于理解本发明的优点,通过參照在附图中示出的特定实施例对以上简要介绍的本发明给出更加具体的介绍。应该理解尽管这些附图示出了本发明的实施例,但不应因此被认为是限制了本发明的保护范围,通过利用附图以更多的特征和细节来介绍和阐述本发明,在附图中:
[0009]图1示出了在其中可以实施本发明各方面的示范性计算环境;
[0010]图2示出了在其中可以实施本发明各方面的在计算环境中包括处理器设备的示范性计算设备;
[0011]图3示出了用于在多对多的拓扑结构中协调灾难恢复生产接管操作的示范性方法的流程图;
[0012]图4示出了用于宣布系统离线的示范性方法的流程图;
[0013]图5示出了用于通过调节处理协调拥有权同步处理以用于复制磁带盒的示范性方法的流程图;
[0014]图6示出了用于在灾难恢复系统中执行调节处理用于接管操作的示范性方法的流程图;
[0015]图7示出了分配至不同远程系统的源数据集之间的相互关系类型的示范性框图;
[0016]图8A示出了用于复制的多对多系统(四个系统)的示范性框图,其中#3系统是源系统并且复制到所有其他的远程系统;
[0017]图SB示出了远程系统在灾难恢复接管之前的示范性框图,其中源系统#3不再可用;
[0018]图SC示出的示范性框图演示了由第一灾难恢复系统#1和咨询灾难恢复系统#2执行的接管操作;
[0019]图8D示出的示范性框图演示了由第二灾难恢复系统#2执行的接管操作;
[0020]图SE示出的示范性框图演示了由第二灾难恢复系统#4执行的接管操作;以及
[0021]图8F示出的示范性框图演示了每ー个灾难恢复系统退出灾难恢复模式并继续正常工作的情況。
【具体实施方式】
[0022]以下介绍在随后的说明和要求保护的主题内容中跟图示实施例相关的术语。
[0023]“磁带盒拥有权”是指表示磁带盒在某一系统中的可写能力的磁带盒属性。磁带盒可以在其拥有者的系统内允许写入。“灾难恢复(DR)模式”是指远程系统中的标记,表示某一远程系统现已用作供某一源系统使用的DR。DR模式可以促使阻断来自源系统的复制通信,其目的是为了保护复制的数据。“复制”是指在驻留于同一复制网格内的系统之间増量式拷贝重复数据的处理。“复制网格”是指提供范围的逻辑分组,在所述范围内即可在物理连接的不同元件之间建立复制操作。“复制网格管理器”是指负责在网格范围内复制和更改拥有权动作的组件(例如由处理器设备操作的软件组件)。“VTL”或“虚拟磁带库”是指虚拟磁带库也就是模拟实体库的计算机软件。“磁带盒”可以包括的项目有单个数据存储实体、多个数据存储实体、单个复制数据存储实体、多个复制数据存储实体、文件、数据对象、备份图像、数据快照、虚拟磁带盒以及本领域内公知可用作计算机环境中磁带盒的其他现有技木。而且,源系统站点可以指代第一存储系统、第一存储站点和主存储系统。远程系统站点可以被认为是指代辅助存储站点、辅助存储系统和远程存储系统。而且,远程系统站点在远程系统以灾难恢复模式运行时也可以被认为是指代灾难恢复系统。
[0024]多对多的拓扑结构对于一对ー和多对ー的拓扑结构来说可能会造成问题。在从源站点向不同的目的地复制不同的数据集或多个相交的数据集时,正常的灾难恢复处理应该从多个站点恢复,并且在有相交的情况下应该只在其中ー个目的地(具备其备份环境生产拥有权的那个目的地)上进行恢复。灾难恢复的解决方案应该避免用于多个源系统的可能处于复制中的DR系统停止并且避免潜在的数据损失/损坏和/或延长的RPO (恢复点目标)。现有技术无法解决这些问题,因此而降低了性能并且也可能会降低效率。
[0025]相比之下,并且为了解决上述的低效和性能问题,图示实施例中的机制用于以更加有效的方式在多对多拓扑结构(例如供虚拟磁带库(VTL)系统的复制使用的多对多拓扑结构)中协调灾难恢复生产接管操作。在多对多的拓扑结构中有多个系统可以用作灾难恢复(DR)系统并转移至DR模式。生产环境也可以转移至适当的DR系统站点。临时性生产站点可以建立新的磁带盒和/或在旧的磁带盒上写入同时仍然是多个其他的源系统的目标。为了允许将生产永久性转移至DR站点(原因是生产站点被宣告永久終止并且没有安排替代站点),协调拥有权同步处理可以在DR站点的复制网格内进行,以使得可以将源系统磁带盒的拥有权更改至DR站点(新生产站点)。整个协调处理可以在从其他源系统并行地接收复制数据时进行。
[0026]在一个可选实施例中,所述机制被设置用于执行调节处理以供解析多个灾难恢复系统中的相交数据和不相交数据供接管操作使用。在若干个灾难恢复系统中通过调节处理协调用于复制磁带盒的拥有权同步处理。灾难恢复系统继续成为用于(可能仍未离线的)多个源系统的复制目标以及用于本地备份应用程序的备份目标。
[0027]现转至图1,示出了计算环境中的数据存储系统(例如虚拟磁带系统)的示范性架构10。架构10如图所示为本地主机18和20提供存储设备并且向远程的计算机存储系统复制数据。跟存储设备14通信的本地存储系统服务器12通过包括例如光纤通道交換机16等组件的网络连接至本地主机18和20。光纤通道交換机16例如能够执行用于磁带设备的指令(譬如小型计算机系统接ロ(SCSI)指令)。本领域技术人员应该意识到架构10可以包括各种不同的存储组件。例如,存储设备14可以包括常规的硬盘驱动器(HDD)设备或者可以包括固态驱动器(SSD)设备。
[0028]本地存储系统服务器12通过网络22连接至远程存储系统服务器24。远程服务器24通过另外的网络和网络组件28例如光纤通道交換机28跟本地连接的磁盘存储设备26以及本地连接的主机30和32通信。网络22可以包括各种网络拓扑结构,例如广域网(WAN)、局域网(LAN)、存储区域网(SAN)和其他结构。类似地,交换机16和28可以包括其他类型的网络设备。
[0029]架构10如前所述为本地主机提供本地存储设备并且(正如用箭头34表示的数据复制功能所示)向远程数据存储系统提供复制的数据。正如将要介绍的那样,本发明的各种实施例和要求保护的主题内容可以在例如架构10这样的架构上实施。
[0030]图2示出了能够用于实现本发明实施例的一部分示范性计算机环境200。计算机202包括处理器204和存储器206例如随机存取存储器(RAM)。在一个实施例中,存储系统服务器12(图1)可以包括跟计算机202中所示内容相类似的组件。计算机202被有效地耦合至显示器219,显示器219通过图形用户界面218向用户提供图像例如视窗。计算机202可以被耦合至其他设备例如键盘216、鼠标设备220、打印机228等。当然,本领域技术人员应该意识到上述组件的任意组合或者任意数量的不同组件、外设和其他设备均可跟计算机202 —起使用。
[0031]通常,计算机202在存储器206内存储的操作系统(OS) 208 (例如z/OS、OS/2、LINUX、UNIX、WINDOWS、MAC OS)的控制下运行,并且通过例如图形用户界面(⑶I)模块232跟用户交互以接收输入和指令并给出结果。在本发明的一个实施例中,0S208有助于备份机制。尽管GUI模块232被图示为单独的模块,但是执行GUI函数的指令也可以驻留或分布在操作系统208、应用程序210内或者通过专用的存储器和处理器实施。0S208包括复制模块240和灾难恢复模块242,灾难恢复模块242可以适用于完成下述示范性实施例中的各种处理和机制,例如执行协调灾难恢复生产接管操作的功能。复制模块240和灾难恢复模块242可以用硬件、固件或者硬件和固件的组合来实施。在一个实施例中,复制模块240也可以被认为是复制网格管理器或复制管理器以用于像进ー步介绍的那样在复制网格的范围内执行和/或管理复制和更改拥有权的动作。而且,复制模块242可以执行所有必要的复制类型的事件和/或处理以实行图示实施例中的机制同时还作为复制网格管理器来工作和发挥作用。在一个实施例中,复制模块240和灾难恢复模块242可以实施为专用集成电路(ASIC)。本领域技术人员应该意识到跟复制模块240和灾难恢复模块242相关联的功能也可以连同跟处理器204、存储器206以及计算机202中的其他组件相关联的功能一起在称为片上系统(SoC)的特定ASIC内实施。而且,跟复制模块240和灾难恢复模块242 (或者同样地跟计算机202中的其他组件)相关联的功能可以被实施为现场可编程门阵列(FPGA)。
[0032]如图2所示,计算机202包括编译器212,编译器212允许用编程语言例如COBOL、PL/1、C、C++、JAVA、ADA、BASIC、VISUAL BASIC或者任意其他的能够被译为处理器204可读取代码的编程语言来编写应用程序210。在完成后,计算机程序210就利用通过使用编译器212生成的关系和逻辑来访问和操作计算机202的存储器206内存储的数据。计算机202还可选地包括外部数据通信设备230例如调制解调器、卫星链路、以太网卡、无线链路或者用于例如通过因特网或其他网络跟其他计算机通信的其他设备。
[0033]数据存储设备222是直接存取存储设备(DASD) 222,包括容纳多个数据集的ー个或多个主卷。DASD222可以包括多种存储介质例如硬盘驱动器(HDD)、固态设备(SDD)、磁带等。数据存储设备236也可以用类似于设备222的方式包括多种存储介质。设备236可以被指定为备份设备236以用于容纳主要存储在设备222内的多个数据集的备份版本。本领域技术人员应该意识到设备222和236无需位于同一台机器。设备222可以位于地理上不同的区域并通过网络链路例如以太网连接。设备222和236可以包括ー个或多个卷,其中针对每ー个卷都有对应的卷内容表(VTOC)。
[0034]在一个实施例中,实现操作系统208、计算机程序210和编译器212的指令实际上是在计算机可读取介质例如数据存储设备220内实施,其中可以包括ー种或多种固定或可移除的数据存储设备224例如zip驱动器、软盘、硬盘、DVD/⑶-ROM、数字磁带、闪存卡、固态驱动器等,统称为存储设备224。而且,操作系统208和计算机程序210包括指令,所述指令在由计算机202读取和执行时促使计算机202执行实施和/或使用本发明所必需的步骤。例如,计算机程序210可以包括用于实施如前所述的网格设置管理器、网格管理器和储存库管理器的指令。计算机程序210和/或操作系统208的指令实际上也可以在存储器206内实施和/或通过数据通信设备230传输或者由数据通信设备230存取。因此,如本文中可能用到的术语“制品”、“程序存储设备”和“计算机程序产品”应理解为涵盖了可以从任意的计算机可读取设备或介质中存取和/或操作的计算机程序。
[0035]本发明的实施例可以包括一种或多种相关联的软件应用程序210,其中包括例如用于管理分布式计算机系统的功能,所述分布式计算机系统包括计算设备网络例如存储区域网(SAN)。因此,处理器204可以包括存储管理处理器(SMP)。程序210可以在单台计算机202内运行或者作为包括计算设备网络的分布式计算机系统的一部分运行。正如本领域技术人员应该理解的那样,网络可以涵盖通过局域网和/或因特网连接(可以是公共或安全网络,例如通过虚拟私有网络(VPN)连接)相连或者通过光纤通道SAN或其他已知的网络类型相连的一台或多台计算机。(要注意的是光纤通道SAN通常仅用于计算机跟存储系统通信而不是彼此间的通信。)
[0036]如前所述,本发明的机制设置用于在远程系统处于灾难恢复(DR)模式并且仍然是用于其他源系统的复制目标和用于本地备份应用程序的备份目标时协调远程系统中复制磁带盒的拥有权同步处理。声明处于DR模式的远程系统可以变成ー个或多个灾难恢复系统的一部分。进入DR模式的声明可以由远程系统管理员在其自有的系统内完成并且可以专门用于已经出现故障的系统。DR模式的输出可以完全阻断来自特定源系统(例如离线或出现故障且不再可用的源系统)的所有复制通信。为了退出DR模式,用户可以选择运行接管操作以跟源系统其他可能的目的地(例如各种远程系统或其他的源系统)互相协调来同步对源系统磁带盒的拥有权。
[0037]正如以下要介绍的那样,本发明的机制寻求提供用于虚拟磁带(VT)系统的固有和协调的同步处理的能力,其目的是为了将复制组的状态恢复成灾难之前的原始状态。因此,所述机制允许将生产站点无缝切换到包括复制基准的多个灾难恢复(DR)站点。而且,用于复制和协调的同步处理可以跟正常的复制并行工作,目的是为了给ー个或多个源系统集合提供DR能力同时还允许其余的源系统正常复制。
[0038]图3是示出了用于在计算环境内多对多的拓扑结构中协调灾难恢复生产接管操作的示范性方法300的流程图。方法300 (在步骤302)开始,然后(在步骤304)执行协调处理以用于解析多个灾难恢复系统中的相交数据和不相交数据供接管操作使用。在若干个灾难恢复系统中通过调节处理协调用于复制磁带盒的拥有权同步处理(步骤306)。灾难恢复系统继续成为用于多个源系统的复制目标以及用于本地备份应用程序的备份目标(步骤308)。方法300 (在步骤310)结束。
[0039]在一个实施例中,所述机制可以宣布源系统离线。用户决定宣布他的源系统离线是为了允许DR系统接管离线的源系统的数据/磁带盒。在接管操作之前可以检查被选择离线的源系统是否已经离开复制网格。宣布源系统离线和/或离开复制网格可以分布在所有的复制网格系统中。
[0040]图4是示出了用于宣布系统离线的示范性方法400的流程图。方法400 (在步骤402)开始,然后(在步骤404)宣布源系统离线。允许灾难恢复系统执行接管操作(步骤406)。检查复制网格(步骤408)。方法400确定离线的源系统是否已经离开复制网格(步骤410)。如果答案为否,那么方法400 (在步骤414)结束。如果答案为是,那么方法400就通知所有的复制网格系统所述源系统已离线(步骤412)。方法400 (在步骤414)结束。
[0041]图5是示出了用于通过调节处理协调拥有权同步处理以供复制磁带盒使用的示范性方法500的流程图。方法500(在步骤502)开始,然后(在步骤504)确定是否有不相交的数据集分布在各灾难恢复系统中。如果答案为是,那么方法500就単独对每ー个灾难恢复系统执行接管操作(步骤506)。如果答案为否,那么方法500就确定是否有重叠的数据集分布在各灾难恢复系统中(步骤508)。如果答案为是,那么方法500首先由其中ー个灾难恢复系统执行接管操作以更改每ー个磁带盒的拥有权(步骤509)。如果答案为否,那么方法500就确定是否有相交的数据集分布在各灾难恢复系统中(步骤510)。如果答案为否,那么方法500 (在步骤522)结束。如果答案为是,那么方法500就根据由多个灾难恢复系统执行接管操作的顺序来确定磁带盒的拥有权(步骤512)。为了根据由灾难恢复系统执行接管操作的顺序来确定磁带盒的拥有权,方法500将确定灾难恢复系统是否首先执行接管操作(步骤514)。如果答案为是,那么方法500就获取每一个相交的磁带盒的拥有权(步骤516)。如果答案为否,那么方法500就确定灾难恢复系统(ー个或多个)是不是接下来要执行接管操作的灾难恢复系统(步骤518)。如果答案为否,那么方法500 (在步骤522)结束。如果答案为是,那么方法500就获取在正执行接管操作的后续执行灾难恢复系统(也就是自身)和已经执行了接管操作的灾难恢复系统之间相交的相交磁带盒的拥有权(步骤520)。例如,在网格内可以有四个灾难恢复系统,因此方法500可以如上所述对第一个灾难恢复系统执行接管操作,井随后对后续的灾难恢复系统执行接管操作。接管操作可以根据有哪些数据集相交而针对第一、第二、第三和第四灾难恢复系统反复执行。方法500检查并确定在剰余的灾难恢复系统之间是否还存在另外的相交数据集(步骤521)(该算法可以收敛为不相交的形式)。如果答案为是,那么方法500就返回并且根据由多个灾难恢复系统执行接管操作的顺序来确定磁带盒的拥有权(步骤512),然后重复如上所述的后续步骤。如果答案为否,那么方法500(在步骤522)结束。
[0042]图6是示出了用于在灾难恢复系统中执行供接管操作使用的调节处理的示范性方法600的流程图。方法600(在步骤602)开始,然后(在步骤604)在源系统的远程系统中激活灾难恢复(DR)模式。灾难恢复模式可以由于在源系统处出现的故障自动启动,由此使源系统离线(不可用);和/或通过管理员的偏好/选择来宣布源系统离线(不可用)而自动启动。可以允许灾难恢复系统有序地执行接管操作(步骤606)。每ー个灾难恢复系统可以依次执行接管操作。方法600确定是否可以对离线的源系统执行接管操作(步骤608)。如果答案为否,那么方法600 (在步骤622)结束。如果答案为是,那么方法600就通过复制网格管理器在复制网格内针对来自离线源系统的表示复制网格成员对磁带盒拥有权的第一列表发送请求(步骤610)。从需要执行接管操作的每ー个磁带盒构建第二列表(步骤612)。通过比较第一列表和第二列表将磁带盒标注为要接管磁带盒拥有权的候选者(步骤614)。将第二列表传输至灾难恢复系统(步骤616)。切換磁带盒的拥有权(步骤618)。方法600在离线源系统的每ー个灾难恢复系统中建立并继续一部分生产站点(步骤620)。方法600 (在步骤622)结束。
[0043]如上所述,DR模式可以在用于源系统(例如离线源系统)的每ー个DR系统处被激活。可以为了保护拷贝(磁带盒/数据)以及为了允许接管操作而进入DR模式。每ー个远程用户(灾难恢复系统)都可以选择有序地运行接管操作(例如依次运行接管处理)。所述机制检查是否可以针对专门选择的源系统(例如针对离线的源系统)运行接管操作。DR系统检查源系统是否已宣布离线。通过复制网格管理器在复制网格内发送请求,要求获取来自已经被不同的复制网格成员拥有的离线源的磁带盒列表。复制网格管理器向已经获得离线源系统的磁带盒拥有权的每一个复制网格成员发出请求以发送拥有磁带盒(数据)的复制网格成员拥有列表的列表。复制网格管理器建立单个列表并将列表传送至DR系统(ー个或多个)。所述机制建立所有需要接管的磁带盒的列表。需要的磁带盒可以具有来自离线源系统的拥有权标志。所述机制比较列表并识别出作为拥有权接管候选者的特定磁带盒。所述机制将所有候选磁带盒的拥有权切换至特定的DR系统。拥有权的切換可以反复地和异步地执行。离线源系统的生产站点可以根据被接管的特定磁带盒而在每ー个DR站点处部分地建立和继续。通过允许每ー个远程用户选择依次运行接管操作并且通过在每一个DR站点部分地建立和继续生产站点,本发明提供了用于针对每ー个远程DR系统反复地和/或并行地切換磁带盒的拥有权,特别是在其中执行网格的磁带盒列表创建操作的顺序是哪ー个DR系统获得哪ー个磁带盒拥有权的决定性因素,并且也取决于在不同DR系统之间的数据集相交。
[0044]图7示出了分配至不同远程系统的源数据集之间的相互关系类型的示范性框图700。在处理分布在不同DR系统中的不相交数据集720时,可以单独对每ー个系统执行接管操作且不存在对数据的风险。在处理分布在不同DR系统中的完全重叠的数据集时,任何一个DR系统中的第一次接管操作即可导致改变所有磁带盒的磁带盒拥有权,以使来自其他DR系统的后续接管操作不返回任何結果。在处理分布在不同DR系统中的相交数据集710时,接管操作的顺序决定了由哪些不同的DR系统获取磁带盒的拥有权。例如,运行接管的第一 DR系统将获取对于所有DR系统的相交磁带盒的拥有权并且还会获取运行接管的第一DR系统的特有磁带盒的拥有权。运行接管的第二 DR系统将获取在自身(运行接管的第二DR系统)和尚未运行接管操作的DR系统之间相交的磁带盒的拥有权。这样的操作可以ー直执行到在剰余的DR系统之间不存在相交数据集为止。计算/算法随后可以收敛为不相交的形式。每ー个远程用户(灾难恢复系统)退出对于特定源系统的DR模式。
[0045]为了示出用于复制磁带盒的拥有权同步处理所用的调节处理,以下的附图用于示出本发明机制的不范性实施例。如前所述,多对多的拓扑结构对于一对ー和多对ー的拓扑结构来说可能会造成问题。在从源站点向不同的目的地(例如灾难恢复系统)复制不同的数据集或多个相交的数据集时,系统可能会遭遇长时间的故障,导致无法将特定的磁带盒传送/复制到期望的目的地的故障。为了介绍此类故障和灾难恢复接管处理,给出了图8A-8F以介绍本发明的机制。
[0046]首先转至图8A,示出了用于复制的多对多系统(四个系统)的示范性框图800,其中#3系统是源系统并且复制到所有其他的远程系统。在图8A中,#3系统(图8中示为81OA)是源系统810。#3系统810A包含用于复制的三个磁带盒即磁带盒3,4和7。#3系统810A被示出为遇到了长时间的故障(显示大X以表示故障)。磁带盒3已经从源系统810A全部传送/复制到多对多系统中所有的灾难恢复(DR)系统812 (图8中示为812A,812B和812C)。磁带盒7从源系统#3810A完全传送到灾难恢复系统#1812A,但是在仅将部分数据复制到系统#2812C之后就无法完成传送/复制。磁带盒4仅复制到灾难恢复系统#2812C的目的地。用作生产站点的远程系统812(灾难恢复系统)现已建立用阴影(或812A和812B中可见的X形线)表示的磁带盒6和4。阴影较深的磁带盒表示磁带盒在系统内的拥有权。阴影较浅的磁带盒(或者用对角线或斑点示出的磁带盒)表示仅为复制的磁带盒。
[0047]图8B是将源系统#3810A示为不再可用(例如离线)的示意图830。所有远程系统的用户都处在对于源系统#3810A的DR模式并因此如块820所示无法从源系统#3810A接收复制内容。其他可用的源系统继续正常工作并且DR系统保留备份的本地数据。源系统#3810A的DR状态可以仅仅是暂时的。如果DR模式在尚未执行接管操作的情况下被取消,那么转移生产时的部分/全部磁带盒的拥有权同步就会丢失。
[0048]图8C是示出了由第一 DR系统#1812A执行接管操作的示意图840。所有远程系统的用户都处在对于源系统#3810A的DR模式并因此如块820所示无法从源系统#3810A接收复制内容。DR系统的用户运行离线宣布处理并声明源系统#3810A可以永久脱离复制网格管理器820。磁带盒3,7在检查源系统#3810A的磁带盒仍归源810A所有而不是归另ー个DR系统所有之后更改拥有权到DR系统#1812A。
[0049]图8D是示出了由第一 DR系统#2812C执行接管操作的示意图850。所有远程系统的用户都处在对于源系统#3810A的DR模式并因此如块820所示无法从源系统#3810A接收复制内容。DR系统#2812C从复制网格管理器820请求用于接管的可用磁带盒列表。复制网格管理器820查询和检索归其他磁带盒所有的全部源系统#3的列表(在此情况下拥有权仅在第一次接管操作时更改到DR系统#1)。因为磁带盒3,7已经归网格内的在线系统所有,所以它们不会改变拥有权。磁带盒4在检查源系统#3810A的磁带盒仍归源所有而不是归另ー个DR系统所有之后更改拥有权到DR系统#2812C。
[0050]图8E是示出了由第一 DR系统#4812B执行接管操作的示意图860。所有远程系统的用户都处在对于源系统#3810A的DR模式并因此如块820所示无法从源系统#3810A接收复制内容。DR系统#4812B从复制网格管理器820请求用于接管的可用磁带盒列表。复制网格管理器820查询和检索归其他磁带盒所有的全部源系统#3810A的列表(在此情况下拥有权仅在第一次和第二次接管操作时更改到DR系统#1812A和#2812C)。因为磁带盒3已经归网格内的在线系统所有,所以它不会改变拥有权。不再进行更多的操作。
[0051]图8F是示出了每ー个DR系统(812A-812C)的示意图870。所有远程系统的用户都处在对于源系统#3810A的DR模式并因此如块820所示无法从源系统#3810A接收复制内容。每ー个DR系统(812A-812C)均可继续正常工作,其中的每ー个生产数据都备份在相应的DR系统(812A-812C)内,DR系统可以包含最新拥有的磁带盒中的数据。
[0052]所属【技术领域】的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系統”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
[0053]可以采用一个或多个计算机可读介质的任意組合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPR0M或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0054]计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0055]可以以ー种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言ー诸如Java、Smalltalk、C++等,还包括常规的处理式程序设计语言ー诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为ー个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN) —连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0056]上面已经參照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出ー种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
[0057]也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufactureノ。
[0058]计算机程序指令也可以被载入到计算机、其他可编程数据处理装置或其他设备以促使在计算机、其他可编程装置或其他设备上执行一系列操作步骤,从而生成计算机实施的处理,由此使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图和/或框图的一个或多个块中列举的功能/动作的处理。
[0059]上述附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0060]尽管已经详细介绍了本发明的一个或多个实施例,但是本领域技术人员应该意识到无需背离本发明由所附权利要求阐明的保护范围即可对这些实施例进行修改和调整。
【权利要求】
1.一种用于由计算存储环境中的处理器设备协调灾难恢复的方法,所述方法包括: 执行调节处理以用于解析多个灾难恢复系统间的相交数据和不相交数据用于接管操作;以及 在多个灾难恢复系统中通过调节处理协调用于多个磁带盒的拥有权同步处理,其中多个灾难恢复系统继续作为用于多个源系统的复制目标和继续作为用于多个本地备份应用程序的备份目标中的至少ー个。
2.如权利要求1所述的方法,进ー步包括执行以下步骤中的至少ー个: 声明多个源系统中的至少ー个离线,以允许多个灾难恢复系统执行接管操作,其中检查复制网格以确定多个源系统中声明离线的至少ー个源系统是否已经脱离复制网格,以及将多个源系统中声明离线的至少ー个源系统通知多个复制网格系统。
3.如权利要求1所述的方法,其中接管操作包括以下步骤之一: 针对源系统的至少ー个远程系统激活灾难恢复DR模式,其中多个源系统中声明离线的至少ー个源系统的至少ー个远程系统变为多个灾难恢复系统的一部分, 允许多个灾难恢复系统有序地执行接管操作, 确定可以针对多个源系统中声明离线的至少ー个源系统执行接管操作, 通过复制网格管理器在复制网格内针对来自多个源系统中声明离线的至少ー个源系统的表示多个复制网格成员对多个磁带盒拥有权的第一列表发送请求, 建立多个磁带盒中需要接管操作的每ー个磁带盒的第二列表, 通过比较第一列表和第二列表将多个磁带盒中的至少ー个标注为要接管多个磁带盒中的至少ー个以获得拥有权的候选者, 将第二列表传输至多个灾难恢复系统, 切换多个磁带盒中的至少ー个的拥有权,以及 在多个源系统中声明离线的至少ー个源系统的多个灾难恢复系统中的每ー个处建立并继续至少一部分生产站点。
4.如权利要求3所述的方法,进ー步包括针对多个灾难恢复系统中的每ー个以反复和并行的方式之一来执行所述允许。
5.如权利要求1所述的方法,其中调节处理包括以下步骤中的至少ー个: 如果不相交的数据集分布在多个灾难恢复系统间,那么就単独对多个灾难恢复系统中的每ー个执行接管操作, 如果重叠的数据集分布在多个灾难恢复系统间,那么就首先由多个灾难恢复系统中的一个灾难恢复系统执行接管操作以更改多个磁带盒中每一个的拥有权,以及 如果相交的数据集分布在多个灾难恢复系统间,那么就根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权。
6.如权利要求5所述的方法,其中根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权包括: 针对多个灾难恢复系统中的执行接管操作的第一个灾难恢复系统,获取多个磁带盒中相交的每ー个磁带盒的拥有权,以及 针对多个灾难恢复系统中的执行接管操作的第二个灾难恢复系统,获取在多个灾难恢复系统中的第二个灾难恢复系统和已经执行了接管操作的多个灾难恢复系统之间相交的多个磁带盒的拥有权。
7.如权利要求1所述的方法,进ー步包括通过用于多个源系统中声明离线的至少ー个源系统的多个灾难恢复系统来退出灾难恢复模式。
8.一种用于由计算存储环境中的处理器设备协调灾难恢复的系统,包括: 能够在计算存储环境内运行的至少ー个处理器设备,其中所述至少一个处理器设备适用干: 执行调节处理以用于解析多个灾难恢复系统间的相交数据和不相交数据用于接管操作;以及 在多个灾难恢复系统处通过调节处理协调用于多个磁带盒的拥有权同步处理; 其中多个灾难恢复系统继续作为用于多个源系统的复制目标和继续作为用于多个本地备份应用程序的备份目标中的至少ー个。
9.如权利要求8所述的系统,其中所述至少一个处理器设备进一步适用于执行以下的至少ー个: 声明多个源系统中的至少ー个离线以允许多个灾难恢复系统执行接管操作,其中检查复制网格以确定多个源系统中声明离线的至少ー个源系统是否已经脱离复制网格,以及将多个源系统中声明离线的至少ー个源系统通知多个复制网格系统。
10.如权利要求8所述的系 统,其中所述至少一个处理器设备在执行接管操作时进ー步适用于执行以下之一: 针对源系统的至少ー个远程系统激活灾难恢复DR模式,其中多个源系统中声明离线的至少ー个源系统的至少ー个远程系统变为多个灾难恢复系统的一部分, 允许多个灾难恢复系统有序地执行接管操作, 确定可以针对多个源系统中声明离线的至少ー个源系统执行接管操作, 通过复制网格管理器在复制网格内针对来自多个源系统中声明离线的至少ー个源系统的表示多个复制网格成员对多个磁带盒拥有权的第一列表发送请求, 建立多个磁带盒中需要接管操作的每ー个磁带盒的第二列表, 通过比较第一列表和第二列表将多个磁带盒中的至少ー个标注为要接管多个磁带盒中的至少ー个以获得拥有权的候选者, 将第二列表传输至多个灾难恢复系统, 切换多个磁带盒中的至少ー个的拥有权,以及 在多个源系统中声明离线的至少ー个源系统的多个灾难恢复系统中的每ー个处建立并继续至少一部分生产站点。
11.如权利要求10所述的系统,其中所述至少一个处理器设备进ー步适用于针对多个灾难恢复系统中的每ー个以反复和并行的方式之ー来执行所述允许。
12.如权利要求8所述的系统,其中所述至少一个处理器设备在执行调节处理时进ー步适用于执行以下的至少ー个: 如果不相交的数据集分布在多个灾难恢复系统间,那么就単独对多个灾难恢复系统中的每ー个执行接管操作, 如果重叠的数据集分布在多个灾难恢复系统间,那么就首先由多个灾难恢复系统中的一个灾难恢复系统执行接管操作以更改多个磁带盒中每一个的拥有权,以及如果相交的数据集分布在多个灾难恢复系统间,那么就根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权。
13.如权利要求12所述的系统,其中所述至少一个处理器设备在根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权时进一步适用于执行以下的至少ー个: 针对多个灾难恢复系统中的执行接管操作的第一个灾难恢复系统,获取多个磁带盒中相交的每ー个磁带盒的拥有权,以及 针对多个灾难恢复系统中的执行接管操作的第二个灾难恢复系统,获取在多个灾难恢复系统中的第二个灾难恢复系统和已经执行了接管操作的多个灾难恢复系统之间相交的多个相交磁带盒的拥有权。
14.如权利要求8所述的系统,其中所述至少一个处理器设备进一歩适用于通过用于多个源系统中声明离线的至少ー个源系统的多个灾难恢复系统来退出灾难恢复模式。
15.一种用于由处理器设备协调灾难恢复的计算机程序产品,所述计算机程序产品包括其中存储有计算机可读取程序代码部分的非易失性计算机可读取存储介质,所述计算机可读取程序代码部分包括: 第一可执行部分,用于执行调节处理以用于解析多个灾难恢复系统间的相交数据和不相交数据用于接管操作;以及 第二可执行部分,用于在多个灾难恢复系统处通过调节处理协调用于多个磁带盒的拥有权同步处理,其中多个灾难恢复系统继续作为用于多个源系统的复制目标并且继续作为用于多个本地备份应用程序的备份目标中的至少ー个。
16.如权利要求15所`述的计算机程序产品,进ー步包括第三可执行部分,用于执行以下的至少ー个: 声明多个源系统中的至少ー个离线,以允许多个灾难恢复系统执行接管操作,其中检查复制网格以确定多个源系统中声明离线的至少ー个源系统是否已经脱离复制网格,以及将多个源系统中声明离线的至少ー个源系统通知多个复制网格系统。
17.如权利要求15所述的计算机程序产品,进ー步包括用于执行接管操作的第三可执行部分,所述接管操作包括以下之一: 针对源系统的至少ー个远程系统激活灾难恢复DR模式,其中多个源系统中声明离线的至少ー个源系统的至少ー个远程系统变为多个灾难恢复系统的一部分, 允许多个灾难恢复系统有序地执行接管操作, 确定可以针对多个源系统中声明离线的至少ー个源系统执行接管操作, 通过复制网格管理器在复制网格内针对来自多个源系统中声明离线的至少ー个源系统的表示多个复制网格成员对多个磁带盒拥有权的第一列表发送请求, 建立多个磁带盒中需要接管操作的每ー个磁带盒的第二列表, 通过比较第一列表和第二列表将多个磁带盒中的至少ー个标注为要接管多个磁带盒中的至少ー个以获得拥有权的候选者, 将第二列表传输至多个灾难恢复系统, 切换多个磁带盒中的至少ー个的拥有权,以及 在多个源系统中声明离线的至少ー个源系统的多个灾难恢复系统中的每ー个处建立并继续至少一部分生产站点。
18.如权利要求17所述的计算机程序产品,进ー步包括用于针对多个灾难恢复系统中的每ー个以反复和并行的方式之一来执行所述允许的第三可执行部分。
19.如权利要求15所述的计算机程序产品,其中在执行调节处理时包括第四可执行部分用于执行以下的至少ー个: 如果不相交的数据集分布在多个灾难恢复系统间,那么就単独对多个灾难恢复系统中的每ー个执行接管操作, 如果重叠的数据集分布在多个灾难恢复系统间,那么就首先由多个灾难恢复系统中的一个灾难恢复系统执行接管操作以更改多个磁带盒中每一个的拥有权,以及 如果相交的数据集分布在多个灾难恢复系统间,那么就根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权。
20.如权利要求19所述的计算机程序产品,其中在根据由多个灾难恢复系统执行接管操作的顺序来确定多个磁带盒的拥有权时包括第四可执行部分用于执行以下的至少ー个: 针对多个灾难恢复系统中的执行接管操作的第一个灾难恢复系统,获取多个磁带盒中相交的每ー个磁带盒的拥有权,以及 针对多个灾难恢复系统中的执行接管操作的第二个灾难恢复系统,获取在多个灾难恢复系统中的第二个灾难恢复 系统和已经执行了接管操作的多个灾难恢复系统之间相交的多个相交磁带盒的拥有权。
【文档编号】H04B1/74GK103534955SQ201280021422
【公开日】2014年1月22日 申请日期:2012年4月18日 优先权日:2011年5月2日
【发明者】T·Z·陶伯, S·H·阿基拉弗, A·卡罗, G·E·帕兹, I·玛奥兹, U·施姆艾利 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1