自动和动态优化应用数据资源以满足业务目标的系统和方法

文档序号:7459596阅读:179来源:国知局
专利名称:自动和动态优化应用数据资源以满足业务目标的系统和方法
技术领域
一般说来,本发明涉及计算机系统中的数据存储器,更确切地说,涉及在该数据存储器上备份和恢复被物理地或逻辑地损坏的资源所用的系统。本发明尤其涉及一种备份和数据恢复系统,它根据环境和工作负载,不断动态地调整备份和恢复过程,以便满足根据业务目标定义的应用数据可用性。
背景技术
数据库管理员(DBA)的任务就是照看和管理运行企业的业务关键应用的数据库环境的健全。这包括确保包括若干应用的数据库对象的持续可用,以及确保数据库状态良好,以便提供业务应用所期望的需要性能。例如,数据库管理员负责数据备份,以便在系统出现故障的情况下进行数据恢复。客户定义了系统出现故障之后和恢复之前,他们能够容忍的最长时间。在许多情况下,恢复的时间长度取决于使用的技术和数据备份的频率。
从应用数据可用性的观点来看,DBA的挑战是面对数据库对象数目、对象规模以及对象易失性的变化,按照业务应用的需求,对应用数据可用性提供所需的服务质量(QoS)。此外,DBA在应付对硬件/软件配置的改变、应用工作负载的变化以及对业务应用本身的QoS的潜在改变的同时,也应当保持所需的QoS。尤其是对于每个应用的数据库和文件对象,DBA需要使用最优的技术来进行备份和恢复,确定最优的备份频率以节省计算资源,以及使用最优的备份和恢复策略来提供所需的QoS。
所以,应用数据恢复是一种技能密集度很高的需求,导致企业拥有总成本提高。这种提高的成本是由于几种因素,包括系统资源的非最优化使用。例如,DBA趋向于实施过度补偿的若干策略,以避免设计复杂的最优备份计划。在应用对象、应用工作负载、硬件和软件基础设施发生变化时,应用数据恢复可能需要手工监控和事件日程重新安排。在执行对应用数据的完整性和无法提供期望的QoS二者之间进行折衷的备份/恢复策略时,这些复杂情况导致了许多人为错误。
典型情况下,DBA根据最不利的情况以及在恢复期间业务需求可容忍或者说可接受的停机时间,为系统确定备份的频率。在发生故障的情况下,数据库中的数据不丢失;对数据库中数据的全部更新都写入一份日志。为了把系统恢复到故障点上,就从最后的备份恢复数据,并且按照从最后的备份直至故障点期间在日志中记录的变化,使恢复过程向前滚动。
通过这个过程,数据库读取和应用日志中递增的全部变化,数据就恢复到了故障点上。如果每七天进行一次备份,DBA很可能假设最不利的情况下,故障点发生在第七天进行备份之前。在这种情况下,恢复时间最长。
根据恢复期间客户对停机时间的容忍程度,为了达到约定的服务质量(QoS),DBA可以保证,进行恢复期间的停机时间少于客户允许的停机时间。因此,从最后的备份恢复数据以及从日志的递增变化向前滚动所需的时间,应当少于客户允许的停机时间。
为了确定最优的备份方法和计划,DBA应当分析数据库及其环境的许多方面,包括可能需要恢复的数据量、运行数据库的机器、操作系统、数据库类型和版本等。给定了数据量之后,DBA应当判断即使在最不利的情况下是否还可能恢复数据以及满足QoS保证。总的说来,DBA应当清楚地了解运行环境、硬件、软件和性能。虽然这种方法可以产生最优的备份方法和计划,但是它是劳动密集型的,而且仅仅适用于初始状态。所有这些因素都可能随时间而改变,所以在最优的备份方法和计划中需要不停的改进。
目前,DBA手工确定备份计划。DBA确定要备份的数据量以及恢复过程可以耗用多长时间。例如,DBA可以确定备份可以包括100GB的数据,以及数据库是带有并行恢复的IBM DB2。
DBA确定从备份恢复可以耗用例如5分钟。然后DBA计算向前滚动所需的时间。如果在每个星期一进行备份,那么最不利的情况就是故障点在下一个星期日。对应用数据已经作出的改变越多,恢复应用数据所耗用的时间就会越长。在这个实例中,进行向前滚动可能要耗用15分钟。那么,恢复应用所需的总时间将是20分钟5分钟用于从备份恢复,15分钟用于进行向前滚动。客户可能已经约定了停机时间极限为10分钟的QoS保证。为了确保该QoS保证得到满足,对于DBA最容易的选择将是提高备份的频率,或许频繁至每日进行。虽然这样做确保了该QoS保证得到满足,但是这却最可能不是最有效率的资源使用方式。
许多数据库和第三方软件厂商都提供数据库级别的备份和恢复解决方案,某些厂商还声称也提供应用级别的数据恢复。几乎所有厂商都提供备份和恢复服务,利用执行备份和恢复功能所需的相关对象名称和句法,以及对产生的若干备份进行跟踪的若干管理工具辅助产生若干作业。
使数据恢复的问题复杂化的是应用数据可用性的规范。业务应用取决于数据。应用数据可用性是业务连续运转的关键。需要在应用级别上的应用数据可用性规范,即对于业务应用中涉及的全部数据类型。不仅如此,规范还应当在应用级别按照业务的语义来规定,而不是在传统的各个数据对象的级别(它不影响对整体应用可用性的影响,尤其是当应用包括多个数据对象时)。
挑战在于对若干应用的可用性定义一套业务级别度量,再把它转换到域内特定的业务度量中。这些业务级别度量最终驱动潜在的许用硬件和软件信息技术(IT)基础设施,提供所需的若干业务级别目标。可用性以外的域实例包括性能。
尤其是从可用性域的观点来看,一种应用的数据(既包括数据库也包括文件)又应当满足该应用的可用性和恢复的特定业务目标。一旦定义了这种业务语义的若干规范,一个企业或者一个服务供应商(xSP)就具有一致的方法来指定其对可用性的需求,以提供所需的QoS,而与特定的潜在基础设施无关。
对于可能跨越多个不同系统的数据恢复,应用可用性的常规方法,缺乏对一种应用的所有数据存储器(数据库和文件)的通盘考虑。此外,目前还不存在使用业务目标/语义,以说明方式指定应用数据恢复需求的能力。不仅如此,对于把业务目标映射到许用的一套技术的系统性方法,目前也没有这种机制。
对于最优的备份方法和计划,QoS应当视为包括以下部分●探测的时间●决定的时间●过程的执行常规方法仅仅涉及执行恢复过程所需的时间。除了执行恢复过程以外,还可以在QoS极限之内探测故障并且确定最优恢复计划的一个系统,才是所需要的。
若干数据恢复系统所用的常规方法缺乏一种机制,所以不能把应用数据可用性的业务目标转换到为了满足期望的QoS而设计和执行的一种最优备份和恢复策略中。此外,这些数据恢复系统也缺乏确定备份和恢复任务所用的最优技术的一种机制。目前还没有可用于制定最优备份计划的机制。另外,也没有确定最优恢复策略的机制。
不仅如此,若干数据恢复系统所用的常规方法也缺乏一种机制,所以不能在以上的所有环境中进行调整和改进,这些环境中的应用工作负载、业务目标和硬件/软件基础设施技术都在动态变化。因此,需要一种数据恢复系统和方法,它能够自动和动态优化备份资源。迄今为止,对这种系统和方法的需要尚未得到满足。

发明内容
本发明满足了这种需要,并且提供了一种系统、一种计算机程序产品和一种相关的方法(本文中一并称为“本系统”),用于备份和数据恢复系统,它按照环境和工作负载,连续地动态调整自身,以达到客户的业务目标。对恢复和备份造成的停机时间的容忍,对客户的业务或系统运作形成了影响。本系统从高级别的业务环境确定备份和恢复计划的细节。
本系统接受基于业务目标的应用数据可用性策略,并且设计、执行和改进一种资源最优化备份和恢复策略,以便在应用工作负载、业务目标和硬件/软件基础设施技术内容动态变化的环境中,提供期望的服务质量(QoS)。此外,本系统还在客户指定的窗口(本文中也称为闭锁的窗口)外部进行备份,以便对客户的系统影响最小。本系统也避免冗余的备份。
本系统按照业务目标,对应用数据恢复需求采用一种说明性规范。业务目标按照应用维度来定义。一个或多个定性的服务质量度量(也称为服务提供元素或SOE),关联到这些应用维度中的每一个。正如本文中的用法,一个服务提供包(SOP)就是一个定性的QoS度量,它表示了每个单独的SOE的一个且仅有一个实例的集合。
本系统提供的应用数据恢复需求,其定义方式隐含地包括了与一种应用相关联的一切数据对象,无论其数据存储在何处,以及它们驻留在何种系统上。这些应用数据恢复需求是按照业务目标指定的。应用数据恢复关联到一个定性度量,它是按照应用数据恢复维度来定义的,这些维度表示了业务语义。客户可以把这个定性度量用作一个载体,不断设计和驱动一种执行策略,它通过利用许用的潜在IT基础设施技术,达到了应用数据恢复QoS。
本系统有助于许用技术的优化,以提供期望的QoS。这类似于在关系DBMS中SQL语言提供的抽象,它不包括访问路径构建,因此方便了查询优化。
本系统允许SOP实施客户透明地利用与一个SOP相关联之潜在IT技术中的变化,以便确保应用数据恢复SOP QoS需求连续地得到满足。潜在IT技术中的这些变化可能会导致期望的QoS不可达到。那么本系统就警告客户,建议升级到一种更高的QoS。如果更高的QoS无法以现有的基础设施来实现,本系统也能够识别提供更高的QoS级别时,硬件和软件的先决条件。
本系统使用更高的QoS允许使用的特性和技术以及硬件/软件平台的专有性能模型,重新评估应用的工作负载,从而实现了这一点。然后,本系统识别出能够提供所需QoS但是目前在现有的基础实施中缺少的特性和技术。
本系统能够指定使用备份和恢复资源的若干应用。例如,一位客户可能具有一种零售应用,包括一个存货管理系统、一个销售和配送系统以及一个记帐系统。客户指定了各个系统时,本系统能够使备份和恢复系统定位在一个更高的抽象级别。在这种情况下,最重要的系统获得最高级别的服务,并且恢复得更快。本系统也能够在客户的许多应用、系统和部门之间,动态分配资源。
本系统为客户提供了根据发展的业务需求和优先权,改变QoS规范的灵活性,而针对新业务目标所需的技术实施方案,则不必指定。例如,改变一种应用对一个SOP的关系(或者升级或者降级,对应于业务目标中的变化),能够由本系统透明地管理,以提供新的QoS需求。
如果利用许用的技术无法满足新的QoS需求,本系统有潜力产生一个警告,说明利用给定的IT基础设施和/或SOE能力无法提供所需的QoS。如果利用现有的基础设施无法达到更高的QoS,也能够识别出(在升级的情况下)提供更高的QoS的硬件和软件先决条件。
本系统通过定义应用数据恢复业务度量的一种标准规范,提供了业务级别度量和提供所需QoS所需的潜在IT基础设施技术之间的自动映射。这种分离允许或者改变QoS规范,或者改变潜在的IT技术,而不影响另一方。本系统设计、执行和改进了执行策略,以确保提供期望的QoS。
本系统增强了其SOP/SOE规范能力,以确定对于一项给定任务所用的最优技术。这些最优技术来自许用的若干技术,受到应用环境的约束。除了应用的工作负载和数据易失性以外,本系统也使用实际性能、基准和估计值的统计结果来确定最优的备份和恢复策略。
本系统根据所获得的最优技术,产生智能和最优的计划,以提供期望的QoS。此外,本系统在日程约束和资源利用极限之内运行,而且分析实际执行的结果。本系统确定最优的备份和恢复策略,以提供期望的QoS。环境中的应用数据对象、应用工作负载、业务目标以及硬件/软件基础设施技术在动态改变,根据这些变化,连续地改进备份和恢复执行策略。
一般说来,本系统类似于关系数据库管理系统(RDBMS)中的一种查询优化器,它根据访问路径和被查询对象的统计结果,选择最优执行策略。本系统从若干技术的许用选择中,选择最优的备份/恢复技术。
RDBMS中的查询优化器自动地或者按要求再次优化一项查询的访问路径。触发了再次优化时,它就自动地考虑对象尺寸的变化和影响查询的可用访问路径。本系统再次优化备份和恢复执行策略,以便适应数据库对象数目变化、对象的尺寸、对象的易失性、硬件/软件配置的变化、应用工作负载的变化以及业务应用对QoS的潜在变化。
本系统设计和执行一种最优的备份和恢复策略,以便达到应用数据可用性的QoS。此外,本系统还确定备份和恢复任务相关的最优硬件和软件技术。本系统从许用的技术中选择最优的可用技术,连同从实际执行、基准和解析模型收集的性能度量,以便达到业务目标。许用技术可能受到全系统的限制、SOP和应用的约束。
本系统提供了多机种产品的支持,包括从许多客户进行备份/恢复的工具。
本系统确定一种最优的恢复执行策略。在确定最优恢复策略时考虑的因素包括●被损坏数据对象的相对重要性,●数据对象的损坏程度,●过去用于进行备份的技术,以及●DBA对是否自动安排恢复任务的约束。
本系统通过运行时事件反馈、试探法和数据挖掘,对上述因素进行调整和改进。为了对备份和恢复执行策略进行自动调整和改进,本系统监视系统环境(既包括硬件也包括软件)、应用工作负载、数据库对象的数目和尺寸、对象级别的数据易失性、业务目标和异常事件(比如任务失败和数据库对象故障)中的变化。
附图简要说明下面将参考以下的说明、权利要求书和附图,更加详细地介绍本发明的多种特性以及获得它们的方式,适当时重复使用若干引用号,以指明所引用部件之间的对应关系,其中

图1是一幅示意图,展示了一种示范性运行环境,其中能够使用本发明的资源优化系统;图2是一幅框图,展示了图1中资源优化系统的高级别架构;图3是一幅示意图,描绘了图1和图2中资源优化系统的操作;图4是一幅处理流程图,展示了图1和图2中资源优化系统操作的一种方法;图5表示了以上图件中资源优化系统的高级别框图。
具体实施例方式
以下的定义和解释提供了本发明的技术领域所属的背景信息,并且意在有助于理解本发明而不限于其范围因特网公共的和私有的计算机网络的互联集合,按照一套标准协议以路由器把它们链接在一起,形成一个全球分布的网络。
并行技术为了备份或恢复,同时使用不止一台计算机,或者在同一计算机之内,同时使用不止一个处理器工作。
万维网(WWW,也称为Web)一个因特网客户-服务器超文本分布式信息检索系统。
图1描绘了一个示范性整体环境,其中可以使用依据本发明自动和动态优化资源的系统和相关的方法。资源优化系统10包括一种软件程序代码或者说计算机程序产品,典型情况下它至少部分地嵌入或者说安装在客户提供的主机服务器15中。另外,系统10也能够保存在一种适当的存储介质中,比如软盘、CD、硬盘等设备。虽然将连同WWW介绍系统10,但是系统10也能够与一个独立的系统一起使用,比如数据库、存储系统等,只要它们已经从WWW和/或其他来源获得。
云形网络20包括通信线路和交换机。网络20提供了到例如WWW或因特网的通信路径。客户的计算机表示为多种计算机,比如计算机40、45、50。系统10利用直接连接,或者如图1所示通过网络20,控制着计算机40、45和50的资源优化。
在一个实施例中,系统10嵌入在一台主机服务器15中。主机服务器15能够通过一条通信链接,比如电话、线缆、卫星链接等连接方式,连接到网络20。
系统10按照业务目标,也称为应用维度,对应用数据恢复需求使用一种说明性规范。一种或多种定性的服务质量(QoS)度量,关联到这些应用维度中的每一种。这种QoS度量称为服务提供元素(SOE)。为了把关联到每种应用维度的定性QoS映射到所配置硬件和软件产品(比如DBMS、存储控制器)的一套技术,提供了一种系统的方法,以达到业务目标。对于一种SOE之每个实例的集合,也定义了一种定性QoS。这种集合称为服务提供包(SOP)。
系统10识别应用数据恢复有关的一套业务级别的关键因素;这些因素称为应用数据恢复维度。维度的实例包括恢复时间(至故障点)、性能影响、保留时段(对于备份)以及逻辑数据恢复时间(也称为时内点恢复时间)。应用数据恢复既应用于远程故障恢复站点,也应用于在本地站点的恢复。在目前阶段,故障恢复的考虑因素还没有完全定义,因为另外的应用维度还可能需要定义,以支持故障恢复能力。应用数据恢复维度可以是可扩展的。
系统10允许每种维度具有一种或多种相关联的定性度量与其关联。每种定性度量都映射到潜在的IT基础设施中的一种或多种潜在技术,它们能够用于提供应用数据恢复维度的若干需求。每种这样的定性度量都称为一种服务提供元素(SOE)。对于恢复时间维度,SOE的实例可以包括“NORMAL(正常)”SOE、“FAST(快速)”SOE和“ULTRAFAST(特快)”SOE。“NORMAL”SOE可能仅仅使用数据库顺序备份、顺序恢复和顺序向前滚动技术。“FAST”SOE可能使用数据库顺序和并行技术。“ULTRAFAST”SOE可能使用数据库顺序技术、并行技术和存储子系统“快照”/“快速拷贝”技术。对于一种给定的维度,可以定义任何数目的这种定性度量。
由系统10识别为关联到SOE的潜在特性和技术既应用于硬件,也应用于软件,它们都属于不止一位客户即15。能够支持多客户15的技术折衷混合,使系统10能够实现的QoS提供对硬件和软件不偏不倚。
系统10定义了一个或多个SOP,每个SOP都表示一种具体的定性服务度量。图2展示了系统10形成一种备份方法所用的元素;定性度量205、定量度量210以及客户的独特环境215。定性度量205包括若干SOE;每个SOE都把一种备份特性或技术转换为一种备份能力级别,比如正常、快速等。客户的独特环境215包括受到备份的应用、工作负载、客户所用的机器、操作系统等。定量度量210提供了驱动该策略的若干数值。
示范性SOP可能包括白金SOP、金SOP、银SOP等。图3展示了业务级别可用性域300之内的层次关系,包括应用数据恢复维度305、SOP 310、SOE 315以及潜在的特性/技术320。在图3中,一套示范的特性/技术320转换为一套示范的SOE 315。
系统10允许客户如服务器15按照客户的独特环境215,定义定制的SOE 315。系统10提供若干默认的SOE 315,客户15也可以对其进行定制,以适应他们的具体情况。客户15也可以对所提供的若干默认的SOP 310进行定制,以适应他们的具体情况。系统10也允许客户15定义若干定制的SOP 310,每一个都单独映射到若干SOE 315。客户15也能够修改所提供的默认SOP 310和SOE 315。
不需要客户理解若干备份技术的多种细微差别。其实,向客户呈现了几种级别的SOP 310以及这些SOP 310中的每一个关于恢复响应、性能影响和成本的隐含意义。反之,目前许用的大多数备份服务仅仅提供一种类型的备份,而没有考虑客户的需要。
图3中一套示范的应用维度305包括恢复时间325、性能影响330、数据保留期限335和逻辑恢复时间340。对于这些维度中的每一个,都存在着一定的许用技术或定量度量320,以达到客户以及约定的QoS。系统10使用效率最高的许用技术320,在特定的应用维度305之内达到该QoS。因此,系统10没有锁定在任何一种特定的备份和恢复技术320中。
恢复时间325是指恢复数据到故障点所需的时间。为了示范的目的,恢复时间325可以按照正常、快速和特快来定义。如果客户15期望恢复时间325的级别更多,也是可能做到的。系统10许可使用的可能技术为顺序备份、顺序恢复、顺序向前滚动、并行备份、并行恢复、并行向前滚动、快速拷贝备份和快速拷贝恢复。这套技术是示范性的,在客户15调整或去除新技术时,可以改变。
在这个实例中,一个正常恢复时间325使用了顺序备份,顺序恢复和顺序向前滚动。一个快速恢复时间325除了实现正常恢复时间325使用的技术以外,还可能使用并行备份、并行恢复和并行向前滚动。一个特快恢复时间325除了实现快速恢复时间325使用的技术以外,还可能使用快速拷贝备份和快速拷贝恢复。
数据保留期限335是关于数据备份可以保留多长时间的应用维度。在图3的实例中,能够选择正常SOE 315——提供一个月的数据保留期限335,长SOE 315——提供6和月的保留期限或者一种定制值SOE 315。在这个实例中,客户已经选择了18个月的数据保留期限335。
逻辑恢复时间340把应用的数据恢复到期望的时点所需的时间量。
一种应用可以关联到一个具体的定性度量205(即SOP 310),客户能够随后修改它,对一个现有的QoS级别,或者升级或者降级。典型情况下,一项应用数据恢复需求映射到一个定性SOP 310。应用数据恢复需求也应当映射到每种应用维度305的一个定量度量(例如,对于恢复时间325的维度是15分钟),以便帮助客户了解所承诺之定性QoS级别的每个方面。
对于一个给定的定性度量,定量度量取决于这个应用运行的硬件和软件平台。系统10提供了一种模型,从一个定性度量映射到一个定量度量,以及反向映射。在所需的定量度量值已知并且必须确定对应的定性度量的情况下,该模型从一个定量度量映射到一个定性度量。应用关联到一个定性度量而不是一个定量度量。这个模型最初开始于若干估计值和若干基准,随后以多种配置的环境中的实测值来改进自身。
恢复时间325以分或秒测量,数据保留期限335以月测量,性能影响330以百分比测量,等等。例如,备份任务在其执行的系统中不应当消耗多于10%的非空闲资源。恢复时间325包括以下成分探测是否需要一次恢复的时间、决定恢复应当何时进行及其延迟所需的时间以及对损坏的资源进行实际恢复的时间。大多数情况下,对损坏的资源进行恢复的时间就是QoS承诺的时间。
对于一个应用的数据的可用性,系统10接受若干定性和定量的业务级别度量。按照这些度量,系统10设计、执行和改进一种备份和恢复策略,以提供期望的QoS。系统10按照可变的业务目标、应用工作负载和系统环境,使用最优的技术和最优的计划,以提供期望的QoS。业务目标映射到所配置之硬件和软件产品(比如DBMS、存储控制器等)的一套技术,以提供服务的若干层次。
为了执行备份和/或恢复任务,系统10从一套许用的技术(由SOP310定义)中选择最优的技术。连同从实际执行、基准和解析模型收集的性能度量(包括应用工作负载、数据易失性),选择这些技术。
例如,一位客户可能希望选择一个白金级别的SOP 310。在图3的情况下,一个白金级别的SOP 310允许系统10使用任何许用的备份、恢复或向前滚动技术320。性能影响330为最小,降低了10%(这是可消耗的非空闲资源的百分比)。数据保留期限335是可定制的;在这种情况下,客户选择18个月。
客户请求一个级别的服务,系统10就把该级别的服务转换为若干应用维度305和若干定量性能指标,比如担保的恢复时间325、性能影响330、数据保留期限335和逻辑恢复时间340。相反,系统10也能够把定量性能指标转换为定性的度量,比如SOP 310。例如,客户不在意SOP 310是银、金还是白金,但是却关注其系统的停机时间少于10分钟以及实现该QoS的成本。
使用选定的技术,系统10设计一种最优的备份计划,在客户施加的应用级别约束之内,达到应用数据可用性的期望QoS。这些约束包括许用的产品/特性、备份计划约束(操作的闭锁窗口,以及一个任务运行之前或之后)以及执行期间可用资源的许用消耗。系统10执行以上设计的计划,以提供期望的QoS,并且改进原始的执行策略,以确保QoS需求持续地得到满足。
图4中的处理流程图展示了系统10的操作方法400。系统10最初在方框405中标定资源使用模型和模板。系统10监控业务目标、应用的工作负载以及系统环境(比如硬件和软件)中的变化,通过改进策略,按照需要对工作负载中的周期性变化以及系统配置中的改变进行调整,以便提供担保的QoS。
在判断框410,系统10判断在业务目标、应用的工作负载或者系统环境中是否发生了变化。如果发生了任何变化,并且如果需要(判断框411),系统就在方框415修改现有的备份策略。系统10使用应用工作负载和对象中的变化、异常事件、硬件和软件配置中的变化、QoS一致性度量、对应用数据可用性目标的改变以及资源使用模型和模板来修改现有的策略。随着时间的流逝,若干算法自动使用在应用环境中过去运行时测量的数目,以达到更准确的备份计划,优化系统资源的消耗。如果方法400在判断框411判定即使已经发生了变化(判断框410),也不应当修改现有的策略,那么系统10就记忆事件情况,换言之,已经出现了变化而现有的策略没有修改,以响应这些变化。
系统10在方框420设计出一个最优的执行策略。在修改后的策略中包括在方框410中对应用数据可用性目标已经出现的任何变化。确定最优恢复策略时考虑的因素包括●数据对象的损坏程度,以及●过去用于进行备份的技术。
本系统通过运行时事件反馈、试探法和数据挖掘,对以上全部因素进行调整和改进。为了对备份和恢复执行策略进行自动调整和改进,本系统监视系统环境(既包括硬件也包括软件)、应用工作负载、数据库对象的数目和尺寸、对象级别的数据易失性、业务目标和异常事件(比如任务失败和数据库对象故障)中的变化。
在方框425,系统10执行最优策略。
在方框430,系统10采集若干度量并跟踪若干变化,以便在修改备份和恢复策略时使用。这些度量包括运行时采集的执行度量、捕捉异常事件以及自动发现应用工作负载和应用事件中的变化。此外,系统10还监控系统的硬件和软件配置以发现变化。然后,方法400的运行返回方框405,并且重复方框405至方框430。
系统10不断监控应用的对象,寻找实际的或临近的故障,并且以一种恢复策略来响应,以提供期望的QoS。判断点包括是否根据DBA约束自动安排恢复、被损坏对象的相对重要性以及数据对象的损坏程度。此外,系统10还确定恢复任务使用哪个可用的备份影像,例如,恢复任务是使用一个存储系统快速拷贝影像,还是使用一个数据库系统备份影像。
例如,一个称为Inventory Mgmt(存货管理)的应用注册为金SOP 310。应用环境包括以下部件操作系统AIX数据库DB2 Version(版本)8数据驻留在DAS(直接附属存储)归档服务器TSM
应用数据总规模25 GB日更新百分比应用总数据的1%。对于这个实例,有一个模型可用,它根据所涉及的基础设施、应用的数据对象的数目和尺寸以及数据对象的易失性(在此列举了涉及的几个考虑因素),把金SOP 310转换为若干定量的度量,用于其各个SOE 315。这个模型选择快速恢复时间325、最小性能影响330以及数据长保留335。这些定性选择的定量项示范表达如下RECOVERY_TIME_FAST->许用的技术为AIX_DB2_v8_backup_parallel,AIX_DB2_v8_recovery_parallel,AIX_DB2_v8_backup_incremental,AIX_DB2_v8_recovery_parallel,TSM_Backup_Compress,IBM_ESS_FLASHCOPY定量数为15分钟PERFORMANCE_IMPACT_MINIMAL->许用的技术320为AIX_DB2_v8_throttle定量数对非空闲资源20%影响DATA_RETENTION_LONG->许用的技术320为TSM_Archive_Compress,定量数6个月根据允许金SOP 310使用的技术320,性能度量比如实际测量值、基准和估计值,应用工作负载和数据易失性,系统10发现,对于备份事件,使用的最优技术为AIX_DB2_v8_backup_parallel(并行备份)和TSM_Backup_Compress(压缩备份)。根据获得的最优技术、安排约束、资源使用极限,系统10发现,为了达到QoS,应当安排为每两天备份一次。
一段时间之后,这个示范性应用环境改变了。数据从DAS移向IBM ESS,应用数据的总尺寸加倍至50GB。发现应用数据尺寸中的这个显著变化,是解析和挖掘引擎(图5)的分析结果,并且确定为对提供期望QoS之能力的一个实际的或一个临近的威胁。为了探索新的执行策略,以便提供期望的QoS,触发了一个自动改进过程。
系统10的改进过程导致对最优技术的选择进行修改,以及对备份和恢复计划进行修改。对于备份事件,系统10发现,它应当使用IBM_ESS_FLASHCOPY(快速拷贝),TSM_Archive_Compress(压缩归档)。系统10也发现,现在能够安排为每4天备份一次,仍然提供期望的QoS。
对于以下情况,应当改进备份和恢复执行策略●应用转换到另一个SOP 310。这可能是一次升级(青铜至白金)或者一次降级(金至青铜)。
●SOP 310映射到一套不同的SOE 315。
●SOE 315映射到一套不同的硬件和软件技术。
●系统环境改变了,即增加了硬件、删除硬件以及若干软件技术/特征。
●应用工作负载改变了,即数据库对象的数目和尺寸、数据易失性和异常事件(比如任务失败和数据库对象故障)。
●对期望的QoS甚至对于实现服务有潜在或实际的不一致。
对于受影响的应用,除了使可能已经安排的事件潜在失效以外,系统10进行的重新评估还包括一项判断,对于注册到一个具体SOP310的应用,是否能够提供期望的QoS。重新评估进一步包括自动重新产生一种修改的执行策略,以达到期望的QoS。
现在参考图5,它表示资源优化系统10的一幅示范性高级别框图。在图5中,附注505、510和515指的是示范性度量,把它们输入到系统10中,以便设计一项最优执行策略(方框530)。在最优执行策略正在执行时(方框540),系统10收集多种信息,包括但是不限于若干执行度量、若干异常事件、应用工作负载和对象的若干变化以及系统的硬件和软件配置中的若干变化(方框545)。
在方框545收集的信息,馈入解析和挖掘引擎555。解析和挖掘引擎555分析应用工作负载和对象变化565、异常事件570、QoS一致性度量575以及目标系统的硬件和软件配置中的变化,并且使用这种信息,在需要时修改现有的策略(方框535),其中考虑了若干可变的条件(方框520、525)。
同时,解析和挖掘引擎555使用解析信息,在需要时标定资源使用模型和模板(方框550)。解析和挖掘引擎555存放标定后的资源使用模型和模板(方框525),把它们反馈到系统10(方框535),以便在需要时修改现有的策略。
然后,系统10在方框540执行修改后的策略。
应当理解,已经介绍的本发明若干特定实施例仅仅展示了本发明原理的一定应用。对本文介绍的自动和动态优化备份资源的系统和方法发明,可以作出许多修改,而不脱离本发明的实质和范围。例如,虽然本文中连同若干备份和恢复应用,仅仅为了展示的目的而介绍了本系统,但是本领域的普通技术人员应当充分清楚,本系统也能够用于许多其他应用。本文中介绍的服务提供包(SOP)和服务提供元素(SOE)概念,能够超越应用数据可用性,扩展到其他要求,比如性能。
权利要求
1.一种动态优化多种应用数据资源的方法,包括根据可变的系统环境和可变的系统工作负载,调整执行策略;以及动态改进执行策略,以提供约定的服务质量并且优化所述多种应用数据资源。
2.根据权利要求1的方法,其特征在于,可变的系统环境包括改变的硬件。
3.根据权利要求1的方法,其特征在于,可变的系统环境包括改变的软件。
4.根据权利要求1的方法,其特征在于,应用数据资源包括若干备份和恢复对象。
5.根据权利要求1的方法,其特征在于,可变的工作负载考虑了在对备份和恢复对象产生数据修改的系统中,查询、事务处理和使用的次数。
6.根据权利要求1的方法,其特征在于,如果可变的系统环境或可变的系统工作负载中的任何一种或多种确定为可能对要向一个系统提供的所担保服务质量QoS造成有利或不利影响,就重新调整执行策略,以提供担保的QoS。
7.根据权利要求6的方法,其特征在于,如果可变的系统环境和可变的系统工作负载确定为不会可能对担保的QoS造成有利或不利的影响,就使执行策略保持不变并且记录执行策略没有改变的事实,以响应可变的系统环境和工作负载。
8.根据权利要求4的方法,其特征在于,执行策略包括一份备份和恢复计划。
9.根据权利要求8的方法,其特征在于,调整执行策略包括在新的对象加入或现有的对象去除时,判断是否需要调整备份频率。
10.根据权利要求9的方法,其特征在于,调整执行策略包括确定要使用的备份技术。
11.根据权利要求10的方法,其特征在于,调整执行策略包括确定要使用的恢复技术。
12.根据权利要求1的方法,其特征在于,动态改进执行策略包括连续地监控和响应可变的系统环境和工作负载,而无须客户输入。
13.根据权利要求12的方法,其特征在于,动态改进执行策略包括根据运行时的实际统计结果,改进执行策略的粗糙性,以改善担保的服务质量QoS。
14.根据权利要求1的方法,其特征在于,应用数据资源包括应用数据资源的折衷混合。
15.根据权利要求1的方法,其特征在于,动态改进执行策略包括使执行策略跨越多个系统。
16.根据权利要求1的方法,其特征在于,所述多种应用数据资源在应用级别许用。
17.根据权利要求1的方法,进一步包括将多个应用维度关联到若干许用的技术。
18.根据权利要求17的方法,其特征在于,所述多个应用维度包括恢复时间、性能影响、数据保留期限和逻辑恢复时间。
19.根据权利要求18的方法,其特征在于,将多个应用维度关联到若干许用的技术的步骤包括引入与每个应用维度关联的多个服务提供元素SOE。
20.根据权利要求19的方法,其特征在于,对于每个服务提供包SOP,存在与每个应用维度关联的一个且仅有一个SOE;以及其中,每个SOE关联到至少一项许用技术。
21.一种计算机程序产品,具有多个嵌入在介质上的指令代码,用于动态优化多种应用数据资源,包括第一指令代码集,用于根据可变的系统环境和可变的系统工作负载,调整执行策略;以及第二指令代码集,用于动态改进执行策略,以提供约定的服务质量并且优化所述多种应用数据资源。
22.根据权利要求21的计算机程序产品,其特征在于,如果可变的系统环境或可变的系统工作负载中的任何一种或多种被确定为可能对要向一个系统提供的所担保服务质量QoS造成有利或不利影响,第一指令代码集就重新调整执行策略,以提供担保的QoS。
23.根据权利要求22的计算机程序产品,其特征在于,如果可变的系统环境和可变的系统工作负载被确定为不会可能对担保的QoS造成有利或不利的影响,第一指令代码集就使执行策略保持不变,并且有第三指令代码集记录执行策略没有改变的事实,以响应可变的系统环境和工作负载。
24.根据权利要求21的计算机程序产品,其特征在于,执行策略包括一份备份和恢复计划。
25.根据权利要求21的计算机程序产品,其特征在于,第二指令代码集根据运行时的实际统计结果,改进执行策略的粗糙性,以改善担保的服务质量QoS。
26.根据权利要求21的计算机程序产品,其特征在于,第二指令代码集使执行策略跨越多个系统。
27.根据权利要求21的计算机程序产品,其特征在于,进一步包括第四指令代码集,用于将多个应用维度关联到若干许用的技术。
28.根据权利要求27的计算机程序产品,其特征在于,所述多个应用维度包括恢复时间、性能影响、数据保留期限和逻辑恢复时间。
29.根据权利要求28的计算机程序产品,其特征在于,第四指令代码集将多个应用维度关联到若干许用的技术的步骤,包括引入与每个应用维度相关联的多个服务提供元素SOE。
30.根据权利要求29的计算机程序产品,其特征在于,对于每个服务提供包SOP,存在与每个应用维度关联的一个且仅有一个SOE;以及其中,每个SOE关联到至少一项许用技术。
31.一种动态优化多种应用数据资源的系统,包括根据可变的系统环境和可变的系统工作负载,调整执行策略所用的装置;以及动态改进执行策略所用的装置,以提供约定的服务质量并且优化所述多种应用数据资源。
32.根据权利要求31的系统,其特征在于,如果可变的系统环境或可变的系统工作负载中的任何一种或多种被确定为可能对要向一个系统提供的所担保服务质量QoS造成有利或不利影响,调整装置就重新调整执行策略,以提供担保的QoS。
33.根据权利要求32的系统,其特征在于,如果可变的系统环境和可变的系统工作负载确定为不会可能对担保的QoS造成有利或不利的影响,调整装置就使执行策略保持不变并且记录执行策略没有改变的事实,以响应可变的系统环境和工作负载。
34.根据权利要求31的系统,其特征在于,执行策略包括一份备份和恢复计划。
35.根据权利要求31的系统,其特征在于,改进装置根据运行时的实际统计结果,改进执行策略的粗糙性,以改善担保的服务质量QoS。
36.根据权利要求31的系统,其特征在于,改进装置使执行策略跨越多个系统。
37.根据权利要求31的系统,进一步包括用于将多个应用维度关联到若干许用技术的装置。
38.根据权利要求31的系统,其特征在于,所述多个应用维度包括恢复时间、性能影响、数据保留期限和逻辑恢复时间。
39.根据权利要求38的系统,其特征在于,关联装置引入对应于每个应用维度的多个服务提供元素SOE。
40.根据权利要求39的系统,其特征在于,对于每个服务提供包SOP,存在与每个应用维度关联的一个且仅有一个SOE;以及其中,每个SOE关联到至少一项许用技术。
全文摘要
一种系统和方法,自动地和动态地优化可用的若干资源,以满足应用数据可用性和业务目标。在一个实施例中,一种备份和数据恢复系统按照客户的环境、工作负载和业务目标,连续地动态调整备份和恢复过程。对恢复和备份造成的停机时间的可接受容忍,影响客户的业务或系统运作。本系统从高级别的业务环境确定备份和恢复计划的细节。本系统接受基于业务目标的应用数据可用性策略,并且设计、执行和改进资源最优化备份和恢复策略,以便在应用工作负载、业务目标和硬件/软件基础设施技术都在动态可变的环境中,提供期望的服务质量。此外,本系统还在闭锁的窗口外部进行备份,以便对客户的系统影响最小。
文档编号H02H3/05GK1595365SQ20041006964
公开日2005年3月16日 申请日期2004年7月15日 优先权日2003年7月16日
发明者纳格拉伊·拉马昌德兰·阿鲁尔, 维特哈尔·M·高盖特, 英德帕尔·辛格·纳郎, 拉马尼·兰加恩·鲁特莱伊, 马哈德万·苏布拉马年 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1