降低灾备中心系统切换不可用时间的方法及设备与流程

文档序号:11959562阅读:366来源:国知局
降低灾备中心系统切换不可用时间的方法及设备与流程
本发明关于系统容灾
技术领域
,特别是关于灾备中心系统切换过程中容灾调度技术,具体的讲是一种基于灾备中心调度作业的方法及设备。
背景技术
:随着信息化技术和银行卡产业的发展,人们对数据中心的运行稳定性的要求越来越高。同时,由于业务和技术的不断更新、系统软硬件的故障,保证数据中心系统的持续稳定运行几乎是不可能完成的任务。灾备中心可以在灾难发生时继续向用户提供持续稳定的服务,但是从灾难的发生到业务和数据切换至灾备中心需要一定的时间,如何缩短灾难发生时因系统切换导致的系统不可用时间是衡量灾备中心的灾备能力的重要指标。传统的灾难恢复方式中,每次作业之间存在间隔,并且时间间隔等于恢复点目标RPO规定时间。此处的RPO是指灾难发生后,系统和数据必须恢复到的时间点要求。传统的灾难恢复中心对于多用户多任务的灾备业务管理能力较弱。因此,如何研究和开发出一种新的方案以降低灾难发生时系统、数据的不可用时间,有效提高数据中心的灾备能力是本领域亟待解决的技术难题。技术实现要素:为了克服现有技术存在的上述技术问题,本发明提供了一种降低灾备中心系统切换不可用时间的方法以及设备,通过对数据中心灾难发生时系统不可用时间的分析,研究得出了RPO风险模型及灾备业务调度模型,并以此为基础计算业务系统对应的用户的作业的总体风险值,并与阈值进行比较进行业务调度,从而降低了灾难发生时系统数据的不可用时间,有效提高了数据中心的灾备能力。本发明的目的之一是,提供一种降低灾备中心系统切换不可用时间的方法,所述方法包括:获取灾备中心灾难发生时的系统不可用时间;根据所述的系统不可用时间确定出灾备业务调度模型;获取灾备中心的业务系统对应的用户的一作业;根据所述的灾备业务调度模型确定所述作业的总体风险值;获取预先设定的阈值;根据所述阈值以及所述的总体风险值对所述的作业进行调度。在本发明的优选实施方式中,根据所述的系统不可用时间确定出灾备业务调度模型包括:分析所述的系统不可用时间,得到恢复点目标RPO风险模型;根据所述的RPO风险模型确定出运行中的作业的灾备业务调度模型。在本发明的优选实施方式中,所述运行中的作业的灾备业务调度模型为:β=α×i1+λ×i2+δ×i3α=(Tn+Tn+1+Tm)TRPO-1]]>其中,β为总体风险值,α为风险值,TRPO为RPO时间,Tn为第n次作业持续时间,Tm为等待时间,Tn+1为第n+1次作业持续时间,λ为作业的优先级,δ为作业的剩余时间,i1、i2、i3为加权系数,且i1+i2+i3=1。在本发明的优选实施方式中,根据所述的系统不可用时间确定出灾备业务调度模型包括:分析所述的系统不可用时间,得到恢复点目标RPO风险模型;根据所述的RPO风险模型确定出RPO历史风险值;根据所述的RPO历史风险值确定出未运行的作业的灾备业务调度模型。在本发明的优选实施方式中,所述未运行的作业的灾备业务调度模型为:β=α平均×i1+λ×i2其中,β为总体风险值,λ为作业的优先级,α平均为作业的历史风险值,i1、i2为加权系数,且i1+i2=1,TRPO为RPO时间,Tn为第n次作业持续时间,k为历史作业的个数。在本发明的优选实施方式中,根据所述阈值以及所述的总体风险值对所述的作业进行调度包括:判断所述的总体风险值是否超出所述的阈值;当判断为是时,获取所述作业的系统占比以及网络资源占比;获取预先设定的干预规则;根据所述的系统占比以及网络资源占比从所述的干预规则中选取出干预策略;根据所述的干预策略对所述的作业进行调度。本发明的目的之一是,提供了一种降低灾备中心系统切换不可用时间的设备,所述的设备包括系统不可用时间获取模块,用于获取灾备中心灾难发生时的系统不可用时间;业务调度模块确定模块,用于根据所述的系统不可用时间确定出灾备业务调度模型;作业获取模块,用于获取灾备中心的业务系统对应的用户的一作业;总体风险值确定模块,用于根据所述的灾备业务调度模型确定所述作业的总体风险值;阈值获取模块,用于获取预先设定的阈值;调度模块,用于根据所述阈值以及所述的总体风险值对所述的作业进行调度。在本发明的优选实施方式中,所述的业务调度模块确定模块包括:RPO风险模型确定单元,用于分析所述的系统不可用时间,得到恢复点目标RPO风险模型;第一业务调度门口确定单元,用于根据所述的RPO风险模型确定出运行中的作业的灾备业务调度模型。在本发明的优选实施方式中,所述的业务调度模块确定模块还包括:历史风险值确定单元,用于根据所述的RPO风险模型确定出RPO历史风险值;第二业务调度模型确定单元,用于根据所述的RPO历史风险值确定出未运行的作业的灾备业务调度模型。在本发明的优选实施方式中,所述的调度模块包括:判断单元,用于判断所述的总体风险值是否超出所述的阈值;占比获取单元,用于当所述的判断单元判断为是时,获取所述作业的系统占比以及网络资源占比;干预规则获取单元,用于获取预先设定的干预规则;干预策略选取单元,用于根据所述的系统占比以及网络资源占比从所述的干预规则中选取出干预策略;调度单元,用于根据所述的干预策略对所述的作业进行调度。本发明的有益效果在于,提供了一种降低灾备中心系统切换不可用时间的方法以及设备,通过对数据中心灾难发生时系统不可用时间的分析,研究得出了RPO风险模型及灾备业务调度模型,并以此为基础计算业务系统对应的用户的作业的总体风险值,并与阈值进行比较进行业务调度,从而降低了灾难发生时系统数据的不可用时间,有效提高了数据中心的灾备能力。为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种降低灾备中心系统切换不可用时间的方法的流程图;图2为图1中的步骤S101的实施方式一的流程图;图3为图1中的步骤S101的实施方式二的流程图;图4为图1中的步骤S106的流程图;图5为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备的结构框图;图6为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的实施方式一的结构框图;图7为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的实施方式二的结构框图;图8为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的结构框图;图9为作业的时序示例图;图10为灾难在第n次作业过程中发生的示意图;图11为灾难在第n+1次作业过程中发生的示意图;图12为灾难在等待时间发生的示意图;图13为RPO时间小于作业时间的示意图;图14为RPO时间大于第n次作业时间且小于第n+1次作业的完成时间示意图;图15为RPO时间大于第n+1次作业的完成时间示意图;图16为传统作业方法示意图;图17为实际业务RPO风险值的示意图;图18为具体实施例中的灾难业务调度示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的关键技术术语包括:恢复点目标RPO:灾难发生后,系统和数据必须恢复到的时间点要求。恢复时间目标RTO,信息系统或业务功能从停顿到必须恢复的时间要求。图1为本发明提出的一种降低灾备中心系统切换不可用时间的方法的具体流程图,由图1可知,所述的方法包括:S101:获取灾备中心灾难发生时的系统不可用时间。S102:根据所述的系统不可用时间确定出灾备业务调度模型。图2为步骤S101的实施方式一的流程图,图3为步骤S101的实施方式二的流程图。S103:获取灾备中心的业务系统对应的用户的一作业。如在金融数据领域,甲城市设置有H数据中心,乙城市设置有备用的K数据中心。当H数据中心发生灾难时,需要将数据中心从H切换到K,在切换过程中,灾备中心的业务系统对应的一用户有正在进行运行的作业或即将要运行的作业。图18为具体实施例中的灾难业务调度示意图。由图18可知,灾备中心对应多个业务系统,每个业务系统对应多个用户,每个用户对应多个作业。S104:根据所述的灾备业务调度模型确定所述作业的总体风险值。S105:获取预先设定的阈值;S106:根据所述阈值以及所述的总体风险值对所述的作业进行调度。如上即是本发明提供的一种降低灾备中心系统切换不可用时间的方法,其通过对灾难发生时,业务系统对应用户的正在进行中的作业或将要运行的作业进行调度,进而降低了系统切换不可用时间。图2为步骤S101的实施方式一的流程图,由图2可知,该步骤在实施方式一中具体包括:S201:分析所述的系统不可用时间,得到恢复点目标RPO风险模型。在具体的实施方式中,衡量灾备中心恢复能力的主要量化标准是恢复点目标和恢复时间目标,根据国家标准的定义:恢复点目标RPO和恢复时间目标RTO(recoverytimeobjective)是衡量灾备中心恢复能力等级的量化指标,可以作为灾备中心提供给各类用户服务承诺的目标标准。RPO:灾难发生后,系统和数据必须恢复到的时间点要求。RTO:灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。RTO/RPO与灾难恢复能力等级的关系具体见表1所示。表1根据责任界面,灾备中心负责数据的复制和存放,提供恢复演练环境;各接入单位负责系统和数据的恢复。灾备中心的服务承诺以RPO为主,为了达到服务承诺,灾备中心必须保证用户存放的灾备数据满足RPO的要求。本发明主要针对采用异步方式将数据复制、备份到灾备中心,这里主要研究恢复能力第1级至第5级的灾备系统,即TRPO≠0的系统。对于恢复能力第6级的灾备中心,TRPO必须等于0,采用同步方式,不存在业务调度的情况,不再论述。本发明的灾备中心利用广域网将各家单位的数据传送、储存到灾备中心。由于带宽小、数据量大,每次作业时间会很长,作业时间成为影响RPO的主要因素。按照当时的一般认识,每次作业时间T≤TRPO,则能保证恢复点目标,实现服务承诺。但是经过深入研究发现这样的认识存在问题。由于TRPO是一个时间指标,而时间是一个恒定向前的因素,我们可以将作业放置于时间轴上,灾备工作是一个由一次作业、作业之间的等待时间、下一次作业组成的过程,如图9所示。第n次作业自t0开始,灾备系统将用户在时间点t0产生的灾备数据传输至灾备中心,经过T2持续时间,于时间点t2完成作业;经过T2的等待时间,下一次作业即n+1次作业于时间点t2开始,将用户在时间点t2产生的灾备数据传输至灾备中心,经过T3持续时间于时间点t3完成作业。这一过程会不断重复。结合灾备工作,讨论灾难发生时间对数据恢复点的影响:第一种情况———灾难在第n次作业过程中发生,如图10所示。图10中,灾难在第n次作业过程中发生。1)第n次作业失败;2)时间点t0的数据无法恢复;3)能够恢复的时间点是第n-1次作业的起始点。这种情况也可以视同灾难在第n+1次作业过程中间发生,如图11所示。图11为灾难在第n+1次作业过程中发生1)第n+1次作业失败;2)时间点t2的数据无法恢复;3)能够恢复的时间点是第n次作业的起始点,即:t0。第二种情况———灾难在等待时间发生,如图12所示。图12是灾难在等待时间发生。1)第n次作业成功;2)时间点t0的数据可以恢复;3)能够恢复的时间点第t0次作业的起始点,即:t0。经过分析,可以看出:在完成下一次作业之前,都只能恢复本次作业起始点的数据。得出结论:在n+1次作业完成之前,数据恢复点位于第n次作业的起始点t0。灾难发生时间与RPO的关系是:当灾难发生时,向前RPO规定的时间内可以恢复数据的时间点目标。第一种情况———RPO间小于一次作业时间,即第n次作业时间T2>TRPO时,如图13所示。图13为RPO时间小于作业时间。当T2>TRPO,表示一次作业时间大于TRPO,很显然,灾备中心无法完成服务承诺。若灾难在图中风险区段发生时,第n次作业的数据无法恢复,灾难恢复失败。为了保证灾备业务正常开展,每次作业时间必须不大于TRPO,即:Tn≤TRPO。第二种情况———RPO时间大于第n次作业时间,但小于第n+1次作业的完成时间,即T1≤TRPO<(T1+T2+T3)时,如图14所示。图14为RPO时间大于第n次作业时间且小于第n+1次作业的完成时间。T1≤TRPO<(T1+T2+T3),当灾难发生在区间(TRPO-t2)里时,可以恢复时间点t0的数据;当灾难发生在区间(t3-RPO)里时,灾难发生时间点向前RPO规定的时间段内并没有找到可用的数据恢复点,根据之前的结论在n+1次作业完成之前,数据恢复点位于第n次作业的起始点t0,向前T′RPO到达t0才能找到第1个可用的数据恢复点,由于T′RPO>TRPO,作业恢复不能达到服务承诺,虽然第n次作业的数据完成传输,但是灾难恢复存在风险。第三种情况———RPO时间大于第n+1次作业的完成时间,即(T1+T2+T3)≤TRPO时,如图15所示。图15为RPO时间大于第n+1次作业的完成时间。(T1+T2+T3)≤TRPO,当灾难在区间t3-t1里发生时,可恢复第n次作业的数据,可以恢复时间点t0的数据;当灾难发生在TRPO-t3区间时,可恢复第n+1次作业的数据,可以恢复时间点t2的数据。根据以上分析,可以得出结论:(1)当(T1+T2+T3)≤TRPO时,灾备系统在没有风险条件下达到RPO要求。在以下两个条件同时有效的情况下,可以保证数据恢复点目标达到RPO的要求:1)Tn≤TRPO2)(T1+T2+T3)≤TRPO由于(T1+T2+T3)≤TRPO,则必然Tn≤TRPO,(T1+T2+T3)≤TRPO公式可以表示为:(Tn+Tn+1+Tm)TRPO-1≤0]]>(2)当TRPO<(T1+T2+T3)≤2TRPO时,灾备系统能达到RPO要求,但存在风险当Tn≤TRPO且T2≤TRPO<(T1+T2+T3)时,第n次作业的数据完成了传输,如果灾难发生在区间TRPO-t3里时,可以恢复时间点t0的数据,如果灾难发生在区间t3-TRPO里时,恢复失败。说明要达到TRPO要求,存在一定的风险。因为Tn≤TRPO所以T2≤TRPO,T3≤TRPO;因为:T2是等待时间可以用于调剂,所以:T2→0。所以:(T1+T2+T3)≤2TRPO,同时,(T1+T2+T3)>TRPO。则:TRPO<(T1+T2+T3)≤2TRPO公式可以表示为:0<(T1+T2+T3)TRPO-1≤1]]>(3)当任何一次作业大于TRPO时,灾备系统不能达到TRPO要求当Tn>TRPO时,灾备中心无法完成服务承诺。因为Tn>TRPO,所以:T1>TRPO,T3>TRPO;因为T2是等待时间可以用于调剂,所以T2→0。所以(T1+T2+T3)>2TRPO。公式可以表示为:(4)RPO风险值公式汇总归纳以上公式计算,可以得出RPO风险模型为:α=(Tn+Tn+1+Tm)TRPO-1]]>当时α≤0,表示没有任何风险的情况下可以达到RPO要求;当时0<α≤1,表示在一定风险情况下可以达到RPO要求,α越大且越接近1表示风险越大,反之风险越小;当时α>1,表示不可能达到RPO要求。α为风险值,TRPO为RPO时间,Tn为第n次作业持续时间,Tm为等待时间,Tn+1为第n+1次作业持续时间。S202:根据所述的RPO风险模型确定出运行中的作业的灾备业务调度模型。在具体的实施方式中,由RPO风险模型可知,每次作业时间最多控制在多长时间可以保证达到RPO要求,且没有风险:当α≤0时,即:(T1+T2+T3)≤TRPO,可以在没有风险情况下达成RPO要求。假设:每次作业时间相近,即T2≈T3;为了计算最长时间,T2作为等待时间可以调剂,即T2→0;因为:(T1+T2+T3)≤TRPO,所以(T1+0+T1)≤TRPO即:推论一:每次作业时间控制在的范围内,灾备业务是安全的。当作业存在风险,如何进行调度:当0<α≤1时,作业存在超时的风险。为了避免风险,要么灾难发生在n+1次作业之后,要么让第n+1次作业在区间(TRPO-t2)时间范围内完成。由于灾难不可控,所以较为可行的做法是“让第n+1次作业在区间(TRPO-t2)时间范围内完成”,以此来降低不能完成服务承诺的风险。即:T3≤TRPO-T2-t2。由于:所以:推论二当作业产生风险时,应该尽量缩短T3的时间,T3必须小于1)传统作业方法对实现RPO的风险传统作业方法是每间隔一段时间开始一次作业,而间隔时间往往等于RPO规定的时间。如图16所示。由于两次作业起始点的间隔时间为TRPO,当灾难在下一次作业过程中发生时,即灾难在T3发生时,则系统无法达到RPO目标。设T3=n,则发生不能达到RPO的概率为:因为TRPO为常量,当n越小,则P越小;当n越大,则P越大。由于n≤TRPO,根据以上公式可以得出:P≤50%。推论三传统作业方法会对实现RPO产生风险,风险一般不高于50%。对于采用独享的高带宽备用网络系统,数据传输速度不再成为瓶颈,每次作业的持续时间都很短。根据风险概率公式风险发生的概率往往很低。在实际应用中,RPO风险值α主要用于通过历史数据测算各家单位的平均风险值;α平均为作业的历史风险值,Tn为第n次作业持续时间,k为历史作业的个数。实际工作中,测算本次作业或者下一次作业的RPO风险值,需要对公式的取值进行调整,如图17所示。将RPO风险模型中的下一次作业开始时间t2替换为当前时刻,即前一次作业完成时间点t1到当前时刻t2之间的时间段为T2,代表前一次作业完成到当前时刻的时间,当前时刻t2到本次作业完成T2时间t3之间的时间段为T3,代表本次作业将要完成的时间。由于T1和T2发生在当前时刻之前,都是已知的数值。而T3是预测数值,是用于预测RPO风险的关键值。对于定位数据级灾备的项目来说,由于广域网的网络带宽(用户出口带宽和灾备中心入口带宽)是灾备业务的主要瓶颈,所以影响作业完成时间的主要因素是数据量大小g(Mb)和带宽m(Mb/s)的大小。g代表:从当前开始,完成作业还需要传输多少数据量;m代表:当前网络带宽速率:业务调度模型的RPO风险值公式是:α=(Tn+Tn+1+Tm)TRPO-1]]>当α≤0时,无需预警;当0<α≤1时,提示预警,说明本次作业能够在RPO内完成,但不能保证下一次作业能够在RPO内完成,需要关注当前和下一次作业的资源利用情况,当α越来越大时,风险越大,必要时进行干预;当α>1时,说明本次作业不能在RPO内完成,系统可能存在问题,需要结合故障检测进行排错,排除故障后,必须通过干预进行灾备业务的调度。在实际应用“RPO风险模型”转化为“灾备业务调度模型”时,必须考虑其他因素。由于灾备中心要面对多个用户,每个用户单位又有多个作业同时发起,在调度时需要考虑客户作业优先顺序;对于正在执行的作业还要考虑它的剩余完成时间。本实施方式中,对正在执行的灾备事物进行干预,灾备业务调度模型为:β=α×i1+λ×i2+δ×i3其中,β为总体风险值,α为风险值,TRPO为RPO时间,Tn为第n次作业持续时间,Tm为等待时间,Tn+1为第n+1次作业持续时间,λ为作业的优先级,δ为作业的剩余时间,i1、i2、i3为加权系数,且i1+i2+i3=1。加权系数可以按实际情况调整。图3为步骤S101的实施方式二的流程图,由图3可知,该步骤在实施方式二中具体包括:S301:分析所述的系统不可用时间,得到恢复点目标RPO风险模型。该步骤与步骤S201类似,此处不再赘述。S302:根据所述的RPO风险模型确定出RPO历史风险值。在实际应用中,RPO风险值α主要用于通过历史数据测算各家单位的平均风险值;α平均为作业的历史风险值,Tn为第n次作业持续时间,k为历史作业的个数。S303:根据所述的RPO历史风险值确定出未运行的作业的灾备业务调度模型。对将要执行的灾备事务进行干预,灾备业务调度模型为:β=α平均×i1+λ×i2其中,β为总体风险值,λ为作业的优先级,α平均为作业的历史风险值,i1、i2为加权系数,且i1+i2=1,TRPO为RPO时间,Tn为第n次作业持续时间,k为历史作业的个数,加权系数可以按实际情况调整。在灾备业务调度模型确定的基础上,即可获取步骤S103中作业对应的每次作业持续时间、等待时间、优先级、剩余时间等信息,进而确定出总体风险值。图4为步骤S106的流程图,由图4可知,步骤S106包括:S401:判断所述的总体风险值是否超出所述的阈值。阈值可预先设定,并根据具体的实施场景改变。S402:当判断为是时,获取所述作业的系统占比以及网络资源占比。S403:获取预先设定的干预规则。在具体的实施方式中,干预规则诸如暂停、延迟、终止、限速等操作。主要干预的方法为通过干预其他作业,将资源让给RPO风险值较高的作业,使其完成任务。当RPO风险值得到控制后,重新恢复被干预的作业。S404:根据所述的系统占比以及网络资源占比从所述的干预规则中选取出干预策略。如,对于A用户的B作业,根据灾备业务调度模型计算可得其对应的总体风险值β。当β大于阈值时,获取到的系统占比为C,网络资源占比为D,则根据C、D从干预规则中选取干预策略。具体的,系统占比C和网络资源占比D的值与干预规则的关系,可根据不同的实际情况确定。如,对于总体资源较大的系统而言,即使占用率达到80%以上,仍有充足的可用资源。而对于总体资源较小的系统,可能占用率达到50%时,就已经资源不足以支撑业务需要了。如,当C为50%-60%,D为50%-60时,选取出暂停的干预策略。当C为60%-70%,D为60%-70%时,选取出延迟的干预策略。当C为70%及以上,D为70%-80%时,选取出终止的干预策略。当C为任意值,D为80%及以上时,选取出限速的干预策略。S405:根据所述的干预策略对所述的作业进行调度。在具体的实施方式中,干预策略对应的调度方式如表2所示。表2名称说明暂停将当前正在执行的作业进行暂停,让出计算和网络资源延迟将某一将要执行的作业进行延迟操作,让出计算和网络资源终止终止某一正在进行中的作业,让出计算和网络资源限速对某一正在进行或将要进行的作业进行限速,让出网络资源也即,当β总体风险值越来越大时,风险值随之增大,调度优先级也越高。当风险值超过设定的阈值,需要对作业进行干预。如上所述,即为本发明提供的一种降低灾备中心系统切换不可用时间的方法,根据研究得出的RPO险模型、灾备业务调度模型为基础,开发了一个进行灾备业务调度的方案,实现了面向多用户多任务的灾备业务管理,按照承诺的RPO要求,为各接入用户提供了有效的服务,保证了灾备业务调度任务。图5为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备的结构框图,由图5可知,所述的设备包括:系统不可用时间获取模块101,用于获取灾备中心灾难发生时的系统不可用时间。业务调度模块确定模块102,用于根据所述的系统不可用时间确定出灾备业务调度模型。图6为业务调度模块确定模块的实施方式一的结构框图,图7为业务调度模块确定模块的实施方式二的结构框图。作业获取模块103,用于获取灾备中心的业务系统对应的用户的一作业。图18为具体实施例中的灾难业务调度示意图。如在金融数据领域,甲城市设置有H数据中心,乙城市设置有备用的K数据中心。当H数据中心发生灾难时,需要将数据中心从H切换到K,在切换过程中,灾备中心的业务系统对应的一用户有正在进行运行的作业或即将要运行的作业。由图18可知,灾备中心对应多个业务系统,每个业务系统对应多个用户,每个用户对应多个作业。总体风险值确定模块104,用于根据所述的灾备业务调度模型确定所述作业的总体风险值。阈值获取模块105,用于获取预先设定的阈值;调度模块106,用于根据所述阈值以及所述的总体风险值对所述的作业进行调度。图6为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的实施方式一的结构框图,由图6可知,该模块在实施方式一中具体包括:RPO风险模型确定单元201,用于分析所述的系统不可用时间,得到恢复点目标RPO风险模型。在具体的实施方式中,可以得出RPO风险模型为:α=(Tn+Tn+1+Tm)TRPO-1]]>当时α≤0,表示没有任何风险的情况下可以达到RPO要求;当时0<α≤1,表示在一定风险情况下可以达到RPO要求,α越大且越接近1表示风险越大,反之风险越小;当时α>1,表示不可能达到RPO要求。α为风险值,TRPO为RPO时间,Tn为第n次作业持续时间,Tm为等待时间,Tn+1为第n+1次作业持续时间。第一业务调度门口确定单元202,用于根据所述的RPO风险模型确定出运行中的作业的灾备业务调度模型。在具体的实施方式中,对正在执行的灾备事物进行干预,灾备业务调度模型为:β=α×i1+λ×i2+δ×i3其中,β为总体风险值,α为风险值,TRPO为RPO时间,Tn为第n次作业持续时间,Tm为等待时间,Tn+1为第n+1次作业持续时间,λ为作业的优先级,δ为作业的剩余时间,i1、i2、i3为加权系数,且i1+i2+i3=1。加权系数可以按实际情况调整。图7为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的实施方式二的结构框图,由图7可知,该模块在实施方式二中具体包括:历史风险值确定单元203,用于根据所述的RPO风险模型确定出RPO历史风险值。在实际应用中,RPO风险值α主要用于通过历史数据测算各家单位的平均风险值;α平均为作业的历史风险值,Tn为第n次作业持续时间,k为历史作业的个数。第二业务调度模型确定单元204,用于根据所述的RPO历史风险值确定出未运行的作业的灾备业务调度模型。对将要执行的灾备事务进行干预,灾备业务调度模型为:β=α平均×i1+λ×i2其中,β为总体风险值,λ为作业的优先级,α平均为作业的历史风险值,i1、i2为加权系数,且i1+i2=1,TRPO为RPO时间,Tn为第n次作业持续时间,k为历史作业的个数,加权系数可以按实际情况调整。图8为本发明实施例提供的一种降低灾备中心系统切换不可用时间的设备中业务调度模块确定模块的结构框图,由图8可知,所述的调度模块包括:判断单元401,用于判断所述的总体风险值是否超出所述的阈值。阈值可预先设定,并根据具体的实施场景改变。占比获取单元402,用于当判断为是时,获取所述作业的系统占比以及网络资源占比。干预规则获取单元403,用于获取预先设定的干预规则。在具体的实施方式中,干预规则诸如暂停、延迟、终止、限速等操作。主要干预的方法为通过干预其他作业,将资源让给RPO风险值较高的作业,使其完成任务。当RPO风险值得到控制后,重新恢复被干预的作业。干预策略选取单元404,用于根据所述的系统占比以及网络资源占比从所述的干预规则中选取出干预策略。对于A用户的B作业,根据灾备业务调度模型计算可得其对应的总体风险值β。当β大于阈值时,获取到的系统占比为C,网络资源占比为D,则根据C、D从干预规则中选取干预策略。具体的,系统占比C和网络资源占比D的值与干预规则的关系,可根据不同的实际情况确定。如,对于总体资源较大的系统而言,即使占用率达到80%以上,仍有充足的可用资源。而对于总体资源较小的系统,可能占用率达到50%时,就已经资源不足以支撑业务需要了。如,当C为50%-60%,D为50%-60时,选取出暂停的干预策略。当C为60%-70%,D为60%-70%时,选取出延迟的干预策略。当C为70%及以上,D为70%-80%时,选取出终止的干预策略。当C为任意值,D为80%及以上时,选取出限速的干预策略。调度单元405,用于根据所述的干预策略对所述的作业进行调度。在具体的实施方式中,干预策略对应的调度方式如表2所示。也即,当β总体风险值越来越大时,风险值随之增大,调度优先级也越高。当风险值超过设定的阈值,需要对作业进行干预。如上所述,即为本发明提供的一种降低灾备中心系统切换不可用时间的设备,根据研究得出的RPO险模型、灾备业务调度模型为基础,开发了一个进行灾备业务调度的方案,实现了面向多用户多任务的灾备业务管理,按照承诺的RPO要求,为各接入用户提供了有效的服务,保证了灾备业务调度任务。下面结合具体的实施例,详细介绍本发明的技术方案。由于业务调度模型明确,业务调度方法清晰,基于业务调度模型开发的降低灾备中心系统切换不可用时间的设备很快得到应用。在政务外网带宽限制等现实约束条件下,通过业务调度,在保证用户正常生产业务开展的同时实现了多用户、多系统、多任务的灾备恢复点目标。如图18所示。设备以列表、图示的模式,对各单位各项作业进行标注。对每个用户每个作业根据业务调度模型计算的风险值进行风险测算,分别通过实线、虚线、带有叉号标记的线进行标注:实线表示正常,虚线表示预警,带有叉号表示干预。对于作业的业务调度工作根据业务调度模型开展。业务调度模型同时也提高了灾备系统的总体性能,通过对多个用户的多个任务的合理调度,有效利用了不太宽裕的系统资源。业务调度模型有效保障了生产系统安全运行,为生产系统的有效灾难恢复发挥了决定性的作用。综上所述,本发明提出的一种降低灾备中心系统切换不可用时间的方法以及设备,通过对数据中心灾难发生时系统不可用时间的分析,研究得出了RPO风险模型及灾备业务调度模型,并以此为基础计算业务系统对应的用户的作业的总体风险值,并与阈值进行比较进行业务调度,从而降低了灾难发生时系统数据的不可用时间,有效提高了数据中心的灾备能力。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一般计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。本领域技术人员还可以了解到本发明实施例列出的各种功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1