一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法与流程

文档序号:12278295阅读:252来源:国知局
一种考虑冗余容错恢复的云计算系统计算资源可用性评估方法与流程

本发明涉及的是一种计算资源可用性评估方法,具体地说是一种云计算系统计算资源可用性评估方法。



背景技术:

在互联网时代,信息与数据快速增长,云计算作为一种新兴的计算模式应运而生。云计算系统是向用户提供各种服务的分布式计算系统,需要对虚拟化的计算和存储资源池进行动态部署、动态分配/重分配、实时监控,从而向用户提供满足QoS(Quality of Service,服务质量)要求的计算服务、数据存储服务以及平台服务。因此,计算资源的部署成为云计算服务可用性分析的关键。而云计算系统计算资源的可用性评估是确定计算资源部署方式优劣,以及用户选择云计算系统作为重大应用运行平台的重要标准和技术参考,已成为当前云计算领域的一项重要研究内容。

目前,国内外对云计算系统计算资源的可用性分析主要分为以下两种情况:

1)仅考虑VM(visual Machine,虚拟机)部署与调度对云计算可用性的影响,而未考虑PM(Physical Machine,物理机)资源的状况,常见于SaaS云计算系统。

2)考虑了PM对计算资源可用性的影响,但是未考虑PM可能失效及恢复的情况。例如Trevidi等人提出基于排队论的可用性分析方法(《Modeling and performance analysis of large scale IaaS Clouds》http://dx.doi.org/10.1016/j.future.2012.06.005.),虽然考虑了VM部署时物理机PM所处不同状态对可用性的影响,但是没有考虑PM故障带来的问题。而且该类方法主要分析至少存在一个VM可用的概率,不能分析存在任意N个VM可用的情况,无法满足批任务同时需要N个VM时云计算系统服务可用性的分析。申请号为201510112060.7烦人专利文件中公开的“一种云计算系统可用性评估方法”中,首先评估云计算服务中虚拟机的启动时间,然后根据虚拟机启动的时间粗略评估云计算服务的可用性。该方法仅仅考虑可用资源的平均故障间隔时间对云计算系统可用性的影响,导致评估结果具有较大误差。

综上所述,现有的云计算系统计算资源可用性评估方法还不完善,其不足之处可归结为以下两点:1)主要工作集中在VM部署与调度等方面的云计算系统计算资源可用性评估,而PM失效及恢复等因素对计算资源可用性造成的影响还缺少系统化分析;2)已有的方法仅仅分析了云计算系统中至少存在一个可用资源时的系统可用性,没有评估云计算系统同时存在K个可用资源时的计算资源可用性。



技术实现要素:

本发明的目的在于提供一种能够处理云计算系统物理机失效情况下的云计算系统计算资源可用性的评估,并且可以评估云计算系统同时存在K个可用资源时的计算资源可用性的考虑冗余容错恢复的云计算系统计算资源可用性评估方法。

本发明的目的是这样实现的:

步骤一:建立考虑冗余容错恢复的云计算系统的计算资源模型;

步骤二:t为任意时刻,采用云计算系统计算资源标签分配方法,为该时刻的云计算系统的计算资源所处状态建立标签;

步骤三:云计算系统的计算资源所处状态的标签转移过程表示为其中LC,LD为任意的标签,act是LC和LD之间的转移动作,Λ是act对应的状态转移参数;采用云计算系统的计算资源标签转移方法,描述云计算系统的计算资源所处状态的任意两个标签的转移过程;

步骤四:采用基于平均历史时延的标签转移动作延迟的计算方法,对步骤三中每一个标签转移过程对应的动作赋予状态转移参数Λ;

步骤五:根据步骤三、四获得一个完整的云计算系统的状态转移概率空间模型;

步骤六:计算步骤五所述状态转移概率空间模型的每一个状态的稳态概率;

步骤七:采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性。

本发明还可以包括:

1、所述考虑冗余容错恢复的云计算系统的计算资源模型的具体特性包括:

1)云计算系统的物理机PM(Physical Machine)包括三种类型,分别是hot PM,warm PM,cold PM;其中hot PM是指活跃的PM,直接部署虚拟机VM(visual Machine)并运行服务,对可用性几乎没有影响;第二种是热待机的PM,PM处于待机状态在部署VM之前需要部分的资源配置,对可用性具有一定影响,称为warm PM;第三种是冷待机的PM,PM处于待机状态但基本没有加载资源,需要较多时间部署VM,对可用性具有很大影响,称为cold PM;

2)三种物理机之间的关系满足:当目前不存在一台能够提供VM部署的hot PM时,查询可用warm PM列表,若存在就将该warm PM热启动并部署相应VM;当也不存在一台能够提供服务的warm PM时,将查询可用cold PM列表,若存在就将该cold PM热启动并部署相应的服务,当服务完成后,将PM挂起回原来的状态。

2、所述云计算系统计算资源标签分配方法具体包括:

任意时刻t的云计算系统的计算资源所处状态A(t),建立资源标签LA,LA表示为一个3×3的矩阵,

其中:h表示hot PM的数量,w表示warm PM的数量,c表示cold PM的数量,hD表示hot PM已分配的数量,wD表示warm PM已分配的数量,cD表示cold PM已分配的数量,hF表示hot PM失效的数量,wF表示warm PM失效的数量,cF表示cold PM失效的数量。

3、所述云计算系统的计算资源标签转移方法的具体实现过程为:

1)当云计算系统需要分配新的PM时,将产生横向和纵向的两种转移关系;

2)横向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)未失效时,此时分配该PM,且这种PM(hot PM、warm PM或cold PM)的数量将减1;当分配的PM完成相应任务时将回到原来的状态,此时这种PM(hot PM、warm PM或cold PM)的数量将加1;

3)纵向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)被发现已失效,无法正常完成分配,将触发恢复机制,且该种类的PM数量减1;当失效的PM恢复完成时,该PM回到原有的分类,且该种类的PM数量加1;

4)考虑冗余容错恢复的云计算系统的计算资源标签转移方法的流程表述为:当存在hot PM时采用第一阶段hot PM资源分配方法;若不存在hot PM,分配warm状态的物理机,采用第二阶段warm PM资源分配方法;当仍然不存在warm PM时,分配cold PM,采用第三阶段cold PM资源分配方法;

所述第一阶段hot PM资源分配方法具体包括:

a)云计算系统的计算资源所处的起始状态标签为

b)首先判断正要分配的hot PM是否失效,若没有失效,则hot PM的数量减1,已分配hot PM的数量hD加1,此过程为横向转移过程;

c)若正要分配的hot PM失效,则进行纵向转移过程,即hot PM的数量减1,已失效hot PM的数量hF加1;

d)再继续判断是否存在hot PM,如果不存在hot PM,转入第二阶段warm PM资源分配方法,否则跳转到步骤b);

所述第二阶段warm PM资源分配方法对于状态开始的转移过程具体包括:

e)起始状态标签为

f)首先判断正要分配的warm PM是否失效,若没有失效,则warm PM的数量减1,已分配warm PM的数量wD加1,此过程为横向转移过程;

g)若正要分配的warm PM失效,则进行纵向转移过程,即warm PM的数量减1,已失效warm PM的数量wF加1;

h)再继续判断是否存在warm PM,如果不存在warm PM,转入第三阶段cold PM资源分配方法,否则,跳转到步骤f);

所述第三阶段cold PM资源分配方法对于状态开始的转移过程具体包括:

i)起始状态标签为

j)首先判断正要分配的cold PM是否失效,若没有失效,则cold PM的数量减1,已分配cold PM的数量cD加1,此过程为横向转移过程;

k)若正要分配的cold PM失效,则进行纵向转移过程,即cold PM的数量减1,已失效cold PM的数量cF加1;

l)再继续判断是否存在cold PM,跳转到步骤j)。

4、所述基于平均历史时延的标签转移动作延迟的计算方法的具体实现过程包括:

对每一个标签转移过程对应的动作的状态转移参数Λ,Λ的物理含义是转移动作的延迟,都服从指数分布,统计由一个云计算系统的计算资源所处状态转移到另一个状态的平均历史时延,采用Huang方法计算转移动作延迟的概率,公式如下:

其中,s∈{h,w,c},N代表此种转移的历史转移次数,tn代表此种动作的第n次转移时间。

5、状态转移概率空间模型的每一个状态的稳态概率的具体计算过程包括:

设每个转移动作的延迟服从指数分布,利用马尔可夫(Markov)链对状态转移概率空间模型来求解稳态概率,π代表稳态概率向量,P为一步状态转移概率矩阵且P=(pij)i,j

对于hot PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:

u,v∈[0,Nh]u,v为整数

其中Nh代表h个hot PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;

对于warm PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:

u,v∈[0,Nw]u,v为整数

其中Nw代表w个warm PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率;

对于cold PM部署VM过程,利用下面公式求解状态转移概率空间模型的向量空间中的每一个状态的稳态概率:

u,v∈[0,Nc]u,v为整数

其中Nc代表c个cold PM资源部署过程中的转移状态的总数量,表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。

6、所述基于稳态概率的云计算系统的计算资源可用性的评估方法,具体过程为:

利用公式计算云计算系统中存在M个hot PM,N个warm PM和K个cold PM可用的概率为

其中状态S的标签为R∈{M,N,K},且hS≤M,wS≤N,cS≤K;

此处利用公式还可以计算云计算系统至少存在一个PM部署VM的概率,即求状态的概率。

本发明提供一个至少存在一台可部署VM的考虑冗余容错恢复的云计算系统计算资源可用性评估方法。其优点可归结为以下两点:1)考虑了PM失效及恢复等因素对云计算系统计算资源可用性的影响;2)可以评估云计算系统同时存在K个可用资源时法计算资源可用性。

附图说明

图1为云计算系统计算资源可用性分析流程图;

图2为以为起始状态标签的第一阶段hot PM资源分配图;

图3为以为起始状态标签的第二阶段warm PM资源分配图;

图4为以为起始状态标签的第三阶段cold PM资源分配图;

图5为实施例中以为起始状态标签的第一阶段hot PM资源分配图;

图6为实施例中以为起始状态标签的第二阶段warm PM资源分配图;

图7为实施例中以为起始状态标签的第三阶段cold PM资源分配图。

具体实施方式

下面举例对本发明做更详细的描述。

结合图1说明本发明的考虑冗余容错恢复的云计算系统计算资源可用性评估方法的实施流程。当云计算系统中存在3个hot PM、2个warm PM、2个cold PM时,结合具体实例,评估云计算系统计算资源的可用性。

1、本发明的考虑冗余容错恢复的云计算系统计算资源可用性评估方法,其具体实现过程分为以下7个步骤:

步骤一:建立考虑冗余容错恢复的云计算系统的计算资源模型。

步骤二:t为任意时刻,采用云计算系统计算资源标签分配方法,为该时刻的云计算系统的计算资源所处状态建立标签。

步骤三:对于云计算系统的计算资源所处状态的标签转移过程可以表示为其中LC,LD为任意的标签,act是LC和LD之间的转移动作,Λ是act对应的状态转移参数。在后续过程中按照本领域惯例省略act,仅标注Λ。采用云计算系统的计算资源标签转移方法,描述云计算系统的计算资源所处状态的任意两个标签的转移过程。

步骤四:采用基于平均历史时延的标签转移动作延迟的计算方法,对步骤三中每一个标签转移过程对应的动作赋予状态转移参数Λ。

步骤五:根据前述步骤三、四能够获得一个完整的云计算系统的状态转移概率空间模型。

步骤六:计算步骤五中的状态转移概率空间模型的每一个状态的稳态概率。

步骤七:采用基于稳态概率的云计算系统的计算资源可用性的评估方法,评估云计算系统计算资源的可用性。

2、前述的步骤一的考虑冗余容错恢复的云计算系统的计算资源模型,具体特性还包括:

1)云计算系统的物理机PM包括三种类型,分别是hot PM,warm PM,cold PM。其中hot PM是指活跃的PM,可以直接部署VM并运行服务,对可用性几乎没有影响;第二种是热待机的PM,PM处于待机状态在部署VM之前需要部分的资源配置,对可用性具有一定影响,称为warm PM;第三种是冷待机的PM,PM处于待机状态但基本没有加载资源,需要较多时间部署VM,对可用性具有很大影响,称为cold PM。

2)三种物理机之间的关系满足:当目前不存在一台能够提供VM部署的hot PM时,需要查询可用warm PM列表,若存在就将该warm PM热启动并部署相应VM;当也不存在一台能够提供服务的warm PM时,将查询可用cold PM列表,若存在就将该cold PM热启动并部署相应的服务。当服务完成后,将PM挂起回原来的状态。

3、前述的步骤二中的云计算系统计算资源标签分配方法,具体过程还包括:

任意时刻t的云计算系统的计算资源所处状态A(t),可以建立资源标签LA。LA可以表示为一个3×3的矩阵,具体含义如表3所示。

表3状态向量参数的含义

4、前述的步骤三中云计算系统的计算资源标签转移方法具体实现过程为:

1)当云计算系统需要分配新的PM时,将产生横向和纵向的两种转移关系。

2)横向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)未失效时,此时分配该PM,且这种PM的数量将减1;当分配的PM完成相应任务时将回到原来的状态,此时这种PM的数量将加1。

3)纵向转移关系是指正要分配的PM(hot PM、warm PM或cold PM)被发现已失效,无法正常完成分配,将触发恢复机制,且该种类的PM数量减1;当失效的PM恢复完成时,该PM回到原有的分类,且该种类的PM数量加1。

4)考虑冗余容错恢复的云计算系统的计算资源标签转移方法的流程可以表述为,当存在hot PM时采用第一阶段hot PM资源分配方法;若不存在hot PM,分配warm状态的物理机,此时采用第二阶段warm PM资源分配方法;当仍然不存在warm PM时,分配cold PM,采用第三阶段cold PM资源分配方法。

前述的第一阶段hot PM资源分配方法如图5所示,具体包括:

1)云计算系统的计算资源所处的起始状态标签为

2)首先判断正要分配的hot PM是否失效,若没有失效,则hot PM的数量减1,已分配hot PM的数量hD加1,此过程为横向转移过程。

3)若正要分配的hot PM失效,则进行纵向转移过程,即hot PM的数量减1,已失效hot PM的数量hF加1。

4)再继续判断是否存在hot PM,如果不存在hot PM,系统进程转入第二阶段warm PM资源分配方法。否则跳转到步骤2)。

前述的第二阶段warm PM资源分配方法对于状态开始的转移过程如图5所示,具体包括:

1)起始状态标签为

2)首先判断正要分配的warm PM是否失效,若没有失效,则warm PM的数量减1,已分配warm PM的数量wD加1,此过程为横向转移过程。

3)若正要分配的warm PM失效,则进行纵向转移过程,即warm PM的数量减1,已失效warm PM的数量wF加1。

4)再继续判断是否存在warm PM,如果不存在warm PM,系统转入第三阶段cold PM资源分配方法。否则,跳转到步骤2)。

前述的第三阶段cold PM资源分配方法对于状态开始的转移过程如图6所示,具体包括:

1)起始状态标签为

2)首先判断正要分配的cold PM是否失效,若没有失效,则cold PM的数量减1,已分配cold PM的数量cD加1,此过程为横向转移过程。

3)若正要分配的cold PM失效,则进行纵向转移过程,即cold PM的数量减1,已失效cold PM的数量cF加1。

4)再继续判断是否存在cold PM,系统跳转到步骤2)。

5、其中前述步骤四中基于平均历史时延的标签转移动作延迟的计算方法,具体实现过程还包括:

对每一个标签转移过程对应的动作的状态转移参数Λ,Λ的物理含义是转移动作的延迟,按照本领域的惯例认为其都服从指数分布。统计由一个云计算系统的计算资源所处状态转移到另一个状态的平均历史时延,采用经典的Huang方法计算转移动作延迟的概率。公式如下:

其中,s∈{h,w,c},N代表此种转移的历史转移次数,tn代表此种动作的第n次转移时间,得到如表4所示的状态转移参数。

表4状态转移参数的含义

6、状态转移概率空间模型的每一个状态的稳态概率,具体计算过程还包括:

假设每个转移动作的延迟服从指数分布,利用马尔可夫(Markov)链对步骤五中状态转移概率空间模型来求解稳态概率。π代表稳态概率向量,P为一步状态转移概率矩阵且P=(pij)i,j

利用公式⑵,计算3个hot PM部署VM过程中的稳态概率:

u,v∈[0,10]

其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。

利用公式⑶,计算2个warm PM部署VM过程中的稳态概率:

u,v∈[0,6]

其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。

利用公式⑷,计算2个cold PM部署VM过程中的稳态概率:

u,v∈[0,6]

其中表示处于第v个状态时的稳态概率,Puv表示从状态u到状态v的转移概率。

7、前述步骤七中基于稳态概率的云计算系统的计算资源可用性的评估方法,具体过程为:

利用公式可以计算云计算系统中存在3个hot PM,2个warm PM和2个cold PM可用的概率为

其中状态S的标签为R∈{3,2,2},每个元素的含义满足表3,且hS≤3,wS≤2,cS≤2。

利用公式计算系统至少存在一个PM部署VM的概率,即求状态的概率。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1