面向业务混合部署的云计算系统中组件关键度评估方法

文档序号:37928191发布日期:2024-05-11 00:07阅读:17来源:国知局
面向业务混合部署的云计算系统中组件关键度评估方法

本发明属于大数据云计算,尤其是云网融合领域中的可靠性提高技术,特别是一种面向业务混合部署的云计算系统中组件关键度评估方法。


背景技术:

1、通常,云供应商们可以通过协作维护一个面向混合业务的分布式云系统为多类租户订阅的业务提供部署平台。但是,耦合松散、依赖关系复杂和资源竞争等特点导致云系统通常是不稳定的。因此,必须确保系统的高可靠性。然而,云应用的大规模化和复杂化趋势使得仅使用故障预防技术(例如,通过严格的开发过程)和故障排除技术(例如,通过测试和调试技术)来开发无故障系统变得非常困难,因此亟需从容忍缺陷存在的容错角度去提高可靠性。

2、显然,云计算系统的可靠性取决于提供服务的组件,因此选用最好组件、提供尽量多的资源或者迁移到最适配的虚拟机上去是最直接的可靠性增强方式。然而,能带来极致利润的方法总是伴随着非常高的使用成本,因此,容错部署策略必须考虑到成本预算的限制。

3、出于成本效益比的考量,引入了组件的关键度的概念,具有越高关键度的组件为其部署容错技术的优先级就越高。然而,由于系统可靠性难以量化、影响因素多样等原因的存在,使得现有应用于云计算系统的组件关键度评估技术难以全面灵活地识别复杂场景下的系统重要组件。加之,随着工业4.0的到来和发展,全息通信、ar/vr以及远程医疗等新型极致场景和业务的不断涌现对可靠性等服务性能提出了更高且多样的要求。通常有着更高要求的极致业务响应失败会给租户或云供应商带来更严重的后果。因此,在评估这类云系统的容错性能时不能仅仅只关注系统自身的故障率,而需要结合业务的情况去制定后续的容错策略。

4、为了克服上述的挑战,本发明首先为业务混合部署的云系统制定了一套更加通用的容错性能量化方法,并在此基础上提出了一种面向这种复杂场景的更灵活有效的关键组件筛选方法。


技术实现思路

1、发明目的:本发明旨在提供一种面向业务混合部署的云系统中组件关键度评估方法,该方法考虑了业务信息、系统拓扑和冗余资源池在内的多维度因素,找到了对特定业务场景下的云系统容错性影响更大的组件或子系统。

2、技术方案:一种面向业务混合部署的云计算系统中组件关键度评估方法,包括如下步骤:

3、s1、基于业务混合部署的云计算系统建立面向业务的系统容错性量化模,然后在一轮业务的生存时间t内对云服务组件按照每s秒进行调用测试,且假设测试时间间隔s无限小,通过用连续的组件运行时间来代替离散的监测时间点进行分析;然后通过按需失效概率来评估云组件的可靠性,且考虑到云组件即使在可靠性数值相等的情况下由于其所服务的业务等级不同而导致它们对整个计算云系统的容错性能的贡献不同,因此构建由业务等级决定的元组件容错需求级,用于表征组件可靠性的质量;最后,将组件的容错需求级和可靠值相乘得到其容错性数值;

4、s2、基于步骤s1得到的容错公式计算birnbaum重要度和潜在增强,还包括基于谷歌的pagerank算法进行修改并应用到云系统中以捕捉组件之间的调用关系,由birnbaum重要度、pagerank算法和潜在增强三者加权实现对组件重要度的评估。

5、上述方法中,步骤s1是将随机生成的云计算系统看作是一个有向加权图,表示为其中代表个提供特定功能的组件,e代表节点之间的边集,ei,j表示对存在调用关系。

6、该方法是假设在一轮业务的生存时间t内,通过对云服务组件每s秒调用测试,得到测试次数nt=t/s和测试时间点t1,...,tn,将每轮业务的服务周期看作一个时隙[0,t],并且从每个业务群的服务周期的角度评估组件的可靠性;只有测试成功或失败的测试时间点ti的数量会队可靠性数值产生影响,而ti的顺序则不会影响到最终结果。

7、进一步地,步骤s1用连续的组件运行时间来代替离散的监测时间点进行分析包括如下过程:

8、在对云服务组件的调用测试中,利用二值状态变量s(ti)来描述组件云服务在第ti次调用时的状态:若第ti次调用测试时组件的响应时间大于中签订的qos保障的服务最大响应时间rtmax,则认为此次测试失败,即s(ti)=0;据此,二值状态变量s(ti)的数学表示如下:

9、

10、对于云服务组件c每次测试时出现故障的概率,则表示为:

11、fc(ti)=pr(s(ti)=0)

12、式中,ti表示测试时间点,得到以下概率值pc(t)来表示期望组件c达到的能力,即c在规定条件下每次测试都能正常响应的概率:

13、

14、由此,组件c在t内的失效率表达式如下:

15、λc(t)=1-pc(t)

16、进一步的考虑到云计算系统包括串联、并联、条件分支和循环这四种基本的工作流结构进行扩展,所述系统工作流用于表述云服务组件之间的组合协作关系,不同的业务会调用不同路径中的组件;

17、对此,所述方法针对四种结构单元的可靠性给出如下的数学表达式:

18、串联:

19、并联:

20、条件分支:rbranch=∑p(b)rb(∑p(b)=1)

21、循环:式中,b是系统中的工作流路径,p(b)是分支路径b的执行概率,roper是循环体的可靠性。

22、更近一步地说,并联结构通常有两种情况:

23、第一种是只要并行路径中的任何一个组件正常工作,整个系统就被认为是正常的,其可靠性可用上式rpara计算;

24、第二种是并行的每个组件负责不同的功能,当所有组件的服务任务都完成时,才会进行后继单元的服务,这种情况的性能公式可用串联的性能公式计算;且将单元中所有组件的最大响应时间应该调整至单元中的最大值或下一单元最晚运行时间。

25、上述方法中,为了提高程序的执行效率和性能,云计算系统可以仅包含串联、并联和条件分支三种结构,循环结构可以通过下述方法转化为条件分支结构进行计算:

26、循环结构的计算是以p(l)的概率将循环体组件集合调用l次,该次调用组件的数量为循环体组件数量与l的乘积,将这些组件视为一次调用的过程。

27、进一步地,在按需失效概率来评估云组件的可靠性中,包括采用业务等级决定的组件容错需求级去表征可靠性质量,其表达式为:

28、

29、式中,τ(s)用来区分混合业务的等级,invo(c)代表调用组件c的业务集合;为了防止组件的容错需求级高是由于其堆积了大量的一般业务,利用业务数量与业务等级之和的比值,通过将ψc和rc相乘得到了组件c的容错性能表达式:

30、

31、对于一个业务而言,只需要关注其要调用的工作流路径的容错性能,其他路径的可靠程度并不会对该业务产生影响;因此,当云计算系统整体的容错值时不能简单地将各路径的数值相乘,而是应该考虑每条路径流过的业务数量,面向当前业务群的系统容错值的计算表达式为:

32、

33、所述方法中,步骤s2具体包括如下过程:

34、s21、根据上述工作流结构的性能公式可知,同一个组件若处于系统中的不同位置也会给系统的容错带来不同的影响,因此本发明引入了birnbaum衡定法,该方法在不同研究领域都有很好的应用。其计算公式由系统容错(即组件单元可靠度的n元函数)对某单元容错的偏导数来获得,表示如下:

35、

36、上述公式表示了当组件的容错发生微小变化时,系统的容错函数对此的响应程度。ib(i)越大,表示组件对系统的容错函数的贡献越大,即组件ci对系统的容错能力具有较高的灵敏度。该方法适用于任何复杂的系统,无论是串联、并联还是更复杂的网络结构。但是,birnbaum重要度是一个静态的度量,它没有考虑到组件随时间变化的可靠性或失效率,这显然是过于理想化的,因为实际环境下的组件性能经常会出现随运行时间增加而退化的情况。此外,计算birnbaum重要度通常假设系统组件的失效是独立的,并没有考虑到组件之间依赖和调用关系。因为云计算系统中,组件工作流的复合结构会直接影响组件在系统中的关键度,例如一个处于系统核心位置的组件ci(其关键度必然很高)正常工作的必要条件之一是cj正常被调用,那么显然cj也会是非常关键的,因此正确识别组件间的依赖情况也是评估组件关键度的不可缺少的一环;

37、s22、为了克服birnbaum重要测度法忽视了这一维度的缺点,本发明对谷歌的pagerank算法进行修改并应用到云系统中以捕捉组件之间的调用关系。在有向加权图中,通过下式计算有向边ei,j的权值:

38、

39、式中,ni(j)是整个业务生存时间内对的调用次数,是有向加权图中调用的节点的集合;

40、s23、定义图中节点的体系结构重要度计算方式为pr-重要度,表达式如

41、

42、式中,是图中节点的数量,ipr(j)是调用的组件的pr关键度,d是一个在[0,1]内可以动态调整的阻尼因子,表示业务流继续关注给定节点上的链接,d值越大表示信息流更倾向于继续通过与当前节点相关的内容;

43、s24、通过设置参数d,可以将pr关键度看作是由一个给定节点基础值和该节点的调用者相关值加权而来;如果中的元素数量、ipr(j)和w(ei,j)越大,说明给定组件被很多关键组件频繁调用;

44、s25、为了更好地感知极致业务对系统的影响,设定一个阈值ε来区别对业务中相对更重要的组件,用ξ来代替上式中的得到如下的表达式:

45、

46、其中sn是容错需求级大于等于ε的组件,表示这类组件的数量;参数θ用于确定方法对业务先验重要组件sn的依赖程度:

47、当时,该方法退化原先的算法;

48、当θ=1时,sn之外的节点的基本值等于0,导致它们的显著性值较小;

49、进而可得到计算的pr关键度的表达式如下所示:

50、ipr(i)=(1-d)ξ(i)+d∑ipr(j)w(ei,j)

51、j∈call(ni)

52、s26、引入可信潜在增加来考虑冗余资源池中冗余的性价比和容错预算对云计算系统的影响,若云计算系统中的组件单元ci在部署容错手段后,fti提高到一个新的水平fti′的系统性能增强定义为ci的pe-重要度,表示为:

53、

54、式中,代表仅给ci部署容错手段后系统的容错值;

55、s27、结合步骤s21-s26中的计算,经过归一化处理,并且通过设置两个权重参数α、γ来衡量节点ci的总体关键度,表达式如下:

56、

57、式中权重参数α、γ根据系统和应用的场景分析确定,包括通过实验来确定。

58、进一步地,步骤s27中的权重参数α和γ取值为(0,0.8]。

59、有益效果:与现有技术相比,通过本发明识别出的业务混合部署的云系统中的关键组件不管是在预算紧张还是充裕的情况下都相对于其他方法对系统的影响更大。并且云组件在遭遇组件质量衰退时,本发明抵抗风险能力更强,具有较强的鲁棒性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1