一种云应用运行期的风险处理方法及系统的制作方法

文档序号:7776410阅读:165来源:国知局
一种云应用运行期的风险处理方法及系统的制作方法
【专利摘要】本发明公开了一种云应用运行期的风险处理方法及系统,所述方法包括:在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据;如果第一指标数据满足预设告警条件,则在云计算环境中确定影响第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据;确定对第一关联资源进行调整的调整任务和/或对第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式;从确定的各个调整任务中选取一个调整任务,并利用选取调整任务调整与所述选取调整任务对应的关联资源。
【专利说明】—种云应用运行期的风险处理方法及系统
【技术领域】
[0001]本发明涉及通信【技术领域】,尤其涉及一种云应用运行期的风险处理方法及系统。【背景技术】
[0002]云数据中心在物理数据中心之上构建了具有计算、存储等功能的网络虚拟化层和云服务层,可以更加智能更加人性化的对设备进行管理,更加动态的调动数据资源,并以随需即取的方式交付用户使用。云数据中心的这种服务方式大幅度提升了云数据中心资源的利用效率和资源使用的便捷性,但与此同时,云数据中心的复杂度也大大增加,且增大了云应用运行期的风险管理难度。
[0003]传统的云数据中心对云应用运行期的风险管理手段主要是:为与云应用运行相关联的资源监控指标定义最大阈值和/或最小阀值,在超出预设阈值范围后便触发告警策略。举例说明:假设与应用A P P — A运行相关的关联资源包括服务器A,服务器B,交换机C,数据库D,应用服务器E等,为保障APP — A在运行期内的运行风险随时被发现并且随时被处理,则需要对上述所有关联资源的监控指标定义最大和/或最小阀值、以及对应的触发告警策略,具体地,假设资源监控指标包括:服务器A的C P U利用率、应用服务器E的活跃线程数等等,对于服务器A,如果服务器A的C P U利用率大于90%且持续时间达到20分钟,则触发计算资源不足告警,如果服务器A的C P U利用率小于5%且持续时间达到24小时,则触发计算资源剩余告警。
[0004]当告警被触发后,传统的云数据中心会通过邮件、短信或W e b管理端等方式通知运维人员当前风险的关联资源(比如,服务器A)及携带风险内容的指标信息(比如,服务器A的C P U利用率大于90%且持续时间达到20分钟),然后由人工对当前风险进行排查处理,且排查过程中如何选择有效操作来消除风险需要凭借运维人员的经验,但是,这种人工排查风险的方式,使得排查速度慢,排查困难大,不能快速准确的解除云应用运行期的运行风险。

【发明内容】

[0005]有鉴于此,本发明实施例的主要目的在于提供一种云应用运行期的风险处理方法及系统,以实现快速准确的解除云应用运行期的运行风险的目的。
[0006]为实现上述目的,本发明实施例提供了一种云应用运行期的风险处理方法,包括:
[0007]在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据;
[0008]如果所述第一指标数据满足预设告警条件,则在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据;
[0009]确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式;
[0010]从确定的各个调整任务中选取一个调整任务,并利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0011]优选地,在上述方法中,所述确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,具体包括:
[0012]确定使所述第一指标数据不满足所述预设告警条件的调整目标;
[0013]当所述调整目标为降低所述第一指标数据时,获取对所述第一关联资源进行调整的用于降低所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于降低所述第一指标数据的调整任务;
[0014]当所述调整目标为升高所述第一指标数据时,获取对所述第一关联资源进行调整的用于升高所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于升高所述第一指标数据的调整任务。
[0015]优选地,在上述方法中,对所述第一关联资源进行调整的调整任务为第一调整任务,对所述第二关联资源进行调整的调整任务为第二调整任务,所述从确定的各个调整任务中选取一个调整任务,具体包括:
[0016]计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,其中,所述第一条件执行概率是在所述第一监视指标为第一指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率,所述第二条件执行概率是在所述第一监视指标为第一指标数据且所述第二监视指标为第二指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率;
[0017]从所述计算得到的所有条件执行概率中选取最大执行概率,并选取所述最大执行概率对应的调整任务,以利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0018]优选地,在上述方法中,在利用选取调整任务调整与所述选取调整任务对应的关联资源后,还包括:
[0019]重新获取所述第一监视指标的第一指标数据,如果所述重新获取的第一指标数据仍满足所述预设告警条件,则降低所述最大执行概率的概率值,继续执行从所述计算得到的所有条件执行概率中选取最大执行概率的步骤,直到所述第一指标数据不满足所述预设告警条件为止。
[0020]优选地,上述方法还包括:预先构建监控指标关联推理模型;
[0021]所述监控指标关联推理模型的建立方法,具体包括:
[0022]确定与云应用运行有关的至少一个第一监视指标;
[0023]确定影响所述第一监视指标的数据发生变化的各个关联资源和/或影响第二监视指标的数据发生变化的各个关联资源,所述第二监视指标为云计算环境中影响所述第一监视指标的数据发生变化的监视指标;
[0024]根据所述第一监视指标的指标数据的调整目标确定所述各个关联资源的调整任务,所述调整目标为升高所述第一监视指标的指标数据或降低所述第一监视指标的指标数据;
[0025]设置概率分布表,所述概率分布表包括第一条件概率、第二条件概率、以及所述调整任务的有效执行概率的预设值;
[0026]其中,所述有效执行概率是执行所述调整任务后使第一监视指标的指标数据不满足预设告警条件的概率值,所述第一条件概率是当所述第一监视指标在第一预设数据区间内时所述有效执行概率为预设值的概率,所述第二条件概率是当所述有效执行概率为预设值时所述第二监视指标在第二预设数据区间内的概率。
[0027]优选地,在上述方法中,所述计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,具体包括:
[0028]利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并将查询到的第一条件概率作为所述第一调整任务的第一条件执行概率;
[0029]和/ 或,
[0030]利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,并利用所述第二指标数据更新所述监控指标关联推理模型中第二监视指标的当前数据;根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并根据查询得到的第二条件概率和所述有效执行概率的预设值计算所述第二调整任务的第二条件执行概率。
[0031]本发明实施例还提供了一种云应用运行期的风险处理系统,包括:
[0032]指标数据获取模块,用于在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据;
[0033]关联资源确定模块,用于在所述第一指标数据满足预设告警条件时,在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据;
[0034]调整任务确定模块,用于确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式;
[0035]调整任务选取模块,用于从确定的各个调整任务中选取一个调整任务;
[0036]风险处理模块,用于利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0037]优选地,在上述系统中,所述调整任务确定模块,具体包括:
[0038]调整目标确定单元,用于确定使所述第一指标数据不满足所述预设告警条件的调整目标;
[0039]第一调整任务确定单元,用于当所述调整目标为降低所述第一指标数据时,获取对所述第一关联资源进行调整的用于降低所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于降低所述第一指标数据的调整任务;
[0040]第二调整任务确定单元,用于当所述调整目标为升高所述第一指标数据时,获取对所述第一关联资源进行调整的用于升高所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于升高所述第一指标数据的调整任务。
[0041]优选地,在上述系统中,对所述第一关联资源进行调整的调整任务为第一调整任务,对所述第二关联资源进行调整的调整任务为第二调整任务,所述调整任务选取模块,具体包括:
[0042]执行概率计算单元,用于计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,其中,所述第一条件执行概率是在所述第一监视指标为第一指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率,所述第二条件执行概率是在所述第一监视指标为第一指标数据且所述第二监视指标为第二指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率;
[0043]调整任务选取单元,用于从所述计算得到的所有条件执行概率中选取最大执行概率,并选取所述最大执行概率对应的调整任务,以利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0044]优选地,在上述系统中,
[0045]所述风险处理模块,还用于在利用选取调整任务调整与所述选取调整任务对应的关联资源后,重新获取所述第一监视指标的第一指标数据,如果所述重新获取的第一指标数据仍满足所述预设告警条件,则降低所述最大执行概率的概率值,继续执行从所述计算得到的所有条件执行概率中选取最大执行概率的步骤,直到所述第一指标数据不满足所述预设告警条件为止。
[0046]优选地,上述系统还包括:模型建立模块,用于预先构建监控指标关联推理模型;
[0047]所述模型建立模块,具体包括:
[0048]监视指标确定单元,用于确定与云应用运行有关的至少一个第一监视指标;
[0049]关联资源确定单元,用于确定影响所述第一监视指标的数据发生变化的各个关联资源和/或影响第二监视指标的数据发生变化的各个关联资源,所述第二监视指标为云计算环境中影响所述第一监视指标的数据发生变化的监视指标;
[0050]调整任务确定单元,用于根据所述第一监视指标的指标数据的调整目标确定所述各个关联资源的调整任务,所述调整目标为升高所述第一监视指标的指标数据或降低所述第一监视指标的指标数据;
[0051]概率表设置单兀,用于设置概率分布表,所述概率分布表包括第一条件概率、第二条件概率、以及所述调整任务的有效执行概率的预设值;其中,所述有效执行概率是执行所述调整任务后使第一监视指标的指标数据不满足预设告警条件的概率值,所述第一条件概率是当所述第一监视指标在第一预设数据区间内时所述有效执行概率为预设值的概率,所述第二条件概率是当所述有效执行概率为预设值时所述第二监视指标在第二预设数据区间内的概率。
[0052]优选地,在上述系统中,
[0053]所述执行概率计算单元,具体用于利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并将查询到的第一条件概率作为所述第一调整任务的第一条件执行概率;和/或,利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,并利用所述第二指标数据更新所述监控指标关联推理模型中第二监视指标的当前数据;根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并根据查询得到的第二条件概率和所述有效执行概率的预设值计算所述第二调整任务的第二条件执行概率。
[0054]本发明实施例提供的云应用运行期的风险处理方法及系统,当获取的第一监视指标的第一指标数据满足预设告警条件后,在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据;然后,确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,最后从确定的各个调整任务中选取一个调整任务,并利用选取调整任务调整与所述选取调整任务对应的关联资源,以在对关联资源进行调整后使第一指标数据不再满足预设告警条件。本发明实施例可以对满足预设告警条件的监控指标进行自动调整,从而自动实现了风险排查,克服了人工排查所带来的排查速度慢、排查困难大等缺陷,实现了快速准确的解除云应用运行期的运行风险的目的。
【专利附图】

【附图说明】
[0055]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]图1为本发明实施例云应用运行期的风险处理方法的流程示意图之一;
[0057]图2为本发明实施例云应用运行期的风险处理方法的流程示意图之二 ;
[0058]图3为本发明实施例监控指标关联推理模型的节点定义示意图;
[0059]图4为本发明实施例监控指标关联推理模型的第一有向无环图;
[0060]图5为本发明实施例监控指标关联推理模型的第二有向无环图;
[0061]图6为本发明实施例关联推理模型建立方法的流程示意图;
[0062]图7为本发明实施例云应用运行期的风险处理系统的一种结构示意图;
[0063]图8为本发明实施例云应用运行期的风险处理系统的另一种结构示意图。
【具体实施方式】
[0064]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0065]在云应用运行的云计算环境中,与云应用运行状态相关的资源除了物理服务器、交换机、数据库和中间设备外,还有虚拟服务器(V M服务器)、虚拟交换机等,且虚拟资源还会根据实际需求动态增加或减少,虚拟资源与物理资源之间的映射关系也会动态的发生变化,等等。基于此,当物理设备或云计算环境中的虚拟设备或云应用本身等发生故障时都将影响云应用的正常运行,所以,本发明实施提供的云应用运行期的风险处理方法及装置,主要是在云应用运行期出现异常运行状态时,及时对云计算环境中的相关资源进行调整,以实现自动处理运行风险的目的。为实现该目的,下面就本发明的各个实施例进行具体介绍。
[0066]实施例一
[0067]参见图1,为本发明实施例一提供的云应用运行期的风险处理方法的流程示意图,具体包括:
[0068]步骤101:在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据。
[0069]其中,所述第一监视指标可以为服务请求响应时间、或用户在线数、或服务请求平均处理时间等运维人员关心的监控指标。另外,可以预设多个第一监控指标,并在云应用运行期对这多个第一监视指标的指标数据进行采集。
[0070]步骤102:如果所述第一指标数据满足预设告警条件,则在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据。
[0071]在本发明实施例中,将云计算环境中的资源分为两类资源,一类是第一关联资源,另一类是第二关联资源。所述第一关联资源的变化将直接导致所述第一指标数据发生变化;所述第二关联资源的变化将直接导致所述第二指标数据发生变化、且所述第二指标数据的变化又直接导致所述第一指标数据发生变化,即所述第二关联资源的变化间接导致所述第一指标数据发生变化。所以,在实际应用中,影响第一指标数据发生变化的关联资源可以仅包括第一关联资源,或仅包括第二关联资源,或同时包括第一关联资源和第二关联资源。
[0072]其中,所述第一关联资源或所述第二关联资源可以为:物理主机、虚拟主机、网络、操作系统,等等;所述第二监视指标可以为:VM CP U利用率、或磁盘I O (输入输出)流量,或V M内存利用率,或网络带宽使用率,或网络I O延迟,等等。
[0073]步骤103:确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式。
[0074]步骤103中,假设“虚拟主机”是已经确定的第一关联资源或是第二关联资源,则对虚拟主机进行调整的调整任务可以为:迁移虚拟机、或提升虚拟机C P U配额,或重启虚拟机等。
[0075]步骤104:从确定的各个调整任务中选取一个调整任务,并利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0076]为了更方便的了解本发明实施例一,下面举例说明:
[0077]假设当前获取到的第一监视指标为:服务请求响应时间,对应的第一指标数据为:10秒,预设告警条件为:服务请求响应时间大于5秒即可触发告警。由于当前获取的第一指标数据满足了预设告警条件,所以触发告警,在触发告警后,当只存在使服务请求响应时间发生变化的一个或多个第二监视指标时,如果确定的第二监视指标为V M C P U利用率(还可以包括其它第二监视指标),则进一步确定使V M C P U利用率发生变化的第二关联资源为虚拟主机,为了使服务请求响应时间小于5秒,便需要对虚拟主机进行调整(譬如:提升虚拟机C PU配额),调整的目的是使VM C P U利用率发生变化,最终目的是在V M C P U利用率变化后,使服务请求响应时间小于5秒。
[0078]实施例二
[0079]参见图2,为本发明实施例二提供的云应用运行期的风险处理方法的流程示意图,具体包括:
[0080]步骤201:在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据。
[0081]步骤202:如果所述第一指标数据满足预设告警条件,则在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据。
[0082]步骤203:确定使所述第一指标数据不满足所述预设告警条件的调整目标。
[0083]步骤204:当所述调整目标为降低所述第一指标数据时,获取对所述第一关联资源进行调整的用于降低所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于降低所述第一指标数据的调整任务,执行步骤206。
[0084]步骤205:当所述调整目标为升高所述第一指标数据时,获取对所述第一关联资源进行调整的用于升高所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于升高所述第一指标数据的调整任务。
[0085]如果步骤202确定的关联资源仅为第一关联资源,则在步骤204或步骤205中确定对第一关联资源的调整任务;如果步骤202确定的关联资源仅为第二关联资源,则在步骤204或步骤205中确定对第二关联资源的调整任务;如果步骤202确定的关联资源既包括第一关联资源又包括第二关联资源,则在步骤204或步骤205中分别确定对第一关联资源和第二关联资源的调整任务。
[0086]步骤206:计算第一调整任务的第一条件执行概率和/或第二调整任务的第二条件执行概率,其中,对所述第一关联资源进行调整的调整任务为第一调整任务,对所述第二关联资源进行调整的调整任务为第二调整任务。
[0087]其中,所述第一条件执行概率是在所述第一监视指标为第一指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率,所述第二条件执行概率是在所述第一监视指标为第一指标数据且所述第二监视指标为第二指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率。
[0088]步骤207:从所述计算得到的所有条件执行概率中选取最大执行概率,并选取所述最大执行概率对应的调整任务,以利用选取调整任务调整与所述选取调整任务对应的关联资源。
[0089]其中,所述最大执行概率对应的调整任务可能是对所述第一关联资源进行调整的调整任务,也可能是对所述第二关联资源进行调整的调整任务。
[0090]步骤208:在对关联资源进行调整后,重新获取所述第一监视指标的第一指标数据。
[0091]步骤209:判断所述重新获取的第一指标数据是否满足所述预设告警条件,如果是,则执行步骤210,如果否,则执行步骤211 ;
[0092]步骤210:降低所述最大执行概率的概率值,继续执行步骤707。[0093]步骤211:结束流程。
[0094]在步骤207至210中,在利用最大执行概率对应的调整任务对关联资源进行调整后,可能未出现预期的调整效果,即所述第一监视指标的第一指标数据仍满足所述预设告警条件,此时将计算得到的最大执行概率降低一定的概率值(比如:最大执行概率为80%时,将80%减少20%得到60%,60%将不是所有条件执行概率中的最大执行概率),然后,再从所有的条件执行概率中获取另外一个最大执行概率,继续利用该最大执行概率对应的调整任务进行对应关联资源的调整,如此循环,直到第一指标数据不满足所述预设告警条件为止。
[0095]为了计算步骤206中的第一条件执行概率和第二条件执行概率,在执行本发明实施例前还包括以下步骤:预先构建监控指标关联推理模型。下面具体介绍所述监控指标关联推理模型的建立方法,主要分为以下三个步骤:
[0096]第一步:对监控指标关联推理模型中的各个节点进行定义
[0097]1、第一监视指标节点
[0098]将运维人员关注的云应用运行期的业务系统指标定义为第一监视指标节点,t匕如:服务请求响应时间、用户在线数等。另外,每个第一监视指标均有其对应的风险告警策略,即利用第一监视指标当前值判断是否满足预设告警条件,如果是,则触发告警以便进行后续的风险自动处理。
[0099]在定义了各个第一监视指标节点后,进一步对各个节点的值域进行定义,对于某个第一监视指标节点,假设其节点值域为{1,2,3},其中,节点值域中的每个域值与该第一监视指标的一个预设数据区间(指标数据区间)相互映射。例如:假设服务请求响应时间的节点值域为{1,2,3},则可定义节点值域中的域值I与预设数据区间O — 5 s对应,定义节点值域中的域值2与预设数据区间5 — 10 s对应,定义节点值域中的域值3与预设数值区间10 — 20 s对应。需要说明的是,节点值域的定义不限于上述形式,还可以对节点值域中的域值进行适当的减少或增多等等。
[0100]2、第二监视指标节点
[0101]将云应用运行期关联资源的监视指标定义为第二监视指标节点,比如:VM CP U利用率、磁盘I O流量,V M内存利用率,网络带宽使用率,网络I O延迟,等等。
[0102]在定义了各个第二监视指标节点后,进一步对各个节点的值域进行定义,对于某个第二监视指标节点,假设其节点值域为{1,2,3},其中,节点值域中的每个域值与该第二监视指标的一个预设数据区间(指标数据区间)相互映射。例如:假设V M C P U利用率的节点值域为{1,2,3},则可定义节点值域中的域值I与预设数据区间0% — 20%对应,定义节点值域中的域值2与预设数据区间20% — 50%对应,定义节点值域中的域值3与预设数值区间50% — 100%对应。需要说明的是,节点值域的定义不限于上述形式,还可以对节点值域中的域值进行适当的减少或增多等等。
[0103]3、调整任务节点
[0104]将基于专家知识预定义的云环境控制任务(对第一关联资源或第二关联资源的调整任务)定义为调整任务节点,比如:增加集群节点、提升虚拟机密度,等等。具体地,根据第一监视指标的数据调整目标(降低或升高第一监视指标)设置与调整目标对应的调整任务;另外,每个第一监视指标的数据调整目标,可以对应有一个或多个调整任务。[0105]在定义了各个调整任务节点后,进一步对各个节点的值域进行定义,对于某个调整任务节点,假设其节点值域为{ T,F },则T代表执行调整任务后有效(即执行调整任务后解除了当前告警,比如使得当前获取的第一监视指标的数据不再满足预设告警条件),F代表执行调整任务后无效(即执行调整任务后仍未解除当前告警,比如使得当前获取的第一监视指标的数据仍满足预设告警条件)。
[0106]第二步:绘制监控指标关联推理模型的有向无环图(D AG)
[0107]在节点定义完成之后(参见如图3所示的监控指标关联推理模型的节点定义示意图),根据各个节点间的相互关系将具有相关性的节点按相关顺序以有向边连接成一个有向无环图(DAG),其中,出度为O的节点为第一监视指标节点,入度为O的节点为调整任务节点,既有出度又有入度的节点为第二监视指标节点。
[0108]例如:第一监视指标节点举例为“服务请求响应时间”,实际实现还可替换为任何运维人员关心的业务系统指标节点,比如:“在线用户数”,“服务请求平均处理时间”,等等,当然也可以将这几个节点分别定义为不同的第一监视指标;第二监视指标节点举例为” VM CP U利用率”,实际实现可增加或替换任何与第一监控指标节点相关的软件、设备等系统资源指标节点,比如:“磁盘I O流量”,“ V M内存利用率”,“网络带宽使用率”,“网络I O延迟”,等等;调整任务节点举例为“增加集群节点”和“提升虚拟机密度”,实际实现可增减或替换任何能够影响第二监视指标数据变化的调整任务节点,比如:“优化网络拓扑”,“减少集群节点”,“提升内存配额”,“提升网络带宽配额”,等等。将这些相互关联的节点以有向边进行连接,以此来反映节点间的关联性。
[0109]举例说明:参见图4所示的监控指标关联推理模型的第一有向无环图,在图4中,定义“增加集群节点”和“提升虚拟机密度”是对第二关联资源的调整任务,该调整任务将影响第二监视指标“ V M内存利用率”的数据变化,第二监视指标“ V M内存利用率”将影响第一监视指标“服务请求响应时间”的数据变化。此外,本发明实施例还存在图5所示的有向边连接方式,参见图5所示的监控指标关联推理模型的第二有向无环图,在图5中,定义“增加集群节点”和“提升虚拟机密度”是对第一关联资源的调整任务,该调整任务将直接影响第一监视指标“服务请求响应时间”的数据变化。当然,本发明实施例还存在图4与图5所示连接方式同时存在的有向边连接方式。
[0110]第三步:设置条件概率分布表
[0111]在有向无环图(D A G)定义完成后,图中每个节点均需要根据专家经验数据设置一个条件概率分布表。主要分为以下两种情况:
[0112]情况一:参见图4,基于第一监视指标A、第二监视指标B与调整任务C间存在以下关系:C 一> B — > A,即执行C将导致B的指标数据发生变化,B的指标数据发生变化将导致A的指标数据发生变化,设P (A I B)为当B为第二指定值(第二监视指标的节点值域中的域值)时A为第一指定值(第一监视指标的节点值域中的域值)的概率;SP (B IC)为当C为第三指定值(有效执行概率或无效执行概率)时B为第二指定值(第二监视指标的节点值域中的域值)的概率;P ( C = T )表示有效执行概率的预设值,P(C = F)表示无效执行概率的预设值。其中,所述有效执行概率是指执行调整任务后使第一监视指标的指标数据不满足预设告警条件的概率值,所述无效执行概率是指执行调整任务后使第一监视指标的指标数据仍满足预设告警条件的概率值。[0113]例如:参见表1至表3,表1为A的条件概率分布表,表2为B的条件概率分布表,表3为C的预设概率分布表。
[0114]
【权利要求】
1.一种云应用运行期的风险处理方法,其特征在于,包括: 在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据; 如果所述第一指标数据满足预设告警条件,则在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据; 确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式;从确定的各个调整任务中选取一个调整任务,并利用选取调整任务调整与所述选取调整任务对应的关联资源。
2.根据权利要求1所述的方法,其特征在于,所述确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,具体包括: 确定使所述第一指标数据不满足所述预设告警条件的调整目标; 当所述调整目标为降低所述第一指标数据时,获取对所述第一关联资源进行调整的用于降低所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于降低所述第一指标数据的调整任务; 当所述调整目标为升高所述第一指标数据时,获取对所述第一关联资源进行调整的用于升高所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于升高所述第一指标数据的调整任务。
3.根据权利要求1或2所述的方法,其特征在于,对所述第一关联资源进行调整的调整任务为第一调整任务,对所述第二关联资源进行调整的调整任务为第二调整任务,所述从确定的各个调整任务中选取一个调整任务,具体包括: 计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,其中,所述第一条件执行概率是在所述第一监视指标为第一指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率,所述第二条件执行概率是在所述第一监视指标为第一指标数据且所述第二监视指标为第二指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率; 从所述计算得到的所有条件执行概率中选取最大执行概率,并选取所述最大执行概率对应的调整任务,以利用选取调整任务调整与所述选取调整任务对应的关联资源。
4.根据权利要求3所述的方法,其特征在于,在利用选取调整任务调整与所述选取调整任务对应的关联资源后,还包括: 重新获取所述第一监视指标的第一指标数据,如果所述重新获取的第一指标数据仍满足所述预设告警条件,则降低所述最大执行概率的概率值,继续执行从所述计算得到的所有条件执行概率中选取最大执行概率的步骤,直到所述第一指标数据不满足所述预设告警条件为止。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:预先构建监控指标关联推理模型; 所述监控指标关联推理模型的建立方法,具体包括: 确定与云应用运行有关的至少一个第一监视指标;确定影响所述第一监视指标的数据发生变化的各个关联资源和/或影响第二监视指标的数据发生变化的各个关联资源,所述第二监视指标为云计算环境中影响所述第一监视指标的数据发生变化的监视指标; 根据所述第一监视指标的指标数据的调整目标确定所述各个关联资源的调整任务,所述调整目标为升高所述第一监视指标的指标数据或降低所述第一监视指标的指标数据;设置概率分布表,所述概率分布表包括第一条件概率、第二条件概率、以及所述调整任务的有效执行概率的预设值; 其中,所述有效执行概率是执行所述调整任务后使第一监视指标的指标数据不满足预设告警条件的概率值,所述第一条件概率是当所述第一监视指标在第一预设数据区间内时所述有效执行概率为预设值的概率,所述第二条件概率是当所述有效执行概率为预设值时所述第二监视指标在第二预设数据区间内的概率。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,具体包括: 利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并将查询到的第一条件概率作为所述第一调整任务的第一条件执行概率; 和/或, 利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,并利用所述第二指标数据更新所述监控指标关联推理模型中第二监视指标的当前数据;根据所述更新后的当前 数据查询所述监控指标关联推理模型中的概率分布表,并根据查询得到的第二条件概率和所述有效执行概率的预设值计算所述第二调整任务的第二条件执行概率。
7.一种云应用运行期的风险处理系统,其特征在于,包括: 指标数据获取模块,用于在云应用运行期获取与云应用运行有关的第一监视指标的第一指标数据; 关联资源确定模块,用于在所述第一指标数据满足预设告警条件时,在云计算环境中确定影响所述第一指标数据发生变化的各个第一关联资源和/或影响第二指标数据发生变化的各个第二关联资源,所述第二指标数据为云计算环境中影响所述第一指标数据发生变化的第二监视指标的指标数据; 调整任务确定模块,用于确定对所述第一关联资源进行调整的调整任务和/或对所述第二关联资源进行调整的调整任务,所述调整任务为使所述第一指标数据不满足所述预设告警条件的调整方式; 调整任务选取模块,用于从确定的各个调整任务中选取一个调整任务; 风险处理模块,用于利用选取调整任务调整与所述选取调整任务对应的关联资源。
8.根据权利要求7所述的系统,其特征在于,所述调整任务确定模块,具体包括: 调整目标确定单元,用于确定使所述第一指标数据不满足所述预设告警条件的调整目标; 第一调整任务确定单元,用于当所述调整目标为降低所述第一指标数据时,获取对所述第一关联资源进行调整的用于降低所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于降低所述第一指标数据的调整任务; 第二调整任务确定单元,用于当所述调整目标为升高所述第一指标数据时,获取对所述第一关联资源进行调整的用于升高所述第一指标数据的调整任务,和/或,获取对所述第二关联资源进行调整的用于升高所述第一指标数据的调整任务。
9.根据权利要求7或8所述的系统,其特征在于,对所述第一关联资源进行调整的调整任务为第一调整任务,对所述第二关联资源进行调整的调整任务为第二调整任务,所述调整任务选取模块,具体包括: 执行概率计算单元,用于计算所述第一调整任务的第一条件执行概率和/或所述第二调整任务的第二条件执行概率,其中,所述第一条件执行概率是在所述第一监视指标为第一指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率,所述第二条件执行概率是在所述第一监视指标为第一指标数据且所述第二监视指标为第二指标数据的条件下使所述第一指标数据不满足所述预设告警条件的调整任务的执行概率; 调整任务选取单元,用于从所述计算得到的所有条件执行概率中选取最大执行概率,并选取所述最大执行概率对应的调整任务,以利用选取调整任务调整与所述选取调整任务对应的关联资源。
10.根据权利要求9所述的系统,其特征在于, 所述风险处理模块,还用于在利用选取调整任务调整与所述选取调整任务对应的关联资源后,重新获取所述第一监视指标的第一指标数据,如果所述重新获取的第一指标数据仍满足所述预设告警条件,则降低所述最大执行概率的概率值,继续执行从所述计算得到的所有条件执行概率中选取最大执行概率的步骤,直到所述第一指标数据不满足所述预设告警条件为止。
11.根据权利要求9所述的系统,其特征在于,所述系统还包括:模型建立模块,用于预先构建监控指标关联推理模型; 所述模型建立模块,具体包括: 监视指标确定单元,用于确定与云应用运行有关的至少一个第一监视指标; 关联资源确定单元,用于确定影响所述第一监视指标的数据发生变化的各个关联资源和/或影响第二监视指标的数据发生变化的各个关联资源,所述第二监视指标为云计算环境中影响所述第一监视指标的数据发生变化的监视指标; 调整任务确定单元,用于根据所述第一监视指标的指标数据的调整目标确定所述各个关联资源的调整任务,所述调整目标为升高所述第一监视指标的指标数据或降低所述第一监视指标的指标数据; 概率表设置单元,用于设置概率分布表,所述概率分布表包括第一条件概率、第二条件概率、以及所述调整任务的有效执行概率的预设值;其中,所述有效执行概率是执行所述调整任务后使第一监视指标的指标数据不满足预设告警条件的概率值,所述第一条件概率是当所述第一监视指标在第一预设数据区间内时所述有效执行概率为预设值的概率,所述第二条件概率是当所述有效执行概率为预设值时所述第二监视指标在第二预设数据区间内的概率。
12.根据 权利要求11所述的系统,其特征在于,所述执行概率计算单元,具体用于利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并将查询到的第一条件概率作为所述第一调整任务的第一条件执行概率;和/或,利用所述第一指标数据更新所述监控指标关联推理模型中第一监视指标的当前数据,并利用所述第二指标数据更新所述监控指标关联推理模型中第二监视指标的当前数据;根据所述更新后的当前数据查询所述监控指标关联推理模型中的概率分布表,并根据查询得到的第二条件概率和所述 有效执行概率的预设值计算所述第二调整任务的第二条件执行概率。
【文档编号】H04L29/08GK103607300SQ201310566811
【公开日】2014年2月26日 申请日期:2013年11月12日 优先权日:2013年11月12日
【发明者】许力, 毛军, 马云存 申请人:东软集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1