一种资源池业务健康的监控方法和系统的制作方法

文档序号:9711351阅读:378来源:国知局
一种资源池业务健康的监控方法和系统的制作方法
【技术领域】
[0001] 本发明涉及一种资源池业务健康的监控方法和系统,属于云计算领域。
【背景技术】
[0002] 近几年来随着科技的发展和云计算的出现,云计算作为一种新兴的应用模式迅速 发展。云计算是一种基于互联网的共享基础架构的方法,面对的是超大规模的分布式环境, 通过将成千上万台电脑和服务器连接在一起提供各种IT服务,旨在不断提高云的处理能 力,进而减少用户终端的负担。云计算为用户完成各类应用服务提供了强大的计算能力,用 户只需要通过一个简单的终端就可以享受云服务所带来的强大的处理能力。
[0003] 在云计算平台中,高效的资源监控不仅是必需的,而且已经成为企业成功的先决 条件。主机、虚拟机、存储或软件的运行情况不好或出现故障,将对企业的整个经营活动产 生巨大影响。传统的云数据中心,对于不同厂商、类型的云资源,都需要进行单独的性能监 控,甚至需要人工手动记录,步骤十分繁琐复杂。而且不同厂商、不同型号、不同类型的资 源,监控方法截然不同,每次采集性能信息时,运维人员都需要在各个资源上进行采集,操 作过程异常繁琐,更不要说统一监控管理。专利申请CN 201410806959.4(申请名称:一种云 资源智能监控告警方法,申请人:浪潮电子信息产业股份有限公司,申请日:2014-12-23)公 开了一种云资源智能监控告警方法,其具体实现过程包括:定义云资源实体,异构资源架 构,性能采集,告警策略,其中:定义云资源实体是该方案实现云资源监控告警的前提;异构 资源架构是该方案兼容各类异构虚拟化平台的核心环节;性能采集是该方案的数据采集环 节;告警策略是体现本方案智能告警的环节。该技术方案仅涉及到将资源性能数据与相应 资源类型的监控项阈值进行比较,当性能数据符合告警阈值时,记录最高级别的告警信息, 但并不涉及到对云计算资源池在一段时间内业务整体的运行状况进行监控和报警。
[0004] 因此,如何对云计算资源池在一段时间内业务整体的运行状况进行有效监控,已 成为了技术人员急需解决的技术问题。

【发明内容】

[0005] 有鉴于此,本发明的目的是提供一种资源池业务健康的监控方法和系统,能对云 计算资源池在一段时间内业务整体的运行状况进行有效监控。
[0006] 为了达到上述目的,本发明提供了一种资源池业务健康的监控方法,包括有:
[0007] 步骤一、为资源池中的各项资源设定对应的初始化业务分值,同时还为各项资源 分别构建各自的运行状态集Y(Z): {yi(z),y2(z),…,yn(z)},其中yi(z)是资源Z的正常运行 状态,y 2(z)、-_、yn(z)分别是资源Z的各种非正常运行状态;
[0008] 步骤二、定时采集资源池中各项资源的当前运行参数值,判断各项资源在其运行 状态集中所对应的正常或非正常运行状态,然后根据其正常或非正常运行状态来分别计算 各项资源的当前业务分值;
[0009] 步骤三、统计资源池中所有资源的当前业务总分值,当所述业务总分值低于健康 阈值时,发出报警信息。
[0010] 为了达到上述目的,本发明还提供了一种资源池业务健康的监控系统,包括有:
[0011] 业务健康初始化装置,用于为资源池中的各项资源设定对应的初始化业务分值, 同时还为各项资源分别构建各自的运行状态集Y(z):{ yi(Z),y2(Z),…,yn(z)},其中 yi(z) 是资源z的正常运行状态,y2(Z)v、y n(Z)分别是资源z的各种非正常运行状态;
[0012] 业务健康计算装置,用于定时采集资源池中各项资源的当前运行参数值,判断各 项资源在其运行状态集中所对应的正常或非正常运行状态,然后根据其正常或非正常运行 状态来分别计算各项资源的当前业务分值;
[0013] 业务健康监控装置,用于统计资源池中所有资源的当前业务总分值,当所述业务 总分值低于健康阈值时,发出报警信息。
[0014] 与现有技术相比,本发明的有益效果是:本发明实时采集资源池中各项资源的当 前运行参数,并根据每项资源的运行状态来计算获得业务整体的当前运行状况,从而极大 地方便了业务管理员在后续对业务作进一步的优化操作,技术方案简单易行,并具有很强 的实用性和可操作性;当某项资源包括有多个主机等物理实体时,本发明同时计算了单个 主机以及所有主机两种情况下的业务分值,从而有效避免了单点超负荷的情况。
【附图说明】
[0015] 图1是本发明一种资源池业务健康的监控方法的流程图。
[0016] 图2是图1步骤二中,计算资源池中资源z的当前业务分值的具体计算流程图。
[0017] 图3是本发明一种资源池业务健康的监控系统的组成结构示意图。
【具体实施方式】
[0018] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。
[0019] 如图1所示,本发明一种资源池业务健康的监控方法,包括有:
[0020] 步骤一、为资源池中的各项资源设定对应的初始化业务分值,同时还为各项资源 分别构建各自的运行状态集Y(Z): {yi(z),y2(z),…,yn(z)},其中yi(z)是资源Z的正常运行 状态,y 2(z)、-_、yn(z)分别是资源Z的各种非正常运行状态;
[0021] 步骤二、定时采集资源池中各项资源的当前运行参数值,判断各项资源在其运行 状态集中所对应的正常或非正常运行状态,然后根据其正常或非正常运行状态来分别计算 各项资源的当前业务分值;
[0022] 步骤三、统计资源池中所有资源的当前业务总分值,当所述业务总分值低于健康 阈值时,发出报警信息。
[0023] 步骤一中,可以首先设定资源池中所有资源的初始化业务总分值,然后根据资源 池中各项资源之间的权重比,再分别为每项资源设定对应的初始化业务分值。例如,如下表 所示,资源池中所有资源的初始化业务总分值设为100,根据各项资源的权重比,将资源池 中的各项资源的初始化业务分值分别设置如下:
[0024]
[0026] 根据各项资源的运行特性,每项资源可以设定多个运行状态,并构成各自的运行 状态集,每个运行状态分别对应一个运行参数的不同区间范围,即根据资源的运行参数所 在的区间范围来获得其对应的运行状态。例如,对于CHJ来说,其运行状态集可以设定为 H尤,良,差},当CPU的使用率为60%~70%之间时,其运行状态为优(即正常运行状态);当 CHJ的使用率为70 %~90 %、或30 %~60%之间时,其运行状态为良(即非正常运行状态1); 当CPU的使用率大于90%、或小于30%时,其运行状态为差(即非正常运行状态2)。
[0027] 如图2所示,图1步骤二中,计算资源池中资源z的当前业务分值,可以进一步包括 有:
[0028] 步骤21、采集资源z在多个时间点的运行参数值,然后统计资源z在当前时段的运 行参数平均值,并保存在数据库中;
[0029] 步骤22、根据资源z在当前时段的运行参数平均值,读取资源z在其运行状态集中 对应的当前运行状态,并判断资源z的当前运行状态是否是正常运行状态(SPy 1(Z))?如果 是,则计算资源Z的当前业务分值是:Z = Zo;如果否,则计算资源z的当前业务分值:
其中,Zo是资源z的初始化业务分值,η是资源z的运行状态集中的所有运 行状态总数,k是资源ζ的当前运行状态的非健康等级值,将运行状态集中的所有非正常运 行状态按照其严重程度由轻到重的次序进行排序,每个非正常运行状态在运行状态集的所 有非正常运行状态中所处的排序位置即是其对应的非健康等级值;
[0030] 步骤23、从数据库中提取资源ζ在上一时段的运行参数平均值;
[0031] 步骤24、计算资源ζ的运行状态动态变化值:_
其中,cyt(z)是 资源ζ在当前时段的运行参数平均值,Cyn(Z)是资源ζ在上一时段的运行参数平均值,然后 调整资源ζ的当前业务分值:
当资源池中的某 项资源的运行参数值随时间发生较大的动态变化时,则说明该项资源呈不稳定状况。
[0032] 当资源池中的一项资源ζ包括有多个物理实体(例如多个主机)时,为了有效避免 单点超负荷的情况,步骤一还可以包括有:
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1