It运维服务器的运行状态检测方法_2

文档序号:9827997阅读:来源:国知局
态检测方法,采用系统监控的方式, 与现有技术中的服务器经常在运行的过程中出现宕机等导致服务器无法工作的情况相比, 其通过同时获取了服务器性能、服务器容量和服务器状态这三个方面的参数,使得本地能 够同时依据这三个参数对服务器的整体状态进行评价,当某一方面出问题的时候,则采用 报警的方式来告知用户,进而使得用户可以对服务器的是否正常得到直观的提醒,进而采 取相应的措施,以保证服务器能够正常的提供服务。
[0044]为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。
【附图说明】
[0045]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。
[0046]图1示出了本发明实施例所提供的IT运维服务器的运行状态检测方法的基本流程 图。
【具体实施方式】
[0047]下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在 此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因 此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的 范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做 出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048] 互联网技术的实施依赖于服务器对信息的中转,服务器的性能和优良程度也决定 了使用该服务器进行信息交互的通畅性和安全性。
[0049] -般情况,服务器所能够提供的服务是受编写在其内部的软件(脚本)所决定,使 用者将数据或者指令发送给服务器,服务器内部的软件便会对数据或指令进行处理。当使 用者的数量增加的时候,或者是服务器内并行的软件/数据过多的时候,服务器的负载量则 会大大增加,进而,服务器会长时间出去高负荷工作的状态。高负荷工作状态时间的延长则 会直接导致服务器停止运行。相关技术中,在一个服务系统(同时包含多个服务器)中通常 会采用负载均衡的方式来调节不同服务器之间的工作负荷,将新接到的任务分配给负荷较 轻的服务器来执行。但此种执行方式只能够保证每个服务器的工作量是相似的,但由于无 法预知服务器的状态,依旧没有解决预知服务器停止工作的问题。
[0050] 有鉴于此,本申请提供了 IT运维服务器的运行状态检测方法,如图1所示,包括: [00511 SlOl,获取目标运维服务器中的多种主要监控信息,主要监控信息包括以下三种: 服务器性能、服务器容量和服务器状态;
[0052] S102,分别比较每种主要监控信息是否超过相应的阈值;
[0053] S103,若一种主要监控信息超过预定的阈值,则触发第一报警动作。
[0054] 该方法的执行首先需要获取目标运维服务器(多个运维服务器中的一个)中的主 要监控信息。实际上,目标运维服务器在运行的时候具有很多种属性,如运行的程序量、程 序名称、响应时间,缓存总空间、缓存剩余空间等等,每一种属性都客观的反应了服务器当 前的状态,如果想要对服务器的运行状态进行全面的监控的话,当然,最优的方案(在不计 成本的前提下)是要将这些所有属性都获取到,这样才能够让用户(服务器的维护人员)清 楚,且全面的了解到服务器的种种信息,进而,也就能够对服务器进行全面的监管。但实际 上,同时获取这些属性是不现实的,这受到了资金、技术支持等等多方面的约束,因此,针对 运维服务器而言,在保证各方面的约束都较为合理的情况下,应当以获取以下三种信息为 主,也就是服务器性能、服务器容量和服务器状态。这三种信息能够客观、且较为全面的反 应服务器当前的运行状态。进一步,还需要将这三种信息分别进行比较,当这三种信息中的 某一种超过设定的阈值时,则触发第一报警动作。
[0055] 需要说明的是,服务器性能、服务器容量和服务器状态这三种信息,每一种都包含 了大量的子信息,如服务器性能包含有A-E这5种子信息,在判断服务器性能是否超过阈值 时,实际上是基于这5种子信息来进行判断。判断的方式有两种,第一种是对这五种子信息 进行综合评价,即,根据这5中子信息的数值,来综合计算出综合数值,并且将这个综合数值 作为服务器性能的实际值,之后,再将这个实际值与阈值进行比较,如果实际值超过了阈 值,则认为服务器性能超过了阈值;第二种方式是为这5中子信息分别设定不同的阈值,并 在分别比较每种子信息,如果有一种子信息超过阈值,则认为服务器性能超过了阈值。
[0056] 具体而言,第一报警动作可以是指向用户进行提示,还可以是指系统自动启动备 用服务器来分担目标运维服务器的工作。
[0057] 优选的,在进行服务器性能、服务器容量和服务器状态分别与阈值进行比较之后, 可以将第一报警动作进行进一步的划分,也就是分别使用三种具体的报警动作,每种报警 动作对应一种主要监控信息。也就是,当服务器性能超过相应阈值时,采用第一报警动作中 的第一种方式进行报警;当服务器容量超过相应阈值时,采用第一报警动作中的第二种方 式进行报警;当服务器状态超过相应阈值时,采用第一报警动作中的第三种方式进行报警。
[0058] 在进行比较的时候,阈值是可以由用户进行设定的,并不一定是每个运维服务器 的阈值均是一样。
[0059] 具体的,除了对主要监控信息进行监控,在某些情况下,还可以对次要监控信息进 行监控,进而更为全面的了解目标运维服务器的当前运行状态。
[0060] 也就是,本申请所提供的IT运维服务器的运行状态检测方法,还包括:
[0061] 11,获取目标运维服务器中的多种次要监控信息,次要监控信息包括以下一种或 多种:服务器配置、服务器进程、服务器温度和服务器服务;
[0062] 12,分别判断每种次要监控信息是否符合预设的要求;
[0063] 13,若一种次要监控信息不符合预设的要求,则触发第二报警动作。
[0064] 相类似的,服务器配置、服务器进程、服务器温度和服务器服务这四种次要监控信 息,每种都包含有很多子项目,在分别判断这四种次要监控信息是否符合预设的要求时,可 以是分别判断一种次要监控信息中多个子信息是否符合相应的要求,有一种子信息不符合 要求,则认为这种次要监控信息不符合要求;也可以是判断分别判断一种次要监控信息中 多个子信息是否符合相应的要求后,为每个子信息设置不同的权值,并且累加不符合要求 的子信息的权值,当权值超过预定阈值的时候,则认为该次要监控信息不符合要求。
[0065] 需要说明的是,第一报警动作和第二报警动作可以是相同的,也可以是不同的,但 为了更明显的告知用户,应当将第一报警动作和第二报警动作设计为不同的形式。
[0066] 下面,对主要监控信息和次要监控信息的具体内容进行说明。
[0067 ]步骤Sl 02,分别比较每种主要监控信息是否超过相应的阈值包括:
[0068] 分别比较服务器性能中,每种服务器子性能是否超过预定的阈值,服务器子性能 包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能;
[0069] 若多种服务器子性能中的一种超过预定的阈值,则执行
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1