It运维服务器的运行状态检测方法_2

文档序号：9827997阅读：来源：国知局

态检测方法，采用系统监控的方式，与现有技术中的服务器经常在运行的过程中出现宕机等导致服务器无法工作的情况相比，其通过同时获取了服务器性能、服务器容量和服务器状态这三个方面的参数，使得本地能够同时依据这三个参数对服务器的整体状态进行评价，当某一方面出问题的时候，则采用报警的方式来告知用户，进而使得用户可以对服务器的是否正常得到直观的提醒，进而采取相应的措施，以保证服务器能够正常的提供服务。
[0044]为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
【附图说明】
[0045]为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0046]图1示出了本发明实施例所提供的IT运维服务器的运行状态检测方法的基本流程图。
【具体实施方式】
[0047]下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0048] 互联网技术的实施依赖于服务器对信息的中转，服务器的性能和优良程度也决定了使用该服务器进行信息交互的通畅性和安全性。
[0049] -般情况，服务器所能够提供的服务是受编写在其内部的软件(脚本)所决定，使用者将数据或者指令发送给服务器，服务器内部的软件便会对数据或指令进行处理。当使用者的数量增加的时候，或者是服务器内并行的软件/数据过多的时候，服务器的负载量则会大大增加，进而，服务器会长时间出去高负荷工作的状态。高负荷工作状态时间的延长则会直接导致服务器停止运行。相关技术中，在一个服务系统（同时包含多个服务器）中通常会采用负载均衡的方式来调节不同服务器之间的工作负荷，将新接到的任务分配给负荷较轻的服务器来执行。但此种执行方式只能够保证每个服务器的工作量是相似的，但由于无法预知服务器的状态，依旧没有解决预知服务器停止工作的问题。
[0050] 有鉴于此，本申请提供了 IT运维服务器的运行状态检测方法，如图1所示，包括： [00511 SlOl，获取目标运维服务器中的多种主要监控信息，主要监控信息包括以下三种：服务器性能、服务器容量和服务器状态；
[0052] S102,分别比较每种主要监控信息是否超过相应的阈值；
[0053] S103,若一种主要监控信息超过预定的阈值，则触发第一报警动作。
[0054] 该方法的执行首先需要获取目标运维服务器(多个运维服务器中的一个）中的主要监控信息。实际上，目标运维服务器在运行的时候具有很多种属性，如运行的程序量、程序名称、响应时间，缓存总空间、缓存剩余空间等等，每一种属性都客观的反应了服务器当前的状态，如果想要对服务器的运行状态进行全面的监控的话，当然，最优的方案(在不计成本的前提下）是要将这些所有属性都获取到，这样才能够让用户(服务器的维护人员）清楚，且全面的了解到服务器的种种信息，进而，也就能够对服务器进行全面的监管。但实际上，同时获取这些属性是不现实的，这受到了资金、技术支持等等多方面的约束，因此，针对运维服务器而言，在保证各方面的约束都较为合理的情况下，应当以获取以下三种信息为主，也就是服务器性能、服务器容量和服务器状态。这三种信息能够客观、且较为全面的反应服务器当前的运行状态。进一步，还需要将这三种信息分别进行比较，当这三种信息中的某一种超过设定的阈值时，则触发第一报警动作。
[0055] 需要说明的是，服务器性能、服务器容量和服务器状态这三种信息，每一种都包含了大量的子信息，如服务器性能包含有A-E这5种子信息，在判断服务器性能是否超过阈值时，实际上是基于这5种子信息来进行判断。判断的方式有两种，第一种是对这五种子信息进行综合评价，即，根据这5中子信息的数值，来综合计算出综合数值，并且将这个综合数值作为服务器性能的实际值，之后，再将这个实际值与阈值进行比较，如果实际值超过了阈值，则认为服务器性能超过了阈值;第二种方式是为这5中子信息分别设定不同的阈值，并在分别比较每种子信息，如果有一种子信息超过阈值，则认为服务器性能超过了阈值。
[0056] 具体而言，第一报警动作可以是指向用户进行提示，还可以是指系统自动启动备用服务器来分担目标运维服务器的工作。
[0057] 优选的，在进行服务器性能、服务器容量和服务器状态分别与阈值进行比较之后，可以将第一报警动作进行进一步的划分，也就是分别使用三种具体的报警动作，每种报警动作对应一种主要监控信息。也就是，当服务器性能超过相应阈值时，采用第一报警动作中的第一种方式进行报警；当服务器容量超过相应阈值时，采用第一报警动作中的第二种方式进行报警;当服务器状态超过相应阈值时，采用第一报警动作中的第三种方式进行报警。
[0058] 在进行比较的时候，阈值是可以由用户进行设定的，并不一定是每个运维服务器的阈值均是一样。
[0059] 具体的，除了对主要监控信息进行监控，在某些情况下，还可以对次要监控信息进行监控，进而更为全面的了解目标运维服务器的当前运行状态。
[0060] 也就是，本申请所提供的IT运维服务器的运行状态检测方法，还包括：
[0061] 11，获取目标运维服务器中的多种次要监控信息，次要监控信息包括以下一种或多种:服务器配置、服务器进程、服务器温度和服务器服务；
[0062] 12,分别判断每种次要监控信息是否符合预设的要求；
[0063] 13,若一种次要监控信息不符合预设的要求，则触发第二报警动作。
[0064] 相类似的，服务器配置、服务器进程、服务器温度和服务器服务这四种次要监控信息，每种都包含有很多子项目，在分别判断这四种次要监控信息是否符合预设的要求时，可以是分别判断一种次要监控信息中多个子信息是否符合相应的要求，有一种子信息不符合要求，则认为这种次要监控信息不符合要求;也可以是判断分别判断一种次要监控信息中多个子信息是否符合相应的要求后，为每个子信息设置不同的权值，并且累加不符合要求的子信息的权值，当权值超过预定阈值的时候，则认为该次要监控信息不符合要求。
[0065] 需要说明的是，第一报警动作和第二报警动作可以是相同的，也可以是不同的，但为了更明显的告知用户，应当将第一报警动作和第二报警动作设计为不同的形式。
[0066] 下面，对主要监控信息和次要监控信息的具体内容进行说明。
[0067 ]步骤Sl 02，分别比较每种主要监控信息是否超过相应的阈值包括：
[0068] 分别比较服务器性能中，每种服务器子性能是否超过预定的阈值，服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能；
[0069] 若多种服务器子性能中的一种超过预定的阈值，则执行

完整全部详细技术资料下载

当前第2页1 2 3 4