It运维服务器的运行状态检测方法_3

文档序号:9827997阅读:来源:国知局
步骤触发第一报警动作。
[0070] 步骤S102,分别比较每种主要监控信息是否超过相应的阈值包括:
[0071] 分别比较服务器容量中,每种服务器子容量是否超过预定的阈值,服务器子容量 包括文件系统当前使用百分比和文件系统当前使用大小;
[0072] 若多种服务器子容量中的一种超过预定的阈值,则执行步骤触发第一报警动作。
[0073] 步骤S102,分别比较每种主要监控信息是否超过相应的阈值包括:
[0074] 分别比较服务器状态中,每种服务器子状态是否超过预定的阈值,服务器子状态 包括内存状态、光纤网卡状态、在线用户数状态、风扇运行状态、路由运行状态、系统板卡工 作状态、硬盘状态灯、硬盘状态、电源工作状态、文件系统运行状态、VIDEO卡运行状态、CPU 运行状态、DVD卡运行状态和FCHBA卡运行状态;
[0075] 若多种服务器子状态中的一种超过预定的阈值,则执行步骤触发第一报警动作。
[0076] 步骤12,分别比较每种次要监控信息是否符合预设的要求包括:
[0077] 分别判断服务器进程中,每种服务器子进程是否符合预设的要求,服务器子进程 包括进程状态、进程父ID、进程名、进程实际调用时间、进程占用的虚拟内存的大小和进程 占用的核心内存;
[0078] 若多种服务器子进程中的一种不符合预设的要求,则执行步骤触发第二报警动 作;
[0079] 和/或,分别判断服务器温度中,每种服务器子温度是否符合预设的要求,服务器 子温度包括系统温度、CPU温度和内存温度;
[0080] 若多种服务器子温度中的一种不符合预设的要求,则执行步骤触发第二报警动 作;
[0081] 和/或,分别判断服务器服务中,每种服务器子服务是否符合预设的要求,服务器 子服务包括服务状态、服务所拥有的组、服务启动时间、服务名称、服务Pid;
[0082] 若多种服务器子服务中的一种不符合预设的要求,则执行步骤触发第二报警动 作。
[0083] 以上列举出了各种主要监控信息的具体考察内容和次要监控信息的考察内容。在 进行具体操作的时候,用户可以根据需要从这些具体考察内容中选择一种或多种进行考 察,也可以是对这些具体内容均进行考察。
[0084] 下面简述两种依据服务器子性能来判断服务器性能是否超过预设阈值的方法,月艮 务器容量和服务器状态也可以采用类似的方式进行判断。
[0085] 第一种,服务器子性能包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和 风扇性能,这6个性能的实际值(实际使用度)分别是60、75、66、58、45和85,可以设定一个标 准阈值为70,可以看出有两个评分(内存性能75,风扇性能85)超过这个阈值了,则说明内存 和风扇处于高负荷运转状态,此时则执行第一报警动作。
[0086] 第二种,参照第一种,在确定了超过阈值的有内存性能和风扇性能后,查找内存性 能和风扇性能所对应的权值,如分别是6和7,权值阈值为15,那么可以计算出,超过预定阈 值的权值之和为6+7 = 13,没有超过权值阈值15,此时,则认为服务器性能没有超过预定阈 值,也就不同触发第一报警动作。
[0087] 下面给出两个具体的参数例子,以供参考,
[0088] 服务器子容量的两个指标,如表1所示,可以看出,每种都包含了多个报警级别。如 文件系统当前使用百分比,就有0-70%,70%-85%,85%-90%和90%-100%这多种档位, 当文件系统当前使用百分比处于不同状态的时候,可以进行不同报警(小于70%是正常状 态,不需要报警)。
[0089] 表1
[0091] 相类似的,本申请实施例中,还给出了服务器子性能的具体比较参数,如表2所示, 与服务器子容量类似,也有多种档位设置。
[0092] 表 2
[0094] 本申请所提供的的IT运维服务器的运行状态检测方法,还包括:
[0095] 获取目标运维服务器的服务器类型;
[0096] 从多个不同类型的脚本中,选择与服务器类型相对应的目标脚本,目标脚本中携 带有获取主要监控信息的代码;
[0097] 将目标脚本写入目标运维服务器中;
[0098] 通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中 的多种主要监控信息。
[0099] 也就是,针对不同的运维服务器可以设置不同的脚本,脚本的作用是调取运维服 务器中相应的主要监控信息和次要监控信息,不同的服务器需要使用不同的代码,操作的 时候,可以先将代码编写完成,再根据服务器类型的不同来向目标运维服务器中写入脚本。 此种提前编写多种脚本的方式,避免了不懂编程的人员无法调取运维服务器中主要、次要 监控信息的问题。通常,按照服务器采集协议的不同,可以将采集协议(影响脚本的编写)分 类为:3匪?3611^^、33!1。按照服务器的操作系统来分类,可以分为1^111?系统^11(1〇?系统、 Unix系统。对Iinux系统和Unix系统机器使用Telnet和Ssh协议,Window系统机器使用SNMP 协议。按照此种方式的分类,能够保证编写出来的协议能够被服务器的系统所识别。
[0100] 进一步,本申请所提供的IT运维服务器的运行状态检测方法,若一种主要监控信 息超过预定的阈值,则触发第一报警动作包括:
[0101]若主要监控信息的数值位于第一阈值范围,则触发第一子报警动作;
[0102] 若主要监控信息的数值位于第二阈值范围,则触发第二子报警动作;第一阈值范 围和第二阈值范围数值上相邻。
[0103] 也就是如表1和表2所示,将同一种监控信息(或者是子信息)的阈值分为多个档 位,当位于不同档位的时候,采用不同的报警动作。
[0104] 具体的,该IT运维服务器的运行状态检测方法,还包括:在步骤通过调用写入目标 运维服务器中的目标脚本,以执行步骤获取目标运维服务器中的多种主要监控信息前,还 包括:
[0105] 获取写入目标运维服务器中的目标脚本;
[0106] 根据目标运维服务器的故障记录,调整目标脚本中所携带的代码;
[0107] 将调整后的目标脚本写入目标运维服务器中。
[0108] 也就是,为了避免同时监控过多的信息,可以参考稿目标运维服务器历史记录中 的故障记录,并且参照故障记录来调整脚本中的代码。调整后的代码用于获取主要监控信 息中的一个或多个,也可以是用于获取主要监控信息的多个子信息中的一个或多个,而不 是获取全部的信息。此种方式,避免了监控信息过多,而使得系统负担加大。
[0109] 需要说明的是,在执行本申请所提供的方法前,用户还需要通过提供用户名、密码 等信息进行登录,和设置等操作。具体的,使用脚本进行采集的过程如下:
[0110] 1采集器通过存储job信息查看当前是否有执行job
[0111] 系统中配置目标机的相关信息以及采集指标信息执行时间信息保存在采集器(携 带有目标脚本)中,采集器查看当前是否有执行的job,没有执行job当前程序结束,有执行 job,获取job相关彳目息。
[0112] 2获取凭证信息
[0113] 凭证信息包含用户名、设置密码、设置协议类型,job中获取凭证信息,通过ping主 机以及用户名密码登陆主机判断凭证是否有效
[0114] 3通过用户名
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1