It运维服务器的运行状态检测方法

文档序号:9827997阅读:1065来源:国知局
It运维服务器的运行状态检测方法
【技术领域】
[0001] 本发明涉及电子信息领域,具体而言,涉及IT运维服务器的运行状态检测方法。
【背景技术】
[0002] 随着电子信息技术的发展,互联网和移动互联网的使用已经得到了大范围的推 广。互联网技术是指计算机技术的基础上开发建立的一种信息技术。通常所说的使用互联 网,是用户通过操作电脑终端来向网络端,或者是另一个终端发送信息,并且接收相应的反 馈信息的过程。通常情况下,两个终端之间进行信息交互同样需要由网络端进行中转,也就 是,两个终端进行信息交互的时候,需要先将发送给对方的信息传送给网络端,再由网络端 转发给指定的终端,这种信息的传递也是使用服务器的基础。
[0003] 如常见的聊天软件的使用,便是当用户A需要传递消息给用户B时。首先由用户A通 过操作第一终端,将所要发送的消息上传给网络端(由服务商所控制的服务器),上传的内 容除了消息外,还有如第一终端的识别码、地址、第二终端(用户B所操作的终端)的识别码 和地址等。网络端在接收到第一终端所上传的内容后,按照第一终端的识别码来验证第一 终端是否有权限,并在确认之后,按照第二终端的地址,将消息传送给第二终端,进而使操 作第二终端的用户能够查看到。相类似的,其他依赖互联网技术也是采用这种方式将信息 由A方传递给B方。具体的,所传递的消息不限于用户想传递的消息,还有如指令、代码等等。
[0004] 不论是哪种互联网技术,在进行信息传递的时候都会利用到服务器进行身份的验 证和消息的中转。通常情况下,一个服务器只对同一个服务(或者是某个服务中的子服务) 进行处理,但在处理任务的时候,则需要同事面对大量的终端(通常一个终端对应着一个用 户)。因此,当服务器的运行出现问题的时候,会有大量用户受到影响,如,当网络聊天服务 器宕机的时候,则导致通过该服务器进行信息中转的用户,无法再进行信息的传输。
[0005] 尤其是,在当前大数据技术快速发展的情况下,对IT技术进行指出的服务器如果 出现宕机问题,则会导致某个数据传输环节的严重迟缓,甚至导致包含该数据传输环节的 整个系统无法工作。

【发明内容】

[0006] 本发明的目的在于提供IT运维服务器的运行状态检测方法,以降低服务器宕机的 概率。
[0007 ]第一方面,本发明实施例提供了 IT运维服务器的运行状态检测方法,包括:
[0008] 获取目标运维服务器中的多种主要监控信息,主要监控信息包括以下三种:服务 器性能、服务器容量和服务器状态;
[0009] 分别比较每种主要监控信息是否超过相应的阈值;
[0010] 若一种主要监控信息超过预定的阈值,则触发第一报警动作。
[0011] 结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,还 包括:
[0012] 获取目标运维服务器中的多种次要监控信息,次要监控信息包括以下一种或多 种:服务器配置、服务器进程、服务器温度和服务器服务;
[0013] 分别判断每种次要监控信息是否符合预设的要求;
[0014] 若一种次要监控信息不符合预设的要求,则触发第二报警动作。
[0015] 结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,分 别比较每种主要监控信息是否超过相应的阈值包括:
[0016]分别比较服务器性能中,每种服务器子性能是否超过预定的阈值,服务器子性能 包括CPU性能、内存性能、进程性能、磁盘性能、网口性能和风扇性能;
[0017] 若多种服务器子性能中的一种超过预定的阈值,则执行步骤触发第一报警动作。
[0018] 结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,分 别比较每种主要监控信息是否超过相应的阈值包括:
[0019] 分别比较服务器容量中,每种服务器子容量是否超过预定的阈值,服务器子容量 包括文件系统当前使用百分比和文件系统当前使用大小;
[0020] 若多种服务器子容量中的一种超过预定的阈值,则执行步骤触发第一报警动作。
[0021] 结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,分 别比较每种主要监控信息是否超过相应的阈值包括:
[0022] 分别比较服务器状态中,每种服务器子状态是否超过预定的阈值,服务器子状态 包括内存状态、光纤网卡状态、在线用户数状态、风扇运行状态、路由运行状态、系统板卡工 作状态、硬盘状态灯、硬盘状态、电源工作状态、文件系统运行状态、VIDEO卡运行状态、CPU 运行状态、DVD卡运行状态和FCHBA卡运行状态;
[0023] 若多种服务器子状态中的一种超过预定的阈值,则执行步骤触发第一报警动作。
[0024] 结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,分 别比较每种次要监控信息是否符合预设的要求包括:
[0025] 分别判断服务器进程中,每种服务器子进程是否符合预设的要求,服务器子进程 包括进程状态、进程父ID、进程名、进程实际调用时间、进程占用的虚拟内存的大小和进程 占用的核心内存;
[0026] 若多种服务器子进程中的一种不符合预设的要求,则执行步骤触发第二报警动 作;
[0027]和/或,分别判断服务器温度中,每种服务器子温度是否符合预设的要求,服务器 子温度包括系统温度、CPU温度和内存温度;
[0028] 若多种服务器子温度中的一种不符合预设的要求,则执行步骤触发第二报警动 作;
[0029] 和/或,分别判断服务器服务中,每种服务器子服务是否符合预设的要求,服务器 子服务包括服务状态、服务所拥有的组、服务启动时间、服务名称、服务Pid;
[0030] 若多种服务器子服务中的一种不符合预设的要求,则执行步骤触发第二报警动 作。
[0031] 结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,还 包括:
[0032] 获取目标运维服务器的服务器类型;
[0033] 从多个不同类型的脚本中,选择与服务器类型相对应的目标脚本,目标脚本中携 带有获取主要监控信息的代码;
[0034] 将目标脚本写入目标运维服务器中;
[0035] 通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务器中 的多种主要监控信息。
[0036] 结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,若 一种主要监控信息超过预定的阈值,则触发第一报警动作包括:
[0037] 若主要监控信息的数值位于第一阈值范围,则触发第一子报警动作;
[0038] 若主要监控信息的数值位于第二阈值范围,则触发第二子报警动作;第一阈值范 围和第二阈值范围数值上相邻。
[0039] 结合第一方面,本发明实施例提供了第一方面的第八种可能的实施方式,其中,还 包括:在步骤通过调用写入目标运维服务器中的目标脚本,以执行步骤获取目标运维服务 器中的多种主要监控信息前,还包括:
[0040] 获取写入目标运维服务器中的目标脚本;
[0041 ]根据目标运维服务器的故障记录,调整目标脚本中所携带的代码;
[0042]将调整后的目标脚本写入目标运维服务器中。
[0043]本发明实施例提供的IT运维服务器的运行状
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1