服务器监控诊断修复方法与流程

文档序号:14776378发布日期:2018-06-23 03:28阅读:318来源:国知局

本发明涉及服务器诊断技术领域,具体地说是一种服务器监控诊断修复方法。



背景技术:

服务器监控就是指将远程服务器运行数据通过各种方式记录下来,并在需要时可以随时调用监控记录进行查看。

服务器诊断就是指服务器运行过程中出现各种问题导致服务器无法正常工作,可以利用软件或人工方法定位到服务器无法正常工作的原因的过程。

服务器修复就是指服务器无法正常工作后,可以利用软件或人工等方法修复问题,使服务器可以正常运行。

目前的服务器监控、诊断、修复大多通过软件或人工来完成,而服务器是根据更新不断换代的,在软件进行监控时无法做到全面监控,会出现不匹配的情况;人工诊断会浪费时间,效率低下。



技术实现要素:

本发明实施例中提供了一种服务器监控诊断修复方法,用于解决现有服务器诊断中诊断无法全面监控且效率低下的问题。

为了解决上述技术问题,本发明实施例公开了如下技术方案:

本发明提供了一种服务器监控诊断修复方法,基于云计算实现,具体包括以下步骤:

监控单元监控目标服务器,并判断目标服务器是否出现故障;如果出现故障,则生成监测报告发送给云端;

云端分析处理生产诊断方案;

诊断单元根据诊断方案对目标服务器进行诊断,生成诊断报告再次发送给云端;

云端进行分析处理生产修复方案;

修复单元根据修复方案对目标服务器进行修复,修复完成后向监控单元发送重新监控信号。

在第一种可能的实现方式中,监控单元监控目标服务器的方法具体包括:

监控主程序定时访问目标服务器;

目标服务器响应监控主程序的定时请求,并监测目标服务器的运行状态;

目标服务器把其运行状态的数据返回给监控主程序。

在第二种可能的实现方式中,判断目标服务器出现故障的方法是:监测到的各监控项的值与所设置的阈值进行比较,如果不符合,则表示监测项出现故障。

在第三种可能的实现方式中,监测报告的内容包括目标服务器的IP或编号,监测项的各项指标、值或阈值。

在第四种可能的实现方式中,所述的诊断方案包括调用系统的程序、监控程序、诊断方案的执行结果;所述的执行结果包括可能出现故障的多种情况诊断的结果的集合。

在第五种可能的实现方式中,诊断单元根据诊断方案对目标服务器进行诊断的方法具体包括:

诊断报告匹配:根据诊断报告中的程序和执行结果去云端匹配,判断是否有无类似的执行结果,根据配备到的诊断报告确定故障原因;

关键词匹配:根据诊断报告中的程序匹配执行结果中的关键词,根据匹配的关键词来确定故障原因;

综合结果计算:确定一个故障的原因可能会需要多条脚本和执行结果来决定,因此,云端需要根据多条脚本和执行结果来确定故障原因。

在第六种可能的实现方式中,诊断单元根据诊断方案对目标服务器进行诊断的方法还包括:

递归调诊断:如果云端没有分析出确切的故障原因,可以再次调用诊断方案生成更细致的诊断脚本进行诊断,再次进行结果的分析,确定故障原因。

在第七种可能的实现方式中,在诊断结果中要记录递归次数,当诊断次数大于设定值时发出告警,由人工处理,防止无限递归调用。

在第八种可能的实现方式中,修复单元根据修复方案对目标服务器进行修复的方法包括:

重新启动目标服务器;

根据故障原因对配置文件进行修改;

对外部自动化物理设备进行调用。

在第九种可能的实现方式中,修复完成的标志是:

修复方案执行完毕会返回程序执行完成的标记,调用监控单元的接口把标记设为故障目标服务器正常重新开始监控的标记。

由以上技术方案可见,本发明云服务的能力是动态增长的,更新监控服务器上的程序就能增加监控程序处理问题的能力。

实现监控、诊断、修复整个过程的智能自动化,整个过程自动完成不需要工作人员操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种服务器监控诊断修复方法流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

如图1所示,服务器监控诊断修复方法,基于云计算实现,具体包括以下步骤:

S1、监控单元监控目标服务器;

S2、判断目标服务器是否出现故障;如果出现故障,则执行S3;否则,继续监控。

S3、生成监测报告发送给云端;

S4、云端分析处理生产诊断方案并发送给诊断单元;

S5、诊断单元根据诊断方案对目标服务器进行诊断,生成诊断报告再次发送给云端;

S6、云端进行分析处理生产修复方案并发送给修复单元;

S7、修复单元根据修复方案对目标服务器进行修复,修复完成后向监控单元发送重新监控信号。

S1中监控单元监控目标服务器的方法具体包括:

监控主程序定时访问目标服务器;

目标服务器响应监控主程序的定时请求,并监测目标服务器的运行状态;

目标服务器把其运行状态的数据返回给监控主程序。

S2中判断目标服务器出现故障的方法是:监测到的各监控项的值与所设置的阈值进行比较,如果不符合,则表示监测项出现故障。

S3中的监测报告的内容包括目标服务器的IP或编号,监测项的各项指标、值或阈值。

S4中的诊断方案包括调用系统的程序、监控程序、诊断方案的执行结果;所述的执行结果包括可能出现故障的多种情况诊断的结果的集合。

S5中诊断单元根据诊断方案对目标服务器进行诊断的方法具体包括以下3种:

1)诊断报告匹配:根据诊断报告中的程序和执行结果去云端匹配,判断是否有无类似的执行结果,根据配备到的诊断报告确定故障原因;

2)关键词匹配:根据诊断报告中的程序匹配执行结果中的关键词,根据匹配的关键词来确定故障原因;

3)综合结果计算:确定一个故障的原因可能会需要多条脚本和执行结果来决定,因此,云端需要根据多条脚本和执行结果来确定故障原因。

如果以上3种方式还没有分析出确切的故障原因,则采用递归调诊断:再次调用诊断方案生成更细致的诊断脚本进行诊断,再次进行结果的分析,确定故障原因。

在诊断结果中要记录递归次数,当诊断次数大于设定值时发出告警,由人工处理,防止无限递归调用。

S7中修复单元根据修复方案对目标服务器进行修复的方法包括:

重新启动目标服务器;

根据故障原因对配置文件进行修改;

对外部自动化物理设备进行调用。

修复完成的标志是:

修复方案执行完毕会返回程序执行完成的标记,调用监控单元的接口把标记设为故障目标服务器正常重新开始监控的标记。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1