集群服务器的维护方法及装置制造方法

文档序号:7815896阅读:210来源:国知局
集群服务器的维护方法及装置制造方法
【专利摘要】本发明公开了一种集群服务器的维护方法及装置。该集群服务器的维护方法包括:获取集群服务器中多个服务器的服务日志;判断服务日志中是否包含故障信息关键字;如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;通过移动通信网络接收来自预设终端的维护命令;基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。通过本发明,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题。
【专利说明】集群服务器的维护方法及装置

【技术领域】
[0001]本发明涉及服务器维护领域,具体而言,涉及一种集群服务器的维护方法及装置。

【背景技术】
[0002]目前,现有技术对集群中的服务器的维护大多是通过监控软件,如JMX,Nag1s,Ganglia 等。这些监控软件监控集群中的 NameNode, SecondaryNameNode, DateNode,JobTracker, TaskTracker等服务的工作状态,将其工作状态生成监控报表,运维人员通过定期查看监控报表,对监控报表中的集群中服务器的服务日志进行分析,发现问题,并解决问题。
[0003]但是,随着网络数据的不断增加,集群的规模越来越大,例如Hadoop集群中的服务器数量已经达到上百台。集群中服务器数量的增多,使得集群中服务器出现故障的机率增加。为了实现对集群中的服务器的维护,运维人员必须定时查看上百台服务器的监控报表,并对上百台服务器的监控报表中的服务日志进行分析。现有技术中的监控工具提供了邮件发送功能,监控工具将监控报表以邮件的形式发送给运维人员。但是,运维人员不能保证能够随时接收邮件,如果运维人员身边处在没有Internet网络的环境中,运维人员将无法接收监控报表,不能及时地对服务日志中记载的故障进行处理,严重影响上集群中服务器的服务质量。
[0004]针对相关技术中运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,目前尚未提出有效的解决方案。


【发明内容】

[0005]本发明的主要目的在于提供一种集群服务器的维护方法及装置,以解决运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题。
[0006]为了实现上述目的,根据本发明的一个方面,提供了一种集群服务器的维护方法。该集群服务器的维护方法包括:获取集群服务器中多个服务器的服务日志;判断服务日志中是否包含故障信息关键字;如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;通过移动通信网络接收来自预设终端的维护命令;基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。
[0007]进一步地,维护命令包括包含故障信息关键字的服务日志对应的服务器的网络地址。
[0008]进一步地,通过移动通信网络接收来自预设终端的维护命令包括:对维护命令进行解析;判断解析后的维护命令是否符合预设口令;如果解析后的维护命令符合预设口令,获取维护命令中的包含故障信息关键字的服务日志对应的服务器的网络地址;将维护命令转发至网络地址对应的服务器。
[0009]进一步地,基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护之后,集群服务器的维护方法还包括:判断包含故障信息关键字的服务日志中记载的故障是否处理成功;如果包含故障信息关键字的服务日志中记载的故障处理成功,通过移动通信网络向预设终端发送确认消息,其中,确认消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障处理成功;如果包含故障信息关键字的服务日志中记载的故障未处理成功,通过移动通信网络向预设终端发送失败消息,其中,失败消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障未能处理成功。
[0010]进一步地,如果包含故障信息关键字的服务日志中记载的故障未处理成功,通过移动通信网络向预设终端发送失败消息之后集群服务器的维护方法还包括:接收预设终端发送的重启口令,其中,重启口令用于重新启动包含故障信息关键字的服务日志对应的服务器;基于重启口令重新启动包含故障信息关键字的服务日志对应的服务器。
[0011]为了实现上述目的,根据本发明的另一方面,提供了一种集群服务器的维护装置。该集群服务器的维护装置包括:第一获取模块,用于获取集群服务器中多个服务器的服务日志;第一判断模块,用于判断服务日志中是否包含故障信息关键字;第一发送模块,用于当服务日志中包含故障信息关键字时,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;第一接收模块,用于通过移动通信网络接收来自预设终端的维护命令;维护模块,用于基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。
[0012]进一步地,接收模块接收的维护命令包括包含故障信息关键字的服务日志对应的服务器的网络地址。
[0013]进一步地,第一接收模块包括:解析模块,用于对维护命令进行解析;第二判断模块,用于判断解析后的维护命令是否符合预设口令;第二获取模块,用于当解析后的维护命令符合预设口令时,获取维护命令中的包含故障信息关键字的服务日志对应的服务器的网络地址;转发模块,用于将维护命令转发至网络地址对应的服务器。
[0014]进一步地,集群服务器的维护装置还包括:第三判断模块,用于判断包含故障信息关键字的服务日志中记载的故障是否处理成功;第二发送模块,用于当包含故障信息关键字的服务日志中记载的故障处理成功时,通过移动通信网络向预设终端发送确认消息,其中,确认消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障处理成功;第三发送模块,用于当包含故障信息关键字的服务日志中记载的故障未处理成功时,通过移动通信网络向预设终端发送失败消息,其中,失败消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障未能处理成功。
[0015]进一步地,集群服务器的维护装置还包括:第二接收模块,用于接收预设终端发送的重启口令,其中,重启口令用于重新启动包含故障信息关键字的服务日志对应的服务器;重启模块,用于基于重启口令重新启动包含故障信息关键字的服务日志对应的服务器。
[0016]通过本发明的集群服务器的维护方法及装置,采用获取集群服务器中多个服务器的服务日志;判断服务日志中是否包含故障信息关键字;如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;通过移动通信网络接收来自预设终端的维护命令;基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,使得运维人员即使处在没有Internet网络的环境中,也可以掌握集群服务器的运行状况,进而及时能够维护集群中的服务器。

【专利附图】

【附图说明】
[0017]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018]图1是根据本发明的集群服务器的维护方法的第一实施例的流程图;
[0019]图2是根据本发明的集群服务器的维护方法的第二实施例的流程图;
[0020]图3是根据本发明的集群服务器的维护装置的第一实施例的示意图;以及
[0021]图4是根据本发明的集群服务器的维护装置的第二实施例的示意图。

【具体实施方式】
[0022]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0023]为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
[0024]需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
[0025]本发明旨在提供一种集群服务器的维护方法。图1是根据本发明的集群服务器的维护方法的第一实施例的流程图。如图1所示,该集群服务器的维护方法包括如下的步骤SlOl至步骤S105:
[0026]步骤S101,获取集群服务器中多个服务器的服务日志。
[0027]集群中的每台服务器上运行着NameNode, SecondaryNameNode, DateNode,JobTracker, tasktracker等服务以及用户提交的Job作业。本发明实施例在集群中的主节点服务器上定制了一个主程序,用于监控集群中NameNode, SecondaryNameNode, DateNode,JobTracker, tasktracker等服务的工作状态,将这些服务的工作状态转换服务日志。主程序每个固定的时间浏览一遍集群中所有服务器的服务日志。
[0028]步骤S102,判断服务日志中是否包含故障信息关键字。
[0029]本发明实施例中建立一个故障信息关键字数据库,该故障信息关键字数据库中包括error, fail, except1n等关键字。通过对比集群服务器的服务日志中是否包含故障信息关键字数据库中的故障信息关键字来判断集群服务器是否出现故障。如果集群中的服务器的服务日志中包含有故障信息关键字数据库中的故障信息关键字,则说明该服务日志为故障服务日志,该服务日志对应的服务器为故障服务器。此时,需要对该故障服务器进行维护。如果集群中的服务器的服务日志中不包含有故障信息关键字数据库中的故障信息关键字,则说明该服务日志为正常的服务日志,即该服务日志对应的服务器运行正常。
[0030]步骤S103,如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端。
[0031]当集群中的服务器的服务日志中包含有故障信息关键字数据库中的故障信息关键字时,说明该服务日志为故障服务日志,该服务日志对应的服务器出现故障,需要对该故障服务器进行维护。本发明实施例当发现集群中服务器的服务日志包含故障信息关键字数据库中的某个故障信息关键字时,将该包含故障信息关键字的服务日志通过移动通信网络发送给维护人员。移动通信网络可以是移动,联通或者电信。维护人员通过预设终端来接收包含有故障信息关键字的服务日志,这里所指的预设终端可以是手机等移动通信设备。
[0032]本发明实施例中优选地通过短信猫把包含故障信息关键字的服务日志发送给预设终端。短信猫是一种连接在计算机上用于收发短信的设备,短信猫应用较为广泛。短信猫只是本发明的一种优选实施例,还可以通过其他设备或者技术通过移动通信网络将包含故障信息关键字的服务日志发送给运维人员的预设终端。
[0033]步骤S104,通过移动通信网络接收来自预设终端的维护命令。
[0034]当维护人员通过预设终端接收到包含有故障信息关键字的服务日志时,得知该包含故障信息关键字的服务日志对应的服务器发生了故障,所述维护人员通过分析预设终端接收的包含有故障信息关键字的服务日志判断该服务日志对应的服务器可能发生的故障。针对服务器可能出现的故障发送维护命令。本发明实施例中的维护命令中包括包含故障信息关键字的服务日志对应的服务器的网络地址。此外,本发明实施例中的维护命令还可以包括校验密码,该校验密码是为了对维护命令进行加密处理。集群中设置有专门用于接收维护命令的服务器,该服务器上运行有用于对维护命令进行解析以及校验的服务程序。当该服务器上的服务程序判断得到解析后的维护命令符合预设口令时,该服务程序会获取包含故障信息关键字的服务日志对应的服务器的网络地址,然后将解析后的维护命令转发至上述网络地址对应的服务器。通过设置校验密码充分保证了集群服务器维护的安全性以及可靠性。
[0035]优选地,本发明实施例中通过移动通信网络接收来自预设终端的维护命令具体包括:对维护命令进行解析;判断解析后的维护命令是否符合预设口令;如果解析后的维护命令符合预设口令,获取维护命令中的包含故障信息关键字的服务日志对应的服务器的网络地址;将维护命令转发至上述网络地址对应的服务器。
[0036]本发明实施例中的维护命令的格式可以是:“包含故障信息关键字的服务日志对应的服务器的网络地址I命令I校验密码”。本发明实施例中服务器执行的是Shell命令。例如,“192.168.1.11 stop-all.sh ;start-all.sh| 123456”。这是一条在 192.168.1.1 上重启集群的短信命令,其中校验密码为123456。当校验密码正确后,才执行shell命令。维护命令中可以有一条shell命令,也可以同时有多条shell命令。预设终端可以发送一条维护命令,也可以同时发送多条维护命令。
[0037]步骤S105,基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。
[0038]当包含故障信息关键字的服务日志对应的服务器接收到来自预设终端的维护命令后,会根据维护命令进行响应。例如,针对网络地址为192.168.1.1的服务器的维护命令“192.168.1.11 stop-all.sh ; start-all.sh| 123456”,则该服务器进行集群重新启动的操作。为了充分理解本发明实施例的集群服务器的维护方法,举例进行详细说明。例如,hadoop集群某台服务器tasktracker服务的日志中出现“ java.1ang.0utOfMemoryError: Java heap space.......”,集群中主节点服务器上运行的主程序读取到这条日志信息的时候,通过与故障信息关键字数据库对比,发现在该服务日志中存在关键字“error”,则认为这是一条错误信息,即该服务日志为故障服务日志。然后通过短信猫把这条日志发送到运维人员手机上,运维人员通过短信初步判断mapred.child, java.0pts配置数值太小,所以出现hadoop执行mapreducer的时候java堆栈空间不够。运维人员发送维护命令,查看网络地址为192.168.1.2上mapred.child, java.0pt的参数数值,即 “ 192.168.1.2 I grep-n-A2mapred.child, java.0ptsmapred-site.xml 1123456”,其中校验密码为123456。当网络地位为192.168.1.2对应的服务器收到该维护命令时返回结果:59:<name>mapred.child, java.0pts〈/name>,60:〈value>-Xmxl024m〈/value>o 维护人员收到返回结果时分析出故障原因,然后继续发送维护命令,将60行的1024M内存内容替换成 2048M,即 “192.168.1.2 | sed-1-e’60c\〈value>-Xmx2048m〈/value>’mapred-site.xml 1123456”。为了使配置生效,此处需要重新启动集群,运维人员发送维护命令到网络地位为 192.168.1.2 对应的服务器,即“192.168.1.11 stop-all.sh ;start-all.sh| 123456”。
[0039]本发明实施例的集群服务器的维护方法采用获取集群服务器中多个服务器的服务日志;判断服务日志中是否包含故障信息关键字;如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;通过移动通信网络接收来自预设终端的维护命令;基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,使得运维人员即使处在没有Internet网络的环境中,也可以掌握集群服务器的运行状况,进而及时能够维护集群中的服务器。
[0040]图2是根据本发明的集群服务器的维护方法的第二实施例的流程图,如图2所示,该集群服务器的维护方法包括如下的步骤S201至步骤S210:
[0041 ] 步骤S201,获取集群服务器中多个服务器的服务日志。
[0042]该步骤同上述步骤S101。
[0043]步骤S202,判断服务日志中是否包含故障信息关键字。
[0044]该步骤同上述步骤S102。
[0045]步骤S203,如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端。
[0046]该步骤同上述步骤S103。
[0047]步骤S204,通过移动通信网络接收来自预设终端的维护命令。
[0048]该步骤同上述步骤S104。
[0049]步骤S205,基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。
[0050]该步骤同上述步骤S105。
[0051]步骤S206,判断包含故障信息关键字的服务日志中记载的故障是否处理成功。
[0052]当包含故障信息关键字的服务日志对应的服务器接收到维护命令时,并不能保证该服务器能成功处理服务日志中记载的故障。或者,当包含故障信息关键字的服务日志中记载的故障不只有一个时,不能通过发送一条维护指令来实现对所有故障的修复。基于此,本发明实施例在基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护之后要判断包含故障信息关键字的服务日志中记载的故障是否处理成功。通过判断包含故障信息关键字的服务日志中记载的故障是否处理成功,有利于对集群中服务器的故障进行完全处理。
[0053]步骤S207,如果包含故障信息关键字的服务日志中记载的故障处理成功,通过移动通信网络向预设终端发送确认消息,其中,确认消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障处理成功。
[0054]当包含故障信息关键字的服务日志中记载的故障处理成功时,包含故障信息关键字的服务日志对应的服务器会通过移动通信网络向预设终端发送确认消息,告知运维人员包含故障关键字的服务日志中记载的故障被成功处理完毕。该确认消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障处理成功。当包含故障关键字的服务日志中记载的故障不只有一个时,该确认消息中包含有多个故障处理的确认信息。
[0055]步骤S208,如果包含故障信息关键字的服务日志中记载的故障未处理成功,通过移动通信网络向预设终端发送失败消息,其中,失败消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障未能处理成功。
[0056]当包含故障信息关键字的服务日志中记载的故障未处理成功时,包含故障信息关键字的服务日志对应的服务器会通过移动通信网络向预设终端发送失败消息,告知运维人员包含故障关键字的服务日志中记载的故障没有被成功处理完毕。当包含故障关键字的服务日志中记载的故障不只有一个时,维护命令对多个故障的处理可能有一个或者多个没有被成功处理,即包含故障信息关键字的服务日志中记载的故障有被成功处理的,也有没有被成功处理的。此时,需要包含故障信息关键字的服务日志对应的服务器将详细的维护命令对故障的处理情况反馈到预设终端,通知运维人员还需要对未被成功处理的故障继续维护。
[0057]步骤S209,接收预设终端发送的重启口令,其中,重启口令用于重新启动包含故障信息关键字的服务日志对应的服务器。
[0058]当预设终端接收到由包含故障信息关键字的服务日志对应的服务器发送的失败消息后,继续对消息中记载的未被成功处理的故障进行维护。但是,此时需要包含故障信息关键字的服务日志对应的服务器重新发送服务日志到预设终端。为了保证服务日志的准确性及服务日志中记载故障的实时性,需要将服务器进行重新启动,重新获取该服务器的服务日志。所以,预设终端会在接收到失败消息后向该服务器发送重启口令,该重启口令用于重新启动包含故障信息关键字的服务日志对应的服务器。
[0059]步骤S210,基于重启口令重新启动包含故障信息关键字的服务日志对应的服务器。
[0060]服务器接收到重启口令时,执行该重启口令,进行重新启动操作。重新启动之后利用集群主节点服务器上运行的主程序重新获取该重新启动的服务器的服务日志,然后重复对集群服务器的维护方法。
[0061]本发明实施例的集群服务器的维护方法采用获取集群服务器中多个服务器的服务日志;判断服务日志中是否包含故障信息关键字;如果服务日志中包含故障信息关键字,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端;通过移动通信网络接收来自预设终端的维护命令;基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护;判断包含故障信息关键字的服务日志中记载的故障是否处理成功;如果包含故障信息关键字的服务日志中记载的故障处理成功,通过移动通信网络向预设终端发送确认消息;如果包含故障信息关键字的服务日志中记载的故障未处理成功,通过移动通信网络向预设终端发送失败消息,接收预设终端发送的重启口令;基于重启口令重新启动包含故障信息关键字的服务日志对应的服务器,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,达到了在无Internet网络环境条件下及时对集群服务器进行维护的效果。
[0062]从以上的描述中,可以看出,本发明实施例的集群服务器的维护方法,通过对集群服务器的服务日志进行实时监控,把包含故障信息关键字的服务日志发送到预设终端,通知运维人员该包含故障信息关键字的服务日志对应的服务器发生故障,运维人员分析该包含故障信息关键字的服务日志,发送维护命令对该故障服务器进行维护。集群服务器的维护方法解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,使得运维人员即使处在没有Internet网络的环境中,也可以掌握集群服务器的运行状况,进而及时能够维护集群中的服务器。
[0063]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0064]本发明实施例还提供了一种集群服务器的维护装置。需要说明的是,该集群服务器的维护装置可以用于执行本发明实施例的集群服务器的维护方法。
[0065]图3是根据本发明的集群服务器的维护装置的第一实施例的示意图。如图3所示,该集群服务器的维护装置包括:第一获取模块10,第一判断模块20,第一发送模块30,第一接收模块40和维护模块50。其中,第一发送模块40具体包括:解析模块401,第二判断模块402,第二获取模块403和转发模块404。
[0066]第一获取模块10,用于获取集群服务器中多个服务器的服务日志。
[0067]第一判断模块20,用于判断服务日志中是否包含故障信息关键字。
[0068]第一发送模块30,用于当服务日志中包含故障信息关键字时,将包含故障信息关键字的服务日志通过移动通信网络发送至预设终端。
[0069]第一接收模块40,用于通过移动通信网络接收来自预设终端的维护命令。
[0070]维护模块50,用于基于维护命令对包含故障信息关键字的服务日志对应的服务器进行维护。
[0071 ] 解析模块401,用于对维护命令进行解析。
[0072]第二判断模块402,用于判断解析后的维护命令是否符合预设口令。
[0073]第二获取模块403,用于当解析后的维护命令符合预设口令时,获取维护命令中的包含故障信息关键字的服务日志对应的服务器的网络地址。
[0074]转发模块404,用于将维护命令转发至网络地址对应的服务器。
[0075]本发明实施例的集群服务器的维护装置包括第一获取模块10,第一判断模块20,第一发送模块30,第一接收模块40和维护模块50。其中,第一接收模块40具体包括:解析模块401,第二判断模块402,第二获取模块403和转发模块404。通过本发明,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,使得运维人员即使处在没有Internet网络的环境中,也可以掌握集群服务器的运行状况,进而及时能够维护集群中的服务器。
[0076]图4是根据本发明的集群服务器的维护装置的第二实施例的示意图。如图4所示,该集群服务器的维护装置包括:第一获取模块10,第一判断模块20,第一发送模块30,第一接收模块40,维护模块50,第三判断模块60,第二发送模块70,第三发送模块80,第二接收模块90和重启模块110。
[0077]第三判断模块60,用于判断包含故障信息关键字的服务日志中记载的故障是否处理成功。
[0078]第二发送模块70,用于当包含故障信息关键字的服务日志中记载的故障处理成功时,通过移动通信网络向预设终端发送确认消息,其中,确认消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障处理成功。
[0079]第三发送模块80,用于当包含故障信息关键字的服务日志中记载的故障未处理成功时,通过移动通信网络向预设终端发送失败消息,其中,失败消息用于通知预设终端包含故障信息关键字的服务日志中记载的故障未能处理成功。
[0080]第二接收模块90,用于接收预设终端发送的重启口令,其中,重启口令用于重新启动包含故障信息关键字的服务日志对应的服务器。
[0081]重启模块110,用于基于重启口令重新启动包含故障信息关键字的服务日志对应的服务器。
[0082]本发明实施例的集群服务器的维护装置包括第一获取模块10,第一判断模块20,第一发送模块30,第一接收模块40,维护模块50,第三判断模块60,第二发送模块70,第三发送模块80,第二接收模块90和重启模块110。通过本发明,解决了运维人员在无Internet网络环境条件下无法对集群中服务器进行维护的问题,达到了即使运维人员处在没有Internet网络的环境中,也可以掌握集群服务器的运行状况,进而及时维护集群中的服务器的效果。
[0083]显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0084]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种集群服务器的维护方法,其特征在于,包括: 获取集群服务器中多个服务器的服务日志; 判断所述服务日志中是否包含故障信息关键字; 如果所述服务日志中包含所述故障信息关键字,将包含所述故障信息关键字的服务日志通过移动通信网络发送至预设终端; 通过所述移动通信网络接收来自所述预设终端的维护命令;以及 基于所述维护命令对包含所述故障信息关键字的服务日志对应的服务器进行维护。
2.根据权利要求1所述的集群服务器的维护方法,其特征在于,所述维护命令包括所述包含所述故障信息关键字的服务日志对应的服务器的网络地址。
3.根据权利要求2所述的集群服务器的维护方法,其特征在于,通过所述移动通信网络接收来自所述预设终端的维护命令包括: 对所述维护命令进行解析; 判断解析后的维护命令是否符合预设口令; 如果所述解析后的维护命令符合所述预设口令,获取所述维护命令中的所述包含所述故障信息关键字的服务日志对应的服务器的网络地址;以及将所述维护命令转发至所述网络地址对应的服务器。
4.根据权利要求1所述的集群服务器的维护方法,其特征在于,基于所述维护命令对包含所述故障信息关键字的服务日志对应的服务器进行维护之后,所述集群服务器的维护方法还包括: 判断所述包含所述故障信息关键字的服务日志中记载的故障是否处理成功; 如果所述包含所述故障信息关键字的服务日志中记载的故障处理成功,通过所述移动通信网络向所述预设终端发送确认消息,其中,所述确认消息用于通知所述预设终端所述包含所述故障信息关键字的服务日志中记载的故障处理成功;以及 如果所述包含所述故障信息关键字的服务日志中记载的故障未处理成功,通过所述移动通信网络向所述预设终端发送失败消息,其中,所述失败消息用于通知所述预设终端所述包含所述故障信息关键字的服务日志中记载的故障未能处理成功。
5.根据权利要求4所述的集群服务器的维护方法,其特征在于,如果所述包含所述故障信息关键字的服务日志中记载的故障未处理成功,通过所述移动通信网络向所述预设终端发送失败消息之后包括: 接收所述预设终端发送的重启口令,其中,所述重启口令用于重新启动所述包含所述故障信息关键字的服务日志对应的服务器;以及 基于所述重启口令重新启动所述包含所述故障信息关键字的服务日志对应的服务器。
6.一种集群服务器的维护装置,其特征在于,包括: 第一获取模块,用于获取集群服务器中多个服务器的服务日志; 第一判断模块,用于判断所述服务日志中是否包含故障信息关键字; 第一发送模块,用于当所述服务日志中包含所述故障信息关键字时,将包含所述故障信息关键字的服务日志通过移动通信网络发送至预设终端; 第一接收模块,用于通过所述移动通信网络接收来自所述预设终端的维护命令;以及 维护模块,用于基于所述维护命令对包含所述故障信息关键字的服务日志对应的服务器进行维护。
7.根据权利要求6所述的集群服务器的维护装置,其特征在于,所述接收模块接收的所述维护命令包括所述包含所述故障信息关键字的服务日志对应的服务器的网络地址。
8.根据权利要求7所述的集群服务器的维护装置,其特征在于,所述第一接收模块包括: 解析模块,用于对所述维护命令进行解析; 第二判断模块,用于判断解析后的维护命令是否符合预设口令; 第二获取模块,用于当所述解析后的维护命令符合所述预设口令时,获取所述维护命令中的所述包含所述故障信息关键字的服务日志对应的服务器的网络地址;以及转发模块,用于将所述维护命令转发至所述网络地址对应的服务器。
9.根据权利要求6所述的集群服务器的维护装置,其特征在于,所述集群服务器的维护装置还包括: 第三判断模块,用于判断所述包含所述故障信息关键字的服务日志中记载的故障是否处理成功; 第二发送模块,用于当所述包含所述故障信息关键字的服务日志中记载的故障处理成功时,通过所述移动通信网络向所述预设终端发送确认消息,其中,所述确认消息用于通知所述预设终端所述包含所述故障信息关键字的服务日志中记载的故障处理成功;以及第三发送模块,用于当所述包含所述故障信息关键字的服务日志中记载的故障未处理成功时,通过所述移动通信网络向所述预设终端发送失败消息,其中,所述失败消息用于通知所述预设终端所述包含所述故障信息关键字的服务日志中记载的故障未能处理成功。
10.根据权利要求9所述的集群服务器的维护装置,其特征在于,所述集群服务器的维护装置还包括: 第二接收模块,用于接收所述预设终端发送的重启口令,其中,所述重启口令用于重新启动所述包含所述故障信息关键字的服务日志对应的服务器;以及 重启模块,用于基于所述重启口令重新启动所述包含所述故障信息关键字的服务日志对应的服务器。
【文档编号】H04L12/24GK104243216SQ201410510612
【公开日】2014年12月24日 申请日期:2014年9月28日 优先权日:2014年9月28日
【发明者】谢宁 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1