一种集群环境下的自动化运维方法

文档序号:8339397阅读:328来源:国知局
一种集群环境下的自动化运维方法
【技术领域】
[0001] 本发明涉及运维管理技术领域,具体地说是一种实用性强、集群环境下的自动化 运维方法。
【背景技术】
[0002] 随着中国信息化进程的推进,政府、企业等大型组织机构的信息化水平和程度大 大提高,应用系统的规模和复杂度同样水涨船高。传统运维的管理模式需要管理人员人工 监控系统状况,对应用系统中出现的日常管理操作进行手工处理,成本高,效率低且缺乏实 时性,已经不适用于大型应用系统。尤其是对于高度集群化的企业应用管理场景,自动化运 维管理方式必不可少。
[0003] 所谓运维管理的自动化是指通过将日常运维中大量的重复性工作(小到简单的日 常检查、配置变更和软件安装及更新,大到整个变更流程的组织调度)由过去的手工执行转 为基于预制管理策略的自动化操作,从而减少乃至消除运维中的延迟,实现"零延时"的运 维。
[0004] 基于此,现提供一种集群环境下基于消息的自动化运维方法,旨在为企业应用系 统提供一套快速、高效、实时的运维管理方法,提升系统运维的效率,降低人工成本。

【发明内容】

[0005] 本发明的技术任务是针对以上不足之处,提供一种实用性强、集群环境下的自动 化运维方法。
[0006] 一种集群环境下的自动化运维方法,其具体实现过程为: 一、 首先构建运维平台系统,该系统由一台控制服务器和多台受控服务器组成;其中控 制服务器内部署总控制器、资源服务、健康服务及管理控制台四部分模块组成;受控服务器 部署控制服务代理和健康服务代理两部分模块; 二、 受控服务器向控制服务器发送消息注册服务器信息,建立多服务器之间的消息通 讯通道; 三、 该运维平台系统完成日常系统维护动作: 管理人员通过管理控制台为总控制器输入任务消息; 总控制器将操作命令消息发送给资源服务; 资源服务生成命令集消息,发送给受控服务器的控制服务代理模块,完成日常维护; 四、 该运维平台系统完成健康故障处理动作: 受控服务器内的健康服务代理模块则将健康数据消息发送给总控制器的健康服务; 健康服务发现预警消息时,将该消息发送给总控制器,总控制器完成预警处理。
[0007] 所述控制服务器中,总控制器负责系统内所有受控服务器信息的管理,处理控制 台操作任务和健康预警消息;健康服务负责收集和处理受控服务器健康状况信息并向总控 制器发送健康预警消息;资源服务负责接收总控制器任务消息,分解为具体执行命令集发 送给指定受控服务器执行;管理控制台为系统管理员入口。
[0008] 所述受控服务器中,控制服务代理负责接收控制服务器发送的命令集并执行;健 康服务代理负责服务器健康状况的实时监控,并以健康服务下发的健康策略为依据,定期 将健康信息以消息的方式上报给健康服务。
[0009] 所述控制服务代理接受控制服务器发送的命令集,该控制服务代理由消息组件、 命令执行组件两部分组成:消息组件用于接收控制服务器命令集消息,反馈命令集执行情 况;命令执行组件用于命令的具体执行,该命令执行组件包括:执行指令、回滚指令、终止 指令三类操作。
[0010] 所述步骤三的详细过程为: 管理员通过管理控制台向控制服务器发送集群环境内运维管理操作任务消息; 总控制器接收任务消息,根据策略生成处理方案,发送给资源服务; 资源服务将处理方案解析为受控服务器可执行的操作命令集,发送给指定受控服务器 内的控制服务代理; 控制服务代理根据命令集执行相关操作,一旦发生错误,向控制服务器发送失败消息 并回滚执行。
[0011] 所述步骤四的详细过程为: 健康服务代理获取受控服务器实时健康数据,通过消息发送给控制服务器上的健康服 务进行健康监控; 当受控服务器发生故障,控制服务器接收到的健康数据异常,或者无法接收健康数据 时,健康服务根据预置策略触发健康预警,向总控制器发送预警消息; 总控制器接收预警消息,根据处理策略生成处理方案,此时如果出现故障的受控服务 器仍可通信,处理方案通过消息发送给资源服务并执行下述步骤,如果不可通信,解决方案 由总控制器自行执行; 资源服务将处理方案解析为可执行的操作命令集,发送给故障受控服务器内的控制服 务代理执行; 控制服务代理根据命令集执行相关操作,解决服务器健康故障;一旦发生错误,向控制 服务器发送失败消息并回滚执行。
[0012] 本发明的一种集群环境下的自动化运维方法,具有以下优点: 本发明提出的一种集群环境下的自动化运维方法,根据事先定义的运维策略实现受控 系统的自动化运维,无需人工干预,大大降低业务系统运维管理的成本;另外提供了全面的 监控管理和问题分析手段来帮助企业信息管理部门及时识别和发现IT问题;通过受控服 务器的服务代理,控制服务器可以对集群内部的所有服务器进行实时监控和自动化运维, 对于在集群内部针对多台服务器的重复性工作,自动化运维节省人工维护成本,提升效率; 基于消息的通信方式可以实现跨平台,跨操作系统的命令执行,执行过程中,只要有一台服 务器上的命令集执行失败,执行过程会自动回滚,以保证集群环境中各个服务器的一致性, 实用性强,易于推广。
【附图说明】
[0013] 附图1为本发明的运维平台系统示意图。
【具体实施方式】
[0014] 下面结合附图和具体实施例对本发明作进一步说明。
[0015] 本发明提供一种集群环境下的自动化运维方法,通过提供一套架构和方法,解决 企业应用架构中集群环境下服务器和虚拟机运维管理人工成本高,效率低下的问题。如附 图1所示,其具体实现过程为: 一、首先构建运维平台系统,该系统由一台控制服务器和多台受控服务器组成;其中控 制服务器内部署总控制器、资源服务、健康服务及管理控制台四部分模块组成;受控服务器 部署控制服务代理和健康服务代理两部分模块。
[0016] 控制服务器提供应用系统自动化运维的核心功能。总控制器负责系统内所有受控 服务器信息的管理,处理控制台操作任务和健康预警消息;健康服务负责收集和处理受控 服务器健康状况信息并向总控制器发送健康预警消息;资源服务负责接收总控制器任务消 息,分解为具体执行命令集发送给指定受控服务器执行;管理控制台为系统管理员入口。
[0017] 控制服务器上部署的总控制器在整个方法中起到调度控制作用,其功能是接收在 集群内的所有受控服务器的注册并进行统一管理,接收管理员从管理控制台设定的任务指 令或健康预警消息并做出相应处理,将处理结果通过消息发送给资源服务。
[0018] 控制服务器上的资源服务负责接收总控制器的任务消息,解析为受控服务器需要 的可执行命令集,再通过消息发送给受控服务器中的控制服务代理执行,或由控制服务代 理调用受控服务器业务系统的相关服务执行。
[0019] 受控服务器上的控制服务代理负责接收控制服务器发送的命令集并执行,健康服 务代理负责服务器健康状况的实时监控,并以健康服务下发的健康策略为依据,定期将健 康信息以消息的方式上报给健康服务。
[0020] 控制服务代理只接受控制服务器发送的命令集,其有消息组件、命令执行组件两 部分组成。消息组件用于接收控制服务器命令集消息,反馈命令集执行情况;命令执行组件 用于命令的具体执行。该命令执行组件包括:执行指令、回滚指令、终止指令三类操作。
[0021] 当资源服务向各控制服务代理发送执行指令时,会按照执行步骤对各个受控服务 器的指令进行排序,形成
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1