一种基于状态的服务监控与恢复方法及装置制造方法

文档序号:7998326阅读:156来源:国知局
一种基于状态的服务监控与恢复方法及装置制造方法
【专利摘要】一种基于状态的服务监控与恢复方法及装置,装置包括:策略配置单元,执行服监控与恢复的参数配置;通信分析单元,分析服务状态;运行分析单元,分析运行状态;输出分析单元,分析服务的输入,资源分析单元;分析服务使用的资源;清理单元,实现无损停止服务;恢复单元,执行服务恢复;调度控制单元,实现方法的环节与流程控制;协议交互单元,取得服务监控配置、策略,并返回监控结果。本发明可对计算机以服务、程序、应用等形式提供的运行服务的准确监控与自动恢复,有效提高了其运行的连续性,维护的及时性、有效性,并提供安全性监控。
【专利说明】-种基于状态的服务监控与恢复方法及装置

【技术领域】
[0001] 本发明涉及信息服务监控与恢复技术,尤其涉及信息服务系统的运行监控、运维 以及持续运行保证方法和技术。

【背景技术】
[0002] 随着信息化建设的不断深入,信息服务系统已经遍及各个行业。他们不间断地运 行,由于系统受损、不能及时维护以及维护不当导致的系统停机造成的影响十分严重。因此 信息系统的监控运维技术不断发展。信息系统持续服务的一个关键点是应用的持续运行保 证,其主要工作原理是:对服务进行监测,发现其无法提供正常服务后,对其进行恢复。工作 一般需要达到的效果是:实现双机或本机自动执行、无需人工干预。
[0003] 监测是被环节通常要求结果越精确越好,恢复则是要确保不造成二次伤害,保证 恢复有效性,恢复时间越短越好,同时还需要考虑适应不同应用的能力,同时还要考虑不对 系统上业务造成严重影响。


【发明内容】

[0004] 有鉴于此,本发明提供一种基于状态的服务监控与恢复装置,监控与恢复所有环 节只需要一次部署,实现便捷维护,智能自动运行。主机程序端作为该装置的核心组件。该 装置包括: 通信分析单元,对计算机以服务、程序、应用等形式,以TCP/IP通信端口方式提供的服 务,对其通信单元的服务状态、服务响应能力、服务的正确性进行分析,结果供其它单元作 为依据; 运行分析单元,对计算机以服务、程序、应用等形式提供的服务,对其运行状态、运行参 数进行对比分析,结果供其它单元作为依据; 输出分析单元,对计算机以服务、程序、应用等形式提供的服务,对其规律性、偶然性的 输出进行分析,结果供其它单元作为依据; 资源分析单元;对计算机以服务、程序、应用等形式提供的服务,对其运行所需的软件、 硬件资源的运行状态进行分析,结果供其它单元作为依据; 清理单元,依据有关各单元的运行结果,在服务出现故障时,执行该单元,实现无损害 地停止服务;释放资源; 恢复单元,在服务出现故障时,依据有关各单元的运行结果,执行该单元,实现恢复服 务; 调度控制单元,按照策略,分析是否需要服务监控,并将启动或停止有关单元的工作; 协议交互单元,取得对服务进行监控的预先配置的配置、策略,输送给有关单元,并返 回监控结果给使用组件。
[0005] 管理中心,包含非核心的策略配置单元和通告单元,为装置的输入和输出单元; 优选地,策略配置单元的工作参数包括服务所在设备、服务的成员组成与工作顺序、月艮 务的操作系统类别、服务依赖的软件、硬件资源、监控与恢复的时间调度、通信端口、通告对 象、定制开发接口、执行程序等数据;所述参数是主要由该单元按照指令采集到的,不需要 用户人工输入,只有系统中不存在的参数由用户指定。
[0006] 优选地,清理单元与执行单元的间隔对系统影响十分重要,该参数可调,对一般不 低于30秒,其不宜高于5分钟。
[0007] 优选地,硬件资源一般包括服务使用的磁盘阵列,以文件系统或裸设备等形式的 资源,硬件资源一般包括NFS、WebService等形式的资源。
[0008] 优选地,清理与恢复单元的执行程序需要与应用一致的运行环境与身份,并且纳 入签名保护,未经授权的修改会触发警报以及自动恢复,保证维护时的安全性。
[0009] 本发明还一种基于状态的应用监控与恢复方法,运维的应用监控与恢复工作所有 环节只需要一次部署,实现便捷维护,智能自动监管。该方法包括: 对计算机以服务、程序、应用等形式,以TCP/IP通信端口方式提供的服务,对其通信单 元的服务状态、服务响应能力、服务的正确性进行分析,结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其运行状态、运行参数进行对比分 析,结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其规律性、偶然性的输出进行分析, 结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其运行所需的软件、硬件资源的运 行状态进行分析,结果供其它单元作为依据; 依据有关各单元的运行结果,在服务出现故障时,执行该单元,实现无损害地停止服 务;释放资源; 在服务出现故障时,依据有关各单元的运行结果,执行该单元,实现恢复服务; 按照策略,分析是否需要服务监控,并将启动或停止有关单元的工作; 取得对服务进行监控的预先配置的配置、策略,输送给有关单元,并返回监控结果给使 用组件。
[0010] 优选地,策略配置的工作参数包括服务所在设备、服务的成员组成与工作顺序、月艮 务的操作系统类别、服务依赖的软件、硬件资源、监控与恢复的时间调度、通信端口、通告对 象、定制开发接口、执行程序等数据;所述参数是主要是自动采集到的,不需要用户人工输 入,只有系统中不存在的参数由用户指定。
[0011] 优选地,清理与恢复的执行间隔对系统影响十分重要,该参数可调,对一般不低于 30秒,其不宜高于5分钟。
[0012] 优选地,硬件资源一般包括服务使用的磁盘阵列,以文件系统或裸设备等形式的 资源,硬件资源一般包括NFS、WebService等形式的资源。
[0013] 优选地,清理与恢复的执行需要与应用一致的运行环境与身份,并且纳入签名保 护,未经授权的修改会触发警报以及自动恢复,保证维护时的安全性。
[0014] 本发明基于策略的配置技术,是监测工作实现了面向对象策略化,部署、维护工作 大大简化,策略对象建立后,二次部署时间减少90%以上。同时部署、维护的灵活性大大增 强,可以根据业务本身特点设计监测策略。本发明各个单元间集成度高,工作准确、可靠。实 际测试中不仅取得了极为理想的使用效果,信号机制还保证了与IBM、HP、Oracle(SUN)等 公司双机恢复产品、以及离线备份软件的兼容性。
[0015]

【专利附图】

【附图说明】: 图1是本发明一种实施方式的应用环境。
[0016] 图2是本发明基于状态的应用监控与恢复装置的逻辑结构图。
[0017] 图3是本发明策略配置和管理的用户界面示意图。
[0018]

【具体实施方式】: 请参考图1,在信息系统运行监测场景中,通常会采用在主机上安装主机程序端来实施 监控,提供监控与恢复服务。本发明基于状态的应用监控与恢复技术的监测装置即应用在 主机程序端中,该装置可以通过软件实现。该装置主要包括通信分析单元11,运行分析单 元12,输出分析单元13,资源分析单元14,清理单元15,恢复单元16,调度控制单元17,协 议交互单元18,监视与保护单元19。以下以软件实现为例来描述该装置运行时所执行的处 理流程。
[0019] 步骤1,接收并载入配置引擎发送的策略信息,所述策略信息包括监控与恢复策略 的详细技术参数;本步骤由协议交互单元18执行。
[0020] 首先需要在策略配置端输入监测策略的所有参数。通过加密协议通道向协议交互 单元输入监测策略参数,协议交互单元根据处理逻辑对策略进行检查,然后将参数注入到 状态检索单元。
[0021] 策略参数带有监测引擎工作所需的所有参数。
[0022] 基于策略的工作引擎可以实现监测、恢复工作脱离运维人员的干预和管理,自动 实时灵活的工作,包括监测规则是否自动进入睡眠期。请参考图3。
[0023] 步骤2,根据注入的监测参数,对监控与恢复工作进行调度控制,控制各工作单元 的工作。
[0024] 在工作时刻,根据接收的工作参数,通信分析单元11发起监测会话(可选);运行分 析单元12 (可选),资源分析单元14 (可选),输出分析单元13 (可选)按照顺序连续工作, 他们的选择性结合确保了综合分析的准确、可靠,同时适应了用户环境的复杂性。
[0025] 由于监测工作的多协议性,通信分析单元需要处置异种协议,来实现分析功能的 强大和完整。
[0026] 步骤3,上述步骤将分析结果分别进行收集处理,再按照策略要求进行综合分析判 断,先启动签名的核验工作,再选择性启动清理单元的工作,或者直接启动协议交互单元, 对结果进行故障和现状通报。
[0027] 步骤4,重复步骤2,将分析结果分别进行收集处理,再按照策略要求进行综合分 析判断,先启动签名的核验工作,再选择性地启动恢复单元的工作,或者直接启动协议交互 单元,对结果进行故障和现状通报。
[0028] 进一步来说,由于服务的多样性和复杂性,导致保证监控的准确度实现困难。需要 包括对系统进程状态、通信协议综合服务状态,依赖的软硬件资源、配置文件、工作文件、所 有运行进程、服务及其参数等进行综合分析,这些分析结果作为清理、恢复单元的每一步的 工作依据,确保效果。
[0029] 当前实现服务局监控与自动回复的软件很少,且多为实现双机备份的国外产品。 其具体工作机理较少披露。其主要缺点是,成本高昂;均为单一产品,没有统一的技术、运维 体系,专业技能要求高,维护难度高。而采用本发明的基于策略、基于状态的,与配置引擎和 通报引擎联动的统一体系工作机制实现的装置具有很小的维护、管理工作量,实现了监控 工作服务,达到理想的效果。不仅实现了对监控、恢复工作,而且将使用策略这些变化加工, 以清晰、详细的通告分级送达关注者。
[0030] 以统一运维体系实现信息系统运维中监控、恢复的做法在极为少见。
[0031] 本发明可以实现将服务监控与恢复工作与运行监控、网络管理、安全警报、ITIL运 维等统一到单一运维系统中,实现全系统的有机管理,极大地提高了信息系统的运维水平, 降低了运维工作量。
[0032] 本发明通过采用策略部署的对象化,在实现高适应能力,功能安全、可靠的基础 上,还提供兼容UNIX、Linux、Windows体系操作系统的良好统一图形界面,为用户的运维管 理提供良好的体验,实现二次部署和维护时间减少90%以上。而在现有技术中,普遍存在手 工+人工的参数调整,部署繁杂,无通告机制,适应能力差的缺点。本发明消除了监测系统 的以上缺点,配合应用本专利产品的其他特点,使用户的运维工作基本匹配了需求,已经实 现的采用本发明的装置可以部署到所有主流商业操作系统上。在有多个案例中,实现监控、 恢复工作无人干预,效果理想,报出顺畅,连续运行时间达到2年以上。
[0033] 以上所描述的仅仅是本发明较佳的实现方式,并不用以限定本发明的保护范围, 任何等同的变化和修改皆应涵盖在本发明的保护范围之内。
【权利要求】
1. 一种基于状态的服务监控与恢复技术及装置,运维的应用监控与恢复工作所有环节 只需要一次部署,实现便捷维护,智能自动监管,该装置包括: 通信分析单元,对计算机以服务、程序、应用等形式,以TCP/IP通信端口方式提供的服 务,对其通信单元的服务状态、服务响应能力、服务的正确性进行分析,结果供其它单元作 为依据; 运行分析单元,对计算机以服务、程序、应用等形式提供的服务,对其运行状态、运行参 数进行对比分析,结果供其它单元作为依据; 输出分析单元,对计算机以服务、程序、应用等形式提供的服务,对其规律性、偶然性的 输出进行分析,结果供其它单元作为依据; 资源分析单元;对计算机以服务、程序、应用等形式提供的服务,对其运行所需的软件、 硬件资源的运行状态进行分析,结果供其它单元作为依据; 清理单元,依据有关各单元的运行结果,在服务出现故障时,执行该单元,实现无损害 地停止服务;释放资源; 恢复单元,在服务出现故障时,依据有关各单元的运行结果,执行该单元,实现恢复服 务; 调度控制单元,按照策略,分析是否需要服务监控,并将启动或停止有关单元的工作; 协议交互单元,取得对服务进行监控的预先配置的配置、策略,输送给有关单元,并返 回监控结果给使用组件。
2. 根据权利要求1所述的装置,策略配置单元的工作参数包括服务所在设备、服务的 成员组成与工作顺序、服务的操作系统类别、服务依赖的软件、硬件资源、监控与恢复的时 间调度、通信端口、通告对象、定制开发接口、执行程序等数据;所述参数是主要由该单元按 照指令采集到的,不需要用户人工输入,只有系统中不存在的参数由用户指定。
3. 根据权利要求1所述的装置,清理单元与执行单元的间隔对系统影响十分重要,该 参数可调,对一般不低于30秒,其不宜高于5分钟。
4. 根据权利要求1所述的装置,硬件资源一般包括服务使用的磁盘阵列,以文件系统 或裸设备等形式的资源,硬件资源一般包括NFS、WebS erviCe等形式的资源。
5. 根据权利要求1所述的装置,清理与恢复单元的执行程序需要与应用一致的运行 环境与身份,并且纳入签名保护,未经授权的修改会触发警报以及自动恢复,保证维护时的 安全性。
6. -种基于状态的服务监控与恢复方法,运维的应用监控与恢复工作所有环节只需要 一次部署,实现便捷维护,智能自动监管,该方法包括: 对计算机以服务、程序、应用等形式,以TCP/IP通信端口方式提供的服务,对其通信单 元的服务状态、服务响应能力、服务的正确性进行分析,结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其运行状态、运行参数进行对比分 析,结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其规律性、偶然性的输出进行分析, 结果供其它单元作为依据; 对计算机以服务、程序、应用等形式提供的服务,对其运行所需的软件、硬件资源的运 行状态进行分析,结果供其它单元作为依据; 依据有关各单元的运行结果,在服务出现故障时,执行该单元,实现无损害地停止服 务;释放资源; 在服务出现故障时,依据有关各单元的运行结果,执行该单元,实现恢复服务; 按照策略,分析是否需要服务监控,并将启动或停止有关单元的工作; 取得对服务进行监控的预先配置的配置、策略,输送给有关单元,并返回监控结果给使 用组件。
7. 根据权利要求6所述的方法,策略配置的工作参数包括服务所在设备、服务的成员 组成与工作顺序、服务的操作系统类别、服务依赖的软件、硬件资源、监控与恢复的时间调 度、通信端口、通告对象、定制开发接口、执行程序等数据;所述参数是主要是自动采集到 的,不需要用户人工输入,只有系统中不存在的参数由用户指定。
8. 根据权利要求6所述的方法,清理与恢复的执行间隔对系统影响十分重要,该参数 可调,对一般不低于30秒,其不宜高于5分钟。
9. 根据权利要求6所述的方法,硬件资源一般包括服务使用的磁盘阵列,以文件系统 或裸设备等形式的资源,硬件资源一般包括NFS、WebS erviCe等形式的资源。
10. 根据权利要求6所述的方法,清理与恢复的执行需要与应用一致的运行环境与身 份,并且纳入签名保护,未经授权的修改会触发警报以及自动恢复,保证维护时的安全性。
【文档编号】H04L12/24GK104104537SQ201310129532
【公开日】2014年10月15日 申请日期:2013年4月15日 优先权日:2013年4月15日
【发明者】沙永刚 申请人:北京中嘉时代科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1