监控代理的故障处理方法和系统的制作方法

文档序号:7575863阅读:142来源:国知局
专利名称:监控代理的故障处理方法和系统的制作方法
技术领域
本发明涉及计算机应用领域,尤其涉及一种监控代理的故障处理方法和系统。
背景技术
当前,计算机越来越普及,应用面也越来越广。个人PC的应用推动了服务器的广 泛应用。现在,规模大型的公司和机构每时每刻都运行着数以万计的服务器。随着服务器 的广泛应用,如何对大量的服务器、存储及网络设备有效地管理也成为公司和机构越来越 关心的一个问题。为此,各大服务器厂商和软件公司纷纷推出自己的设备管理软件。该设备管理软 件按是否需要在被监控的资源节点上安装代理来实现管理功能分为2种类型。其中一种是 必须在被监控节点安装监控代理程序,管理软件才可以实现对被监控的资源节点的管理; 另一种是无须安装代理,通过简单网络管理协议(Simple Network Management Protocol, SNMP)或智能平台管理接口 (International Precious Metals Institute, IPMI)等实现 管理。在这两种类型的设备管理软件中,不在被监控节点安装监控代理服务程序是最简 便、最安全的管理方式。但是,通过SNMP协议和其他诸如IPMI等协议对只能实现对设备的 简单管理。随着用户对设备管理要求的越来越高,这种方式已经越来越不能满足用户的管 理需求。因此,在被监控的资源节点安装监控代理服务程序是目前较为普遍的一种方式。在实现本发明过程中,发明人发现现有技术存在如下问题由于各种原因引起的监控代理停止运行会使得监控中心端无法与监控代理进行 正常通信,导致无法监控中心无法继续对被监控的资源节点进行管理,成为此种监控方式 的一个软肋。为了解决监控代理停止运行,无法正常与监控中心通讯的问题,我们提出一套具 有灵活性和监控容错功能的设备监控管理的方案。

发明内容
本发明提供一种监控代理的故障处理方法和系统,以解决现有技术中不能及时处 理监控代理运行中止的问题。为解决上述技术问题,本发明提供了如下技术方案一种监控代理的故障处理方法,被监控的资源节点包括第一监控代理和第二监控 代理,其中所述第二监控代理监控所述第一监控代理的运行状态;在监控到第一监控代理因故障运行中止时,所述第二监控代理触发第一监控代理 的启动流程。进一步的,所述方法还具有如下特点所述第二监控代理触发第一监控代理的启动流程,包括所述第二监控代理判断所述第一监控代理发生的故障是否需要处理;如果所述第一监控代理发生的故障需要处理,则所述第二监控代理在处理该所述 第一监控代理发生的故障后启动所述第一监控代理;否则,所述第二监控代理直接启动所 述第一监控代理。进一步的,所述方法还具有如下特点所述处理该所述第一监控代理发生的故障 的过程,包括所述第二监控代理从本地预先存储的故障处理策略中查找所述第一监控代理发 生的故障对应的处理策略;如果查找到第一监控代理发生的故障对应的处理策略,则所述第二监控代理采用 该处理策略处理所述第一监控代理发生的故障;如果未查找到所述第一监控代理发生的故障对应的处理策略,则所述第二监控代 理从监控中心获取该监控代理发生的故障对应的处理策略,再采用该处理策略处理所述第 一监控代理发生的故障;或者,所述第二监控代理请求监控中心处理所述第二监控代理发 生的故障。进一步的,所述方法还具有如下特点所述第二监控代理触发第一监控代理的启 动流程,包括所述第二监控代理向监控中心上报第一监控代理运行中止的信息;所述监控中心根据所述第一监控代理运行中止的信息,启动所述第一监控代理。进一步的,所述方法还具有如下特点所述第二监控代理触发第一监控代理的启 动流程,包括所述第二监控代理判断所述第一监控代理发生的故障是否需要处理;如果所述第一监控代理发生的故障需要处理,则所述第二监控代理通知监控中心 处理所述第一监控代理发生的故障;所述监控中心处理所述监控代理发生的故障,并在故 障处理完成后,启动所述第一监控代理;如果所述第一监控代理发生的故障不需要处理,则所述第二监控代理直接启动所 述第一监控代理。一种监控代理的故障处理系统,被监控的资源节点包括第一监控代理和第二监控 代理,其中所述第二监控代理包括监控装置,用于监控所述第一监控代理的运行状态;处理装置,用于在监控到第一监控代理因故障运行中止时,所述第二监控代理触 发第一监控代理的启动流程。进一步的,所述方法还具有如下特点所述处理装置包括判断模块,用于判断所述第一监控代理发生的故障是否需要处理;启动模块,用于在所述第一监控代理发生的故障需要处理时,在处理该所述第一 监控代理发生的故障后启动所述第一监控代理;以及,在所述第一监控代理发生的故障不 需要处理时所述第二监控代理直接启动所述第一监控代理。进一步的,所述方法还具有如下特点所述处理装置还包括查找模块,用于从本地预先存储的故障处理策略中查找所述第一监控代理发生的
5故障对应的处理策略;第一处理模块,用于在查找到第一监控代理发生的故障对应的处理策略时,采用 该处理策略处理所述第一监控代理发生的故障;第二处理模块,用于在未查找到所述第一监控代理发生的故障对应的处理策略 时,从监控中心获取该监控代理发生的故障对应的处理策略,再采用该处理策略处理所述 第一监控代理发生的故障;或者,所述第二监控代理请求监控中心处理所述第二监控代理 发生的故障。进一步的,所述方法还具有如下特点所述处理装置包括上报模块,用于向所述监控中心上报第一监控代理运行中止的信息;所述系统还包括监控中心,用于根据所述第一监控代理运行中止的信息,启动所述第一监控代理。进一步的,所述方法还具有如下特点所述处理装置包括判断模块,用于判断所述第一监控代理发生的故障是否需要处理;通知模块,用于在所述第一监控代理发生的故障需要处理时,通知所述监控中心 处理所述第一监控代理发生的故障;启动模块,用于在所述第一监控代理发生的故障不需要处理时,直接启动所述第 一监控代理;所述系统还包括监控中心,用于处理所述第一监控代理发生的故障,并在故障处理完成后,启动所 述第一监控代理。本发明提供的实施例,通过第二监控代理监控第一监控代理的运行状态,在第一 监控代理运行中止时,触发启动该第一监控代理的流程,缩短了发现第一监控代理故障的 时间,能够缩短启动第一监控代理的时间,保证信息的正常通信。


图1为本发明提供的监控代理的故障处理方法的流程示意图;图2为本发明提供的监控代理的故障处理系统实施例的结构示意图;图3为图2所示系统实施例中所述处理装置的结构示意图;图4为图3所示处理装置的另一结构示意图;图5为图2所示系统实施例的另一结构示意图;图6为图2所示系统实施例的又一结构示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对 本发明作进一步的详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施 例中的特征可以相互任意组合。图1为本发明提供的监控代理的故障处理方法的流程示意图。图1所示方法实施例包括在实施例一中,监控中心为被监控的资源包括第一监控代理和第二监控代理。其中所述被监控的资源可以是某一网络系统(如云计算操作系统)中的物理设 备,可以为服务器、存储设备(如数据库)和传输设备(如交换机和路由器等)中至少一个。步骤101、第二监控代理接收第一监控代理因故障不运行的信息;其中,监测第一监控代理的运行状态可以有该第二监控代理进行监测,但不限于 此,也可以通过被监控的资源节点中用于与第一监控代理通信的通信单元来实现监测功 能,例如,该通信模块在向第一监控代理发送信息后在一预定的时间内没有收到对应的响 应,则通信模块确定该第一监控代理不处于运行状态,则向第二监控代理发送该第一监控 代理因故障不运行的信息。步骤102、第二监控代理触发启动该第一监控代理的流程。其中根据启动该第一监控代理的操作执行体的不同,将触发启动该第一监控代理 的流程有如下两种方式第一种方式102A是由第二监控代理启动,具体如下步骤201、该第二监控代理判断所述第一监控代理发生的故障是否需要处理;例如,第二监控代理可以预先存储一列表,记录第一监控代理上可能发生的故障 中需要处理的故障,采用该列表进行比较。步骤202、如果所述第一监控代理发生的故障需要处理,则在处理该所述第一监控 代理发生的故障后再启动该第一监控代理;否则,直接启动该第一监控代理。需要说明的是,步骤201执行的内容是为了保证后续启动该第一监控代理时只需 一次启动操作该第一监控代理就能正常运行,以达到缩短故障的处理时间的目的。当然,也 可以直接启动,因为对于一些故障在重启第一监控代理就会消失,比如由于监控中心发送 了错误的命令造成第一监控代理运行中止,此时直接启动该第一监控代理就可以了。然而, 对于一些故障,如第一监控代理没有足够的硬盘空间存储日志信息的情况,在启动该第一 监控代理后,该故障仍然存在,关闭该第一监控代理,再等待故障处理完成才能启动该第一 监控代理,由此可以看出,直接启动该第一监控代理,有可能出现二次启动的问题,增加了 故障处理的时间。其中,步骤202中的处理该所述第一监控代理发生的故障的过程也可以如下两种 方式 第一种方式202A具体包括步骤Al、第二监控代理从本地预先存储的需要处理的故障对应的处理策略,查找 该第一监控代理发生的故障对应的处理策略;如果查找到,则执行步骤A5 ;否则,执行步骤A2 A5 ;步骤A2、第二监控代理向监控中心查询该第一监控代理发生的故障对应的处理策 略;步骤A3、监控中心生成该第一监控代理发生的故障对应的处理策略;步骤A4、监控中心向第二监控代理发送该第一监控代理发生的故障对应的处理策 略;在步骤A4执行完成后,执行步骤A5。
步骤A5、第二监控代理采用得到的处理策略处理该第一监控代理发生的故障;步骤A6、在检测到故障处理完成后,第二监控代理启动该第一监控代理。其中在第一种方式202A中,如果执行步骤Al后未查找到该第一监控代理发生的 故障对应的处理策略,步骤A2 A5的执行内容还可以采用如下方式进行处理第二监控 代理向监控中心上报第一监控代理运行中止的信息;监控中心根据第二监控代理上报的信 息,对该第一监控代理进行故障处理。第二种方式102B是由监控中心或者其与第二监控代理共同对第一监控代理的启 动进行管理,具体如下第一种方式为只由监控中心来启动该第一监控代理,具体包括所述第二监控代理向监控中心上报第一监控代理运行中止的信息;所述监控中心 根据所述第一监控代理运行中止的信息,启动所述第一监控代理。此方式中,只要第一监控代理运行中止,第二监控代理就会向监控中心发送信息, 以触发监控中心启动第一监控代理的流程。此种方式的优点在于,与现有技术中监控中心 通过一段时间不能接收到第一监控代理发送的信息才能确定第一监控代理运行中止相比, 监控中心能够及时获知第一监控代理运行中止的信息,能够快速进行故障处理,缩短第一 监控代理运行中止的时间且第二监控代理的操作流程简单。第二种方式为监控中心与第二监控代理共同对第一监控代理的启动进行管理,具 体包括所述第二监控代理在预先存储的需要处理的故障信息中查找是否包括所述第一 监控代理发生的故障;如果在所述需要处理的故障信息中未查找到所述第一监控代理发生的故障,则所 述第二监控代理直接启动该第一监控代理;如果在所述需要处理的故障信息中查找到所述第一监控代理发生的故障,则所述 第二监控代理通知监控中心处理所述第一监控代理发生的故障,所述监控中心处理所述第 一监控代理发生的故障,并在故障处理完成后,启动所述第一监控代理。由于一些故障在重启该第一监控代理后故障就会消失,所以为了缩短第一监控代 理的处理时间,优选的,第二监控代理可以先判断第一监控代理发生的故障是否需要处理, 如果需要处理,则向监控中心上报的第一监控代理运行中止的信息,否则,第二监控代理直 接启动该第一监控代理。由上可以看出,对于在重启该第一监控代理后故障就会消失的故 障,由该第二监控代理直接启动,减少了第二监控代理的上报流程,也减少了监控中心的处 理任务。需要说明的是,在实际应用中,被监控的资源节点包括多个监控代理时,只需有一 个监控代理被其余的至少一个监控代理监控即可。举例来说,被监控的资源节点上有两个 监控代理,两者可以互相监控对方的运行状态。当然,被监控的资源节点上的多个监控代理的代理内容可以相同,也可以不同。例 如,一个监控代理负责提供各种信息获取的接口 ;另一个监控代理负责监控系统运行情况。图2为本发明提供的监控代理的故障处理系统实施例的结构示意图。结合图1所 示方法实施例的内容,图2所示系统包括被监控的资源节点包括第一监控代理和第二监 控代理,其中所述第一监控代理和所述第二监控代理的代理功能不同,所述第二监控代理包括监控装置,用于监控所述第一监控代理的运行状态;处理装置,用于在监控到第一监控代理因故障运行中止时,所述第二监控代理触 发第一监控代理的启动流程。图3为图2所示系统实施例中所述处理装置的结构示意图。图3所示处理装置包 括判断模块,用于判断所述第一监控代理发生的故障是否需要处理;启动模块,用于在所述第一监控代理发生的故障需要处理时,在处理该所述第一 监控代理发生的故障后启动所述第一监控代理;以及,在所述第一监控代理发生的故障不 需要处理时所述第二监控代理直接启动所述第一监控代理。图4为图3所示处理装置的另一结构示意图。图4所示处理装置还包括查找模块,用于从本地预先存储的故障处理策略中查找所述第一监控代理发生的 故障对应的处理策略;第一处理模块,用于在查找到第一监控代理发生的故障对应的处理策略时,采用 该处理策略处理所述第一监控代理发生的故障;第二处理模块,用于在未查找到所述第一监控代理发生的故障对应的处理策略 时,从监控中心获取该监控代理发生的故障对应的处理策略,再采用该处理策略处理所述 第一监控代理发生的故障;或者,所述第二监控代理请求监控中心处理所述第二监控代理 发生的故障。图5为图2所示系统实施例的另一结构示意图。图5所示系统具体如下所述处理装置包括上报模块,用于向所述监控中心上报第一监控代理运行中止的信息;所述系统还包括监控中心,用于根据所述第一监控代理运行中止的信息,启动所述第一监控代理。图6为图2所示系统实施例的又一结构示意图。图6所示系统具体如下所述处理装置包括判断模块,用于判断所述第一监控代理发生的故障是否需要处理;通知模块,用于在所述第一监控代理发生的故障需要处理时,通知所述监控中心 处理所述第一监控代理发生的故障;启动模块,用于在所述第一监控代理发生的故障不需要处理时,直接启动所述第 一监控代理;所述系统还包括监控中心,用于处理所述第一监控代理发生的故障,并在故障处理完成后,启动所 述第一监控代理。本发明提供的系统实施例,通过第二监控代理监控第一监控代理的运行状态,在 第一监控代理运行中止时,触发启动该第一监控代理的流程,缩短了发现第一监控代理故 障的时间,能够缩短启动第一监控代理的时间,保证信息的正常通信。本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程 序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤 之一或其组合。可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可 以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电 路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现, 它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为 独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机 可读取存储介质可以是只读存储器,磁盘或光盘等。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
权利要求
1.一种监控代理的故障处理方法,其特征在于,被监控的资源节点包括第一监控代理 和第二监控代理,其中所述第二监控代理监控所述第一监控代理的运行状态;在监控到第一监控代理因故障运行中止时,所述第二监控代理触发第一监控代理的启 动流程。
2.根据权利要求1所述的方法,其特征在于,所述第二监控代理触发第一监控代理的 启动流程,包括所述第二监控代理判断所述第一监控代理发生的故障是否需要处理;如果所述第一监控代理发生的故障需要处理,则所述第二监控代理在处理该所述第一 监控代理发生的故障后启动所述第一监控代理;否则,所述第二监控代理直接启动所述第 一监控代理。
3.根据权利要求2所述的方法,其特征在于,所述处理该所述第一监控代理发生的故 障的过程,包括所述第二监控代理从本地预先存储的故障处理策略中查找所述第一监控代理发生的 故障对应的处理策略;如果查找到第一监控代理发生的故障对应的处理策略,则所述第二监控代理采用该处 理策略处理所述第一监控代理发生的故障;如果未查找到所述第一监控代理发生的故障对应的处理策略,则所述第二监控代理从 监控中心获取该监控代理发生的故障对应的处理策略,再采用该处理策略处理所述第一监 控代理发生的故障;或者,所述第二监控代理请求监控中心处理所述第二监控代理发生的 故障。
4.根据权利要求1所述的方法,其特征在于,所述第二监控代理触发第一监控代理的 启动流程,包括所述第二监控代理向监控中心上报第一监控代理运行中止的信息;所述监控中心根据所述第一监控代理运行中止的信息,启动所述第一监控代理。
5.根据权利要求1所述的方法,其特征在于,所述第二监控代理触发第一监控代理的 启动流程,包括所述第二监控代理判断所述第一监控代理发生的故障是否需要处理;如果所述第一监控代理发生的故障需要处理,则所述第二监控代理通知监控中心处理 所述第一监控代理发生的故障;所述监控中心处理所述监控代理发生的故障,并在故障处 理完成后,启动所述第一监控代理;如果所述第一监控代理发生的故障不需要处理,则所述第二监控代理直接启动所述第 一监控代理。
6.一种监控代理的故障处理系统,其特征在于,被监控的资源节点包括第一监控代理 和第二监控代理,其中所述第二监控代理包括监控装置,用于监控所述第一监控代理的运行状态;处理装置,用于在监控到第一监控代理因故障运行中止时,所述第二监控代理触发第 一监控代理的启动流程。
7.根据权利要求6所述的系统,其特征在于,所述处理装置包括判断模块,用于判断所述第一监控代理发生的故障是否需要处理; 启动模块,用于在所述第一监控代理发生的故障需要处理时,在处理该所述第一监控 代理发生的故障后启动所述第一监控代理;以及,在所述第一监控代理发生的故障不需要 处理时所述第二监控代理直接启动所述第一监控代理。
8.根据权利要求7所述的系统,其特征在于,所述处理装置还包括查找模块,用于从本地预先存储的故障处理策略中查找所述第一监控代理发生的故障 对应的处理策略;第一处理模块,用于在查找到第一监控代理发生的故障对应的处理策略时,采用该处 理策略处理所述第一监控代理发生的故障;第二处理模块,用于在未查找到所述第一监控代理发生的故障对应的处理策略时,从 监控中心获取该监控代理发生的故障对应的处理策略,再采用该处理策略处理所述第一监 控代理发生的故障;或者,所述第二监控代理请求监控中心处理所述第二监控代理发生的 故障。
9.根据权利要求6所述的系统,其特征在于 所述处理装置包括上报模块,用于向所述监控中心上报第一监控代理运行中止的信息; 所述系统还包括监控中心,用于根据所述第一监控代理运行中止的信息,启动所述第一监控代理。
10.根据权利要求6所述的系统,其特征在于 所述处理装置包括判断模块,用于判断所述第一监控代理发生的故障是否需要处理; 通知模块,用于在所述第一监控代理发生的故障需要处理时,通知所述监控中心处理 所述第一监控代理发生的故障;启动模块,用于在所述第一监控代理发生的故障不需要处理时,直接启动所述第一监 控代理;所述系统还包括监控中心,用于处理所述第一监控代理发生的故障,并在故障处理完成后,启动所述第 一监控代理。
全文摘要
本发明提供一种监控代理的故障处理方法和系统。所述方法中所述被监控的资源节点包括第一监控代理和第二监控代理,其中所述第二监控代理监控所述第一监控代理的运行状态;在监控到第一监控代理因故障运行中止时,所述第二监控代理触发第一监控代理的启动流程。
文档编号H04L12/24GK102148707SQ20111003098
公开日2011年8月10日 申请日期2011年1月28日 优先权日2011年1月28日
发明者刘成平, 王理想 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1