一种故障自愈方法及系统的制作方法

文档序号:9237947阅读:517来源:国知局
一种故障自愈方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自动化技术,尤其涉及一种故障自愈方法及系统。
【背景技术】
[0002] 目前的互联网业务平台中,针对业务通信系统运营情况的监控预警系统通常采用 以下方式进行:
[0003] 监控预警系统获取业务通信系统中的监控数据,比如延迟、请求率以及错误率等 统计数据,然后工作人员查看所述统计数据,根据所述统计数据确定故障所在,并通知技术 人员进行检修。另外,现有技术中,能够通过单个备用接入点隔离故障的方式将业务通信系 统中存在故障的设备进行隔离,同时在所述备用接入点接入替换设备以保障业务通信系统 正常运行,实现故障自愈。
[0004] 现有方法中,监控预警系统的监控方未实现自动化,浪费人力资源,且不能实现业 务通信系统的故障自愈,不能有效保障业务通信系统的正常运行;另外,当监控预警系统本 身存在故障时,单个备用接入点隔离故障的方法便无法实现业务通信系统的自愈功能。

【发明内容】

[0005] 为解决现有存在的技术问题,本发明实施例提供一种故障自愈方法及系统,能通 过自动切换功能使互联网中的业务通信系统自动修复,维持业务通信系统的正常运行。
[0006] 本发明的技术方案是这样实现的:本发明提供了一种故障自愈方法,包括:
[0007] 确定第一服务器未能正常运行时,获取所述第一服务器当前的业务数据信息及业 务配置信息;
[0008] 查找当前能调用的第二服务器,并将所述业务数据信息及业务配置信息发送至所 述第二服务器,使所述第二服务器利用所述业务配置信息进行业务配置,并根据所述业务 数据信息执行所述第一服务器未能正常运行时的当前业务;
[0009] 其中,所述第一服务器为处于集群中的子集群中的任意一个服务器,所述第二服 务器为与所述第一服务器处于同一子集群中的不同的服务器。
[0010] 进一步地,所述集群至少包括两个以上的子集群,且所述子集群包括至少两个以 上的服务器。
[0011] 进一步地,所述方法还包括:
[0012] 为集群中的每个子集群分配标识,将子集群的标识分别作为子集群中的各服务器 的外部标识;
[0013] 为每个子集群中各服务器分配互不相同的内部标识;
[0014] 对应地,所述查找当前能调用的第二服务器,包括:
[0015] 确定未能正常运行的所述第一服务器的外部标识和内部标识,根据所述外部标识 查找与所述外部标识相同的、并根据所述内部标识查找与所述第一服务器的内部标识不相 同的、且当前能调用的第二服务器。
[0016] 进一步地,所述确定第一服务器未能正常运行之后,所述方法还包括:
[0017] 标记并记录所述第一服务器对应的内部标识,根据所述内部标识将与所述内部标 识对应的服务器标记为预处理服务器。
[0018] 进一步地,所述方法还包括:
[0019] 根据内部标识累计每个子集群中预处理服务器的数量,并根据所述预处理服务器 的数量确定每个子集群的预警状态。
[0020] 本发明还提供了一种故障自愈系统,包括:
[0021] 获取单元,用于确定第一服务器未能正常运行时,获取所述第一服务器当前的业 务数据信息及业务配置信息;
[0022] 查找单元,用于查找当前能调用的第二服务器;
[0023] 发送单元,用于将所述业务数据信息及业务配置信息发送至所述第二服务器,使 所述第二服务器利用所述业务配置信息进行业务配置,并根据所述业务数据信息执行所述 第一服务器未能正常运行时的当前业务;
[0024] 其中,所述第一服务器为处于集群中的子集群中的任意一个服务器,所述第二服 务器为与所述第一服务器处于同一子集群中的不同的服务器。
[0025] 进一步地,所述集群至少包括两个以上的子集群,且所述子集群包括至少两个以 上的服务器。
[0026] 进一步地,所述系统还包括:
[0027] 分配单元,用于为集群中的每个子集群分配标识,将子集群的标识分别作为子集 群中的各服务器的外部标识;还用于为每个子集群中各服务器分配互不相同的内部标识;
[0028] 对应地,所述查找单元包括:
[0029] 确定子单元,用于确定未能正常运行的所述第一服务器的外部标识和内部标识;
[0030] 查找子单元,用于根据所述外部标识查找与所述外部标识相同的、并根据所述内 部标识查找与所述第一服务器的内部标识不相同的、且当前能调用的第二服务器。
[0031] 进一步地,所述系统还包括:
[0032] 标记单元,用于标记并记录所述第一服务器对应的内部标识,根据所述内部标识 将与所述内部标识对应的服务器标记为预处理服务器。
[0033] 进一步地,所述系统还包括:
[0034] 累计单元,用于根据内部标识累计每个子集群中预处理服务器的数量,并根据所 述预处理服务器的数量确定每个子集群的预警状态。
[0035] 本发明实施例所提供的故障自愈方法及系统,采用集群中的子集群作为服务节 点,且每个子集群至少包括两台服务器,且各个服务器均能独立实现与服务器对应的服务 节点的功能,当某台服务器发生故障时,调用与所述服务器处于同一服务节点的其他服务 器作为备用设备,以保障业务通信系统的正常运行,因此,本发明实施例方法能实现同一服 务节点中的各个服务器间的自动切换功能,使互联网中的业务通信系统自动修复,维持系 统的正常运行;
[0036] 另外,由于标记并记录每个子集群中发生故障的服务器的累计个数,因此,本发明 实施例方法能根据累计个数预警子集群的状态,便于管理人员检测,为业务通信系统的正 常运行奠定基础。
【附图说明】
[0037] 图1为本发明实施例故障自愈方法的实现流程示意图;
[0038] 图2为本发明实施例故障自愈系统的结构示意图;
[0039] 图3为本发明实施查找单元的结构示意图。
【具体实施方式】
[0040] 下面将结合具体实施例及附图对本发明的实施方式进行详细描述。
[0041] 图1为本发明施例故障自愈方法的实现流程示意图,如图1所述,所述方法包括:
[0042] 步骤101:确定第一服务器未能正常运行时,获取所述第一服务器当前的业务数 据信息及业务配置信息;
[0043] 步骤102:查找当前能调用的第二服务器,并将所述业务数据信息及业务配置信 息发送至所述第二服务器,使所述第二服务器利用所述业务配置信息进行业务配置,并根 据所述业务数据信息执行所述第一服务器未能正常运行时的当前业务;
[0044] 其中,所述第一服务器为处于集群中的子集群中的任意一个服务器,所述第二服 务器为与所述第一服务器处于同一子集群中的不同的服务器。
[0045] 这里,每个集群中的子集群可以作为一个服务节点,且子集群中的各个服务器的 功能相同,均能独立实现与服务器对应的服务节点的功能。
[0046] 进一步地,所述集群至少包括两个以上的子集群,且所述子集群包括至少两个以 上的服务器。
[0047] 进一步地,所述方法还包括:
[0048] 为集群中的每个子集群分配标识,将子集群的标识分别作为子集群中的各服务器 的外部标识;
[0049] 为每个子集群中各服务器分配互不相同的内部标识;
[0050] 对应地,所述查找当前能调用的第二服务器,包括:
[0051] 确定未能正常运行的所述第一服务器的外部标识和内部标识,根据所述外部标识 查找与所述外部标识相同的、并根据所述内部标识查找与所述第一服务器的内部标识不相 同的、且当前能调用的第二服务器。
[0052] 具体地,确定未能正常运行的所述第一服务器的外部标识和内部标识,根据所述 外部标识查找与所述外部标识相同的其他服务器,并根据所述外部标识,在所述外部标识 对应的子集群中查找索引最小的、当前能调用的与所述第一服务器的内部标识不相同的其 他内部标识对应的服务器,依次类推,直至能够调用到能够正常运行的、且与所述第一服务 器对应的子集群中的其他服务器为止;这里,假设索引最小的、且当前能调用的、且与所述 第一服务器的内部标识不相同的其他内部标识对应的服务器为第二服务器,且所述第二服 务器能够正常运行,通过第二服务器对应的内部标识调用第二服务器。
[0053] 在实际应用中,业务通信系统的监控预警系统中的每个服务节点均分别与集群中 的子集群对应,如此,能通过子集群对应的服务器间的切换功能实现所述监控预警系统的 自愈功能。
[0054] 进一步地,所述确定第一服务器未能正常运行之后,所述方法还包括:
[0055] 标记并记录所述第一服务器对
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1