一种实现系统异常保护的方法、设备和系统的制作方法

文档序号:7697670阅读:237来源:国知局
专利名称:一种实现系统异常保护的方法、设备和系统的制作方法
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种实现系统异常保护的方法、i殳备和系统。
背景技术
传统意义上为了保证用户业务系统畅通性, 一般在设计系统的时候都会考虑一些方法来确保当业务系统故障之后用户的操作不被干扰。目前业界比较流行的方法要么采用软件系统自身容错机制来将故障模块恢复,要么采用服务器双机热备或者服务器集群机制。
高容错特性的软件系统当故障发生的时候通过内部的故障检测系统和容错管理模块,自动分离故障模块以保证其他的业务模块不被影响,同时重新加载故障模块,以做到故障修复。双机热备份技术是一种软硬件结合的较高容错应用方案。该方案是由两台服务器系统和一个外接共享磁盘阵列柜及相应的双机热备份软件组成。在这个容错方案中,操作系统和应用程序安装在两台服务器的本地系统盘上,整个网络系统的数据是通过;兹盘阵列集中管理和数据备份的。数据集中管理是通过双机热备份系统,将所有站点的数据直接从中央存储设备读取和存储,并由专业人员进行管理,极大地保护了数据的安全性和保密性。用户的数据存放在外接共享磁盘阵列中,在一台服务器出现故障时,备机主动替代主机工作,保证网络服务不间断。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题基于软件系统自身的容错机制的设计和实现难度都很大;而基于双机热备和服务器集群的方式其实施复杂度相对较高,而且对于硬件环境也有很高的要求。

发明内容
本发明的实施例提供一种实现系统异常保护的方法、设备和系统,以降低实现系统异常保护的复杂度和成本。
本发明实施例提供一种实现系统异常保护的方法,应用在包括第 一执行单元和第二执行单元的系统中,所述第一执行单元包括至少两个业务单元,所述
第二执行单元包括与所述第 一执行单元中相对应的业务单元,所述方法包括所述第二执行单元中的业务单元侦测来自所述第 一执行单元中相对应的业
务单元的心跳信息;
当在预定时间内,所述第二执行单元中的至少一个业务单元没有接收到来
自所述第一执行单元中相对应的业务单元的心跳信息时,所述第二执行单元装
载所述第一执行单元当前执行的业务数据信息和执行状态信息,执行所述第一
执行单元的业务。
本发明实施例还提供一种网络设备,包括第一执行单元和第二执行单元,所述第 一执行单元包括至少两个业务单元,所述第二执行单元包括与所述第一执行单元中相对应的业务单元,其中
第一执行单元中的业务单元,用于执行业务;向第二执行单元中相对应的业务单元发送心跳信息;
第二执行单元中的业务单元,用于侦测来自所述第 一执行单元中相对应的业务单元的心跳信息;当在预定时间内没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息时,触发第二执行单元装载所述第 一执行单元当前执行的业务数据信息和执行状态信息,执行所述第一执行单元的业务。
本发明实施例还提供一种网络系统,包括至少一个计算机和至少一个服务器,所述计算机和服务器中至少有一个上述的网络设备。
本发明实施例提供的实现系统异常保护的方法、设备和系统通过第二执行单元中的业务单元侦测来自第一执行单元中相对应的业务单元的心跳信息;当在预定时间内,第二执行单元中的至少一个业务单元没有接收到来自第一执行单元中相对应的业务单元的心跳信息时,第二执行单元装载第 一执行单元当前执行的业务数据信息和执行状态信息,执行所述第一执行单元的业务,可以以
6较低的复杂度和成本实现系统异常保护。


为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的实现系统异常保护的方法流程图;图2为本发明实施例二的实现系统异常保护的方法流程图3为本发明实施例三的另一网络设备的结构示意图;图4为本发明实施例三的另一网络设备的结构示意图;图5为本发明实施例三的另一网络设备的结构示意图;图6为本发明实施例三的另一网络设备的结构示意图;图7为本发明实施例四的网络系统的结构示意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清
楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例一
本发明实施例公开一种系统异常保护的方法,应用在包括第 一执行单元和第二执行单元的系统中,第 一执行单元和第二执行单元可以是软件模块或多个软件模块的集合,比如可以是操作系统,或者应用软件,或者进程等,第一执行单元包括至少两个业务单元,第二执行单元包括与第 一执行单元中相对应的业务单元,比如第一执行单元与第二执行单元包括的业务单元数目相同,且相
对应的业务单元拍J亍的功能也分別相同,如图l所示,该方法可以包括
步骤S102.第二执行单元中的业务单元侦测来自第一执行单元中相对应的业务单元的心跳信息;
步骤S104.当在预定时间内,第二执行单元中的至少一个业务单元没有接收到来自第一执行单元中相对应的业务单元的心跳信息时,第二执行单元装载第一执行单元的业务数据信息和执行状态信息,执行第一执行单元的业务。
在本实施例中,可以预先定义第一工作模式和第二工作模式,第一执行单元可以工作在第一工作模式下,所述第二执行单元可以工作在第二工作模式下,第二执行单元运行第 一执行单元的业务之前还包括所述第二执行单元从第一
工作模式切换到第二工作模式下。
在本步骤中,第二执行单元装载的业务数据信息和执行状态信息可以是第一执行单元当前执行的业务数据信息和执行状态信息的镜像数据,该镜像数据可以是由第 一执行单元或第二执行单元通过实时收集第 一执行单元的业务数据信息和执行状态信息,比如软件执行上下文信息等,并镜像保存而获得;上述的业务数据信息譬如可以是为用户提供搜索业务的内容数据,执行状态信息譬
如可以是向用户传输数据的速率等信息。当在预定时间内,第二执行单元中的至少一个业务单元没有接收到来自第一执行单元中相对应的业务单元的心跳信
息时,还可以确定所述第 一执行单元出现故障且需要将业务切换到所述第二执行单元执行;在预定时间内,第二执行单元中的至少一个业务单元没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息之后还可以包括指示第 一执行单元停止执行业务。
在第二执行单元装载第 一执行单元当前执行的业务数据信息和执行状态信息,执行第一执行单元的业务之后,还可以包括重新启动第一执行单元,由第一执行单元中的业务单元侦测来自正在执行业务的第二执行单元中相对应的业务单元的心跳信息,继续进行下一轮的系统异常保护的监控。
本发明实施例方法可以根据实际需要对各个步骤顺序进行调整。应用本发
明实施例方法的计算机程序可以运行在包括Windows或Linux等各种操作系统上。
本实施例提供的实现系统异常保护的方法,通过第二执行单元中的业务单元侦测来自所述第 一执行单元中相对应的业务单元的心跳信息,当在预定时间内,第二执行单元中的至少一个业务单元没有接收到来自第一执行单元中相对应的业务单元的心跳信息时,第二执行单元装载第 一执行单元当前执行的业务数据信息和执行状态信息,执行第一执行单元的业务,可以以较低的复杂度和成本实现系统异常保护。
实施例二
本发明实施例基于实施例一,进行更加详细具体的说明。在本发明实施例中,以软件方式实现为例进行说明。
可以将一个软件系统分为两个部分——主执行体(Master)和从执行体(Slave)(即实施例一所描述的"第一执行单元"和"第二执行单元")。其中,主执行体和从执行体可以是软件模块或多个软件模块的集合,比如可以是操作系统,或者应用软件,或者包括多个线程的进程等。主执行体是整个软件的主要执行部分,它负责软件的业务功能,主执行体包括若干个业务单元;从执行体作为主执行体的一个虚拟化实体,其主要功能可以是监控主执行实体的工作状态并实时收集主执行实体上的业务数据信息,从执行体可以包括与主执行体相同数目的业务单元,每个业务单元的功能与主执行体的业务单元相对应。
在本发明实施例中,主执行体和从执行体可以分别工作在两种不同的模式下即主模式和从模式。在主模式下,主执行体的主要功能是对外提供业务功能;在从模式下,从执行体的主要功能是监控主执行体的工作状态。同时,主执行体、或从模式、或其他系统模块可以实时收集主执行体上的业务数据信息,比如软件执行上下文信息等,包括动态执行信息和静态执行信息,并镜像保存。 上述的业务数据信息譬如可以是为用户提供搜索业务的内容数据,执行状态信 息譬如可以是向用户传输数据的速率等信息。当主执行体出现异常,从执行体 装载当前的主执行体的执行状态信息和业务数据信息。这样就可以确保当前用 户执行的过程不被打断。比如用户正在下载一个文件,当主执行异常时已经下
载了 60%,当从执行体切换业务之后,用户还可以从60%的进度进行执行而不 需要重新进行下载。
本发明实施例的方法可以包括
步骤S202. 乂人冲丸4亍体的业务单元侦测来自主扭^亍体中相对应的业务单元的 心跳信息;如果在预定的时间内,从执行体中的至少一个业务单元没有收到来 自主执行体中相对应的业务单元的心跳消息,则执行S204;
步骤S204.确定主执行体目前已经发生故障,需要进行业务切换;
主执行体发生的故障可能是系统崩溃等异常。
步骤S206.从执行体切换到主工作模式,接管并执行当前出现故障的主执 行体执行的业务,具体可以包括
从执行体装载主执行体当前执行的业务数据信息和执行状态信息,从执行 体的各个业务单元执行主执行体的相对应的各个业务单元的业务,为用户提供 不间断的业务支持,从而保证当前用户的业务不受影响。
步骤S208.重新启动之前发生故障的主执行体,并设置其工作模式为从模 式,开始新一轮系统异常保护的监控。
本发明实施例方法可以根据实际需要对各个步骤顺序进行调整。
举个例子,比如当前系统主要运行在虚拟机A中,当虚拟机B侦测到虛拟 机A至少一个业务单元的心跳中断时,则确定虚拟才几A出现故障,将系统切换
10到虚拟才几B上运4亍。
举个例子,譬如在操作系统上运行了一个软件用于对外提供业务,软件的
主执行体是进程A,从执行体是进程B。在软件的执行过程中,进程A负责对
用户提供业务,进程B负责对于进程A进行监视。同时,进程A、或进程B或
其他系统模块还可以将当前运行的整个进程上下文环境(包括用户数据)不断
地镜像到一块内存中去。
如果进程A中负责处理用户文件下载的线程出现故障,进程B中的相应线
程在预定时间内没有收到心跳信息,则进程B加载进程A执行的业务数据信息
和执行状态信息的镜像数据,并切换工作模式,切换后进程B负责对外提供业
务,而进程A则负责监控进程B的工作状态是否发生异常。如此循环反复,从
而实现系统的异常保护。
本发明实施例方法可以根据实际需要对各个步骤顺序进行调整。应用本发 明实施例方法的计算机程序可以运行在包括Windows或Linux等各种操作系统 上。
本发明实施例提供的实现系统异常保护的方法,通过从执行体中的业务单 元侦测来自主执行体中相对应的业务单元的心跳信息,当在预定时间内,从执 行体中的至少一个业务单元没有接收到来自主执行体中相对应的业务单元的心 跳信息时,从执行体装载主执行体当前执行的业务数据信息和执行状态信息, 执行主执行体的业务,可以以较低的复杂度和成本实现系统异常保护,进一步 地,基于业务单元的细粒度侦测,可以防止主执行体的假死状态,及时地保护 出现故障的系统。
实施例三
本发明实施例公开一种网络设备,如图3所示,该网络设备包括第一执行 单元和第二执行单元,第一执行单元包括至少两个业务单元,第二执行单元包括与第 一执行单元中相对应的业务单元,第 一执行单元和第二执行单元分别可 以是软件模块或多个软件模块的集合,比如可以是操作系统,或者应用软件,
或者包括多个线程的进程等。其中
第一执行单元302中的业务单元,用于执行业务;向第二执行单元304中 相对应的业务单元发送心跳信息;
第二执行单元304中的业务单元,用于侦测来自第一执行单元302中相对 应的业务单元的心跳信息;当在预定时间内没有接收到来自第一执行单元302 中相对应的业务单元的心跳信息时,触发第二执行单元装载第一执行单元302 当前执行的业务数据信息和执行状态信息,执行第一执行单元302的业务。 第一执行单元302和第二执行单元304可以以寿欠件方式实现。 可选地,如图4所示,本发明实施例的网络设备还可以包括 确定单元402,用于当在预定时间内,第二执4亍单元中的至少一个业务单元 没有接收到来自第一执行单元302中相对应的业务单元的心跳信息时,确定第 一执行单元302出现故障且需要将业务切换到第二执行单元304执行。
可选地,在本实施例中,可以预先定义第一工作模式和第二工作模式,第
一执行单元302可以工作在第一工作模式下,第二^l行单元304可以工作在第
二工作模式下,如图5所示,本发明实施例的网络设备还可以包括
切换单元502,用于在第二执行单元304运行第一执行单元302的业务之前, 将第二执行单元304从第一工作模式切换到第二工作模式。
可选地,如图6所示,本发明实施例的网络设备还可以包括
指示单元602,用于当第二执行单元304中的至少一个业务单元在预定时间 内没有接收到来自第一执行单元302中相对应的业务单元的心跳信息之后,指 示第一执行单元302停止执行业务。
重新启动单元604,用于在指示单元602指示第一执行单元停止执行业务之 后,重新启动第一执行单元,由第一执行单元中的业务单元侦测来自正在执行业务的第二执行单元中相对应的业务单元的心跳信息,继续进行系统异常保护 的监控。
本发明实施例的各个单元可以集成于一体,也可以分离部署。上述单元可 以合并为一个单元,也可以进一步拆分成多个子单元。
本发明实施例提供的网络设备可以是计算机、服务器、交换机、路由器、
基站、存储设备、网关、终端等。
本发明实施例提供的网络设备,通过第二执行单元侦测来自第一执行单元 的心跳信息,当在预定时间内没有接收到来自第一执行单元的心跳信息时,第 二执行单元装载第 一执行单元当前执行的业务数据信息和执行状态信息,执行 第一执行单元的业务,可以以较低的复杂度和成本实现系统异常保护;,进一步 地,基于业务单元的细粒度侦测,可以防止主执行体的假死状态,及时地保护 出现故障的系统。
实施例四
本发明实施例提供一种网络系统,如图7所示,该网络系统可以包括计 算机701、路由器702、服务器703和存储设备704。在图7所示的网络系统中, 计算机701、路由器702、服务器703和存储设备704中的任意一种电子设备可 以包括第一执行单元和第二执行单元。其中各个单元的作用与实施例二类似, 此处不再重复描述。
本领域技术人员可在图7所示的网络系统中增设交换机、基站等其它电子 设备,并且增设的任意一种的电子设备可以包括第一执行单元和第二执行单元。 等。
本发明实施例系统的各个单元可以集成于一个装置,也可以分布于多个装 置。上述单元可以合并为一个单元,也可以进一步拆分成多个子单元。
结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子 硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互
13换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些 功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束 条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功 能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器 执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器
(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、 寄存器、硬盘、可移动磁盘、CD-ROM、或任意其它形式的存储介质中。
以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 所述以权利要求的保护范围为准。
权利要求
1、一种实现系统异常保护的方法,其特征在于,应用在包括第一执行单元和第二执行单元的系统中,所述第一执行单元包括至少两个业务单元,所述第二执行单元包括与所述第一执行单元中相对应的业务单元,所述方法包括所述第二执行单元中的业务单元侦测来自所述第一执行单元中相对应的业务单元的心跳信息;当在预定时间内,所述第二执行单元中的至少一个业务单元没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息时,所述第二执行单元装载所述第一执行单元当前执行的业务数据信息和执行状态信息,执行所述第一执行单元的业务。
2、 根据权利要求1所述的实现系统异常保护的方法,其特征在于,还包括 当在预定时间内,所述第二执行单元中的至少一个业务单元没有接收到来自所 述第 一执行单元中相对应的业务单元的心跳信息时,确定所述第 一执行单元出 现故障且需要将业务切换到所述第二执行单元执行。
3、 根据权利要求1所述的实现系统异常保护的方法,其特征在于,所述第 一执行单元工作在第一工作模式下,所述第二执行单元工作在第二工作模式, 所述第二执行单元运行第 一执行单元的业务之前还包括所述第二执行单元从第 一工作模式切换到第二工作模式下。
4、 根据权利要求1所述的实现系统异常保护的方法,其特征在于,所述在 预定时间内,所述第二执行单元中的至少一个业务单元没有接收到来自所述第 一执行单元的心跳信息之后还包括指示所述第一执行单元停止执行业务。
5、 根据权利要求1所述的实现系统异常保护的方法,其特征在于,在所述 第二执行单元装载所述第一执行单元当前执行的业务数据信息和执行状态信 息,执行所述第一执行单元的业务之后,还包括重新启动所述第 一执行单元,由第 一执行单元中的业务单元侦测来自正在 执行业务的第二执行单元中相对应的业务单元的心跳信息,继续进行系统异常 保护的监控。
6、 一种网络设备,其特征在于,包括第一执行单元和第二执行单元,所述第 一执行单元包括至少两个业务单元,所述第二执行单元包括与所述第 一执行单元中相对应的业务单元,其中第一执行单元中的业务单元,用于执行业务;向第二执行单元中相对应的业务单元发送心跳信息;第二执行单元中的业务单元,用于侦测来自所述第一执行单元中相对应的 业务单元的心跳信息;当在预定时间内没有接收到来自所述第一执行单元中相 对应的业务单元的心跳信息时,触发第二执行单元装载所述第 一执行单元当前 执行的业务数据信息和执行状态信息,执行所述第一执行单元的业务。
7、 根据权利要求6所述的网络设备,其特征在于,还包括确定单元,用于当在预定时间内,所述第二执行单元中的至少一个业务单 元没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息时,确定 所述第 一执行单元出现故障且需要将业务切换到所述第二执行单元执行。
8、 根据权利要求6所述的网络设备,其特征在于,所述第一执行单元工作 在第一工作模式下,所述第二执行单元工作在第二工作模式下,该设备还包括切换单元,用于在所述第二执行单元运行第一执行单元的业务之前,将所 述第二执行单元从第 一工作模式切换到第二工作模式。
9、 根据权利要求6所述的网络设备,其特征在于,还包括 指示单元,用于当所述第二执行单元中的至少一个业务单元在预定时间内没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息之后,指示 所述第 一执行单元停止执行业务。
10、 根据权利要求9所述的网络设备,其特征在于,还包括 重新启动单元,用于在所述指示单元指示所述第一#1行单元停止执行业务之后,重新启动所述第一执行单元,由第一执行单元中的业务单元侦测来自正 在执行业务的第二执行单元中相对应的业务单元的心跳信息,继续进行系统异 常保护的监控。
11、 一种网络系统,其特征在于,所述系统包括至少一个计算机和至少一 个服务器,所述计算机和服务器中至少有一个为权利要求6~10任一项所述的网络设备。
全文摘要
本发明实施例公开了一种实现系统异常保护的方法,应用在包括第一执行单元和第二执行单元的系统中,所述第一执行单元包括至少两个业务单元,所述第二执行单元包括与所述第一执行单元中相对应的业务单元,包括所述第二执行单元中的业务单元侦测来自所述第一执行单元中相对应的业务单元的心跳信息;当在预定时间内,所述第二执行单元中的至少一个业务单元没有接收到来自所述第一执行单元中相对应的业务单元的心跳信息时,所述第二执行单元装载所述第一执行单元当前执行的业务数据信息和执行状态信息,执行所述第一执行单元的业务。本发明实施例还公开一种网络设备和网络系统。通过本发明实施例,可以以较低的复杂度和成本实现系统异常保护。
文档编号H04L12/24GK101567804SQ200910059390
公开日2009年10月28日 申请日期2009年5月21日 优先权日2009年5月21日
发明者崔文林, 廖湘平, 艾建明 申请人:成都市华为赛门铁克科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1