一种网管双机容灾备份的实现方法

文档序号:7588284阅读:272来源:国知局
专利名称:一种网管双机容灾备份的实现方法
技术领域
本发明涉及网络系统的容灾技术,尤其涉及一种网管双机容灾备份的实现方法。
背景技术
软件系统的容灾备份是指在导致软件系统瘫痪的灾害(如火灾、水灾、地震、人为破坏等)发生后,能够迅速恢复软件系统的运行,并保证系统中的数据不会丢失。通常采用的方法是在远离软件系统运行的地方建立一个容灾备份中心,然后定期将软件系统中的数据备份出来存放到容灾备份中心,当灾难发生导致软件系统瘫痪后,再通过这些备份的数据在容灾备份中心恢复软件系统的运行。对于电信网络管理系统这样的软件系统,系统需要实时收集电信网络中的各种事件通知(如告警信息)。而当灾难发生系统瘫痪之后且容灾备份中心尚未恢复系统运行之前,这些事件将丢失。因此电信网络管理系统的容灾备份需要考虑的问题是在保证数据备份的实时性基础上,如何快速地在容灾中心恢复系统运行。
现有的技术方案是利用数据复制程序将网管系统的数据通过网络实时复制到容灾中心的备份系统中,当灾难发生导致运行系统瘫痪后,由人工在容灾中心将备份系统启动,从而到达容灾恢复的目的。其实现原理如图1所示。
正常情况下,网管系统在运行服务器上运行,并通过数据复制程序实时将系统中的数据复制到容灾备份服务器的存储设备上。灾难发生后,当系统维护人员得知运行服务器由于某种原因瘫痪时,手工在备份服务器上启动网管系统。在运行服务器修复好之后,需要系统维护人员将备份服务器上运行的网管系统停止,然后将备份服务器中的数据手工同步到运行服务器(可通过网络传递数据,或者通过人工传递数据备份媒介,如磁带等),最后在运行服务器上重新启动网管系统,并重新启动数据复制程序。从而恢复系统正常情况下的状态。
尽管上述方案可以在一定程度上达到容灾目的,但还存在以下不足1、对灾难的响应不够迅速。由于需要人工启动备份系统,在无人值守的情况下,当灾难发生导致运行服务器瘫痪时,可能会导致系统长时间停机。对于网管系统,这样会导致其无法记录停机期间电信网络中的各种事件。
2、对系统维护人员的要求较高。配置、启动数据复制程序,同步数据,启动、停止网管系统等操作都需要一定的专业技能,对于维护人员提出了较高的要求。
3、无法实时监控容灾备份系统的状态。对于网管系统是否正常运行,数据复制是否正常,网络是否中断等状态都需要维护人员定期进行各项检查,这无形中提高了运维成本。

发明内容
本发明的目的在于提供一种网管双机容灾备份的实现方法,以解决现有容灾备份方案中存在对灾难的响应速度慢和对维护者要求高的问题。
实现本发明的技术方案一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,其特征在于所述方法为,至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接并检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。
根据上述方法在运行服务器上运行第二监控程序,所述第一监控程序与该第二监控程序通过心跳方式通信,当第一监控程序检测到第二监控程序心跳中断时确定运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统进行容灾恢复。
所述第二监控程序还定时检测网管系统和/或数据复制程序的工作状态,如果检测到工作状态不正常时,则在向第一监控程序发送的心跳报文中携带状态信息,由第一监控程序自动在容灾备份服务器上启动网管系统进行容灾恢复。
所述第一、第二监控程序还相互检测对方服务器的运行状态。
当容灾备份服务器进行容灾恢复的过程中,第一监控程序检测到运行服务器恢复时进行自动切换,即在容灾备份服务器上停止网管系统的运行并在运行服务器上启动网管系统。
所述备份服务器提供一个图形用户终端,该图形用户终端与所述第一监控程序进行数据交换,并显示备份系统的状态信息。
本发明能够在无人值守的情况下,自动将系统在容灾备份中心进行恢复;通过后台监控程序自动完成对运行系统瘫痪的响应,因此极大地提高了对灾难的响应速度;由于自动化程度的提高,使系统维护人员可以很轻松地完成容灾备份任务;同时,监控终端图形化的用户界面使得系统维护人员能够实时、直观地监控容灾备份系统的状态,从而提高了运维效率。


图1为现有技术中实现容灾备份的原理图;图2A、2B为本发明实现容灾备份的原理图;图3为灾难发生时由备份服务器恢复容灾的原理图。
具体实施例方式
参阅图2A所示,在容灾备份服务器上运行第一监控程序。该监控程序检查运行服务器是否瘫痪,如果监控程序检查到运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统,并停止数据复制程序的运行。该第一监控程序定时向运行服务器发送PING包,从而检测备份服务器与运行服务器之间的网络连接是否正常,当网络连接出现长时间中断后,该监控程序将认为运行服务器已经瘫痪,并将网管系统在备份服务器上启动。
在图2A的方式下,启动容灾恢复的唯一条件是整个运行服务器瘫痪。为了能够根据网管系统进程状态或者检测脚本来启动容灾恢复,除了在容灾备份服务器上运行第一监控程序外,还在运行服务器上运行第二监控程序。
参阅图2B所示,在容灾备份服务器上运行第一监控程序,在运行服务器上运行第二监控程序,该第一、第二监控程序均为后台监控程序。第一、第二监控程序分别实时检测系统的状态,并通过心跳方式检查对方服务器是否瘫痪。当容灾备份服务器上的第一监控程序检测到第二监控程序心跳中断,则可判断出运行服务器已经瘫痪,这时,第一监控程序会自动将网管系统在容灾备份服务器上重新启动,从而到达快速进行容灾恢复的目的。
在正常情况下,网管系统在运行服务器上运行,数据复制程序将系统中的数据实时复制到容灾备份服务器上。第二监控程序通过检查系统进程的运行状态来判断网管系统的工作状态;网管系统也可根据需要编写对应的检测脚本来向监控程序报告自己的状态,第二监控程序将定时执行该检测脚本,并通过返回值判断出网管系统的工作状态。监控程序还定期执行数据复制程序的状态检测脚本,并以此来判断数据复制是否正常、数据复制的方向等复制相关状态。当第二监控程序检测到运行服务器出现灾难时,则在向第一监控程序发送的心跳报文中携带相关信息,由第一监控程序自动将网管系统在容灾备份服务器上重新启动进行容灾恢复。
第一、第二监控程序还相互检测对方服务器的状态,使系统管理维护人员能够通过监控终端观察到两台服务器的状态;而只有在知道备份服务器状态的情况下,才可能进行人工强制的切换操作;另外,当网络长时间中断导致第一监控程序将网管系统在容灾备份服务器上启动,然后网络又恢复正常时,只有通过服务器之间相互检测状态,系统才可以决定如何恢复最初的运行状态。
为了避免因心跳报文因丢失而引起监控程序误操作,第一监控程序在多次(如2次或3次)未收到心跳响应时才在容灾备份服务器上启动网管系统。每次等待间隔时间等可在配置文件中进行配置。
参阅图3所示,当灾难发生导致运行服务器瘫痪时,容灾备份服务器上的第一监控程序检查到心跳中断,从而自动将网管系统在容灾备份服务器上启动。
网管系统在容灾备份服务器上启动后,监控程序将继续检测运行服务器的状态,当检测到运行服务器恢复正常后,将自动进行反向切换,也就是在容灾备份服务器上停止网管系统的运行,然后在运行服务器上启动网管系统,并将数据复制的方向调整为从运行服务器向备份服务器复制。反向切换完成后,整个系统恢复到正常(如图2所示)的状态。
为了使系统维护人员可以实时知晓容灾备份系统的状态,以监控容灾备份系统的运行,在备份服务器上提供一个图形用户终端。图形用户终端通过与后台监控程序建立TCP连接来进行数据交换,并根据这些数据信息为用户提供一个直观的容灾备份系统监控界面。如网络通讯是否正常、网管系统是否运行正常、数据复制程序是否运行正常等,都能以直观的形式显示在图形界面上。
在本发明中,备份服务器上的第一监控程序与运行服务器上的第二监控程序之间的心跳连接除采用TCP连接外,也可采用其他网络协议,包括面向连接和非面向连接的协议。
本发明方法支持Windows操作系统和UNIX操作系统,同时可以使用各种类型数据复制软件,包括数据库级别的数据复制软件和磁盘卷级别的数据复制软件。
权利要求
1.一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和用于容灾的备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,其特征在于所述方法为,至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接以检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。
2.如权利要1所述的方法,其特征在于,在运行服务器上运行第二监控程序,所述第一监控程序与该第二监控程序通过心跳方式通信,当第一监控程序检测到第二监控程序心跳中断时确定运行服务器瘫痪,则自动在容灾备份服务器上启动网管系统进行容灾恢复。
3.如权利要求2所述的方法,其特征在于,所述第二监控程序还定时检测网管系统和/或数据复制程序的工作状态,如果检测到工作状态不正常时,则在向第一监控程序发送的心跳报文中携带状态信息,由第一监控程序自动在容灾备份服务器上启动网管系统进行容灾恢复。
4.如权利要求2或3所述的方法,其特征在于,所述第一、第二监控程序还相互检测对方服务器的运行状态。
5.如权利要求4所述的方法,其特征在于,当容灾备份服务器进行容灾恢复的过程中,第一监控程序检测到运行服务器恢复时进行自动切换,即在容灾备份服务器上停止网管系统的运行并在运行服务器上启动网管系统。
6.如权利要求1或2所述的方法,其特征在于,所述备份服务器提供一个图形用户终端,该图形用户终端与所述第一监控程序进行数据交换,并显示备份系统的状态信息。
7.如权利要求6所述的方法,其特征在于,所述图形用户终端与所述第一监控程序采用TCP连接交换数据。
8.如权利要求2或3所述的方法,其特征在于,所述第一监控程序与第二监控程序之间采用传输控制协议(TCP)连接或其他网络协议连接。
9.如权利要求2或3所述的方法,其特征在于,所述第一监控程序与第二监控程序为后台监控程序。
全文摘要
本发明公开了一种网管双机容灾备份的实现方法,所述网管双机容灾备份具有运行服务器和用于容灾的备份服务器,正常状态下在运行服务器上运行网管系统,并实时的将系统中的数据复制到容灾的备份服务器上,该方法为至少在所述备份服务器上运行第一监控程序,该第一监控程序与所述运行服务器建立连接以检测运行服务器的工作状态,并在检测到所述运行服务器由于灾难导致瘫痪时自动在备份服务器上启动网管系统进行容灾恢复。
文档编号H04B1/74GK1642030SQ20041000215
公开日2005年7月20日 申请日期2004年1月5日 优先权日2004年1月5日
发明者贺炜, 黄西华, 王佥 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1