分布式体系中主备倒换检测和控制装置和方法

文档序号:7970860阅读:208来源:国知局
专利名称:分布式体系中主备倒换检测和控制装置和方法
技术领域
本发明涉及一种以以太网方式实现通信和控制总线的分布式的体系中主备倒换检测和控 制装置和方法。
背景技术
在具有通信和控制总线的分布式的体系中,经常需要为比较重要的单元捧供热备份(所 谓热备份,是指备份的单元处于上电状态,在受保护的单元失效的时候,能够自动进入工作 状态,代替失效单元的功能,同时不影响系统中其他单元的正常工作)。
现有的技术中,要实现主备倒换往往需要对整个系统架构,尤其是背板和其他单元进行 很大的改造,实现热备份往往带来业务的中断,不能自动的实现工作状态和备用状态的灵活 迁移,不能在主备之间数据同步的基础上快速实现倒换。在主备倒换发生的时候,往往会影 响到系统中其他单元的工作,或者需要对其他单元的软硬件结构进行改变。有些主备倒换的 设计往往只能在系统中对关键单元进行备份,如果都备份的话造成系统结构非常复杂。目前 检索到的一些专利,都增大了系统的复杂性,并没有从根本上解决问题,相反还降低了系统 的可靠性,或者给软件带来很大的实现难度。专利02150116通过与门、非门、异或门和上下 拉电阻的装置,根据对方板所处状态,调整本单板状态;对方板接收本单板的状态信息后, 作相应状态调整,参与主备倒换。但由于系统的结构复杂性,影响了切换的速度和灵活性, 不利于实现快速无缝切换。

发明内容
针对现有技术存在的缺陷和不足,本发明提供一种分布式体系中主备倒换检测和控制方

为了达到上述发明目的,本发明分布式体系中主备倒换检测和控制方法,包括以下步骤:
(1) 初始化主单元和备份单元,主单元与系统数据总线连通,备份单元与系统数据总线
断开
(2) 主单元控制系统数据总线与下级设备之间的通信
(3) 主、备单元周期性相互进行状态检测,并进行数据同步。
上述的分布式体系中主备倒换检测和控制方法中,步骤(3)具体为 当主备单元状态正常时,主备数据完成同步;
当主单元检测到备份单元状态异常时,主单元对备份单元进行复位,同时向网管发出告 警消息
当备份单元检测到主单元状态异常时,备份单元对主单元进行复位,同时将主单元与系 统数据总线断开,向网管发出告警消息,备份单元与系统数据总线连通,控制系统数据总线 与下级设备之间的通信;
当主单元检测到自身状态异常时,主单元项备份单元发出请求倒换申请,备份单元接到 所述请求倒换申请后,对主单元进行复位,同时将主单元与系统数据总线断开,向网管发出 告警消息,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信。
作为改进,所述步骤(3)还可以为
当主备单元状态正常时,主备数据完成同步;
当主单元检测到备份单元状态异常时,主单元对备份单元进行复位,同时向网管发出告 警消息;
当备份单元检测到主单元状态异常时,备份单元对主单元进行复位,同时将主单元与系 统数据总线断开,向网管发出告瞀消息,备份单元与系统数据总线连通,控制系统数据总线 与下级设备之间的通信,之后, 一旦主单元恢复正常,备份单元与系统数据总线断开,主单 元恢复与系统数据总线连通,控制系统数据总线与下级设备之间的通信;
当主单元检测到自身状态异常时,主单元项备份单元发出请求倒换申请,备份单元接到 所述请求倒换申请后,对主单元进行复位,同时将主单元与系统数据总线断开,向网管发出 告警消息,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信,之后, 一旦主单元恢复正常,备份单元与系统数据总线断开,主单元恢复与系统数据总线连通,控 制系统数据总线与下级设备之间的通信。
作为改进,所述步骤(3)还可以为
主备单元接收到强制倒换信号,主备数据完成同步,主单元与系统数据总线断开并进行 复位,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信。
一种分布式体系中主备倒换检测和控制装置,包括
一端与系统数据总线相连,另一端分别与主备单元以及主备单元的以太网开关相连的二 层交换单元;所述主备单元分别都包括一个中央处理器和一个可编成逻辑电路;所述中央处 理器一端通过数据同步用IP数据线与二层交换单元相连,另一端通过中央处理器IP数据端 口与以太网开关使能端相连;可编成逻辑电路一端通过主备检测和控制线与系统控制总线相 连,另一端通过开关控制线与以太网开关相连以太网开关通过IP数据线与二层交换单元相 连..
其中,中央处理器检测本单元状态并通过可编成逻辑电路经过系统控制总线检测其他单 元状态,根据设定,中央处理器通过可编成逻辑电路打开或关闭以太网开关。
采用本发明所述方法和装置,与现有技术相比,在故障发生时能够在不影响系统正常工 作的情况下实现倒换。并可以在故障排除之后自动实现回复。可以对系统进行灵活的升级, 最大限度的保证原有背板和工作单元不动,各个工作单元可以独立升级,实现热备份。
本发明可以不仅仅对系统中的关键单元进行备份,任何单元都可以在不影响背板和其他 单元的结构的情况下,实现热备份。
本发明可以实现快速倒换,实现无缝切换,不丢失数据。
本发明任何一个单元发生主备倒换,都不影响到其他单元的正常运行,甚至可以不知晓, 也可以独立发出报警。
本发明可以对单板上的二层交换单元可以进行冗余设计和主备倒换。
本发明可以对多个CPU的系统协同倒换。
本发明可以支持一个主用单元和多个备用单元,备用单元竞争上岗的机制,对其他单板 没有影响。
本发明极大地提高了控制系统的可靠性,使得主备单元相对独立,便于实现自动倒换, 自动回复,便于和其他各种冗余方式结合使用。


图1为实现主备倒换的检测部分和控制部分组成示意图2为智能光网络设备中实现主备倒换检测和控制的实施过程示意图3为S也参与备份,系统中有多个CPU协同要求冗余的设计实施过程示意图。
具体实施例方式
下面结合附图对本发明作进一步的详细说明
在图l所示实施例中,检测和控制部分的结构是其中:
0:多组IP数据接口线,
1: IP数据线,
2: IP数据线,
11:数据同步用IP数据线,
22:数据同步用IP数据线,
Dl: CPUIP数据端口,
D2: CPUIP数据端口,
SW1:开关控制线,
SW2:开关控制线,
Rl:主备检測和控制线,
R2:主备检测和控制线,
DB:系统数据总线,
CB:系统控制总线,
Al:主单元(也可以叫工作单元),
A2:备份单元,
Cl:可编程逻辑电路,
C2:可编程逻辑电路,
CPU1:有至少2个IP通信接口的CPU系统, CPU2:有至少2个IP通信接口的CPU系统, El:以太网开关, E2:以太网开关, S: 二层交换单元。
其中检测都分由CPU (#),可编程控制电路(#),主备检测和控制线(#),系统控 制总线组成(#),主要进行主备状态的识别和故障的检测和通知;控制部分由CPU,可编 程控制电路,开关控制线,以太网开关,主备检测和控制线,系统控制总线,并结合系统数 据总线和二层交换单元来实现,这部分主要用来在确认倒换信号后执行各种形式的复位和倒 换动作。
本发明分布式体系中主备倒换检测和控制方法,包括以下步骤
(不失一般性,以图l所示的实施例为例,Al为主单元及工作单元、A2为备用单元)
步骤1:初始化过程——设置主、备状态,(主、备工作差别),主单元将相连接的以 太网开关(El)打开,备份单元相连接的以太网开关(E2)关闭。不失一般性,设置初始化 前的单元按照备用状态来进行初始化,如果通过主备检测和控制总线发现系统中没有主用工 作单元存在则可以按照主用状态进行初始化。可编程逻辑电路按照本单元的状态来控制以太 网开关的打开与关闭。
步骤2:主单元承担系统中必要的通信和控制功能,通过S与DB进行数据交换和处理。 当可编程逻辑电路完成初始化设置后,系统单元上的应用软件进行初始化,在软件初试化之 前首先査看可编程逻辑电路中主备状态寄存器的状态,不同的状态进入不同的初始化流程。 如果状态是"主",那么应用软件进入正常的初始化过程,创建和启动所有的应用层进程。 如果状态是"备",那么只创建和启动进行数据备份和定时检测相关的进程。
歩骤3:主、备单元周期性地进行状态检测和数据同步。Cl和C2周期性的通过检测和 控制总线相互进行心跳检测(不失一般性,定时检测和清零对方的可编程逻辑电路中的故障 检测寄存器);备用单元通过11和22周期性的和工作单元在DB上进行数据同步。如果心 跳检测出现异常,或者不能正常的进行数据同歩,则判断自己或者对方是否出现故障;
步骤4:当工作单元发现备份单元出现异常时,对备份单元进行复位和发出告警
步骤5:当备份单元发现工作单元出现异常时,对工作单元进行复位,同时关闭以太网 开关(El)和发出告警,备份单元状态变为工作单元。同时将相连接的以太网开关(E2〉打 开。返回步骤2。
步骤6:当工作单元发现自身出现异常时,向备用单元发出请求倒换申请;收到申请后,
备用单元对工作单元进行复位,同时关闭以太网开关(El)和发出告警,备份单元状态变为 工作单元。同时将相连接的以太网开关(E2)打开。返回步骤2。
另外,本发明还可以以以下方式进行。
步骤5:当备份单元发现工作单元出现异常时,对工作单元进行复位,同时关闭以太网 开关(El)和发出告警,备份单元状态变为工作单元。同时将相连接的以太网开关(E2)打 开。
步骤6: Al恢复正常时(Cl, C2的作用),主备数据完成同步。A1打开E1, A2关闭E2。
作为另一种实施方案,本发明还可以是 与图l所示流程的步骤l,步骤2,步骤3相同;
步骤4:强制信号到来时(如从CB,或R1, R2, Cl, C2),进行数据同步,完成后当 前工作单元复位,对应的以太网开关关闭(E1或E2);同时,备份单元状态变为工作单元。 同时将相连接的以太网开关(El或E2)打开。返回图1所示流程的歩骤2。
在图2所示实施例中,是为智能光网络设备中实现主备倒换检测和控制装置结构。
在智能光网络设睾中,机架单元的分布式控制总线体系的实现主备倒换检测和控制的具 体实施过程如下所述
智能光网络设备中,控制板有两个以太网口,都连接到二层交换单元上(HUB),其中 一个网口用来主备控制板之间的数据同步,主备控制板的这个网口分配不同的IP地址,另一 个以太网口用作控制板同其它单板和其它网元之间进行的通讯,主备控制板上的这个网口分 配相同的IP地址,由以太网开关控制网口是否连接到二层交换单元上,即确保在某一特定时 刻只有一个控制板能通过以太网和外部通讯,不会发生地址冲突。
FPGA的开关控制线负责控制以太网开关的通断,复位控制线负责控制另一个控制板的 故障检测和复位。节点上电初始化后,先完成初始化的控制板作为主板,另一控制板作为备 份板。
节点上电初始化过程中,首先是FPGA初始化过程,FPGA初试设置主备控制板的FPGA 主备状态寄存器都为备份状态,完成初试化的FPGA通过复位控制线査看另一控制板状态, 如果状态为"主",则将本板FPGA主备状态寄存器设置为"备",反之设置为"主"。当FPGA完成初始化设置后,应用软件进行初始化,在软件初试化之前首先査看FPGA 主备状态寄存器的状态,不同的状态进入不同的初始化流程。如果状态是"主",那么应用 软件进入正常的初始化过程,创建和启动所有的应用层进程。如果状态是"备",那么只创 建和启动进行数据备份和定时检测的相关进程,其它应用进程不创建和启动。
主备控制板都初试化完成后,主控制板运行应用软件的所有功能,备份控制板只负责检 测主控制板状态,并且主备控制板的数据要同歩,需要主控制板将数据库中的信息通过通讯 接口备份到备控制板上。
当前工作的主控制板故障后,要发生主备倒换,故障的检测机制如下
1、 主控制板控制平面应用软件的定时检测任务以50ms为周期将主控制板的FPGA故障 检测寄存器加l;
2、 备份控制板的FPGA通过复位控制线以200ms为周期检测主控制板FPGA故障检测 寄存器是否为0;
3、 如果不等于O,则将寄存器置O,重复步骤1 2;
4、 如果等于O,说明控制板发生故障。
上述过程是对称的,也同样适用于主控制板检测备份控制板的故障。
当主控制板发现备用板出现异常时,则对备份单元进行复位,并发出声光告螯,同时向 网管发出告警消息这个过程中,主用板和备用板的主备状态不发生变化;
当备用控制板发现主控制板出现异常时,对主控制板进行复位,在主控制板被复位的同 时,上面的FPGA的主备状态回到缺省的备用态,这时主控制板上的以太网开关就立即在 FPGA的逻辑控制下被关闭,备控制板上面的FPGA的逻辑由"备"变为"主",系统单元 的状态变为主控制板,并发出声光告瞀,同时向网管发出告警消息,当前控制板上的以太网 开关就立即在FPGA的逻辑控制下被打开。
备份控制板FPGA产生主备倒换中断信号,通知本板的应用层软件应用层软件的ISR 接收到中断信号后,启动应用层的所有进程,按照主控制板的IP地址和系统内的其他单元之 间进行通讯,进行任务处理故障控制板重启后成为备份控制板,重新与当前工作的主控制 板建立通讯,主控制板周期性的向备份控制板发送同步数据;
当主控制板发现自身出现异常时,也可以直接向备用板发出请求倒换申请;收到申请后,
备用板对主控制板进行复位,同时关闭以太网开关和发出告聱,备份单元状态变为工作单元,
同时将相连接的以太网开关(E2)打开,担负其系统主控制板的作用。
在图3所示实施例中,S也参与备份,系统中有多个CPU协同要求冗余的设计实施过程 示意图
图3中,控制板上带有两个CPU,能够统一的参与主备检测和倒换机制;,并且板上的二 层交换单元也能够参与倒换,方法是本板外联的所有以太网数据总线端口在背板和二层交换 单元之间都通过以太网开关相连(用于数据同步的网口除外)。
当本板状态为主时,所有以太网开关为打开状态;当本板状态为备时,所有以太网开关 为关闭状态;
如果工作单元上的CPU子板出现故障,则工作单元的控制板上的FPGA:能够检测到,并 通知备用板,要求进行倒换操作;
如果工作单元上的二层交换单元出现故障,则工作单元与备用单元之间的数据同步,工 作单元与系统其他单元之间,工作单元上的主控CPU与子板上的CPU之间的通讯将出现问 题,可以通过系统控制进程通知备用板上的FPGA,则可以启动主备倒换进程,这样可以最 大限度的避免由于二层交换单元的失效而导致系统瘫痪的问题,可以实现对二层交换单元的 备份。也可以通过这样的机制,实现多CPU系统单元中的协同冗余和主备倒换。
强制倒换的实施例
强制倒换的机制实际就是给管理员提供了一种可以手动启动倒换的机制,在不需要理由 的情况下,管理员可以按下主控制板或者备用板上的手动倒换键,都可以启动主备倒换过程。
其他机制都和实施例1所说的类似或相同,只是当强制信号到来时(如从CB,或R1, R2, Cl, C2),进行数据同步,当前工作单元复位,对应的以太网开关关闭(E1或E2); 同时,备份单元状态变为工作单元。同时将相连接的以太网开关(E1或E2)打开。
在这个机制基础上,也支持让主控制板被突然拔掉或者调电的时候,备用板一旦发现主 用板消失(通过主备检测和控制总线),就马上启动倒换进程,将自己的状态由"备"转为 "主",同时启动应用软件进程,担负起数据处理和网元内部数据通讯的作用。
回复功能的实施例
回复过程指的是A1、 A2不是对称关系,而是主次关系,也就是系统中始终有块单元是
主用板,当主用板发生故障,将系统的控制权暂时移交给备用板后,当主用板复位以后正常, 还要把控制权交回给原来的主用板。具体的过程是,当备份单元发现工作单元出现异常时, 对工作单元进行复位,同时关闭以太网开关(El)和发出告警,备份单元状态变为工作单元。 同时将相连接的以太网开关(E2)打开。
当确认原来的主控制板恢复正常时,马上进行最后一次主备数据同歩,完成后,立即改 变双方的主备状态,主备板上的以太网开关也分别关闭和打开,这样在不用进行复位的情况 下完成主备状态更迭。
本发明的装置可以不仅仅对系统中的关键单元进行备份,任何单元都可以在使用本装置 之后在不影响背板和其他单元的结构的情况下,实现热备份。
本发明自动操作,可以实现快速倒换,实现无缝切换,不丢失数据。
本发明各单元相互独立,任何一个单元发生主备倒换,都不影响到其他单元的正常运行, 甚至可以不知晓,也可以独立发出报警。
本发明可以对单板上的二层交换单元可以进行冗余设计和主备倒换。
本发明可以对多个CPU的系统协同倒换。
本发明可以支持一个主用单元和多个备用单元,备用单元竞争上岗的机制,对其他单板 没有影响。
本发明极大地提高了控制系统的可靠性,使得主备单元相对独立,便于实现自动倒换, 自动回复,便于和其他各种冗余方式结合使用。
权利要求
1、一种分布式体系中主备倒换检测和控制方法,其特征在于包括以下步骤(1)初始化主单元和备份单元,主单元与系统数据总线连通,备份单元与系统数据总线断开;(2)主单元控制系统数据总线与下级设备之间的通信;(3)主、备单元周期性相互进行状态检测,并进行数据同步。
2、 根据权利要求1所述的分布式体系中主备倒换检测和控制方法,其特征在于所述步 骤(3)具体为当主备单元状态正常时,主备数据完成同步当主单元检测到备份单元状态异常时,主单元对备份单元进行复位,同时向网管发出告 警消息;当备份单元检测到主单元状态异常时,备份单元对主单元进行复位,同时将主单元与系 统数据总线断开,向网管发出告警消息,备份单元与系统数据总线连通,控制系统数据总线 与下级设备之间的通信;当主单元检测到自身状态异常时,主单元项备份单元发出请求倒换申请,备份单元接到 所述请求倒换申请后,对主单元进行复位,同时将主单元与系统数据总线断开,向网管发出 告警消息,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信。
3、 根据权利要求1所述的分布式体系中主备倒换检测和控制方法,其特征在于所述步 骤(3)具体为当主备单元状态正常时,主备数据完成同步;当主单元检测到备份单元状态异常时,主单元对备份单元进行复位,同时向网管发出告 蝥消息;当备份单元检测到主单元状态异常时,备份单元对主单元进行复位,同时将主单元与系 统数据总线断开,向网管发出告警消息,备份单元与系统数据总线连通,控制系统数据总线 与下级设备之间的通信,之后,一旦主单元恢复正常,备份单元与系统数据总线断开,主单 元恢复与系统数据总线连通,控制系统数据总线与下级设备之间的通信;当主单元检测到自身状态异常时,主单元项备份单元发出请求倒换申请^备份单元接到所述请求倒换申请后,对主单元进行复位,同时将主单元与系统数据总线断开,向网管发出 告警消息,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信,之后, 一旦主单元恢复正常,备份单元与系统数据总线断开,主单元恢复与系统数据总线连通,控 制系统数据总线与下级设备之间的通信。
4、 根据权利要求l所述的分布式体系中主备倒换检测和控制方法,其特征在于所述歩 骤(3)具体为主备单元接收到强制倒换信号,主备数据完成同步,主单元与系统数据总线断开并进行 复位,备份单元与系统数据总线连通,控制系统数据总线与下级设备之间的通信。
5、 一种分布式体系中主备倒换检测和控制装置,其特征在于包括一端与系统数据总线相连,另一端分别与主备单元以及主备单元的以太网开关相连的二 层交换单元;所述主备单元分别都包括一个中央处理器和一个可编成逻辑电路;所述中央处 理器一端通过数据同步用IP数据线与二层交换单元相连,另一端通过中央处理器IP数据端 口与以太网开关使能端相连;可编成逻辑电路一端通过主备检测和控制线与系统控制总线相 连,另一端通过开关控制线与以太网开关相连;以太网开关通过IP数据线与二层交换单元相 连;其中,中央处理器检测本单元状态并通过可编成逻辑电路经过系统控制总线检测其他单 元状态,根据设定,中央处理器通过可编成逻辑电路打开或关闭以太网开关。
全文摘要
本发明公开了一种分布式体系中主备倒换检测和控制装置和方法。现有技术中,要实现主备倒换需要对整个系统架构进行很大的改造,实现热备份往往带来业务的中断,不能自动的实现工作状态和备用状态的灵活迁移,不能在主备之间数据同步的基础上快速实现倒换。为解决上述问题,本发明多电压监控和保护电路的实现方法,包括以下步骤(1)初始化主单元和备份单元,主单元与系统数据总线连通,备份单元与系统数据总线断开;(2)主单元控制系统数据总线与下级设备之间的通信;(3)主、备单元周期性相互进行状态检测,并进行数据同步。本发明适用于各种分布式体系。
文档编号H04L12/24GK101192960SQ200610144989
公开日2008年6月4日 申请日期2006年11月28日 优先权日2006年11月28日
发明者永 李, 王加莹 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1