用于管理集群系统中的协议网络故障的系统和方法

文档序号:7601613阅读:130来源:国知局
专利名称:用于管理集群系统中的协议网络故障的系统和方法
技术领域
本发明涉及计算系统,尤其涉及一种用于管理网络集群系统中的协议网络故障的系统和方法。
背景技术
互联网已经发展成为许多公司依赖其作为商业活动的资源的普遍存在网络。例如,许多行业可使用互联网和类似的连网基础设施,以管理关键应用、接入内容服务器、自动化装配和生产线以及实施复合控制系统。商业的所述依赖已产生对于网络资源的更高保护和可用性保证的需要。
响应于对于提供系统资源的高度可用性和免于故障的连网基础设施的需要,研发了集群体系结构。集群可被定义为多个合作以经由网络为客户机设备提供接入到一组业务、资源等的松散耦合的网络设备。所述集群内的成员可用于增加所述接入的可靠性和可用性。
许多集群体系结构依赖于经由所述网络切换集群协议消息。所述集群可能使用所述消息来管理集群成员资格、指配工作和检测成员故障。所述集群可能规定连接到哪个网络来切换所述协议消息。
然而,所规定网络及其相关连接和互连是所述集群的潜在故障点。如果集群成员失去了到所述网络的连接性,则其无法参与协议,且通常必须离开所述集群。这可能会导致无效功,以及降级的全面性能、接入和集群可靠性。此外,如果由于开关、集线器等发生故障而导致网络故障,则整个集群故障,而所有通过所述集群的连接丢失。因此,行业内存在对于高度可靠的集群基础设施的需要。因此,基于以上考虑构思了本发明。


参照附图描述了本发明的非限制性和非穷举实施例。在附图中,除非特别说明,在各个图中相同附图标记表示相同部分。
为更好地理解本发明,以下将参考结合附图所述的本发明具体实施方式
,在附图中图1示出了其内本发明操作的环境的一个实施例;图2示出了被配置为集群成员的网络设备的一个实施例的功能框图;图3示出了通常显示网络设备加入和离开所述集群的过程的一个实施例的流程图;图4A-4D示出了通常显示集群主控管理集群成员(客户机)协议网络通信的过程的一个实施例的流程图;以及图5A-5D示出了根据本发明一个实施例的流程图,其通常显示集群成员(客户机)管理与所述集群主控的协议网络通信的过程的一个实施例。
具体实施例方式
以下将参照附图更为完全描述本发明,所述附图形成了本发明一部分,并借助描述示出了可借助其实践本发明的特定示范性实施例。然而,本发明可体现为许多不同形式,并且不应当构成对于本文所述实施例的限制;相反,提供所述实施例,从而使得本公开将会彻底和完全,并将本发明范围完全传递给本领域技术人员。除此之外,本发明可能还体现为方法或设备。因此,本发明可能采取完全硬件实施方式、完全软件实施方式或组合软件和硬件的实施方式的形式。因而以下详细描述将不具限制意义。
术语“包括”、“包含”、“含有”、“具有”和“特征在于”指示开方式或包括常规构造,并不排除附加、未提及单元或方法步骤。例如,包括A和B单元的组合同样可理解为A、B和C单元的组合。
意义“一个”包括多个参考。意义“内”包括“内”和“上”。此外,参考单个包括参考多个,除非特别说明或与本文公开不一致。
术语“或者”包括“或者”算符,包括术语“和/或”,除非上下文明确说明。
本文所使用的短语“在一个实施例内”并非必然是指相同实施例,尽管可能是。
术语“基于”并非排他,并提供了基于未提及的附加因素,除非上下文明确说明。
术语“分组”包括IP(互联网协议)分组。
简而言之,本发明指向一种用于管理网络集群系统内的协议网络故障的系统和方法。本发明包括所述集群的集群主控和客户机成员,它们被配置为确定用于切换集群协议消息的至少一个主协议网络和次协议网络。所述集群内的每个客户机成员在加入所述集群时,确定是将所述主协议网络还是所述次协议网络用作其“有效”协议网络。如果客户机成员在所述主协议网络上检测到故障,则其可能在并不离开所述集群的情况下故障移转到所述次协议网络。如果到所述主协议网络的连接恢复,则所述客户机成员并不离开所述集群,动态恢复所述主协议网络上的协议消息切换。
示范操作环境图1示出了其中本发明操作的环境的一个实施例。可能并不需要所有组件来实践本发明,且可在并不背离本发明的精神或范围的情况下,对布置和组件类型做出改变。
如图所示,集群系统100包括局域网/广域网(LAN/WAN)106和107,以及集群101。集群101包括集群成员102-105。集群101与LAN/WAN 106和107通信。
集群成员102-105可能通过多个网络与LAN/WAN 106和107通信。例如,尽管并未示出,但多个网络连接可能存在于集群成员102-105与LAN/WAN 106和107之间。然而,为清晰起见,图1仅示出了网络108和110。在一个实施例中,网络108是主协议网络,而网络110是次协议网络。协议网络实际上包括任何网络,包括用于切换集群协议消息的互连等。可能会基于各种机制选择所述协议网络,所述机制包括将网络预先配置为主协议网络,而将另一网络预先配置为次协议网络,但并不仅限于此。还可能基于多个特征动态选择协议网络,所述特征包括业务质量、吞吐量、稳定性、速度等。此外,如下所述,每个成员102-105可能会选择彼此不同的主和/或次协议网络。
集群101通常被配置为包括合作以为另一设备提供接入到业务、资源等的松散耦合的网络设备。在一个实施例中,集群101被配置为通过自适应负载平衡集群成员102-105来最优化消息吞吐量。
集群成员102-105可能是任何能够经由集群体系结构的网络发送和接收分组的网络设备。在一个实施例中,集群成员102-105被配置为作为所接收消息分组的协议栈处理器操作。所述设备组可能包括通常使用有线通信媒介连接的设备,例如个人计算机、多处理器系统、基于微处理器或可编程的客户电路、网络PC等,它们被配置为作为集群设备操作。所述设备组可能还包括通常使用无线通信媒介连接的设备,例如蜂窝电话、智能电话、寻呼机、步谈机、射频(RF)设备、红外线(IR)设备、CB、组合以上一个或多个设备的集成设备等,它们被配置为作为集群设备操作。作为选择,集群成员102-105可能是任何能够使用有线或无线通信媒介连接的设备,例如PDA、POCKETPC、耐磨计算机,或其它任何被配置为经由有线和/或无线通信媒介通信的设备,它们作为集群设备操作。
集群成员102-105中的一个成员可能被配置为作为集群主控操作,而剩余的集群成员103-105可能被配置为作为客户机集群成员操作。然而,在并不背离本发明范围的情况下,客户机101并非受此限制,而集群成员103-105内的另一成员可能被配置为作为后备集群主控操作。当形成所述集群时并随后在集群主控故障之后,集群成员102-105可能还会动态地将一个成员选为集群主控。以下将结合图2更为详细描述集群成员102-105的一个实施例。
LAN/WAN 106和107能够将任何形式的计算机可读媒体用于将信息从一个电子设备通信到另一电子设备。此外,LAN/WAN 106和107可包括互联网、局域网(LAN)、广域网(WAN)、例如通过通用串行总线(USB)端口的直接连接、其它形式的计算机可读媒体及其任何组合。在包括那些基于不同体系结构和协议的网络的一组互连LAN上,路由器充当LAN之间的能够将消息从一个LAN发送到另一LAN的链路。此外,LAN内的通信链路通常包括双扭线或同轴电缆,而网络之间的通信链路可能使用模拟电话线、包括T1、T2、T3和T4的全部或部分专用数字线、综合业务数字网(ISDN)、数字用户线(DSL)、包括卫星链路的无线链路或其它本领域技术人员众所周知的通信链路。此外,远程计算机和其它相关电子设备可能经由调制解调器和暂时电话链路,远程连接到LAN或WAN。实质上,LAN/WAN106和107可能包括借助其使信息在网络设备之间传播的任何通信方法。
一般而言,LAN/WAN 106可能包括内容服务器、应用服务器等,集群101使得所述内容服务器、应用服务器能够接入到存在于LAN/WAN 106和107内的另一网络设备。
图2示出了作为集群成员操作的网络设备200的一个实施例的功能框图。网络设备200可能包括比所示组件更多的组件。然而,所示组件足以公开用于实践本发明的示范性实施例。
网络设备200包括经由总线522彼此通信的处理单元512、视频显示适配器514和海量存储器。所述海量存储器通常包括RAM 516、ROM 532和一个或多个永久海量存储设备,例如硬盘驱动器528、磁带驱动器、光盘和/或软盘驱动器。所述海量存储器存储用于控制网络设备200操作的操作系统520。可能会使用任何通用操作系统。基本输入/输出系统(“BIOS”)518还用于控制网络设备200的低电平操作。
如图2所示,网络设备200还可经由网络接口单元510与互联网、或其它一些诸如图1内LAN/WAN 106和107的通信网络通信,所述网络接口单元510被构造为与包括TCP/IP协议的各种通信协议一起使用。网络接口单元510有时被称为收发信机或收发设备。
上述海量存储器示出了计算机可读媒介,即计算机存储媒介类型。计算机存储媒介可能包括以任何方法或技术实施的用于存储信息的易失性、非易失性、可拆卸和不可拆卸媒介,所述方法或技术例如是计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒体的实例包括RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字化视频光盘(DVD)或其它光学存储器、磁盒、磁带、磁盘存储器或其它磁存储设备、或其它任何可用于存储所需信息并可由计算设备接入的媒体。
在一个实施例中,所述海量存储器存储用于实施操作系统520的程序码和数据。所述海量存储器可能还存储用于执行网络设备200的功能的附加程序码和数据。一个或多个应用550等可能被装入海量存储器,并在操作系统520上运行。如图所示,集群故障移转管理器542是可能在操作系统520上运行的应用实例。
网络设备200可能还包括用于传送电子邮件的SMTP处理应用,用于接收并交付HTTP请求的HTTP处理应用,以及用于处理安全连接的HTTPS处理应用。所述HTTPS处理应用可能以安全方式启动与外部应用的通信。然而,网络设备200并不限于所述处理应用,在并不背离本发明范围的情况下,网络设备200可使用许多其它协议处理应用。
网络设备200可能还包括输入/输出接口524,其用于与诸如鼠标、键盘、扫描仪或其它图2并未示出输入设备的外部设备通信。同样,网络设备200可能还包括诸如CD-ROM/DVD-ROM驱动器526和硬盘驱动器528的附加海量存储设备。硬盘驱动器528由网络设备200用于存储应用程序、数据库等。
用于管理所述集群系统内的协议网络故障的示范性操作以下将参照集群建立、集群主控管理所述集群内的客户机成员的过程、所述集群内客户机成员的过程,描述本发明的一般操作的一个实施例。
在建立集群,例如图1的集群101期间内,参加网络设备可能在主和次协议网络上都发送协议消息,以确定哪个网络可用于与所述集群主控通信。所选择的协议网络通常被称为“有效协议网络”。在一个实施例中,如果所述参加网络设备能够使用所述主与次协议网络两者,则所述主协议网络被优选为有效协议网络。然而,如果所述参加网络设备并未在其主协议网络上了解来自所述集群主控的协议消息,则所述参加网络设备可能使用所述次协议网络。
图3示出了通常显示网络设备加入和离开所述集群的过程的一个实施例的流程图。在开始方框之后,过程300开始于方框202,此时网络设备试图加入所述集群。在一个实施例中,这是通过在所述主协议网络上发送(广播)“加入请求”消息来实现的。如果所述集群主控接收所述“加入请求”,则其尝试证实相关鉴权信息。如果所述集群主控确定所述鉴权信息无效,则其经由所述主协议网络将“加入故障”消息发送到所述参加网络设备。如果所述集群主控确定所述鉴权信息有效,则其经由所述主协议网络将“加入OK”消息发送到所述参加网络设备。
如果“加入OK”消息由所述参加网络设备接收,则过程300行进到方框203,其中所述参加网络设备被指定为集群成员(有时被称为客户机或非主控)。此外,所述参加网络设备将其指向所述主协议网络的接口标记为其“有效协议网络”。
如果在方框202中,所述参加网络设备并未在所述主协议网络上从集群主控接收到“加入OK”或“加入故障”消息,则处理前进到方框204。
在方框204中,所述参加网络设备在所述次协议网络上发送(广播)“加入请求”消息。如果所述集群主控接收所述“加入请求”,则其尝试证实所述鉴权信息,并通过在所述次协议网络上将所述适当消息发送到系统做出响应。如果接收到“加入OK”消息,则处理前进到方框203,其中所述参加网络设备被指定为集群成员(客户机或非主控)。此外,所述参加网络设备将其指向所述次协议网络的接口标记为其“有效协议网络”。
然而,如果在方框204中,所述参加网络设备并未在所述次协议网络上从集群主控得到“加入OK”消息或“加入故障”消息,则所述参加网络设备推断其是所述集群的第一个集群成员(即无主控单元存在),且处理前进到方框205。此外,如果主控选择机制是动态的,则处理同样前进到方框205。
在方框205中,所述参加网络设备在所述主和次协议网络上发送“提出主控请求”分组,以请求成为所述集群主控。在一个实施例中,所述“提出主控请求”分组被经由所述主和次协议网络广播。如果所述参加网络设备在所述主或次协议网络上接收“其它主控存在”消息,则处理返回方框202,其中所述参加设备试图再次加入。然而,如果所述参加网络设备在预定时间周期之后并未接收到响应,则处理前进到方框206。在一个实施例中,所述预定的时间周期大约为100微秒。然而,本发明并不受此限制,而实际上可使用任何时期。
在方框206中,所述集群主控在每个其集群网络上发送广播地址解析协议(ARP)响应等,以向相邻网络设备通知哪个以太网地址用为对应的集群网络地址。处理继续到方框207,其中所述参加网络设备当前在集群主控的容量内操作。处理可能继续,直至所述集群主控接收“退出请求”,在这种情况下,处理返回到方框202。
所述集群主控可能存储每个集群成员的有效协议网络。当所述集群主控将新集群成员接受到所述集群内时,所述集群主控将其用于发送“加入OK”消息的网络标记为所述集群成员的有效协议网络。
归因于网络内的等待时间,在分组处理等中,在所述集群成员在所述次协议网络上发送“加入请求”之前,所述集群主控可能无法在所述主协议网络上响应集群成员的“加入请求”消息。在这种情况下,所述集群主控可能被配置为,确认其从所述次协议网络接收的加入请求是其在所述主协议网络上接收的加入请求的复制品,并将其忽略。为了使所述集群主控能够检测复制品,所述集群成员可能使用其在所述主协议网络上的网络地址,在“加入请求”和“提出主控”消息内识别自身。
此外,归因于网络内的等待时间,在分组处理等中,在所述集群主控在所述主协议网络上接收到“加入请求”之前,所述集群主控可能在所述次协议网络上接收到“加入请求”消息,尽管所述参加网络设备首先发送所述主协议网络消息。如果所述集群主控在所述次协议网络上将“加入OK”消息发送到集群成员,然后在所述主协议网络上接收到复制“加入请求”消息,则所述集群主控可能在所述主协议网络上将“加入OK”消息发送到所述集群成员,并将所述主协议网络标记为该集群成员的有效协议网络。如果集群成员在所述主和次协议网络上都接收到“加入OK”消息,则其可能将所述主协议网络标记为其有效协议网络。
集群成员可利用其对于设备链路状态等的任何了解,以最优化所述切换。例如,尽管图3并未示出,但如果集群成员检测到将其连接到所述主协议网络的设备不工作,则其可将“加入请求”分组发送到所述次协议网络。然而,所述最优化对于本发明而言并不是关键的。
集群主控的示范操作在已通知集群之后,所述集群主控可能在所述主和次协议网络上发送“主控保持活跃”消息等。所述集群成员监控所述消息,以检测所述主控单元的故障,并确定其有效协议网络。使用各种机制来确定和调整“主控保持活跃”消息之间的间隔,所述机制包括Adelman等在1998年11月20日申请的U.S.专利申请No.6,078,957和6,006,259内描述的机制,但并不仅限于此,本文将所述申请引入作为参考。所述集群主控可能基于网络的观测分组损失等,分别为每个协议网络确定保持活跃间隔。
当所述集群主控与集群成员切换集群协议消息以指配工作时,所述集群主控可能在所述集群成员的有效协议网络上发送所述消息。所述集群主控可能在不同协议网络上将协议消息发送到不同的集群成员。这可得以执行,因为一些集群成员可能能够使用所述主协议网络,而其它集群成员可能无法使用主协议网络。
所述集群主控可能使用各种机制来监控从集群成员发送的“保持活跃”消息。在一个实施例中,所述集群主控使用监控定时器。只要所述集群主控在一个所述协议网络上接收到集群成员的保持活跃,就可认为该集群成员“活跃”。如果所述集群主控在多个协议网络上接收到保持活跃,则所述集群主控可能将所述主协议网络优选为所述集群成员的有效协议网络。
图4A-4D示出了根据本发明一个实施例的流程图,其通常显示集群主控管理集群成员(客户机)协议网络通信的过程的一个实施例。如图所示的过程400-700可能在图1集群101的集群主控内操作。
图4A示出了一个流程图,其通常显示当所述集群主控在主协议网络上接收到一个集群成员的“保持活跃”时,集群主控管理集群成员协议网络通信的过程的一个实施例。过程400继续到判定方框320,其中确定所接收“保持活跃”是否来自集群成员。如果确定所述消息并非来自集群成员,处理分叉到方框322,其中所述集群主控将“退出集群”消息发送到所述发送“保持活跃”的网络设备。过程400然后退出到呼叫过程,以执行其它操作。
然而,如果在判定方框320中,所接收“保持活跃”来自其集群的成员,则处理继续到方框324,其中确定并存储分组丢失信息等。在一个实施例中,使用各种特征来确定分组丢失平均值,所述特征包括保持活跃的序列号、自适应保持活跃间隔等,但并不仅限于此。
过程400然后继续到判定方框325,其中确定在所述主协议网络上,所述集群成员(客户机)是否活跃。换言之,如果确定所述集群主控在主协议接口上接收到其有效协议网络是次协议网络的集群成员的保持活跃,则处理前进到方框328,其中所述主控将该成员的有效协议网络设置为所述主协议网络。过程400继续到方框329,其中为所述主协议网络启动此客户机成员的监控定时器。过程400然后退出到呼叫过程,以执行其它操作。
然而,如果在判定方框325中,确定所述客户机成员在主协议网络上活跃,则处理继续到方框326,其中复位该集群成员的监控定时器。过程400然后退出到呼叫过程,以执行其它操作。
图4B示出了一个流程图,其通常显示当集群主控在次协议网络上接收到一个集群成员的“保持活跃”时,所述集群主控管理集群成员协议网络通信的过程的一个实施例。如图所示,过程500开始于判定方框340,此时所述集群主控在所述次协议网络上接收保持活跃。在判定方框340中,确定所述保持活跃是否是从作为所述集群主控的集群成员的网络设备接收的。如果确定所述网络设备是所述集群主控的集群成员,则处理继续到方框344;否则,处理分叉到方框342,其中所述集群主控将“退出集群”消息发送到所述网络设备。过程然后退出到呼叫过程,以执行其它操作。
在方框344中,所述集群主控确定并存储分组丢失信息等。在一个实施例中,使用各种特征,确定分组丢失平均值,所述特征包括保持活跃的序列号、自适应保持活跃间隔等,但并不仅限于此。处理继续到判定方框345,其中确定在所述次协议网络上所述集群成员是否活跃。换言之,如果确定所述集群主控在所述次协议网络上接收到其有效协议网络是主协议网络的集群成员的保持活跃,则处理分叉到方框348,其中所述集群主控保持不变,离开该集群成员的有效协议网络。然而,为所述次协议网络启动此客户机主控的监控定时器。处理然后退出到呼叫过程,以执行其它操作。
如果在判定方框345中,所述集群成员(客户机)在所述次协议网络上活跃,则处理继续到方框346,其中为此集群成员的次协议网络复位此集群成员的监控定时器。处理然后退出到呼叫过程,以执行其它操作。
图4C示出了一个流程图,其通常显示当在所述主协议网络上检测到故障时,集群主控管理集群成员协议网络通信的过程的一个实施例。如图所示,在开始方框之后,过程600开始于判定方框310,此时所述集群主控在预定义间隔内,无法在所述主协议网络上接收集群成员的(客户机的)保持活跃(集群成员“超时”)。
在判定方框310中,确定所述集群主控是否仍然在所述次协议网络上接收所述集群成员的保持活跃。如果是,则处理分叉到方框312,其中所述集群主控将网络设备保持为集群成员。所述集群主控可能还会将该集群成员的有效协议网络设置为次协议网络。在一个实施例中,所述集群主控可能还生成诸如SNMP俘获等的事件,以指示关于集群成员的有效协议网络已改变。处理然后退出到呼叫过程,以执行其它操作。
如果在判定方框310中,确定所述集群成员在所述主和次协议网络上都已超时,则处理分叉到方框314,其中所述集群主控可能宣告所述集群成员无效,并将其从所述集群中去除所述集群成员。过程然后退出到呼叫过程,以执行其它操作。
图4D示出了一个流程图,其通常显示当在所述次协议网络上检测到故障时,集群主控管理集群成员协议网络通信的过程的一个实施例。如果所述集群主控在预定义间隔内,无法在所述次协议网络上接收集群成员的保持活跃(集群成员“超时”),处理进行到判定方框330。在判定方框330中,确定所述集群主控是否仍然在所述主协议网络上接收所述集群成员的保持活跃。如果是,则所述集群主控将系统保持为集群成员,并保持不变离开所述成员的有效协议网络。处理从过程700退出到呼叫过程,以执行其它动作。
然而,如果确定所述集群成员已在所述主和次协议网络上都超时,则处理流到方框333,其中所述主控宣告所述集群成员无效,并从所述集群中去除所述集群成员。处理然后退出过程700,以执行其它操作。
其中所述集群主控与并非所述集群成员的网络设备切换消息的情况可能会发生。例如,所述集群主控在解决主控争用时发送“其它主控”消息,或可能将“退出请求”消息发送到错误以为其处于所述集群内的网络设备。所述集群主控可能响应于其从所述网络设备接收到的消息而发送上述消息。在缺少所述网络设备的有效协议网络(因为它们并非集群成员)的情况下,所述集群主控可能在与从所述网络设备接收到消息的网络相同的网络上发送其响应消息。
此外,所述集群主控可利用其对于设备链路状态等的任何了解,以最优化其动作。例如,在一个实施例中,如果所述集群主控设备检测到将其连接到主协议网络的设备不工作,则其可将所有集群成员的有效协议网络设置为次协议网络,并停止在所述主协议网络上发送主控保持活跃。
集群成员的示范操作非主控集群成员(客户机)可能发送保持活跃消息,并监控与所述集群主控相关的监控定时器。每个集群成员都可以预定间隔,在两个协议网络上,在“主控保持活跃”消息等内发送“保持活跃”消息。如果集群成员并未在协议网络上接收到“主控保持活跃”消息,则其可能并不在该协议网络上发送任何“保持活跃”消息。
此外,每个集群成员都可使用监控定时器等监控从所述集群主控发送的“主控保持活跃”消息。只要所述集群主控仍然在一个所述协议网络上发送保持活跃,集群成员就可认为所述集群主控“活跃”。
图5A-D示出了一个流程图,其通常显示集群成员(客户机)管理与所述集群主控的协议网络通信的过程的一个实施例。在一个实施例中,图5A-5D的过程800-1100可能被部署在图1集群成员102-105内。
图5A示出了一个流程图,其通常显示所述集群成员在主协议网络上接收集群主控“保持活跃”的过程的一个实施例。在开始方框之后,图5A的过程开始于方框421,其中更新保持活跃间隔。在一个实施例中,所述保持活跃间隔是自适应间隔。在另一实施例中,所述保持活跃间隔由所述集群主控确定。
处理然后继续到判定方框423,其中根据所述集群主控“保持活跃”内的信息确定所述集群是否已丢失任何集群成员。可能是由于任何原因而丢失了集群成员,包括未与集群主控连接、网络故障、硬件故障等。如果确定并未丢失集群成员,则处理分叉到判定方框426。如果丢失集群成员,则处理前进到方框424,其中可能向应用等通知所述集群成员丢失。此外,尽管并未显示,但所述集群成员可根据集群主控“保持活跃”内的其保持的关于所述集群成员的信息,更新其它集群成员的成员资格和有效协议网络信息。处理继续到判定方框426。
在判定方框426中,根据所述集群主控“保持活跃”内的信息确定所述集群是否已增加新的集群成员。如果尚未增加新的集群成员,则处理继续到判定方框432;否则,处理继续到方框427,其中向应用等通知所述增加。处理继续到判定方框432。
在判定方框432中,确定所述集群成员的有效协议网络是否为所述主协议网络。如果确定所述集群成员的有效协议网络并非主协议网络,则处理继续到方框429,其中所述集群成员将其有效协议网络设置为主协议网络。处理继续到方框430,其中集群成员在所述主协议网络上启动集群主控的监控定时器,然后继续到方框431,其中集群成员还开始在主协议网络上发送“保持活跃”消息。处理然后退出到呼叫过程,以执行其它操作。
如果在判定方框432中,确定所述集群成员的有效协议网络是主协议网络,则处理前进到方框433,其中在所述主协议网络上,复位监控定时器。处理然后退出到呼叫过程,以执行其它操作。
图5B示出了一个流程图,其通常显示所述集群成员在次协议网络上接收集群主控“保持活跃”的过程的一个实施例。在开始方框之后,图5B的过程900开始于方框451,其中更新保持活跃间隔。在一个实施例中,所述保持活跃间隔是自适应间隔。在另一实施例中,所述保持活跃间隔由集群主控确定。过程900然后继续通过方框453到457,其实质上与图5A方框423到427类似操作。
过程900在判定方框461内继续,其中确定所述集群主控的有效协议网络是否为次协议网络。如果所述集群主控的有效协议网络是主协议网络,则处理继续到方框459,其中所述成员保持不变离开其有效协议网络,并在所述次协议网络上启动所述集群主控的监控定时器。处理然后前进到方框460,其中所述集群成员还开始在所述次协议网络上发送“保持活跃”消息。然后,处理退出到呼叫过程,以执行其它操作。
然而,如果所述集群主控的有效协议网络是次协议网络,则处理继续到方框426,其中所述客户机成员在所述次协议网络上复位所述集群主控的监控定时器。然后,处理退出到呼叫过程,以执行其它操作。
图5C示出了一个流程图,其通常显示集群主控的监控定时器等在主协议网络上到期(集群主控“超时”)的过程的一个实施例。在开始方框之后,过程1000开始于判定方框411,其中确定所述集群成员是否仍然在所述次协议网络上接收所述集群主控的保持活跃。如果是,则处理分叉到方框414,其中所述集群成员将其有效协议网络设置为所述次协议网络。处理前进到方框415,其中所述集群成员(客户机)停止在所述主协议网络上发送“保持活跃”消息。过程1000然后退出到呼叫过程,以执行其它操作。
然而,如果在判定方框411中,确定所述集群主控在主和次协议网络上都已超时,则处理继续到方框412,其中所述集群成员宣告所述集群主控无效。在一个实施例中,所述集群成员同样离开所述集群。在另一实施例中,所述集群成员试图重新加入所述集群。过程1000然后退出到呼叫过程,以执行其它操作。
图5D示出了一个流程图,其通常显示集群主控的监控定时器等在次协议网络上到期(集群主控“超时”)的过程的一个实施例。在开始方框之后,过程1100开始于判定方框441,其中确定所述集群成员是否仍然在所述主协议网络上接收所述集群主控的保持活跃。如果是,则处理进行到方框444,其中所述集群成员保持不变离开其有效协议网络,但停止在所述次协议网络上发送“保持活跃”消息。处理然后退出到呼叫过程,以执行其它操作。
然而,如果在判定方框441中,确定所述集群主控在主和次协议网络上都已超时,则处理继续到方框442,其中所述集群成员宣告所述主控无效,并离开所述集群。所述集群成员可能还试图重新加入所述集群。过程1100然后退出到呼叫过程,以执行其它操作。
集群成员可利用其可能得到的关于设备链路状态等的任何了解,以最优化其动作。例如,如果集群成员检测到将其连接到所述主协议网络的设备不工作,则所述集群成员可将其有效协议网络设置为所述次协议网络。
尽管使用监控定时器描述以上过程,但本发明并不受此限制,而实际上任何机制可用于确定何时对于改变有效协议网络、退出集群、加入集群等做出判定。
本发明指向消除可能出于任何原因导致的主协议网络作为单个故障点。借助于多个协议网络,所述故障对于集群成员资格、业务中断等的影响被最小化。此外,多个协议网络指向如果单个网络设备、单元等发生部分或甚至是完全故障,则增加所述集群的可靠性和稳定性。因此,尽管已使用主和次协议网络描述了本发明,但本发明并不受此限制,而在并不背离本发明范围的情况下可使用许多协议网络。
此外,应当理解的是,上述流程图的每个方框,以及上述流程图内方框组合可以计算机程序指令实施。可向处理器提供所述程序指令,以生成机器,从而使得在所述处理器上执行的指令生成用于实施在一个或多个流程图方框内规定的动作的装置。所述计算机程序指令可能由处理器执行,以使一系列操作步骤由所述处理器执行,从而生成计算机实施的过程,从而使得在所述处理器上执行的指令提供用于实施在一个或多个流程图方框内规定的动作的步骤。
因此,流程图方框支持用于执行所述动作的装置组合、用于执行所述动作的方法组合和用于执行所述动作的程序指令组合。还应当理解的是,每个流程图方框以及流程图方框组合可以专用基于硬件的系统实施,所述系统执行所述动作或步骤,或专用硬件和计算机指令的组合。
以上技术规范、实例和数据提供了对于本发明部分的制造和使用的完全描述。由于可在并不背离本发明精神和范围的情况下实施本发明的许多实施例,但本发明范围属于下文所附的权利要求书。
权利要求
1.一种用于管理集群系统中的故障的网络设备,包括收发信机,被设置为经由网络发送和接收分组;处理器,耦合到所述收发信机,被配置为执行多个动作,这些动作包括确定有效协议网络,其中所述有效协议网络是从主协议网络和次协议网络中的至少一个选择的;以及如果在所述有效协议网络中检测到故障,则将所述有效协议网络切换到另一协议网络,而无需离开所述集群系统。
2.根据权利要求1的网络设备,其中所述有效协议网络还从第三协议网络中选择。
3.根据权利要求1的网络设备,其中确定所述有效协议网络还包括至少在所述主协议网络和所述次协议网络上发送消息。
4.根据权利要求1的网络设备,其中所述网络设备还被配置成经由所述主协议网络和所述次协议网络中的至少一个,将协议消息发送到另一网络设备,其中所述协议消息用于指示所述主协议网络和所述次协议网络中的至少一个是活跃的。
5.根据权利要求1的网络设备,其中确定所述有效协议网络还包括如果所述主协议网络可用,则将所述主协议网络选为所述有效协议网络。
6.根据权利要求1的网络设备,其中确定所述有效协议网络还包括在所述主协议网络上发送消息;以及如果在所述主协议网络上接收到指示可以加入所述集群系统的响应,则将所述网络设备指定为集群成员,并将所述主协议网络识别为所述有效协议网络。
7.根据权利要求6的网络设备,其中确定所述有效协议网络还包括如果在所述主协议网络上未得到指示可以加入所述集群系统的响应,则在所述次协议网络上发送另一消息;以及如果在所述次协议网络上接收到指示可以加入所述集群系统的响应,则将所述网络设备指定为集群成员,并将所述次协议网络识别为所述有效协议网络。
8.根据权利要求1的网络设备,其中检测所述有效协议网络中的故障还包括在预定时间周期之后,无法在所述有效协议网络上接收来自集群主控的消息。
9.一种用于管理集群系统中的故障的方法,包括确定有效协议网络,其中从多个协议网络中的至少一个选择所述有效协议网络;以及如果在所述有效协议网络中检测到故障,则将所述有效协议网络切换到另一协议网络,而无需离开所述集群系统,其中从所述多个协议网络中的可用协议网络中选择所述另一协议网络。
10.根据权利要求9的方法,还包括部分地基于预定网络和与网络相关的特征中的至少一个,在所述多个协议网络中指定主协议网络。
11.根据权利要求9的方法,其中检测所述故障还包括在预定时间周期之后,无法在所述有效协议网络上接收消息。
12.根据权利要求9的方法,还包括确定至少一个协议网络是否可用,如果所述多个协议网络中的所有协议网络都不可用,则离开所述集群系统。
13.根据权利要求9的方法,确定所述有效协议网络还包括如果指定的主协议网络可用,则选择所述指定的主协议网络。
14.一种用于管理集群系统中的故障的系统,包括集群成员,被配置为执行多个动作,这些动作包括确定有效协议网络,其中所述协议网络是从主协议网络和次协议网络中的至少一个选择的;以及如果在所述有效协议网络中检测到故障,则将所述有效协议网络切换到另一协议网络,而无需离开所述集群系统,;以及集群主控,被配置为执行多个动作,包括保持与所述集群成员的有效协议网络相关的信息,监控与所述集群成员相关的有效协议网络;以及如果在所述有效协议网络中检测到其它故障,则将所述有效协议网络设置为另一协议网络。
15.根据权利要求14的系统,监控所述有效协议网络还包括监控来自所述集群成员的协议消息。
16.根据权利要求14的系统,其中检测所述有效协议网络中的所述故障还包括在预定的时间周期内,监控来自所述集群主控的协议消息。
17.根据权利要求14的系统,其中确定所述有效协议网络还包括如果所述主协议网络可用,则将所述主协议网络选为所述有效协议网络。
18.根据权利要求14的系统,其中所述集群主控被配置为执行多个动作,这些动作还包括如果所述集群成员的所有协议网络都不可用,则将所述集群成员指定为不可用,并将所述集群成员从所述集群系统中去除。
19.根据权利要求14的系统,其中所述有效协议网络还从第三协议网络中选择。
20.根据权利要求14的系统,其中确定所述有效协议网络还包括至少在所述主协议网络和所述次协议网络上发送协议消息。
21.根据权利要求14的系统,其中确定所述有效协议网络还包括如果所述主协议网络可用,将所述主协议网络选为所述有效协议网络。
22.一种用于管理集群系统中的故障的装置,包括用于经由网络发送和接收协议消息的装置;用于确定有效协议网络的装置,其中所述有效协议网络是从至少两个协议网络中选择的;用于检测所述有效协议网络中的故障的装置;以及用于在所述有效协议网络中检测到所述故障时,将所述有效协议网络切换到可用协议网络,而无需离开所述集群系统的装置。
全文摘要
方法和系统指向管理网络集群系统内的协议网络故障。所述集群内的集群主控和每个集群成员被配置为确定用于切换集群协议消息的主协议网络、次协议网络等。所述集群内的每个客户机成员在加入所述集群时,从至少所述主协议网络和所述次协议网络中确定其“有效协议网络”。每个客户机成员通过所述主协议网络尝试其到所述集群主控的连接。如果客户机成员在所述主协议网络上检测到故障,则其并不离开所述集群,动态地故障移转到所述次协议网络。如果恢复连接到所述主协议网络,则所述客户机成员并不离开所述集群,在所述主协议网络上重新开始所述协议消息切换。
文档编号H04L29/06GK1638342SQ20041010481
公开日2005年7月13日 申请日期2004年12月23日 优先权日2003年12月23日
发明者皮特·弗瑞德瑞克·亨特, 阿南德·萨布瑞曼尼安 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1