基于多生成树的体系结构中的故障定位的制作方法

文档序号:7681091阅读:96来源:国知局
专利名称:基于多生成树的体系结构中的故障定位的制作方法
技术领域
本发明涉及用于网络中的故障定位的方法。具体来说,本发明涉 及用于在基于多生成树的体系结构中定位故障的方法。
背景技术
为了使以太网接入网能够交付运营商级服务,快速故障检测和恢
复时间(failover time)正变得越来越重要。在检测到故障并将数据切换 到备选路径之后,需要有用于定位网络中的故障然后修正故障的机制。
筒单网络管理协议(SNMP)、 RFC 1157提供用于被管理网络元件 在发生故障时向管理系统产生告警的诱捕(trap)机制。SNMP诱捕是预 定义事件,其中例如,"链路阻断(linkdown)"是RFC1157定义的且 被所有供应商支持的最常见事件之一。当发生链路故障时,与此链路 关联的被管理的网络装置将向管理系统发布通知事件。在接收到事件 时,管理系统可以选择基于该事件来采取一些措施,例如修正链路故 障等。
IEEE802.1ag规定的较新的方法("局域网和城域网的草案标准-虚拟桥接的局域网-修改草案5:连接性故障管理,,,正EE 802.1ag, 2005)尝试从第2层解决故障管理,包括故障定位。它提供体系结构和 在第2层对应于IP Ping和TraceRoute的工作消息。802.1ag体系结构
的实质是在嵌套的管理域以及维护端点和维护中间点的指定中。嵌套 的体系结构提供沿着服务提供路径的整个网络的端到端视图和该网 络的每个跳的详细负责角色。因此,当发生链路故障时,易于基于逐 个层来解决故障,并到达责任所在以及需要采取措施的级别。除了体系结构本身外,802.1ag还定义用于信息交换和故障定位的四个消息。 连接性检查消息
这些是由维护端点周期性发布的"心跳"消息。它们允许维护端 点检测这些维护端点之间服务连接性的丟失。它们还允许维护端点发 现域内的其他维护端点,并允许维护中间点发现维护端点。
链路跟踪消息
由维护端点在管理员请求跟踪至目的地维护端点的路径(逐个跳) 时传送这些消息。它们允许传送节点发现有关该路径的关键连接性数 据。它在概念上与IPTraceroute相似。
Loopback消息由维护端点在管理员请求验证至特定维护中间点或维护端点的 连接性时传送这些消息。Loopback指示目标维护点是否可到达;它不 允许路径的逐个跳的发现。它在概念上与ICMP回应(Ping)相似。
AIS消息
这些消息向网络中的其他元件提供大型以太网(metro Ethernet network)中存在故障的异步通知。AIS通常用于抑制除直接纟企测到故 障的那些网络元件之外的网络元件处的告警。
在节点经由多个路径互连的网络中,生成树协议(STP)可防止形 成回路。这确保了任何两个网络装置之间仅有一个活动的路径。活动 路径的全体构成所说的生成树。多生成树协议(MSTP)允许将若干 VLAN映射到精简数量的生成树。因为大多数网络不需要许多逻辑拓 朴,所以这是可能的。每个树能处理具有相同拓朴的多个VLAN。基 于此,提出了多个基于多生成树的容错体系结构。
如S. Sharama, K. Gopalan, S. Nanda和T. Chiueh在"维金城域 网和集群网络的多生成树以太网体系结构"("Viking: A multi國spanning誦tree Ethernet architecture for metropolitan area and cluster networks",正EE INFOCOM 2004)中所述,维金体系结构使用故障事件 之后重新配置的多个生成树。如果发生故障,则经由SNMP诱捕(tmp),
5通知维金管理器(VM)。 VM然后通知网络的边缘节点它们必须将业 务重定向到未受损的树,并启动树的重新计算和重新配置。
相比之下,低成本弹性以太网概念基于静态生成树,这种静态生 成树是在网络运行之前配置的并且尽管发生故障,也不会改变(J. Farkas、 C. Antal、 G. Toth和L. Westberg,"以太网的分布式弹性体 系结构,,("Distributed Resilient Architecture for Ethernet Networks", Proceedings of Design of Reliable Communication Networks, 16-19 October 2005, pp. 512-522); J. Farkas、C. Antal、L. Westberg、A. Paradisi、 T.R. Tronco和V.G. Oliveira,"以太网中的快速故障处理"("Fast Failure Handling in Ethernet Networks", Proceedings of IEEE International Conference on Communications, 11-15 June 2006); J. Farkas、 A. Paradisi和C. Antal "基于光纤的低成本可生存以太网体系 结构"("Low-cost survivable Ethernet architecture over fiber", J. Opt. Netw. 5, pp. 398-409, 2006))。在此体系结构中,以分布式方式在边缘 节点中实现故障检测和故障处理。此体系结构由市场上可购买的低成 本现成的标准以太网交换机組成;排除了依赖于以太网交换机中的新 功能的任何解决方案,以便保持当前以太网产品的价格优势。提供弹 性所需的额外功能在以太网的边缘节点处作为软件协议来实现。
图2示出此类体系结构的示例。静态地在网络上建立预定义的多 生成树,以充当可用于在网络中路由业务的主路径或备选路径,从而 能够处理可能的故障。为了实现保护免于发生任何单个链路或节点故 障,生成树的拓朴必须使得如果发生任何单个网络元件的故障,则保 持有至少一个完整的功能树。因此,生成树必须是局部分离的(partially disjoint),即它们必须包括不同的网络元件,它们不能是完全相同的。 例如,可以计算生成树。可以利用更多的树来处理多个故障;这是树 设计的问题。这些生成树是在网络启动之前建立的,在运行期间保持 不变,甚至在存在故障时也是如此。
如果发生故障,每个边缘节点必须停止将帧转发到受影响的树并将业务重定向到未受损的树。因此,需要一种协议来用于故障检测和
就断开(broken)的树通知所有边缘节点。恢复时间主要取决于故障事件 与其被边缘节点检测到之间所经过的时间,因为执行从一个树到另一 个树的保护切换无需对以太网交换机进行任何重新配置。
故障处理协议(FHP)是在边缘节点中实现的简单且轻量级分布式 协议,它依赖于很少几个广播消息来提供快速保护免于在网络中发生 单个链路或节点故障。
该协议基本定义了三种类型的广播消息
Alive:该消息由称为发射器(emitter)的一个或多个边缘节点根椐 预定义的时间间隔TAllve周期性地在每个VLAN上发出;
Failure:当在VLAN上Alive消息未在预定义的4全测间隔TDI内 到达时,由称为通知器(notifier)的边缘节点发布该消息,以向所有其 他边缘节点通知该VLAN中的故障;
Repaired:由检测到故障的相同的通知器在Alive消息到达时在 先前发生故障的VLAN上发布该消息,以向所有其他边缘节点通知发 生故障的VLAN的修复。
两种类型的通知器是基于它们的定时器设置来区分的主通知器 (primary)和次通知器(secondary)。少数通知器#皮配置为主通知器;既 不是发射器也不是主通知器的所有其他通知器称为次通知器。区别主 通知器和次通知器的原因是要减少故障事件期间的并发通知消息的 数量,下文将对此进行详细描述。
如图3所示,在每个VLAN上Alive消息由发射器边缘节点在 TMve时间间隔之初周期性地广播。要求是在所有的VLAN上Alive消 息在预定义的Tm时间间隔内在每个其他边缘节点(通知器)处接收。因 为传输延迟一般对于每个通知器是不同的且协议时间间隔短,所以通 知器相对于发射器的同步具有关键的重要性。因此,每个通知器在第 一个Alive消息已到达时启动定时器,以便测量TM何时届满,即笫一 个接收的Alive消息将通知器与发射器同步。因此,不同通知器之间的传输延迟之差的影响被消除。后续Alive消息遭受某种程度的不同 延迟的影响,因为它们通过不同路径传播,这在Tm的配置期间必须 被纳入考虑。在每个通知器边缘节点中登记所有Alive消息的到达。 如果存在TDI内尚未到达的Alive消息,则将对应的VLAN视为阻断。 即,单个Alive消息的丟失^皮解释为VLAN的故障(breakdown)。但是, 为了避免由于Alive丟帧所导致的误报,通知器可以配置成等待两个 或三个后续Alive周期,并仅在Alive消息在每个周期中连续丢失时才 将VLAN标记为断开。
除了发射器外的所有边缘节点监视Alive消息的接收。但是,为 了避免故障之后过量的协议负载,只有一些主通知器边缘节点,它们 的任务是向其他边缘节点通知故障。主通知器的检测间隔比次通知器 的检测间隔短,并且可以根据网络大小和其他参数来调整该4企测间 隔。当通知器边缘节点检测到故障时,它在^皮视为未受损的每个运行 的VLAN上广播Failure消息,该消息包含断开的VLAN的ID。因为 每个边缘节点接收到Failure消息,所以它们全部都知道发生故障的 VL服
因为有意地限制主通知器的数量,所以一些故障可能未被检测 到,视网络拓朴而定。因此,如果次通知器基于Alive消息未到达而 检测到故障,则此节点以与上述相同的方式广播Failure消息来向所有 其他边缘节点告知该故障。
基于SNMP和CFM的方法有它们的局限性。例如,SNMP依赖 于IP的正确功能实现,这在第2层以太网访问环境中不总是有效的。 可以将SNMP诱捕用于故障定位,正如上文论述的(例如)维金体系结 构中提出的。但是,可能存在不能发送SNMP诱捕的网络节点,例如 不可管理的节点、未配置或误配置的节点。在此情况中,故障定位无 法通过SNMP诱捕来解决。802.1ag是相对新的标准,且规定的机制复 杂,且其有效性尚未得到验证。但是,基于SNMP和CFM的方法具 有一个共有的问题它们均缺乏正确的恢复机制。这两种解决方案能够识别何时以及何处发生链路故障,但是它们对于如何引导网络绕开
(walk around)故障均无完整的解决方案。

发明内容
本发明的目的在于消除至少 一 些上面的缺点并提供定位网络中 的故障的改进方法。
根据本发明的第一方面,提供有定位网络中的故障的方法。该网 络包括配置为多个生成树的节点、链路和边缘节点。生成树是局部分 离的。该方法包括接收有关网络中的多个树拓朴的配置的信息,并监 视网络中的连接性。当检测到网络中连接性的丢失时,识别发生故障 的树,并确定发生故障的树所共有的网络元件。
在上述方面的第一配置中,可以确定并排除作为未发生故障的树 的部分的网络元件。
在上述方面的另一个配置中,可以4企查其余网络元件以查找故障。
在上述方面的又一个配置中,监视网络中的连接性的步骤还可以 包括监视一个或多个树中连接性丟失的通知。
在上述方面的又一个配置中,所述通知可以包括发生故障的树的 标识。
在上述方面的又一个配置中,所述通知还可以包括/人广播边缘节 点到故障l良告边缘节点的路径信息。
在上述方面的另一个配置中,可以应用点到点连接性监视,并且 所述通知还可以包括有关哪些点到点连接发生了故障的信息。
在上述方面的又一个配置中,通过链路跟踪消息来;f全索路径信

根据本发明的第二方面,提供有通知网络中的连接性丟失的方 法。该网络包括配置为多个生成树的节点、链路和边缘节点,这些生 成树是局部分离的,该网络还包括用于网络管理的部件。该方法包括监视另一个边缘节点广播的Alive消息。当检测到丟失的Alive消息时, 向网络管理通知连接性的丢失。
在上述方面的第 一配置中,通知网络管理的步骤可以包括发送发 生故障的树的标识。
在上述方面的另 一个配置中,所述通知还可以包括从广播边缘节 点到故障净艮告边缘节点的路径信息。
在上述方面的又一个配置中,当检测到树中连接性的丟失时,边 缘节点可将业务重定向到未受该连接性丟失影响的树。
根据本发明的第三方面,提供有调适成根据第一方面或其任何配 置工作的网络管理。
在第三方面的配置中,网络管理包括服务器。
根据本发明的第四方面,提供有调适成根据第二方面或其任何配 置工作的边缘节点。
本发明可以提供其中使用多个逻辑树拓朴的有效故障定位。而 且,它没有对边缘节点的故障处理作用引入额外的开销。


图1图示物理拓朴的示例。 图2图示逻辑拓朴的示例。
图3示出协议消息和节点作用的示意性时间序列图。 图4示出根据本发明通知网络中的故障的流程图。 图5示出根据本发明定位网络中的故障的流程图。
具体实施例方式
基于多生成树的网络体系结构在上文J. Farkas、C. Antal、G. Toth、 L. Westberg;上文J. Farkas、 C. Antal、 L. Westberg、 A. Paradisi、 T.R. Tronco、 V.G. Oliveira;以及上文J. Farkas、 A. Paradisi和C. Antal中
进行详细描述。相应地,在网络中实现逻辑树拓朴以便提供弹性。这些树不是完整的,而是局部分离的,以避免这些树所导致的显著的管 理复杂性。根据本发明的方法独立于树拓朴的设计而工作。
基础体系结构由内部节点和边缘节点(EN)以及互连链路组成。内
部节点可以是没有与该体系结构相关的任何特殊功能的现有设备。相
比之下,边缘节点实现上述的故障处理方法(FHM)。根据此方法,在 每个树上广播所说的Alive消息,并在边缘节点中监视这些消息的到 达。基于丟失的Alive消息,能检测到树的故障(或连接性的丟失),而 边缘节点可以将业务重定向到未受损的树。还可以基于先前断开的树 上新近出现的Alive消息来解释(solve)修复(restoration)。
还可以应用其他连接性监视方法,例如CFM或BFD,它们是点 到点监视方法。其要求必须监视在每个边缘节点对之间的所有树,并 必须将故障报告给管理系统。然后,能应用本发明中描述的故障定位 方法。
假定上述故障处理方法应用于可确定故障位置的网络中。因为在 故障之后广播含有断开的逻辑拓朴(树)的ID的Failure消息,所以每 个边缘节点知道断开的树,这可以纟皮传播到计算和配置这些树的管理 系统。每个树是节点和链路的集合。断开的元件是断开的树的交集, 它可能是单个节点或链路或很少的几个节点或链路。相应地,故障的 位置是断开的树的交集中的网络元件之一。
甚至可以进一步限定断开的元件的集合,因为管理系统还知道幸 免于故障的有效树的每个节点和链路也是正在工作中的。因此,如果 从断开的树的交集中减去作为任何工作中的树的部分的所有那些链 路和节点,可以获得较小集合的可能断开的元件。
一种进一步细化可以是在多个树生成期间,在每个边缘节点中, 除了树ID外,还存储从发射器到边缘节点的路径信息。当发生链路 或节点故障时,边缘节点发出带有树ID和路径信息的故障消息。因 此,能进一步将可能的故障缩减到树的一个路径或多个树的若干路 径。容错生成树是离线计算且在网络启动之前配置的,并在网络运行期间保持静态。可以在此配置阶段期间将至发射器的路径信息存储在 每个边缘节点中。检索路径信息的另一个可能性可以是,在网络中应
用正EE 802.1ag时,借助链路跟踪消息。
如图4所示,由边缘节点来处理故障,正如前一部分中概述的。 在步骤410中,边缘节点一直监视丟失的Alive消息。边缘节点知道 断开的和未受损的树拓朴,并且可以将业务定向到在网络中提供连接 性的可用树。如果存储了路径信息,边缘节点还将知道它到发射器的 路径。
因为边缘节点知道哪些逻辑拓朴断开,所以在步骤420中,它们 能够向网络管理(NM)通知断开的拓朴。如果还存储路径信息,则边缘 节点还向NM告知树的断开的路径。网络管理知道网络中的所有逻辑 拓朴,因为之前该网络已由网络管理配置。因此,可以基于此信息按 如下确定可能断开的网络元件
仅包含在所有断开的逻辑拓朴中的那些链路或节点可能断开。 参考图5,根据本发明的故障定位方法按如下方式工作 .在步骤510中,网络管理接收有关网络中配置的树拓朴的配置 的信息。
.在步骤520,监视网络中的连接性。
.在步骤530中,在发生故障事件的情况下,则向网络管理告知 被断开的树。可以从边缘节点接收此信息。如果路径信息也是可用的, 则还将有关发生故障或断开的路径的信息发送到网络管理。
.在步骤540中,确定所有受损树的共有网络元件。 此外,可从可能故障的元件集合中排除作为未受影响的树的部分 的那些元件。
而且,还可以将有关哪个边缘节点报告故障以及哪个边缘节点是 广播Alive消息的节点的信息纳入考虑广播者与故障l艮告者节点之 间的路径中受损树上的共有网络元件。如果应用点到点连接性监视, 例如CFM,则边缘节点报告哪些边缘节点对之间的路径断开对于故障定位也是有用的信息。如果有关断开的路径的路径信息也是可用的, 则还将其用于确定断开的元件。
由此,可以4企查识别为可能故障的网络元件。 下文示范网络中图示根据本发明的故障定位,图1中示出了该示
例网络的物理拓朴。该示范网络由四个内部节点SW1、 SW2、 SW3 和SW4、四个边缘节点EN1、 EN2、 EN3和EN4以及将这些节点互 连的九条链路组成。
参考图2,假定了基于多生成树的网络体系结构,如上文J. Farkas、 C. Antal、 G. Toth、 L. Westberg;上文J. Farkas、 C. Antal、 L. Westberg、 A. Paradisi、 T.R, Tronco、 V.G. Oliveira;以及上文J. Farkas、 A. Paradisi 和C. Antal中详细描述的。相应地确定树拓朴,以便处理单一故障, 如图2所示,图2图示基于本发明的逻辑拓朴的示例。在此示范网络 中,需要三个树(T1、 T2和T3)来处理所有可能的单一故障。该网络 及其元件与图1中的表示完全相同。
如果发生故障,则这些树的至少其中之一将阻断。
例如,如果边缘节点之一向网络管理告知,树T2阻断(以及4叚定 仅此树断开,即未接收到有关其它树的任何故障报告),则网络管理判 断仅树T2的元件可能处于故障状态EN1、 SW1、 EN2、 SW4、 EN4、 EN3以及其之间的相应链if各。
进一步消除树T2中也作为未受影响的树T1和T3的部分的那些 元件,可以将可能故障的元件的集合进一步限定于节点SW1与节点 SW4之间的链路和/或边缘节点EN2与节点SW1之间的链路。
应用边缘节点的故障处理方法(FHM)作用,可以甚至更精确地确 定故障的位置。如果边缘节点EN1广播Alive消息,而边缘节点EN2 报告故障,则结果是边缘节点EN2与节点SW1之间的链路阻断。
如果在网络中还实现路径信息并将其包含在故障消息中,则还可 以基于此信息来定位此故障。那么连同如下路径信息一起向管理系统 通知故障消息EN2-SW1-EN1。节点SW1、边缘节点EN1和这两个节点之间的链路也是树T1的部分,并且已知的是树T1是活(alive)的。 因此,结果是EN2或EN2与节点SW1之间的链路被断开。
使用相同的方法,结果是如果边缘节点EN3或边缘节点EN4报 告故障,则节点SW1与节点SW4之间的链路是断开的链路。
如果仅树T2幸免于故障,即棘T1和树T3都被断开,则产生较 为复杂的情况。在此情况中,节点SW2或节点SW3或边缘节点EN2 与节点SW3之间的链路可能被断开,但是识别造成该故障的具体网 络元件是不可能的。
最困难的场合可能在边缘节点EN2广播Alive消息时产生。如果 任何其他边缘节点广播Alive消息,则可以基于哪个(些)边缘节点报告 故障来定位故障的位置。尽管如此,如果边缘节点EN2广播Alive消 息,则易于找出何时节点SW2断开,因为在该情况中,边缘节点EN1 报告树T3的故障,而边缘节点EN3报告树Tl的故障。另一方面, 确定是节点SW3还是仅SW3与EN2之间的链路一皮断开是不可能的, 因为在此情况中,所有其他边缘节点报告树Tl和T3都发生故障,但 是网络管理可能检查节点SW3是否可用。即,在此情况中可能未发 现确切的网络元件,但是确定了故障的位置。
在此示例中,可以基于断开的树和故障的报告者(reporter)以及广 播边缘节点的信息来确定所有其他断开的网络元件。在更大网络中, 可以使用此方法将可能断开的网络元件的集合限定于几个。
所提出的方法基于边缘节点的故障处理方法(FHM)作用采取后 续步骤,并且结合它能提供快速恢复和故障检测的完整解决方案。它 不会对边缘节点的FHM作用引入额外开销,因此继承了诸如轻量级、 速度和效率等的全部优点。
所提出的方法简单,并且能够有效地应用于故障定位,其中使用 多个逻辑树拓朴来进行业务转发并且监视这些拓朴的可用性。因此, 所提出的方法可以容易地应用于仅提供基本特征的低成本体系结构 中。而且,所提出的方法还可以应用于由提供例如IEEE 802.1ag的增强特征的节点组成的网络中。
提案可带来的另一个可能的好处是由管理系统出于故障定位目 的而执行的计算能给出有关网络的链路使用和可能瓶颈的统计提示, 这对于网络资源分配和优化可能是非常有用的。
权利要求
1.一种定位网络中的故障的方法,所述网络包括配置为多个生成树的节点、链路和边缘节点,所述生成树是局部分离的;所述方法包括如下步骤-接收有关所述网络中的多个树拓扑的配置的信息;-监视所述网络中的连接性;-在检测到所述网络中连接性的丢失时,识别发生故障的树;以及-确定所述发生故障的树所共有的网络元件。
2. 根据权利要求1所述的方法,还包括确定和排除作为未发生故 障的树的部分的网络元件。
3. 根据前面权利要求中任一项所述的方法,还包括检查其余的网 络元件以查找^:障的步骤。
4. 根据前面权利要求中任一项所述的方法,其中监视所述网络中 的连接性的步骤还包括监视一个或多个树中连接性丟失的通知。
5. 根据权利要求4所述的方法,其中所述通知包括所述发生故障 的树的标识。
6. 根据权利要求5所述的方法,其中所述通知还包括从广播边缘 节点到故障l艮告边缘节点的路径信息。
7. 根据权利要求5所述的方法,其中应用点到点连接性监视,并 且所述通知还包括有关哪些点到点连接已发生故障的信息。
8. 根据权利要求5所述的方法,其中通过链路跟踪消息来检索路 径信息。
9. 一种通知网络中连^t妄性丟失的方法,所述网络包括设置为多个生成树的节点、链路和边缘节点,所述 生成树是局部分离的,所述网络还包括用于网络管理的部件,所述方法包括如下步骤-监视边缘节点广播的Alive消息;-在;f全测到丟失的Alive消息时,向网络管理通知连^^性的丢失。
10. 根据权利要求9所述的方法,其中通知网络管理的步骤包括 发送所述发生故障的树的标识。
11. 根据权利要求9所述的方法,其中所述通知还包括有关从广 播边缘节点到故障报告边缘节点的路径的信息。
12. 根据权利要求9至11中任一项所述的方法,其中在检测到树 中连接性的丟失时,边缘节点将业务重定向到未受连接性丟失影响的 树。
13. 调适成根据权利要求1至8中任一项工作的网络管理。
14. 根据权利要求13所述的网络管理,其中所述网络管理包括服 务器。
15. 调适成根据权利要求9至12中任一项工作的边缘节点。
全文摘要
公开了一种定位网络中的故障的方法。该网络包括设置为多个生成树(T1、T2、T3)的节点(SW1、…、SW4)、链路和边缘节点(EN1、…、EN4),这些生成树是局部分离的。该网络还包括用于网络管理的部件。该方法包括接收有关网络中的多个树拓扑的配置的信息;监视网络中的连接性;当检测到网络中连接性的丢失时,识别发生故障的树,并确定发生故障的树所共有的网络元件的步骤。
文档编号H04L12/24GK101601228SQ200780050891
公开日2009年12月9日 申请日期2007年2月8日 优先权日2007年2月8日
发明者J·法卡斯, 炜 赵 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1