一种分布式网络设备转发故障诊断方法及设备的制作方法

文档序号:7855227
专利名称:一种分布式网络设备转发故障诊断方法及设备的制作方法
技术领域
本发明涉及通信领域,尤其涉及一种分布式网络设备转发故障诊断方法及设备。
背景技术
当前网络设备虚拟化技术发展异常迅速,通过网络设备虚拟化技术可以将多个交换设备互联在一起,形成分布式交换架构,并作为一个逻辑交换实体运行。如图I所示,一种典型的分布式网络设备,一般由主控板、线卡板、交换网和背板等单板组成,数据报文在进入到网络设备之后,需要经 过多个单板和网络器件的转发,才能正确的转发出去。在实际的用户网络中,流量模型非常复杂,因此在分布式网络设备内部,流量的走向路径纵横交错,形成一个密集的网状数据流模型。由于在分布式网络设备中硬件器件众多、流量模型复杂,那么当设备中某些硬件器件存在故障时,就会影响到整个设备的转发业务,如何能够快速排查出故障所在,缩小故障范围,快速确认故障点,对于快速修复故障具有非常重要的意义。目前常用的硬件故障诊断机制,是通过定期检测硬件器件的相关寄存器,查看是否存在异常信息,如果存在,对此硬件故障进行处理,然后修复故障。可以看出,对于分布式网络设备,当前的故障诊断依赖于硬件器件是否有异常的信息作为判断依据。

发明内容
本发明实施例提供了一种分布式网络设备转发故障诊断方法及设备,用以对分布式网络设备中发生转发故障的路径上的硬件单元进行故障定位。本发明实施例提供的分布式网络设备转发故障诊断方法,包括分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径;分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增;其中,转发路径上的转发故障分析点是对该转发路径所经过的硬件单元划分得到的,每个转发故障分析点对应设置有计数器;根据各转发故障分析点对应的计数器计数值,定位转发故障位置。本发明实施例提供的分布式网络设备,包括路径检测模块,用于分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径;计数处理模块,用于分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增;其中,转发路径上的转发故障分析点是对该转发路径所经过的硬件单元划分得到的,每个转发故障分析点对应设置有计数器;故障定位模块,用于根据各转发故障分析点对应的计数器计数值,定位转发故障位置。
本发明的上述实施例,通过对转发路径上的硬件单元进行划分,划分出可用于定位故障的转发故障分析点,从而借助于对转发故障分析点的计数统计和分析,定位转发路径上的故障位置。由于无需借助于硬件器件的相关寄存器中的异常信息进行故障定位,从而避免了因需要借助于硬件器件的相关寄存器中的异常信息进行故障定位所带来的问题。


图I为现有技术中一种典型的分布式网络设备示意图;图2为本发明实施例中的故障分析点与实际硬件单元的对应关系示意图;图3为本发明实施例提供的对分布式网络设 备进行转发故障诊断的流程示意图;图4为本发明实施例中转发路径检测模型中的转发路径示意图;图5为本发明实施例中转发路径检测模型中的环回路径示意图;图6为本发明实施例中转发路径发生故障的示意图;图7为本发明实施例提供的分布式网络设备的结构示意图。
具体实施例方式本发明实施例针对分布式网络设备,提供了一种转发故障诊断方案,通过收集各种数据流转发异常信息,并结合故障分析算法,实现分布式网络设备上转发故障的快速诊断。下面结合附图对本发明实施例进行详细描述。本发明实施例中,首先针对分布式网络设备内部结构划分转发故障分析点。所谓转发故障分析点,即数据转发路径上不可分割的最小硬件单元,比如一颗独立封装的芯片。划分转发故障分析点的基本原则可包括原则一将数据转发流程中所需要的硬件器件(即数据转发路径上所需要经过的硬件器件)作为转发故障分析点,不参与数据转发的硬件器件不作为转发故障分析点。原则二 在原则一的基础上,将逻辑上不可再分割的最小硬件单元作为转发故障分析点,其中,最小硬件单元是指不能够再进一步进行细分的硬件单元。这样做的主要目的是为了快速精确定位转发故障。原则三在原则一或/和原则二的基础上,转发故障分析点要能够有明确对应的故障修复和处理方式。所有转发路径上的硬件器件均按照上面的原则分解为各个转发故障分析点,例如入端口可以作为一个故障分析点,出端口可以作为一个故障分析点,而在设备内部经过的多个交换网也可以分别独立的作为故障分析点。图2示出了一种故障分析点与实际硬件单元的对应关系示意图。在确定各转发路径上的转发故障分析点之后,进一步对应各转发故障分析点设置对应的计数器,初始时可将各计数器清零。本发明实施例在上述转发故障分析点划分的基础上,结合转发路径的检测模型进行转发故障检测。通常,基于转发路径的检测模型进行故障检测是指,在分布式网络设备上,模拟用户流量的转发模型,从一个入端口按照内部固定的转发路径,发送检测报文到一个出端口,如果某个出端口没有收到报文,则可以认定该检测报文所经过的转发路径上存在故障,常见的故障类型包括转发路径形式的转发故障(即入端口不等于出端口,其转发路径覆盖了从入设备开始一直到出设备,整个在分布式网络设备内部转发的全路径),以及环回路径形式的转发故障(即入端口等于出端口)。本发明实施例基于各转发路径上的转发故障分析点,对各转发路径分别进行如下格式整理按照从入端口到出端口(或反向)顺序,并按照一定格式,用相应转发故障分析点来描述对应的转发路径,例如,对于某一从入端口到出端口方向经历了转发故障分析点I、转发故障分析点2......转发故障分析点n的转发路径,可整理成以下数据格式转发故障分析点I- >转发故障分析点2- >......-> 转发故障分析点n对于从转发故障分析点I进入再从该点流出的环回路径,可整理成如下格式数据转发故障分析点1_>......- >转发故障分析点11->转发故障分析点
n- >......- >转发故障分析点I。其中,对于环回路径,由于其上有些器件经过了两次,因此需要对相应的转发故障分析点重复记录。参见图3,为本发明实施例提供的,在上述转发故障分析点划分的基础上,结合转发路径的检测模型,对分布式网络设备进行转发故障诊断的流程示意图。如图所示,该流程可包括步骤301,对分布式网络设备中的各条转发路径进行检测,以发现存在转发故障的路径。具体实施时,可根据分布式网络设备中的转发路径检测模型中的各条转发路径,针对其中的每条转发路径发送用于检测相应转发路径的检测报文,以检测相应转发路径是否存在转发故障。如果对于给定的检测报文(所谓给定的检测报文,其入端口、出端口和所经过的转发故障分析点都是预先规定的),若没有从期望的出端口接收到该检测报文,则认为该检测报文所检测的转发路径发生故障。步骤302,分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将该转发故障分析点所对应的计数器计数值递增。具体实施时,可根据整理后的数据格式(即前述用转发故障分析点所描述的转发路径),遍历发生故障的各转发路径,当遍历到转发路径上的转发故障分析点时,将对应的计数器计数值加I。步骤303,根据转发路径上各故障分析点对应的计数器计数值,确定出可能发生故障的转发故障分析点(以下将可能发生故障的转发故障分析点称为故障点),从而进行故障定位。具体实施时,遍历完所有发生故障的转发路径后,将计数值最大的计数器所对应的转发故障分析点,认为是可能发生故障的位置,即,定位该转发故障分析点所对应的硬件单元为发生故障的硬件单元。由于转发故障分析点是不可在分割的最小硬件单元,因此如果有转发故障分析点所对应的硬件单元发生故障,则经过该转发故障分析点的转发路径都不通,所有不通的转发路径都经过该转发故障分析点。基于上述分析,当根据转发路径上各转发故障分析点对应的计数器计数值,确定出故障点后,还可进一歩确认是否将该故障点最終定位为故障点,具体确认方法是对于待进ー步确认是否是故障点的转发故障分析点N,遍历所有发生故障的转发路径,确认这些转发路径是否都经过转发故障分析点N ;遍历所有经过转发故障分析点N的转发路径,是否这些转发路径都发生故障。若上述两个判断的结果均为是,则确认转发故障分析点N为故障点,否则不认为转发故障分析点N为故障点。进ー步的,步骤303定位出故障位置之后,还可包括以下步骤步骤304,根据定位出的故障点所对应的硬件単元,对该硬件单元进行故障恢复。在本发明的另ー实施例中,可设置检测周期,分布 式网络设备可按照检测周期进行转发路径故障检测及定位。步骤501中,可在一个检测周期内,根据分布式网络设备中各条转发路径,针对其中的每条转发路径发送用于检测相应转发路径的检测报文,以检测当前检测周期内,相应转发路径是否存在转发故障。在步骤303中,如果计数值最大的转发故障分析点有多个,则可进ー步根据前ー个或若干个检测周期内所定位出的故障点,对当前检测周期内所定位出的可能发生故障的故障分析点进行确认或排除。比如,针对当前检测周期内所定位出的可能发生故障的转发故障分析点,若前ー检测周期也定位出该转发故障分析点为故障点,则将该转发故障分析点确认为本检测周期内的故障点;若前ー检测周期未定位出该转发故障分析点为故障点,则不认为该转发故障分析点为本检测周期内的故障点。为了更清楚的说明本发明实施例,下面结合图4所示的分布式网络设备进行详细说明。图4示出了ー种分布式网络设备内部结构示意图,其中包含4个包处理芯片和2个交换网,该4个包处理芯片和2个交换网均被划分为转发故障分析点。任意两个包处理芯片之间,通过不同的交换网都要可以无阻塞转发,如图4所示,这样的双向转发路径总共有12条,相应的,表I示出了描述其中4条转发路径的数据结构。表I
转发路後转发故障 I转发故障I转发故障 分析点I分析点2 分析点3
I包处理芯片I —~交换网I 包处理芯片2图5示出了两条环回路径,相应的,表2示出了描述这两条环回路径的数据结构。对于环回路径,由于其上有些器件经过了两次,因此需要对相应的转发故障分析点重复记求。表 权利要求
1.一种分布式网络设备转发故障诊断方法,其特征在于,该方法包括 分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径; 分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增;其中,转发路径上的转发故障分析点是对该转发路径所经过的硬件单元划分得到的,每个转发故障分析点对应设置有计数器; 根据各转发故障分析点对应的计数器计数值,定位转发故障位置。
2.如权利要求I所述的方法,其特征在于,所述根据各转发故障分析点对应的计数器计数值,定位转发故障位置,具体包括 统计各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析占. 将计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
3.如权利要求I所述的方法,其特征在于,所述根据各转发故障分析点对应的计数器计数值,定位转发故障位置,具体包括 统计各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析占. 通过遍历所有发生故障的转发路径,判断所有发生故障的转发路径是否都经过所述计数器计数值最大的转发故障分析点,通过遍历所有转发路径,判断所有经过所述计数器计数值最大的转发故障分析点的转发路径是否都发生转发故障; 若所有发生故障的转发路径都经过所述计数器计数值最大的转发故障分析点,并且所有经过所述计数器计数值最大的转发故障分析点的转发路径都发生转发故障,则将所述计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
4.如权利要求I所述的方法,其特征在于,所述分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径,分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增,以及根据各转发故障分析点对应的计数器计数值,定位转发故障位置的步骤,按照设定的检测周期执行; 所述根据各转发故障分析点对应的计数器计数值,定位转发故障位置,具体包括统计当前检测周期内各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析点;若当前检测周期内统计得到的计数器计数值最大的转发故障分析点有多个,则判断当前检测周期内的所述计数器计数值最大的转发故障分析点所对应的硬件单元,在之前的检测周期内是否被定位为转发故障位置,并在判断为是时,将当前检测周期内的所述计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
5.如权利要求1-4之一所述的方法,其特征在于,对转发路径所经过的硬件单元划分得到转发故障分析点的原则,包括 将转发路径上所经过的最小硬件单元作为转发故障分析点;其中,最小硬件单元是指不能够再进一步进行细分的硬件单元,且具有对应的故障修复或处理方式。
6.—种分布式网络设备,其特征在于,包括 路径检测模块,用于分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径; 计数处理模块,用于分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增;其中,转发路径上的转发故障分析点是对该转发路径所经过的硬件单元划分得到的,每个转发故障分析点对应设置有计数器; 故障定位模块,用于根据各转发故障分析点对应的计数器计数值,定位转发故障位置。
7.如权利要求6所述的分布式网络设备,其特征在于,所述故障定位模块具体用于,统计各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析点,将计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
8.如权利要求6所述的分布式网络设备,其特征在于,所述故障定位模块具体用于 统计各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析占. 通过遍历所有发生故障的转发路径,判断所有发生故障的转发路径是否都经过所述计数器计数值最大的转发故障分析点,通过遍历所有转发路径,判断所有经过所述计数器计数值最大的转发故障分析点的转发路径是否都发生转发故障; 若所有发生故障的转发路径都经过所述计数器计数值最大的转发故障分析点,并且所有经过所述计数器计数值最大的转发故障分析点的转发路径都发生转发故障,则将所述计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
9.如权利要求6所述的分布式网络设备,其特征在于,所述路径检测模块、计数处理模块和故障定位模块的处理操作是按照设定的检测周期执行的; 所述故障定位模块具体用于,统计当前检测周期内各转发故障分析点对应的计数器数值,得到计数器计数值最大的转发故障分析点;若当前检测周期内统计得到的计数器计数值最大的转发故障分析点有多个,则判断当前检测周期内的所述计数器计数值最大的转发故障分析点所对应的硬件单元,在之前的检测周期内是否被定位为转发故障位置,并在判断为是时,将当前检测周期内的所述计数器计数值最大的转发故障分析点所对应的硬件单元定位为转发故障位置。
10.如权利要求6-9之一所述的分布式网络设备,其特征在于,对转发路径所经过的硬件单元划分得到转发故障分析点的原则,包括 将转发路径上所经过的最小硬件单元作为转发故障分析点;其中,最小硬件单元是指不能够再进一步进行细分的硬件单元,且具有对应的故障修复或处理方式。
全文摘要
本发明公开了一种分布式网络设备转发故障诊断方法及设备。本发明中,分别对分布式网络设备的各条转发路径进行检测,以检测发生故障的转发路径;分别遍历发生故障的各转发路径,并当遍历到转发路径上的一个转发故障分析点时,将对应的计数器计数值递增;其中,转发路径上的转发故障分析点是对该转发路径所经过的硬件单元划分得到的,每个转发故障分析点对应设置有计数器;根据各转发故障分析点对应的计数器计数值,定位转发故障位置。采用本发明可对分布式网络设备中发生转发故障的路径上的硬件单元进行故障定位。
文档编号H04L12/26GK102769539SQ20121022905
公开日2012年11月7日 申请日期2012年7月4日 优先权日2012年7月4日
发明者王 锋 申请人:杭州华三通信技术有限公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1