检测网络性能问题并定位故障节点的方法

文档序号:7814015阅读:1698来源:国知局
检测网络性能问题并定位故障节点的方法
【专利摘要】本发明揭示了一种检测网络性能问题并定位故障节点的方法,包括如下步骤:建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系;通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获;对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr=B/A,然后记录各终端IP地址同Nr的对应关系;计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb;根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标,若超标则提示该网络节点或其下游节点存在性能故障;若网络拓扑遍历结束,则结束。本发明方法可快速、精确地找出下属问题终端占比超标的故障节点。
【专利说明】检测网络性能问题并定位故障节点的方法

【技术领域】
[0001]本发明属于网络性能故障检测【技术领域】,涉及一种定位网络故障节点的方法,尤其涉及一种检测网络性能问题并定位故障节点的方法。

【背景技术】
[0002]传统的网络故障节点检测方法主要包括以下三大类:
[0003]第一类是采用基于SNMP协议的网管系统来进行网络拓扑的管理和维护。这种网管系统一般只能检测出比较严重的网络故障(例如:网络设备宕机、端口损坏或链路中断),却很难发现网络设备或链路中存在的性能问题(如丢包率严重)。随着三网融合的推进,视频类流媒体业务得以快速发展,而这些高带宽业务对网络性能的要求也越来越高,当网络节点出现性能问题导致丢包严重时,就会明显影响视频业务的用户体验质量(如出现马赛克或卡顿等现象)。因此,传统的网络管理系统已无法满足对视频业务质量的保障和维护需求。
[0004]第二类是采用基于Ping命令的丢包率测试和基于Traceroute命令的逐段网络故障节点排查方法。这种方法虽然比较简单方便,但却主要适用于响应式的故障投诉处理,即维护人员只有在接到用户投诉后,才能开始有针对性地该用户访问的网络资源和相关路径上的设备进行故障排查。这种方法的缺点是无法实现预防性网络维护,即无法主动发现网络中存在的性能问题。
[0005]第三类是采用基于分布式探针的端到端监测系统来进行业务质量保障和网络故障节点定位。为了定位具体的网络故障节点位置,这种系统往往要求在网络的各中间节点都部署探针,通过对各探针所监测的网络丢包率进行关联比较分析,来定位造成丢包的具体网络节点位置。这种方法的缺点是监测系统部署成本过高,要实现探针的全网覆盖几乎是不可能的。
[0006]有鉴于此,如今迫切需要设计一种新的故障节点定位方法,以便克服现有方法的上述缺陷。
[0007]目前宽带用户使用的主流互联网应用均采用HTTP/TCP协议栈。由于TCP协议具有差错恢复机制,当IP网络存在性能问题而产生丢包时,用户终端设备就会请求服务器对所丢失的数据包进行重传。
[0008]图1是一个由于DSLAM设备性能问题导致网络丢包,并通过TCP重传机制进行了丢包恢复的示例。从该示例中我们可以看到在网络的核心层和汇聚层并未出现任何IP丢包,但由于接入层的DSLAM设备出现性能问题导致2个IP丢包,从而引起TCP重传,因此在业务平台出口、核心路由器、汇聚交换机等监测点可以检测到2个TCP重复包。图1中,假设在网络传输中序号为101和501的TCP包丢失,TCP重传机制实现了丢包恢复。
[0009]在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号和内容的TCP包,则后面出现的TCP包会被统计为TCP重复包。TCP重复包率是指TCP重复包个数与所有TCP数据包个数的比例。
[0010]以下是一个典型的IP城域网拓扑结构,业务平台服务器一般会部署在城域网的核心路由器或BAS设备上,宽带用户终端通过TCP/IP协议,经由宽带接入网(DSLAM或OLT设备)、BAS设备和核心路由器访问业务平台。当终端和业务平台之间的传输路径中的某个网络节点出现故障时,往往会导致IP丢包;由于TCP的重传机制会对丢包进行恢复,因此受故障节点影响的终端访问业务平台的TCP重传会增加,相应的在业务平台出口监测点统计的受影响终端的TCP重复包率也会明显上升。
[0011]在图2所示故障案例中,DSLAM-111出现故障,导致其下挂终端访问业务平台时均会IP丢包和TCP重传上升的情况。DSLAM-111下属问题终端的比例为100%,相应的其上游节点所下属的问题终端比例分别为DSLAM汇聚交换机-1I (33.3% ) ,BASl (20% ) 0此夕卜,0LT-22出现故障,导致其下属问题终端的比例为100%,相应的其上游节点BAS2所下属的问题终端比例为33.3%。综合起来,在业务平台和核心路由器的下属问题终端比例为
12.5%。


【发明内容】

[0012]本发明所要解决的技术问题是:提供一种检测网络性能问题并定位故障节点的方法,可快速、精确地找出导致终端业务质量下降的故障网络节点。
[0013]为解决上述技术问题,本发明采用如下技术方案:
[0014]一种检测网络性能问题并定位故障节点的方法,所述方法包括如下步骤:
[0015]步骤S1、建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系;
[0016]步骤S2、通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获;
[0017]步骤S3、对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系;
[0018]TCP重复包统计规则:在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号的TCP包,则后面出现的TCP包被统计为TCP重复包;
[0019]步骤S4、计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb ;
[0020]所述问题终端是指其TCP重复包率Nr大于设定门限值Tr的终端;
[0021]问题终端占比的当前值Pc =当前采样周期的问题终端数/当前采样周期的总终端数;
[0022]问题终端占比的历史基准值Pb =所有历史采样周期的问题终端数/所有历史采样周期的总终端数;
[0023]步骤S5、根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标:
[0024]若Pc > = Tp,则判断该网络节点存在性能故障,其中Tp为故障网络节点所属问题终端占比的门限值;
[0025]若Pc > = R*Pb并且Pc < Tp,则判断该网络节点的下游节点存在性能故障,其中R为网络性能劣化系数;
[0026]若Pc < R*Pb,则判断该网络节点运行正常;
[0027]步骤S6、若网络拓扑遍历结束,则结束。
[0028]作为本发明的一种优选方案,步骤S4中,Tr的缺省值为10%。
[0029]作为本发明的一种优选方案,步骤S5中,门限值Tp的缺省值为50%。
[0030]作为本发明的一种优选方案,步骤S5中,网络性能劣化系数R的缺省值为1.5。
[0031]一种检测网络性能问题并定位故障节点的方法,所述方法包括如下步骤:
[0032]步骤S1、建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系;
[0033]步骤S2、通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获;
[0034]步骤S3、对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系;
[0035]步骤S4、计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb ;
[0036]步骤S5、根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标;
[0037]步骤S6、若网络拓扑遍历结束,则结束。
[0038]作为本发明的一种优选方案,步骤S3中,TCP重复包统计规则为:在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号的TCP包,则后面出现的TCP包被统计为TCP重复包。
[0039]作为本发明的一种优选方案,步骤S4中,所述问题终端是指其TCP重复包率Nr大于设定门限值Tr的终端;
[0040]问题终端占比的当前值Pc =当前采样周期的问题终端数/当前采样周期的总终端数;
[0041]问题终端占比的历史基准值Pb=所有历史采样周期的问题终端数/所有历史采样周期的总终端数。
[0042]作为本发明的一种优选方案,步骤S5中,若Pc >= Tp,则判断该网络节点存在性能故障,其中Tp为故障网络节点所属问题终端占比的门限值;
[0043]若Pc > = R*Pb并且Pc < Tp,则判断该网络节点的下游节点存在性能故障,其中R为网络性能劣化系数;
[0044]若Pc < R*Pb,则判断该网络节点运行正常。
[0045]本发明的有益效果在于:本发明提出的检测网络性能问题并定位故障节点的方法,在IP城域网核心层的业务平台出口链路监测所有终端访问业务平台数据流,通过统计每个终端的TCP重复包率,评测出各终端业务质量受网络丢包影响的程度;根据终端IP地址和各网络节点的附属关系,计算出各网络节点下属问题终端的比例,进而能快速、精确地找出导致终端业务质量下降的故障网络节点。

【专利附图】

【附图说明】
[0046]图1为通过TCP重传机制进行了丢包恢复的示意图。
[0047]图2为某网络故障案例的示意图。
[0048]图3为本发明检测网络性能问题并定位故障节点方法的流程图。

【具体实施方式】
[0049]下面结合附图详细说明本发明的优选实施例。
[0050]实施例一
[0051]请参阅图3,本发明揭示了检测网络性能问题并定位故障节点的方法,所述方法包括如下步骤:
[0052]【步骤SI】建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系。
[0053]【步骤S2】通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获。
[0054]【步骤S3】对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数(A)和TCP重复包数(B),并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系。
[0055]TCP重复包统计规则:在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号的TCP包,则后面出现的TCP包被统计为TCP重复包。
[0056]【步骤S4】计算各网络节点所属问题终端占比的当前值(Pc)和历史基准值(Pb)。
[0057]所谓问题终端是指其TCP重复包率(Nr)大于设定门限值(Tr)的终端,Tr的缺省值为10% ;
[0058]问题终端占比的当前值(Pc)=(当前采样周期的问题终端数)/(当前采样周期的总终端数);
[0059]问题终端占比的历史基准值(Pb)=(所有历史采样周期的问题终端数)/(所有历史采样周期的总终端数)。
[0060]【步骤S5】根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比(Pc)是否超标:
[0061]若Pc > = Tp,则判断该网络节点存在性能故障,其中Tp为故障网络节点所属问题终端占比的门限值(如缺省值可以设定为50% );
[0062]若Pc > = R*Pb并且Pc < Tp,则判断该网络节点的下游节点存在性能故障,其中R为网络性能劣化系数(如缺省值可以设定为1.5);
[0063]若Pc < R*Pb,则判断该网络节点运行正常。
[0064]【步骤S6】若网络拓扑遍历结束,则结束。
[0065]实施例二
[0066]本实施例中,本发明检测网络性能问题并定位故障节点的方法包括如下步骤:
[0067]步骤S1、建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系;
[0068]步骤S2、通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获;
[0069]步骤S3、对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系;
[0070]步骤S4、计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb ;
[0071]步骤S5、根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标;
[0072]步骤S6、若网络拓扑遍历结束,则结束。
[0073]综上所述,本发明提出的检测网络性能问题并定位故障节点的方法,在IP城域网核心层的业务平台出口链路监测所有终端访问业务平台数据流,通过统计每个终端的TCP重复包率,评测出各终端业务质量受网络丢包影响的程度;根据终端IP地址和各网络节点的附属关系,计算出各网络节点下属问题终端的比例,进而能快速、精确地找出导致终端业务质量下降的故障网络节点。
[0074]这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
【权利要求】
1.一种检测网络性能问题并定位故障节点的方法,其特征在于,所述方法包括如下步骤: 步骤S1、建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系; 步骤S2、通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获; 步骤S3、对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系; TCP重复包统计规则:在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号的TCP包,则后面出现的TCP包被统计为TCP重复包; 步骤S4、计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb ; 所述问题终端是指其TCP重复包率Nr大于设定门限值Tr的终端; 问题终端占比的当前值Pc =当前采样周期的问题终端数/当前采样周期的总终端数; 问题终端占比的历史基准值Pb =所有历史采样周期的问题终端数/所有历史采样周期的总终端数; 步骤S5、根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标: 若Pc > = Tp,则判断该网络节点存在性能故障,其中Tp为故障网络节点所属问题终端占比的门限值; 若Pc >= R*Pb并且Pc < Tp,则判断该网络节点的下游节点存在性能故障,其中R为网络性能劣化系数; 若Pc < R*Pb,则判断该网络节点运行正常; 步骤S6、若网络拓扑遍历结束,则结束。
2.根据权利要求1所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S4中,Tr的缺省值为10%。
3.根据权利要求1所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S5中,门限值Tp的缺省值为50 %。
4.根据权利要求1所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S5中,网络性能劣化系数R的缺省值为1.5。
5.一种检测网络性能问题并定位故障节点的方法,其特征在于,所述方法包括如下步骤: 步骤S1、建立IP城域网拓扑结构,包括网络节点之间的层级关系以及各网络节点和其所属终端IP地址池的对应关系; 步骤S2、通过采集设备在IP城域网核心层的业务平台出口对所有终端访问业务平台的IP数据包进行捕获; 步骤S3、对每个终端的TCP数据流进行跟踪,统计各终端的TCP包总数A和TCP重复包数B,并计算TCP重复包率Nr = B/A,然后记录各终端IP地址同Nr的对应关系; 步骤S4、计算各网络节点所属问题终端占比的当前值Pc和历史基准值Pb ; 步骤S5、根据城域网的拓扑结构,自上而下地遍历检测各网络节点的当前问题终端占比Pc是否超标; 步骤S6、若网络拓扑遍历结束,则结束。
6.根据权利要求5所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S3中,TCP重复包统计规则为:在一定时间段内,如果在同一个TCP流中出现两个或多个相同序列号的TCP包,则后面出现的TCP包被统计为TCP重复包。
7.根据权利要求5所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S4中,所述问题终端是指其TCP重复包率Nr大于设定门限值Tr的终端; 问题终端占比的当前值Pc =当前采样周期的问题终端数/当前采样周期的总终端数; 问题终端占比的历史基准值Pb =所有历史采样周期的问题终端数/所有历史采样周期的总终端数。
8.根据权利要求5所述的检测网络性能问题并定位故障节点的方法,其特征在于: 步骤S5中,若Pc > = Tp,则判断该网络节点存在性能故障,其中Tp为故障网络节点所属问题终端占比的门限值; 若Pc >= R*Pb并且Pc < Tp,则判断该网络节点的下游节点存在性能故障,其中R为网络性能劣化系数; 若Pc < R*Pb,则判断该网络节点运行正常。
【文档编号】H04L12/26GK104202196SQ201410460868
【公开日】2014年12月10日 申请日期:2014年9月11日 优先权日:2014年9月11日
【发明者】吴雪波 申请人:德科仕通信(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1