一种局域网故障定位系统的制作方法

文档序号:19495475发布日期:2019-12-24 14:52阅读:214来源:国知局
一种局域网故障定位系统的制作方法

本发明涉及网络故障定位领域,具体涉及一种局域网故障定位系统。



背景技术:

局域网运行过程中会发生各种故障影响到网络的正常工作,故障原因分为以下几类:

1)网络设备(集线器、交换机、路由器等)故障;

2)网络线路故障(线路损坏);

3)网络配置错误(如环路造成广播风暴,用户终端的网络参数配置错误);

4)网络恶意攻击(如网络黑客对用户终端或网络设备配置的恶意修改、操控终端产生大量流量阻塞网络通路等)。

以上情况会造成包括用户终端无法上网、网速异常受限等故障。

针对这些局域网故障,传统解决方案包括:

(1)局域网故障管理软件通过snmp等标准网络管理协议进行故障定位。通过snmp等管理协议从用户终端或网络设备中读取网络运行相关数据,通过网络流量等信息确定网络中流量异常的具体位置,从而找到出问题的网络设备或用户终端,从而进一步检查这个(这些)定位到设备或终端的具体情况,找到问题原因,进而排除问题。

(2)手工方式定位故障。网络管理人员进入局域网机房手工插/拔网络设备上的网线,在这个过程中通过在保障的用户终端位置处通过ping等网络工具检查与公网的通、断情况,从而确定插/拔哪些网线可以解决问题,进而定位到可能的故障原因(如网络打环)。

现在的两类故障定位方法均有明显的缺点:

通过snmp等标准网络管理协议进行故障定位:

首先,目前局域网中存在大量低成本网络设备不支持网络管理协议,无法通过管理协议从网络设备中读取到网络流量等网络运行相关信息,因此也就无法继续执行故障定位算法。

其次,有一些类型的局域网故障将会阻碍通过网络管理协议采集信息,例如广播风暴将使得同一个广播域内网络通路被广播报文拥塞,无法正常网络管理协议;又例如网络黑客使用arp欺骗技术,也将妨碍向正确的网络设备发送网络管理协议报文。

以上原因在很大程度上限制了这种故障定位方法的运用场景。

手工插/拔网线定位故障:

这类方法只适用于有限的故障类型,例如因网络设备网口故障导致的断网/流量受限,或者是网线故障或打环造成的网络故障。对于网络设备配置错误、黑客恶意攻击造成的故障无能为力。

此外,这类手工操作的方法效率很低。告障用户终端的位置往往和机房不在一处,在机房插/拔网线的同时需要告障用户终端上同步执行网络检测命令予以配合,在实际操作中往往非常困难,造成故障定位工作效率低下。

因此,有待对现有的局域网故障定位进行进一步的改进,以解决以下问题:

(1)不提供网络管理协议功能的低端网络设备造成的无法定位故障的问题。

(2)全类原因导致的网络故障难以定位的问题。

(3)在需要手工插/拔网线定位故障的情形下,故障定位工作效率不高的问题。



技术实现要素:

为了解决上述技术问题,本发明的提供一种高效并准确的局域网故障定位系统。

为实现上述目的,本发明采取的技术方案如下:一种局域网故障定位系统,包括局域网拓扑数据库、网络异常行为数据库、网络异常定位算法模块、拓扑管理模块、snmp协议模块以及带外故障定位服务器侧模块;

所述snmp协议模块以及网络异常行为数据库通过ip通信通路ip通信通路连接主机故障定位模块;所述snmp协议模块、拓扑管理模块以及局域网拓扑数据库依次ip通信通路连接;所述局域网拓扑数据库、网络异常行为数据库以及带外故障定位服务器侧模块分别与网络异常定位算法模块ip通信通路连接;所述带外故障定位服务器侧模块通过带外通道连接带外故障定位用户侧模块其中:

所述局域网拓扑数据库用于从支持标准管理协议的网络设备和终端中获取网络拓扑及设备/资产的信息,同时提供现场排障终端的功能,以实现对不支持管理协议的低端网络设备和拓扑管理;

所述网络异常行为数据库用于存储局域网内异常行为模式;

所述拓扑管理模块通过自动拓扑发现算法自动发现局域网罗拓扑,配合手工调整拓扑结构的功能,用于在各类不同能力的网络设备组成的网络中正常的拓扑管理;

所述snmp协议模块通过snmp协议向局域网络中的网络设备及主机发送snmp协议报文,接收相应报文并解析,将相关信息通知网络异常定位算法模块;

所述带外故障定位服务器侧模块通过带外通道向带外故障定位用户侧模块客户端发送指令,完成手工方式网络故障定位流程;

带外故障定位用户侧模块,该模块接收来自带外故障定位服务器侧模块的指令,向现场人员显示手工操作的具体指令,在现场人员完成指令要求的动作后,向带外故障定位服务器侧模块发送确认信息,带外故障定位服务器侧模块进行后续的定位流程处理;

所述主机故障定位模块,运行于网络中的用户终端上,采集网络配置相关信息发送到snmp协议模块和/或网络异常行为数据库模块用以定位配置错误导致的网络故障;并在定位网络异常定位算法模块的指令下,完成特定的网络测试动作,并将结果给网络异常定位算法模块;

所述网络异常定位算法模块用于综合采集局域网拓扑数据库中的网络拓扑结构信息、接收snmp协议模块从网络设备和主机处获取到的实时运行状态信息以及带外故障定位用户侧模块通过带外故障检测流程获取的故障定位信息,运行综合故障定位算法,从网络异常行为数据库读入典型网络异常行为模式,与在局域网内通过各主机故障定位模块采集到的用户终端配置情况进行比对,确定导致局域网故障的用户终端的配置问题。

优选地,所述网络异常定位算法模块运行综合故障定位算法的故障定位步骤如下:

s1:获取用户输入的待定位故障的ip/mac范围信息;

s2:根据获取的ip/mac故障范围信息确定故障设备,对确定的故障设备按照顺序依次经过以下检测:

s2-1:检测范围内设备的直连wan口的状态,若没有故障问题则跳转到步骤s2-2,若有故障问题则跳转到步骤s3-1同时执行步骤s2-2;

s2-2:检测故障设备的对端路由器状态,若没有故障问题则跳转到步骤s2-3,若有故障问题则跳转到步骤s3-1,同时执行步骤s2-3;

s2-3:检测dns运行状态,若没有故障问题则跳转到步骤s2-4,若有故障问题则跳转到步骤s3-2,同时执行步骤s2-4;

s2-4:检测主机是否流量超限,若没有流量超限则跳转到步骤s2-5,若主机流量超限则跳转到步骤s3-8,同时执行步骤s2-5;

s2-5:检测是否存在ip地址冲突问题,若没有ip地址冲突问题则跳转到步骤s2-6,若存在ip地址冲突问题则跳转到步骤s3-3,同时执行步骤s2-6;

s2-6:检测是否存在单机失连问题,若没有单机失连问题则跳转到步骤s2-7,若存在单机失连问题则跳转到步骤s3-4,同时执行步骤s2-7;

s2-7:检测是否存在大量主机失连问题,若没有大量主机失连问题则跳转到步骤s2-8,若存在大量主机失连问题则跳转到步骤s3-5,同时执行步骤s2-8;

s2-8:检测是否存在广播风暴问题,若没有广播风暴问题则跳转到步骤s2-9,若存在广播风暴问题则跳转到步骤s3-6,同时执行步骤s2-9;

s2-9:检测是否存在arp欺骗问题,若没有arp欺骗问题则跳转到步骤s2-10,若存在arp欺骗问题则跳转到步骤s3-7,同时执行步骤s2-10;

s2-9:检测是否存在非法dhcp服务器问题,若没有非法dhcp服务器问题则不执行操作,若存在非法dhcp服务器问题则跳转到步骤s3-9。

优选地:按照步骤s2中依次排查故障时,当出现相应故障,排除故障的步骤有:

s3-1:判定为公网失连故障,发出指令联系运营商,并给出数据报表;

s3-2:判定为dns故障,发出指令联系运营商,并更换dns,并给出数据报表;

s3-3:判定为地址冲突故障,找到冲突微机再判断是否需要定位地址的微机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-4:判定为单机失连故障,依次做如下操作:

检查灯灭接口的网线;检查主机网卡的连接;重新激活主机网卡;重启主机;

通过以上操作后再判断是否要定位失连主机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-5:判定为大量主机失连故障,依次做如下操作:

检查trunk网线;检查故障交换机;

通过以上操作后再判断是否要定位故障网线和交换机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-6:判定为广播风暴故障,依次做如下操作:

检查trunk打环;检查接入口打环;检查接入网线短路;

通过以上操作后再判断是否要定位打环位置,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-7:判定为apr欺骗故障,做如下操作:

指令主机故障定位模块操作主机mac绑定关系;

通过以上操作后再判断是否要定位arp欺骗者,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-8:判定为主机超限行为异常故障,并给出主机超限行为异常提示,然后并给出数据报表;

s3-9:判定为主非法dhcp服务器异常故障,在判断是否需要定位非法dhcp服务器,如果是则跳转到步骤s4,如果不是则给出数据报表。

优选地,所述步骤s4为手工辅助故障定位流程,其步骤如下:

s4-1:接收来自带外故障定位服务器侧模块的操作指令;

s4-2:根据指令在现场排障终端屏幕显示插/拔网线的提示:插/拔x号设备y接口的网线,其中x和y表示代指,例如拔掉3号交换机的6号接口网线,插上4号交换机5号接口之外的所有网线;

s4-3:现场人员根据指示插/拔网线,操作结束后在场排障终端上点击:“完成该步指导操作”的按钮;

s4-4:网络异常定位算法模块持续探测当前发生的问题,判断问题是否消失,若故障消失则现场排障终端提示定位结束,由网络异常定位算法模块并给出故障报告;若故障没消失则网络异常定位算法模块在根据s4-2插/拔网线后网络情况,判断下一步需要手工辅助定位的策略,并通过带外故障定位用户侧模块发出指令。

具体地,所述现场排障终端采用安装了windows/mac/linux操作系统的便携式电脑或者所述现场排障终端采用安装了ios/android操作系统的便携式移动终端。所述带外故障定位用户侧模块安装在现场排障终端内。

优选地,带外通道包括但不限于:移动通信通道、与故障局域网独立的局域网的有线、无线通信通道。

本发明有益的技术效果:本申请设置了局域网拓扑数据库、网络异常行为数据库、网络异常定位算法模块、拓扑管理模块、snmp协议模块以及带外故障定位服务器侧模块,采用了信息集中采集、定位策略集中生成、定位算法集中运行的方案,有效解决了低端网络无法定位故障,全类原因导致的网络故障难以定位,手工插/拔网线定位故障的情形下,故障定位工作效率不高的问题。

附图说明

图1为本发明的一种局域网故障定位系统的整体结构框图。

图2为本发明网络异常定位算法模块运行综合故障定位算法步骤s2的流程图。

图3为本发明网络异常定位算法模块运行综合故障定位算法步骤s3的流程图第一部分。

图4为本发明网络异常定位算法模块运行综合故障定位算法步骤s3的流程图第二部分。

图5为本发明网络异常定位算法模块运行综合故障定位算法步骤s3的流程图第三部分。

图6为本发明网络异常定位算法模块运行综合故障定位算法步骤s4的流程图。

图7为本发明现场排障终端操作界面图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明,但本发明要求保护的范围并不局限于下述具体实施例。

如图1所示,一种局域网故障定位系统,包括局域网拓扑数据库、网络异常行为数据库、网络异常定位算法模块、拓扑管理模块、snmp协议模块以及带外故障定位服务器侧模块;

所述snmp协议模块以及网络异常行为数据库通过ip通信通路连接主机故障定位模块;所述snmp协议模块、拓扑管理模块以及局域网拓扑数据库依次通过ip通信通路连接;所述局域网拓扑数据库、网络异常行为数据库以及带外故障定位服务器侧模块分别与网络异常定位算法模块ip通信通路连接;所述带外故障定位服务器侧模块通过带外通道连接带外故障定位用户侧模块其中:

所述局域网拓扑数据库(英文简写topodb)用于从支持标准管理协议的网络设备和终端中获取网络拓扑及设备/资产的信息,同时提供现场排障终端的功能,实现对不支持管理协议的低端网络设备和拓扑管理,以实现对不支持管理协议的低端网络设备和拓扑管理;局域网拓扑数据库由拓扑管理模块维护,通过snmp(简单网络管理协议)等网络管理协议从支持标准管理协议的网络设备和终端中获取网络拓扑及设备/资产的信息,包括互联方式。

所述网络异常行为数据库(英文简写nabdb)用于存储局域网内异常行为模式,例如合法dns表,危险url列表等等。nap网络异常定位算法模块从该数据库读入典型网络异常行为模式,与在局域网内通过各hadagent即主机故障定位模块探测到的用户终端配置情况进行比对,发现可能导致局域网故障的用户终端的配置问题。

所述拓扑管理模块(topomgmt)通过自动拓扑发现算法自动发现局域网罗拓扑,配合手工调整拓扑结构的功能,用于在各类不同能力的网络设备组成的网络中正常的拓扑管理;

所述snmp协议模块(snmpprobe)通过snmp(简单网络管理协议)协议向局域网络中的网络设备及主机发送snmp协议报文,接收相应报文并解析,将相关信息通知网络异常定位算法模块;

所述带外故障定位服务器侧模块(oadserver)通过带外通道向带外故障定位用户侧模块客户端发送指令,完成手工方式网络故障定位流程;

带外故障定位用户侧模块(oadclient),该模块接收来自带外故障定位服务器侧模块的指令,向现场人员显示手工操作的具体指令,在现场人员完成指令要求的动作后,向带外故障定位服务器侧模块发送确认信息,带外故障定位服务器侧模块进行后续的定位流程处理;

所述主机故障定位模块(hadagent),运行于网络中的用户终端上,采集网络配置相关信息发送到snmp协议模块和/或网络异常行为数据库模块用以定位配置错误导致的网络故障;并在定位网络异常定位算法模块的指令下,完成特定的网络测试动作,并将结果给网络异常定位算法模块;

所述网络异常定位算法模块(napalgo.)用于综合采集局域网拓扑数据库中的网络拓扑结构信息、接收snmp协议模块从网络设备和主机处获取到的实时运行状态信息以及带外故障定位用户侧模块通过带外故障检测流程获取的故障定位信息,运行综合故障定位算法,从网络异常行为数据库读入典型网络异常行为模式,与在局域网内通过各主机故障定位模块采集到的用户终端配置情况进行比对,确定导致局域网故障的用户终端的配置问题。

如图2-6所示,所述网络异常定位算法模块(napalgo.)运行综合故障定位算法的故障定位步骤如下:

s1:获取用户输入的待定位故障的ip/mac范围信息;

s2:根据获取的ip/mac故障范围信息确定故障设备,对确定的故障设备按照顺序依次经过以下检测:

s2-1:检测范围内设备的直连wan口的状态,若没有故障问题则跳转到步骤s2-2,若有故障问题则跳转到步骤s3-1同时执行步骤s2-2;

s2-2:检测故障设备的对端路由器状态,若没有故障问题则跳转到步骤s2-3,若有故障问题则跳转到步骤s3-1,同时执行步骤s2-3;

s2-3:检测dns运行状态,若没有故障问题则跳转到步骤s2-4,若有故障问题则跳转到步骤s3-2,同时执行步骤s2-4;

s2-4:检测主机是否流量超限,若没有流量超限则跳转到步骤s2-5,若主机流量超限则跳转到步骤s3-8,同时执行步骤s2-5;

s2-5:检测是否存在ip地址冲突问题,若没有ip地址冲突问题则跳转到步骤s2-6,若存在ip地址冲突问题则跳转到步骤s3-3,同时执行步骤s2-6;

s2-6:检测是否存在单机失连问题,若没有单机失连问题则跳转到步骤s2-7,若存在单机失连问题则跳转到步骤s3-4,同时执行步骤s2-7;

s2-7:检测是否存在大量主机失连问题,若没有大量主机失连问题则跳转到步骤s2-8,若存在大量主机失连问题则跳转到步骤s3-5,同时执行步骤s2-8;

s2-8:检测是否存在广播风暴问题,若没有广播风暴问题则跳转到步骤s2-9,若存在广播风暴问题则跳转到步骤s3-6,同时执行步骤s2-9;

s2-9:检测是否存在arp欺骗问题,若没有arp欺骗问题则跳转到步骤s2-10,若存在arp欺骗问题则跳转到步骤s3-7,同时执行步骤s2-10;

s2-9:检测是否存在非法dhcp服务器问题,若没有非法dhcp服务器问题则不执行操作,若存在非法dhcp服务器问题则跳转到步骤s3-9。

优选地:按照步骤s2中依次排查故障时,当出现相应故障,排除故障的步骤有:

s3-1:判定为公网失连故障,发出指令联系运营商,并给出数据报表;

s3-2:判定为dns故障,发出指令联系运营商,并更换dns,并给出数据报表;

s3-3:判定为地址冲突故障,找到冲突微机再判断是否需要定位地址的微机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-4:判定为单机失连故障,依次做如下操作:

检查灯灭接口的网线;检查主机网卡的连接;重新激活主机网卡;重启主机;

通过以上操作后再判断是否要定位失连主机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-5:判定为大量主机失连故障,依次做如下操作:

检查trunk网线;检查故障交换机;

通过以上操作后再判断是否要定位故障网线和交换机,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-6:判定为广播风暴故障,依次做如下操作:

检查trunk打环;检查接入口打环;检查接入网线短路;

通过以上操作后再判断是否要定位打环位置,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-7:判定为apr欺骗故障,做如下操作:

指令主机故障定位模块操作主机mac绑定关系;

通过以上操作后再判断是否要定位arp欺骗者,如果是则跳转到步骤s4;如果不是则给出数据报表;

s3-8:判定为主机超限行为异常故障,并给出主机超限行为异常提示,然后并给出数据报表;

s3-9:判定为主非法dhcp服务器异常故障,在判断是否需要定位非法dhcp服务器,如果是则跳转到步骤s4,如果不是则给出数据报表。

优选地,所述步骤s4为手工辅助故障定位流程,其步骤如下:

s4-1:接收来自带外故障定位服务器侧模块的操作指令;

s4-2:根据指令在现场排障终端屏幕显示插/拔网线的提示:插/拔x号设备y接口的网线,其中x和y表示代指,例如拔掉3号交换机的6号接口网线,插上4号交换机5号接口之外的所有网线;

s4-3:现场人员根据指示插/拔网线,操作结束后在场排障终端上点击:“完成该步指导操作”的按钮;

s4-4:网络异常定位算法模块持续探测当前发生的问题,判断问题是否消失,若故障消失则现场排障终端提示定位结束,由网络异常定位算法模块并给出故障报告;若故障没消失则网络异常定位算法模块在根据s4-2插/拔网线后网络情况,判断下一步需要手工辅助定位的策略,并通过带外故障定位用户侧模块发出指令。

具体地,所述现场排障终端采用安装了windows/mac/linux操作系统的便携式电脑或者所述现场排障终端采用安装了ios/android操作系统的便携式移动终端。所述带外故障定位用户侧模块安装在现场排障终端内,且带外故障定位用户侧模块用过带外通道与带外故障服务侧模块连接,带外通道包括但不限于:移动通信通道、与故障局域网独立的局域网的有线、无线通信通道。采用外带通道可以避免使用带内通道(即有待排障的局域网)的情况下已经出现故障造成无法正常通信的问题。

如图7所示,现场排障终端上的手工辅助故障定位的用户界面有以下内容:

现场操作员id输入栏、现场操作员密码输入栏、拔掉xx号交换机yy号接口网线显示栏、已完成该步指导操作按钮栏以及oadserver回显栏,其中oadserver回显栏显示历史操作以及故障定位的结果。

以上界面清楚明了,使用非常方便,极大地提高了排除故障的效率。

本发明综合使用被动测量(基于snmp等标准协议采集网络运行信息以及从运行于主机上的agent客户端采集网络运行信息)、主动测量(指令运行于主机上的agent客户端进行主动测量)、手工辅助故障定位的手段,定位各类原因造成的局域网络故障。

使用带外通信通道,现场排障人员使用便携排障终端,在局域网故障定位系统的统一指挥下,完成手工辅助定位故障的故障,解决了传统的手工辅助定位工作过程中现场手工操作的位置和实时判断网络状态的位置不在一起造成的工作效率低下的问题。

根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对发明构成任何限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1