故障处理方法、装置及控制器与流程

文档序号:13768960阅读:115来源:国知局

本发明涉及通信领域,具体而言,涉及一种故障处理方法、装置及控制器。



背景技术:

网络故障诊断包括故障识别、故障定位、故障模拟等技术。

在传统网络中,诊断网络故障通常需要在多个网络设备节点上,如交换机或路由器,预先配置数据采集方法,例如:配置访问控制列表(accesscontrollist,简称为acl)规则,然后通过下发真实的业务数据流或模拟数据流,使各设备节点产生流量统计信息。运维人员在各设备节点收集到这些统计信息后,再通过人工分析或使用其它辅助分析手段,判断各设备节点的转发是否正确。

可见,相关技术中故障的发现依赖人工搜集数据加以辅助分析,导致故障定位流程复杂,耗时较长的问题。



技术实现要素:

本发明实施例提供了一种故障处理方法、装置及控制器,以至少解决相关技术中故障的发现依赖人工搜集数据加以辅助分析,导致故障定位流程复杂,耗时较长的问题。

根据本发明的一个实施例,提供了一种故障处理方法,包括:获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息;根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断。

可选地,在获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息之前,还包括:获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息;根据获取的所述网络设备支持的所述第二指标参数信息,以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定所述网络设备上报的所述第一指标参数信息。

可选地,获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息包括:定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息;接收所述网络设备上报的所述第一指标参数信息;或者,向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息;接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

可选地,根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断包括:根据所述第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断所述指标参数值是否大于或者等于所述预设指标参数阈值;在判断结果为是的情况下,确定所述网络设备处于故障状态。

可选地,在根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断之后,还包括,在故障诊断的结果为所述网络设备处于故障状态的情况下,向管理平台上报所述网络设备的故障信息;据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令,对所述网络设备进行故障修复。

根据本发明的另一个实施例,提供了一种故障处理装置,包括:第一获取模块,用于获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息;诊断模块,用于根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断。

可选地,所述装置还包括:第二获取模块,用于获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息;确定模块,用于根据获取的所述网络设备支持的所述第二指标参数信息,以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定所述网络设备上报的所述第一指标参数信息。

可选地,所述第一获取模块包括:第一发送单元,用于定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息;第一接收单元,用于接收所述网络设备上报的所述第一指标参数信息;或者,第二发送单元,用于向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息;第二接收单元,用于接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

可选地,所述诊断模块包括:判断单元,用于根据所述第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断所述指标参数值是否大于或者等于所述预设指标参数阈值;确定单元,用于在判断结果为是的情况下,确定所述网络设备处于故障状态。

可选地,所述装置还包括,上报模块,用于在故障诊断的结果为所述网络设备处于故障状态的情况下,向管理平台上报所述网络设备的故障信息;修复模块,用于根据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令,对所述网络设备进行故障修复。

根据本发明的又一个实施例,还提供了一种控制器,所述控制器包上述任一项所述的故障处理装置。

根据本发明的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息;根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断。

可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息之前,还包括:获取所述网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息;根据获取的所述网络设备支持的所述第二指标参数信息,以及所述控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定所述网络设备上报的所述第一指标参数信息。

可选地,存储介质还设置为存储用于执行以下步骤的程序代码:获取所述控制器控制区域内的所述网络设备上报的用于标识所述网络设备运行状态的所述第一指标参数信息包括:定时向所述网络设备发送用于指示所述网络设备上报所述第一指标参数信息的指示消息;接收所述网络设备上报的所述第一指标参数信息;或者,向所述网络设备发送用于订阅所述第一指标参数信息的订阅消息;接收所述网络设备根据所述订阅消息定时上报的所述第一指标参数信息。

可选地,存储介质还设置为存储用于执行以下步骤的程序代码:根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断包括:根据所述第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断所述指标参数值是否大于或者等于所述预设指标参数阈值;在判断结果为是的情况下,确定所述网络设备处于故障状态。

可选地,存储介质还设置为存储用于执行以下步骤的程序代码:在根据获取的所述第一指标参数信息,对所述网络设备进行故障诊断之后,还包括,在故障诊断的结果为所述网络设备处于故障状态的情况下,向管理平台上报所述网络设备的故障信息;据所述管理平台针对所述故障信息下发的用于故障修复的故障修复指令,对所述网络设备进行故障修复。

通过本发明,采用控制器对网络设备进行控制的新型网络架构,将网络设备控制面与数据面分离开来,使设备不再具有控制权,只有转发功能,控制权由集中的控制器管理。通过网络设备上报用于标识其运行状态的第一指标参数,由控制器对网络设备进行故障诊断,故障的发现不再依赖人工搜集数据加以辅助分析,因此,可以解决相关技术中故障的发现依赖人工搜集数据加以辅助分析,导致故障定位流程复杂,耗时较长的问题,达到简化故障定位流程,提高故障处理效率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是本发明实施例的一种故障处理方法的控制器的硬件结构框图;

图2是根据本发明实施例的故障处理方法的流程图;

图3是根据本发明优选实施例的sdn组网示意图;

图4是根据本发明优选实施例的故障处理方法的流程图;

图5是根据本发明优选实施例的控制器获取网络设备监控能力的流程图一;

图6是根据本发明优选实施例的控制器获取网络设备监控能力的流程图二;

图7是根据本发明优选实施例的控制器获取监控统计信息的流程图一;

图8是根据本发明优选实施例的控制器获取监控统计信息的流程图二;

图9是根据本发明优选实施例的控制器获取监控统计信息的流程图三;

图10是根据本发明优选实施例的控制器分析潜在故障风险点并上报告警的流程图;

图11是根据本发明优选实施例的控制器分析故障节点并上报故障告警的流程图;

图12是根据本发明优选实施例的控制器分析故障节点并修复故障的流程图;

图13是根据本发明实施例的故障装置的结构框图一;

图14是根据本发明实施例的故障装置的结构框图二;

图15是根据本发明实施例的故障装置中的第一获取模块132的结构框图;

图16是根据本发明实施例的故障装置中的诊断模块134的结构框图;

图17是根据本发明实施例的故障装置的结构框图三;

图18是根据本发明实施例的控制器的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

通过前述描述可以发现,现有诊断技术中故障识别的指标单一且固化,不能根据业务需求实时变更统计指标;故障发现依赖人工搜集数据加以辅助分析,导致故障定位流程复杂,耗时较长;对于已部署网络,诊断活动受制于运维计划,诊断窗口时间有限,更加剧了上述问题;另一方面,在定位出故障后,需要运维人员根据定位结果修复故障,不具备可自愈能力。

针对现有技术存在以上问题,本发明提提供了基于软件定义网络(softwaredefinednetwork,简称为sdn)网络、利用控制器及网络装置解决上述问题的至少之一的方案。sdn,是一种新型网络创新架构。本申请通过将网络设备控制面与数据面分离开来,使设备不再具有控制权,只有转发功能,控制权由集中的控制器管理。用户可以通过控制器对网络设备使用自定义的路由或传输策略,并能进行统一配置,这样有利于网络自动化管理,并能更灵活的响应业务需求。

实施例1

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在控制器上为例,图1是本发明实施例的一种故障处理方法的控制器的硬件结构框图。如图1所示,控制器10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,控制器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的故障处理方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至控制器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括控制器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述控制器或网络架构的故障处理方法,图2是根据本发明实施例的故障处理方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,获取控制器控制区域内的网络设备上报的用于标识所述网络设备运行状态的第一指标参数信息;

步骤s204,根据获取的第一指标参数信息,对该网络设备进行故障诊断。

通过上述步骤,通过网络设备上报用于标识其运行状态的第一指标参数,由控制器对网络设备进行故障诊断,故障的发现不再依赖人工搜集数据加以辅助分析,解决了相关技术中故障的发现依赖人工搜集数据加以辅助分析,导致故障定位流程复杂,耗时较长的问题,简化了故障定位流程,提高了故障处理效率。

可选地,上述步骤的执行主体可以为控制器等,但不限于此。

可选地,步骤s202和步骤s204的执行顺序是可以互换的,即可以先执行步骤s204,然后再执行s202。即,步骤s202和步骤s204可以循环执行。

可选地,在步骤s202之前,可以采用多种方式确定该第一指标参数信息。

例如,网络设备可以直接向控制器上报该网络设备支持的用于标识网络设备运行状态的指标参数信息作为第一指标参数信息,此时,控制器可以根据自身支持的用于标识网络设备运行状态的指标参数信息对网络设备上报的第一指标参数进行筛选,从而确定可以用于故障诊断的指标参数信息。

对于上述确定该第一指标参数信息的方式,可以通过提前配置上报消息中设定指标参数信息的格式,也就是各指标参数信息的在消息中的位置。下面举例进行说明,上报消息中配置的指标参数信息包括:指标参数0至指标参数5。网络设备支持的指标参数信息(也就是网络设备可以检测并上报的指标参数信息)包括:指标参数0、指标参数1、指标参数3、指标参数4,控制器支持的指标参数信息包括:指标参数0、指标参数1、指标参数3、指标参数5。网络设备可以在上报消息中与指标参数0、指标参数1、指标参数3、指标参数4对应的位置上上报监测到的指标参数信息,通过在指标参数2、指标参数5对应的位置上发送预设的用于标识不支持该指标参数的内容。控制器接收到上报的消息后,获取其中的指标参数信息,确定上报的指标参数中网络设备支持的指标参数包括:指标参数0、指标参数1、指标参数3、指标参数4,并根据自身支持的指标参数信息对上报的指标参数进行过滤,过滤掉指标参数5,确定可以用来进行故障诊断的指标参数包括指标参数0、指标参数1、指标参数3,同时根据实际需要确定用来进行故障诊断的指标参数(例如,指标参数1、指标参数3)。

又例如,还可以采用如下方式确定该第一指标参数信息:获取网络设备支持的用于标识所述网络设备运行状态的第二指标参数信息;根据获取的网络设备支持的第二指标参数信息,以及控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定网络设备上报的第一指标参数信息。与前述确定第一指标参数信息的方式相比,通过协商的方式确定第一指标参数信息的方式,可以减少网络设备上报第一指标参数信息的数据量,减少对网络资源的占用,降低系统的负荷。

通过本发明实施例的上述技术方案,通过网络设备与控制器进行协商确定第一指标参数信息,可以减少网络设备上报第一指标参数信息的数据量,减少对网络资源的占用,降低系统的负荷。

可选地,在步骤s202中,可以采用多种方式获取控制器控制区域内的网络设备上报的用于标识该网络设备运行状态的第一指标参数信息,例如,控制器可以定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息;网络设备根据指示消息中上报第一指标参数,控制器接收该网络设备根据指示消息上报的第一指标参数信息。又例如,控制器可以向网络设备发送用于订阅第一指标参数信息的订阅消息,订阅消息中可以携带网络设备上报第一指标参数信息的周期或者时间(例如,一天中的某一或者某些时刻),也可以在发送订阅消息之前在网络设备中配置上报第一指标参数信息的周期或者时间。网络设备接收到订阅消息后,根据上报第一指标参数信息的周期或者时间,定时向控制器上报第一指标参数信息,控制器接收该网络设备根据订阅消息定时上报的第一指标参数信息。

通过本发明实施例的上述技术方案,通过不同的方式上报第一指标参数信息,提高了上报指标参数信息的灵活性。

可选地,在步骤s204中,可以采用多种方式对网络设备进行故障诊断。例如,可以通过对参考数据集进行建模的方式确定指标参数信息与故障之间的对应关系,以获取的第一指标参数信息作为输入,确定网络设备是否发生故障以及故障的类型。又例如,可以根据第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断指标参数值是否大于或者等于预设指标参数阈值,在判断结果为是的情况下,确定所述网络设备处于故障状态。这里的第一指标参数信息可以包括以下至少之一:例如,网络设备的丢包率、cpu利用率、处理数据包的平均时延。通过设置预设指标参数阈值的方式对第一指标参数信息中的指标参数值进行比较,对网络设备的故障状态进行判断,简化了故障判断流程,提高了故障诊断的效率。

通过本发明实施例的上述技术方案,通过设置预设指标参数阈值的方式对第一指标参数信息中的指标参数值进行比较,对网络设备的故障状态进行判断,简化了故障判断流程,提高了故障诊断的效率。

可选地,在步骤s204之后,在故障争端的结果为网络设备处于故障状态的情况下,控制器可以向对控制器所在的网络进行管理的管理平台上报网络设备的故障信息,故障信息中可以携带标识网络设备的网络设备标识以及故障类型,还可以携带故障相关的信息。管理平台接收到控制器上报的故障信息后,对该故障信息进行分析,根据预设策略确定对故障信息中的故障进行修复的故障修复方式,并针对故障信息下发的用于故障修复的故障修复指令。控制器根据接收到的故障修复指令,对网络设备进行故障修复,例如,调整流量转发路径以减少故障节点的业务负荷。

通过本发明实施例的上述技术方案,通过向管理平台上报故障信息,并根据管理平台下发的故障修复指令进行故障修复,提高了系统的对故障的自愈能力。

基于上述实施例及可选实施方式,为说明方案的整个流程交互,在本优选实施例中,提供了一种故障处理方法,该方法可以运行在如图3所示的sdn网络中。如图3所示,在该sdn网络中,控制器通过南向协议,如netconf,of-conf,openflow等,控制多台转发设备,并可向网络设备上部署的监控模块下发配置参数;收集监控统计信息,并订阅监控事件。通过扩展控制器上的应用app,可快速满足不同的业务场景下的不同需求。

图4是根据本发明优选实施例的故障处理方法的流程图。如图4所示,该流程包括以下步骤:

步骤s402,sdn网络中部署的网元设备上驻留并长期运行监控模块。

该监控模块可对网络运行的关键参数进行采集统计,同时监控设备的实时运行指标。

步骤s404,通过sdn网络控制器对监控模块的统计和监控的指标参数进行配置。

sdn网络中的控制器可以对网络设备中的监控模块的统计和监控指标参数进行配置。同时,控制器还可以通过南向协议(如netconf,of-conf,openflow等),调整监控模块上的配置参数或订阅监控事件。

上述配置过程,可以建立在控制器与设备监控模块对监控能力协商的基础上。监控模块向控制器暴露能够支持的监控能力,由控制器根据业务需求选择使用;也可以是控制器与监控模块相互暴露监控能力,协商双方能够支持能力。

具体地,对于控制器与监控模块相互暴露监控能力,协商双方能够支持能力的方式,可以通过如图5所示流程实现。sdn控制器通过南向协议,与设备双向协商所有监控指标能力的流程。如图5所示,该流程包括如下步骤:

步骤s502,网络设备接入控制器;

步骤s504,控制器与网络设备协商监控模块支持的能力版本。

控制器收到网络设备接入通知后,根据网络设备接入时携带的南向协议信息,选择南向协议与设备握手建立连接。在建立连接过程中,控制器可以与网络设备协商监控模块支持的能力版本,协商报文可具有,但不限于如下形式:

网络设备发给控制器的协商报文:

控制器发给网络设备的协商报文:

上述支持的能力版本包括基础支持能力版本<base>,以及可支持能力版本<supports>,其中<support>2.0.1:</support>代表可支持2.0.1以上版本。控制器与网络设备可根据对方提供的版本信息,选择适当版本,并随后发送能力协商报文。

步骤s506,控制器与网络设备协商监控能力。

控制器与网络设备协商监控能力,包括选定版本以及该版本支持的能力、可选能力等;协商报文可具有,但不限于如下形式:

网络设备发给控制器的协商报文:

控制器发给网络设备的协商报文:

步骤s508,协商完成,控制器与设备获取到双方共有的监控能力。

对于控制器获取网络设备监控能力的另一种实施场景,可以通过如图6所示的流程实现。sdn控制器通过南向协议,与设备协商后,查询对方监控能力。如图6所示,该流程包括如下步骤:

步骤s602,网络设备接入控制器。

步骤s604,控制器与网络设备协商监控能力版本。

控制器收到网络设备接入通知后,根据网络设备接入时携带的南向协议信息,选择南向协议与设备握手建立连接。在建立连接过程中,控制器可与网络设备协商是否具备监控能力,以及协商监控能力版本。协商报文可具有,但不限于如下形式:

网络设备发给控制器的协商报文:

控制器发给网络设备的协商报文:

通过协商报文,控制器和网络设备可以确定双方具备监控能力。

步骤s606,控制器向网络设备发送报文查询设备的监控指标列表。

控制器向网络设备发送的报文可具有,但不限于如下形式:

<requestxmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>get-all-caps</operation>

</request>

步骤s608,网络设备回复报文给控制器,返回监控能力。

网络设备给控制器回复报文可以具有,但不限于如下形式:

如上述报文,网络设备指示其具有三种监控指标。

步骤s610,控制器获得网络设备监控能力。

控制器接收网络设备的回复报文,获取到网络设备所有的监控指标列表。

在控制器与设备监控模块对监控能力协商之后,控制器可以根据需要对监控模块的统计和监控的指标参数进行配置。

步骤s406,控制器向网络设备的监控模块订阅或轮询监控关键指标数据,从网络设备获取到对监控指标的统计信息。

在sdn控制器获取网络设备监控能力后,控制器可以向网络设备配置要监控的指标。控制器可以向网络设备节点的监控模块订阅或轮询监控关键指标数据,也可以由网络设备定时向控制器上报监测关键指标数据。

具体地,控制器通过定时轮询的方式收集监控统计信息的流程如图7所示。该流程包括如下步骤:

步骤s702,控制器发送报文给网络设备,配置需要监控的指标和参数。

获取到网络设备的所有指标监控能力后(可以通过图5或图6所示的流程获取),控制器发送报文给网络设备,配置哪些指标需要监控。例如:需要启用bst功能和mmu统计功能,并且配置mmu统计时间间隔为5秒。发送的报文可具有,但不限于如下形式:

步骤s704,网络设备向控制器返回配置成功。

网络设备向控制器回复的用于指示配置成功的报文可具有,但不限于如下形式:

<responsexmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>config-caps</operation>

<result>ok</result>

</response>

步骤s706,网络设备启动对要监控指标的数据采集。

步骤s708,控制器定时向网络设备轮询采集统计信息。

控制器向网络设备发送的报文可具有,但不限于如下形式:

指定查询的报文:

<requestxmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>get-monitor-result</operation>

<paras>

<para>delay-statistics</para>

<para>cpu-guard</para>

</paras>

</request>

或全部查询的报文:

<requestxmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>get-monitor-result</operation>

<paras>

</para>

</paras>

</request>

步骤s710,网络设备向控制器回复采集的统计数据。

回复采集的统计数据的报文可具有,但不限于如下形式:

<responsexmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>get-monitor-result</operation>

<result>

<paras>

<para>delay-statistics</para>

<data>80</data>

</paras>

<paras>

<para>cpu-guard</para>

<data>40</data>

</paras>

</result>

</response>

步骤s712,控制器获取到对监控指标的统计信息。

对于控制器通过向网络设备节点的监控模块订阅监控关键指标数据的方式收集监控统计信息的流程可以分为订阅流程和上报流程。对于订阅流程,图8是根据本发明优选实施例的控制器获取监控统计信息的流程图二,如图8所示,该流程包括如下步骤:

步骤s802,控制器发送报文给网络设备,订阅需要监控的指标和指标。

控制器获取到设备的所有指标监控能力后(可以通过图5或图6所示的流程获取),控制器发送报文给网络设备,订阅需要监控哪些指标。发送的报文可具有,但不限于如下形式:

步骤s804,网络设备向控制器回复订阅成功。

网络回复的报文可具有,但不限于如下形式:

<responsexmlns="urn:ietf:params:xml:ns:monitor:1.0">

<operation>subscribe-monitor-caps</operation>

<result>ok</result>

</response>

步骤s806,网络设备启动对订阅的监控指标的数据采集。

步骤s808,网络设备定时向控制器发送对订阅的监控指标的统计数据。

网络设备向控制器发送的报文可具有,但不限于如下形式:

<notificationxmlns="urn:ietf:params:xml:ns:monitor:1.0">

<eventtime>2016-04-04t12:30:46</eventtime>

<paras>

<para>delay-statistics</para>

<data>80</data>

</paras>

<paras>

<para>cpu-guard</para>

<data>40</data>

</paras>

</notification>

步骤s810,控制器获取到对监控指标的统计信息。

网络设备定时向控制器上报监测关键指标数据的流程如图9所示。在该流程中,sdn控制器和设备相互获取对方监控能力后,网络设备自动配置监控指标,定时向控制器上报统计信息,包括如下步骤:

步骤s902,网络设备启动对协商后的监控指标的数据采集。

控制器获取到设备的所有指标监控能力后(可以通过图5或图6所示的流程获取),网络设备自动配置监测指标参数,启动对协商后的监控指标的数据采集。

步骤s904,网络设备定时向控制器上报采集到的统计信息。

上报的报文可参见步骤s808中的报文形式。

步骤s906,控制器获取到对监控指标的统计信息。

在从所监控的网络设备节点上获取到上述参数后,控制器可根据预规划的网络故障识别策略判断网络设备是否发生故障或提前识别是否存在发生故障风险,相应地发出告警。

步骤s408,控制器通过分析收集到的统计信息,自动判断出网络故障发生位置,并修复故障。

在获取到对监控指标的统计信息后,控制器还可以通过分析收集到的统计信息,自动判断出网络故障发生位置。在此基础上,根据预设的故障应对措施实现网络自愈。通过网络设备节点的监控模块和控制器协作,可以根据业务需求快速扩展与故障诊断相关的故障识别、故障定位、故障模拟、故障修复等业务功能。

具体地,sdn控制器收集到统计信息后,对故障的修复可以包括以下至少之一:控制器分析分析潜在故障风险点并上报告警,控制器分析故障节点并上报故障告警,控制器分析故障节点并修复故障。

对于控制器分析潜在故障风险点并上报告警的流程如图10所示。该流程包括如下步骤:

步骤s1002,控制器分析统计信息,定位出潜在故障风险点;

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集),控制器分析统计信息,定位出潜在故障风险点。

步骤s1004,控制器向管理平台上报潜在故障风险。

对于控制器分析故障节点并上报故障告警的流程如图11所示。该流程包括如下步骤:

步骤s1102,控制器分析统计信息,定位出故障节点和故障类型。

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集),控制器分析统计信息,定位出故障节点和故障类型。

步骤s1104,控制器向管理平台上报故障信息。

步骤s1106,管理平台根据故障信息向控制器下发故障修复指令。

具体地,对于控制器分析故障节点并修复故障的流程如图12所示。该流程包括如下步骤:

步骤s1202,通过管理平台向控制器配置对不同故障节点或不同故障类型的修复指令。

步骤s1204,控制器分析统计信息,定位出故障节点和故障类型。

收集到网络设备的监控统计信息后(可以通过图7、图8或图9所示的流程收集),控制器分析统计信息,定位出故障节点和故障类型。例如:定位出某网络设备节点丢包率达到30%或cpu使用率达到95%。

步骤s1206,控制器根据故障节点和故障类型找到匹配的修复指令。

根据定位出的故障节点和故障类型,找到匹配的修复指令。例如:调整流量转发路径以减少故障节点的业务负荷。

步骤s1208,控制器向网络设备下发修复指令。

控制器向网络设备下发修复指令,对网络设备的故障进行修复。

通过本发明实施例的上述技术方案,充分利用sdn增加了网络管理的灵活性和可扩展性,其可编程、定制化的特性,可以解决传统网络故障诊断存在的诊断流程复杂、定位时间长、诊断活动受运维限制、不具备可自愈能力的问题。同时,借助控制器丰富的南向协议支持也为诊断不同类型,不同接入手段的网络设备提供有力支持。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种故障处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图13是根据本发明实施例的故障装置的结构框图一,如图13所示,该装置包括:

第一获取模块132,用于获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息;

诊断模块134,与上述第一获取模块132相连,用于根据获取的第一指标参数信息,对网络设备进行故障诊断。

图14是根据本发明实施例的故障装置的结构框图二,如图14所示,该装置除包括图13所示的所有模块外,还包括:

第二获取模块142,用于获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息;

确定模块144,与上述第二获取模块142相连,用于根据获取的网络设备支持的第二指标参数信息,以及控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定网络设备上报的第一指标参数信息。

图15是根据本发明实施例的故障装置中的第一获取模块132的结构框图,如图15所示,该第一获取模块132包括:

第一发送单元152,用于定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息;第一接收单元154,与上述第一发送单元152相连,用于接收网络设备上报的第一指标参数信息;

或者,

第二发送单元156,用于向网络设备发送用于订阅第一指标参数信息的订阅消息;第二接收单元158,与上述第二发送单元156相连,用于接收网络设备根据订阅消息定时上报的第一指标参数信息。

图16是根据本发明实施例的故障装置中的诊断模块134的结构框图,如图16所示,该诊断模块134包括:

判断单元162,用于根据第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断指标参数值是否大于或者等于预设指标参数阈值;

确定单元164,与上述判断单元162相连,用于在判断结果为是的情况下,确定网络设备处于故障状态。

图17是根据本发明实施例的故障装置的结构框图三,如图17所示,该装置除包括图13所示的所有模块外,还包括:

上报模块172,用于在故障诊断的结果为网络设备处于故障状态的情况下,向管理平台上报网络设备的故障信息;

修复模块174,与上述上报模块172相连,用于根据管理平台针对故障信息下发的用于故障修复的故障修复指令,对网络设备进行故障修复。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

在本实施例中还提供了一种控制器,图18是根据本发明实施例的控制器的结构框图,如图18所示,该控制器包括上述实施例中的故障处理装置182。

实施例4

本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:

s1,获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息;

s2,根据获取的第一指标参数信息,对网络设备进行故障诊断。

可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:

在获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息之前,还包括:

s1,获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息;

s2,根据获取的网络设备支持的第二指标参数信息,以及控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定网络设备上报的第一指标参数信息。

可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:

获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息包括:

s1,定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息;接收网络设备上报的第一指标参数信息;

或者,

s2,向网络设备发送用于订阅第一指标参数信息的订阅消息;接收网络设备根据订阅消息定时上报的第一指标参数信息。

可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:

根据获取的第一指标参数信息,对网络设备进行故障诊断包括:

s1,根据第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断指标参数值是否大于或者等于预设指标参数阈值;

s2,在判断结果为是的情况下,确定网络设备处于故障状态。

可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:

在根据获取的第一指标参数信息,对网络设备进行故障诊断之后,还包括:

s1,在故障诊断的结果为网络设备处于故障状态的情况下,向管理平台上报网络设备的故障信息;

s2,根据管理平台针对故障信息下发的用于故障修复的故障修复指令,对网络设备进行故障修复。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息;根据获取的第一指标参数信息,对网络设备进行故障诊断。

可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息之前,还包括:获取网络设备支持的用于标识网络设备运行状态的第二指标参数信息;根据获取的网络设备支持的第二指标参数信息,以及控制器支持的用于标识网络设备运行状态的第三指标参数信息,确定网络设备上报的第一指标参数信息。

可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取控制器控制区域内的网络设备上报的用于标识网络设备运行状态的第一指标参数信息包括:定时向网络设备发送用于指示网络设备上报第一指标参数信息的指示消息;接收网络设备上报的第一指标参数信息;或者,向网络设备发送用于订阅第一指标参数信息的订阅消息;接收网络设备根据订阅消息定时上报的第一指标参数信息。

可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据获取的第一指标参数信息,对网络设备进行故障诊断包括:根据第一指标参数信息中携带的指标参数值,以及预设指标参数阈值,判断指标参数值是否大于或者等于预设指标参数阈值;在判断结果为是的情况下,确定网络设备处于故障状态。

可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:在根据获取的第一指标参数信息,对网络设备进行故障诊断之后,还包括,在故障诊断的结果为网络设备处于故障状态的情况下,向管理平台上报网络设备的故障信息;据管理平台针对故障信息下发的用于故障修复的故障修复指令,对网络设备进行故障修复。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1