一种故障检测方法及转发设备与流程

文档序号:11589792阅读:161来源:国知局
一种故障检测方法及转发设备与流程

本发明实施例涉及通信技术领域,尤其涉及一种故障检测方法及转发设备。



背景技术:

转发设备例如路由器、二层/三层交换机等,以及转发设备之间的物理链路构建的网络,用以提供在终端及服务器之间进行报文转发的功能。转发设备自身通常有故障检测机制用以检测转发设备自身及所在网络的故障。

转发设备自身的故障检测机制可以包括固件类检测机制和辅助类检测机制。固件类检测机制用以检测转发设备自身的固件类故障,例如固件类故障可以包括固件出现的多比特错误检查和纠正(errorcorrectingcode,ecc)错误、奇偶校验错误等。辅助类检测机制用以检测辅助类故障,辅助类故障可以包括转发设备与自身或者与其它网络设备交互的报文出现的丢包类或改包类故障,例如,转发设备与自身或与其它网络设备交互的心跳报文出现的故障,转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障等。

由于转发设备不能直接感知到终端业务的用户业务数据报文的交互情况,所以转发设备检测到的故障情况不能直接指示终端业务的故障情况。例如,转发设备检测到的少量固件类故障有很大可能不会影响终端的业务,所以不能直接对当前转发设备进行修复动作;当检测到大量固件类故障且已达到预设门限值时,表明当前转发设备的固件故障已相当严重,终端出现大范围故障的概率很大,需要进行修复动作。再如,通过辅助类检测机制检测到的少量故障会一定程度上影响终端的业务,但由于通常不能确定该故障是由网络中的哪个网络设备引起的,因而也不能直接对当前 转发设备进行修复动作,否则可能是误操作,从而影响终端业务的正常进行;当检测到大量辅助类故障且已达到预设门限值时,表明网络中的故障已相当严重,终端出现大范围故障的概率很大,需要对当前转发设备进行修复动作。其中的修复动作可以包括告警动作或复位动作等。

由于上述故障检测机制在出现的故障达不到预设门限值时无法进行修复动作,因而,对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作。



技术实现要素:

本发明实施例提供一种故障检测方法及转发设备,能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,提供一种故障检测方法,包括:

检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;

根据所述固件类故障及预设门限策略确定第一状态;

根据所述辅助类故障及预设门限策略确定第二状态;

当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。

结合第一方面,在第一方面的第一种可能的实现方式中,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所 述根据预设修复策略进行修复动作包括:

当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;

当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;

当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;

当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。

结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。

结合第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;

在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;

在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;

在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障 的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;

其中,所述第三预设时间阈值大于所述第一预设时间阈值。

结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。

结合第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第一方面的第五种可能的实现方式中,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;

在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;

在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;

在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;

其中,所述第四预设时间阈值大于所述第二预设时间阈值。

结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包 类故障的数量为1;

所述第四门限值与所述第六门限值相等;

其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据所述辅助类故障进行告警动作的门限值。

结合第一方面至第一方面的六种可能的实现方式中的任意一种,在第一方面的第七种可能的实现方式中,所述方法还包括:

当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;

当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。

第二方面,提供一种转发设备,包括:

检测单元,用于检测转发设备的固件类故障和辅助类故障,所述固件类故障包括所述转发设备的固件故障,所述辅助类故障包括所述转发设备与自身或者与其它网络设备交互的报文出现的故障;

确定单元,用于根据所述固件类故障及预设门限策略确定第一状态,并根据所述辅助类故障及预设门限策略确定第二状态;

处理单元,用于当所述第一状态为第一疾病状态且所述第二状态为第二疾病状态时,根据预设修复策略进行修复动作,所述第一疾病状态为单位时间内所述固件类故障的数量大于或者等于第一门限值时对应的所述第一状态,所述第二疾病状态为单位时间内所述辅助类故障的数量大于或者等于第二门限值时对应的所述第二状态。

结合第二方面,在第二方面的第一种可能的实现方式中,所述第一疾病状态包括第一轻疾状态和第一重疾状态,所述第一重疾状态对应的故障程度高于所述第一轻疾状态对应的故障程度;所述第二疾病状态包括第二轻疾状态和第二重疾状态,所述第二重疾状态对应的故障程度高于所述第二轻疾状态对应的故障程度;所述修复动作包括告警动作或复位动作;所述根据预设修复策略进行修复动作包括:

当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;

当所述第一状态为所述第一重疾状态且所述第二状态为所述第二轻疾状态时,进行告警动作;

当所述第一状态为所述第一轻疾状态且所述第二状态为所述第二重疾状态时,进行复位动作;

当所述第一状态为所述第一重疾状态且所述第二状态为所述第二重疾状态时,进行复位动作。

结合第二方面或第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述辅助类故障包括所述转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及所述转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障。

结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第一状态还包括第一健康状态,所述第一健康状态对应的故障程度低于所述第一疾病状态对应的故障程度;

在所述第一状态为所述第一健康状态后,若单位时间内所述固件类故障的数量小于所述第一门限值,则所述第一状态为所述第一健康状态;或者,若单位时间内所述固件类故障的数量大于或者等于所述第一门限值且小于第三门限值,则所述第一状态为所述第一轻疾状态,所述第三门限值大于所述第一门限值;或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;

在所述第一状态为所述第一轻疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第一预设时间阈值,则所述第一状态为所述第一健康状态;否则,若单位时间内所述固件类故障的数量小于所述第三门限值,则所述第一状态为所述第一轻疾状态,或者,若单位时间内所述固件类故障的数量大于或者等于所述第三门限值,则所述第一状态为所述第一重疾状态;

在所述第一状态为所述第一重疾状态后,若未检测到所述固件类故障的持续时间大于或者等于第三预设时间阈值,则所述第一状态为所述第一健康状态;否则,所述第一状态为所述第一重疾状态;

其中,所述第三预设时间阈值大于所述第一预设时间阈值。

结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第一门限值为单位时间内所述固件类故障的数量为1,所述第三门限值为第五门限值的一半,所述第五门限值为所述第二状态为非所述第二疾病状态时根据所述固件类故障进行告警动作的门限值。

结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第二方面的第五种可能的实现方式中,所述第二状态还包括第二健康状态,所述第二健康状态对应的故障程度低于所述第二疾病状态对应的故障程度;

在所述第二状态为所述第二健康状态后,若单位时间内所述辅助类故障的数量小于所述第二门限值,则所述第二状态为所述第二健康状态;或者,若单位时间内所述辅助类故障的数量大于或者等于所述第二门限值且小于第四门限值,则所述第二状态为所述第二轻疾状态,所述第四门限值大于所述第二门限值;或者,若单位时间内所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;

在所述第二状态为所述第二轻疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第二预设时间阈值,则所述第二状态为所述第二健康状态;否则,若单位时间内所述辅助类故障的数量小于所述第四门限值,则所述第二状态为所述第二轻疾状态,或者,若所述辅助类故障大于或者等于所述第四门限值,则所述第二状态为所述第二重疾状态;

在所述第二状态为所述第二重疾状态后,若未检测到所述辅助类故障的持续时间大于或者等于第四预设时间阈值,则所述第二状态为所述第二健康状态;否则,所述第二状态为所述第二重疾状态;

其中,所述第四预设时间阈值大于所述第二预设时间阈值。

结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述辅助类故障包括丢包类故障和改包类故障,若所述辅助类故障为所述丢包类故障,则所述第二门限值为第六门限值的一半,若所述辅助类故障为所述改包类故障,则所述第二门限值为单位时间所述改包类故障的数量为1;

所述第四门限值与所述第六门限值相等;

其中,所述第六门限值为所述第一状态为非所述第一疾病状态时根据 所述辅助类故障进行告警动作的门限值。

结合第二方面至第二方面的六种可能的实现方式中的任意一种,在第二方面的第七种可能的实现方式中,所述处理单元还用于:

当所述第二状态为非所述第二疾病状态时,若所述固件类故障大于或者等于第五门限值则进行告警动作,若所述固件类故障大于或者等于第七门限值则进行复位动作,所述第七门限值大于所述第五门限值;

当所述第一状态为非所述第一疾病状态时,若所述辅助类故障大于或者等于第六门限值则进行告警动作。

本发明实施例提供一种故障检测方法及转发设备,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当转发设备的第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种基本网络架构示意图;

图2为本发明实施例提供的一种方法流程示意图;

图3为本发明实施例提供的一种设备结构示意图;

图4为本发明实施例提供的另一种设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例中的转发设备可以为图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。在图1所示基本网络架构中,终端与服务器之间通过网络进行用户业务数据报文的交互,以实现终端承载的业务;路由器、交换机等转发设备通过协议报文、心跳报文等非用户业务数据报文的交互辅助终端实现其承载的业务。

由于转发设备在出现固件类故障的同时也出现辅助类故障的情况下,使得终端业务出现大范围故障的概率较大,因而本发明以下实施例提供的故障检测方法主要通过在当前转发设备同时出现少量固件类故障和少量辅助类故障的情况下,及时根据预设修复策略进行告警动作或复位动作,从而避免现有技术中对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作。

本发明实施例提供一种故障检测方法,参见图2,可以包括:

101、转发设备检测自身的固件类故障和辅助类故障,固件类故障包括转发设备的固件故障,辅助类故障包括转发设备与自身或者与其它网络设备交互的报文出现的故障。

这里的转发设备可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。其中的固件是指转发设备的逻辑、硬件等固件,其中的逻辑可以为转发设备中的可编程逻辑阵列器件(programmablelogicarray,pla),可编程阵列逻辑(programmablearraylogic,pal),通用阵列逻辑(genericarraylogic,gal),现场可编程门阵列(fieldprogrammablegatearray,fpga),可擦除的可编程逻辑器件(eraseprogrammablelogicdevice,epld)等逻辑部件。固件类故障可以包括转发设备出现的多比特ecc错误、奇偶校验错误、单粒子翻转(single-eventupsets,seu)错误、表项对账错误等故障。

这里的其它网络设备可以为网络中除当前转发设备以外的设备。辅 助类故障辅助类故障可以包括转发设备与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备与其它网络设备交互的协议报文或用户业务数据报文出现的故障,具体可以包括丢包类故障或改包类故障等。例如,路由器内部的心跳报文或者路由器与其它路由器交互的心跳报文出现的心跳报文丢包或心跳报文改包,或者路由器与交换机交互的协议报文出现的协议报文丢包或协议报文改包,或者路由器参与转发的,且路由器可以感知的用户业务报文的丢包或改包(譬如用户业务数据报文的网络协议(internetprotocol,ip)头改包)。

示例性的,转发设备可以周期性的检测单位时间内发生固件类故障的数量,这里进行故障检测的周期可以根据需要进行设定(例如为1s),这里的单位时间也可以根据需要进行设定。本发明实施例将以单位时间与检测周期均以1s为例进行说明。辅助类故障的检测方式与固件类故障类似。

102、转发设备根据固件类故障及预设门限策略确定第一状态。

其中,第一状态通常用于表明转发设备固件的健康状态,根据固件类故障的严重程度可以分为多个状态等级。这里的预设门限策略可以包括转发设备为确定第一状态所设定的门限策略。转发设备具体可以根据出现的固件类故障情况以及预设门限策略确定第一状态为哪种状态等级。

103、转发设备根据辅助类故障及预设门限策略确定第二状态。

其中,第二状态通常用于表明转发设备所在网络的健康状态,根据辅助类故障的严重程度可以分为多个状态等级。这里的预设门限策略还可以包括转发设备为确定第二状态所设定的门限策略。转发设备具体可以根据出现的辅助类故障情况以及预设门限策略确定第一状态为哪种状态等级。

具体的,转发设备可以通过故障检测模块周期性地检测并上报固件类故障和辅助类故障,并通过故障联动模块根据故障检测模块上报的故障情况确定第一状态和第二状态。

104、当第一状态为第一疾病状态且第二状态为第二疾病状态时,转发设备根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二 状态。

第一门限值为转发设备为确定第一疾病状态设定的一个门限值,例如单位时间内出现1个多比特ecc错误,具体可以根据需要进行设定。转发设备可以根据检测到的固件类故障情况确定第一状态,并且当固件类故障大于或者等于第一门限值时,可以确定第一状态为第一疾病状态。需要说明的是,这里的第一门限值较低,用以在出现少量固件类故障时将第一状态确定为第一疾病状态。通常情况下,当转发设备出现少量固件类故障时有很大可能不会影响终端的业务。

第二门限值为转发设备为确定第二疾病状态设定的一个门限值,例如单位时间内出现5个协议报文丢包,具体可以根据需要进行设定。转发设备根据检测到的辅助类故障情况确定第二状态,并在当辅助类故障大于或者等于第二门限值时,可以确定第二状态为第二疾病状态。需要说明的是,这里的第二门限值较低,用以在出现少量辅助类故障时将第二状态确定为第二疾病状态。通常情况下,当出现少量辅助类故障时,会一定程度上影响终端的业务,但不能确定是网络中的哪个设备引起的该辅助类故障,即不能确定是否由当前转发设备引起的该辅助类故障。

当第一状态为第一疾病状态且第二状态为第二疾病状态时,表明当前转发设备的固件出现少量故障且还出现了少量辅助类故障,此时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以根据预设修复策略及时进行告警或复位等修复动作,以避免终端业务出现大范围故障。

可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态可以包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。其中的故障程度可以通过 单位时间内出现的故障数量类描述,单位时间内出现的故障数量越大可以说明故障程度越高,转发设备的固件或所在网络的健康状态越差。

因而,在上述步骤101至步骤104提供的故障检测方法中,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

本发明实施例提供的上述故障检测方法中,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度。

当第一状态包括第一健康状态,第一疾病状态包括第一轻疾状态和第一重疾状态时,步骤102具体可以包括:

在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;其中,第三预设时间阈值大于第一预设时间阈值。

需要说明的是,其中的第一门限值、第三门限值可以根据需要进行具体设定。例如,第一门限值可以为单位时间内固件类故障的数量为n,n为正整数。

可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。

具体的,这里将以固件类故障为出现多比特ecc错误为例进行说明:

在转发设备启动后,可以默认第一状态为第一健康状态。

在第一状态为第一健康状态后,若单位时间内多比特ecc错误的数量小于第一门限值,则保持第一状态为第一健康状态。这里包括两种情况:1、转发设备一直未检测到多比特ecc错误,则保持第一状态为第一健康状态;2、转发设备检测到多比特ecc错误,但单位时间内多比特ecc错误的数量小于第一门限值,则保持第一状态为健康状态。可选地,第一门限值可以为单位时间内多比特ecc错误的数量为1,因而对于该第一门限值下不存在上述第2种情况,即首次检测到多比特ecc错误时一定大于或者等于了第一门限值。

在第一状态为第一健康状态后,若单位时间内多比特ecc错误的数量大于或者等于第一门限值且小于第三门限值,则可以将第一健康状态更新为第一轻疾状态。这里的第三门限值高于第一门限值,且第三门限值可以为第五门限值的一半,而第五门限值可以为当第二状态为非第二疾病状态即第二状态为第二健康状态时根据多比特ecc错误进行告警动作的门限值,第五门限值通常可以设置为现有技术中多比特ecc错误对应的告警门限(例如单位时间内多比特ecc错误的数量为30)。因而,第三门限值可以为单位时间内多比特ecc错误的数量为15。示例性的,在第一状态为第一健康状态后,若当前周期内检测到单位时间内出现1个多比特ecc错误,则可以将第一健康状态更新为第一轻疾状态;或者,若当前周期内检测到单位时间内出现14个多比特ecc错误,则可以将第一健康状态更新为第一轻疾状态。

在第一状态为第一健康状态后,若单位时间内多比特ecc错误的数 量大于或者等于第三门限值,则可以将第一健康状态更新为第一重疾状态。示例性的,在第一状态为第一健康状态后,若当前周期内检测到单位时间内出现15个多比特ecc错误,则将第一健康状态更新为第一重疾状态。

在第一状态为第一轻疾状态后,可以在任一周期确定未检测到多比特ecc错误的持续时间是否大于或者等于第一预设时间阈值,若大于或者等于第一预设时间阈值,则将第一状态更新为第一健康状态;若小于第一预设时间阈值,则在当前周期检测到的单位时间内多比特ecc错误的数量小于第三门限值(包括当前周期未检测到多比特ecc错误)时,保持第一状态为第一轻疾状态,或者,在当前周期检测到的单位时间内多比特ecc错误的数量大于或者等于第三门限值时,将第一轻疾状态更新为第一重疾状态。其中,这里的第一预设时间阈值可以理解为第一轻疾状态老化为第一健康状态时对应的老化时间。在第一状态为第一轻疾状态后,若持续未检测到多比特ecc错误的时间大于或者等于第一轻疾状态对应的老化时间,则可以认为第一轻疾状态已恢复为第一健康状态,因而可以将第一轻疾状态更新为第一健康状态。示例性的,第一轻疾状态对应的老化时间可以为30分钟。

在第一状态为第一重疾状态后,可以在任一周期确定未检测到多比特ecc错误的持续时间是否大于或者等于第三预设时间阈值,若大于或者等于第三预设时间阈值,则将第一重疾状态更新为第一健康状态;若小于第三预设时间阈值,则保持第一状态为第一重疾状态。这里的第三预设时间预设可以理解为第一重疾状态老化为第一健康状态的老化时间。在第一状态为第一重疾状态后,若持续未检测到多比特ecc错误的时间大于或者等于第一重疾状态对应的老化时间,则可以认为第一重疾状态已恢复为第一健康状态,因而可以将第一重疾状态更新为第一健康状态。其中,由于第一重疾状态的故障严重等级高于第一轻疾状态的故障干严重等级,因而第一重疾状态对应的老化时间可以大于第一轻疾状态对应的老化时间,即第三预设时间阈值可以大于第一预设时间阈值。示例性的,第三预设时间阈值可以为6小时。

上述确定第一状态的过程是以出现的固件类故障为多比特ecc错误 为例进行说明的,对于出现的固件类故障为其它固件类故障例如奇偶校验错误时,转发设备可以采用类似的方法确定第一状态。

需要说明的是,转发设备还可能会检测到多种固件类故障,此时转发设备可以采用上述确定第一状态的方法确定不同固件类故障分别对应的第一子状态,并将严重程度较高的第一子状态确定为第一状态。举例来说,若当前周期多比特ecc错误对应的第一子状态为第一重疾子状态,奇偶校验错误对应的第一子状态为第一轻疾子状态,由于第一重疾子状态的故障严重等级高于第一轻疾子状态,因而转发设备可以确定第一状态为第一重疾状态。当然,在相应条件时,转发设备还可以将多比特ecc错误对应的第一重疾子状态恢复为第一健康子状态,将奇偶校验错误对应的第一轻疾子状态恢复为第一健康子状态。

此外,在本步骤中,转发设备确定第一状态所采用的预设门限策略仅是举例说明,具体可以根据需要进行设置。而且,不同固件类故障对应的预设门限策略可以不同。例如,对于某些固件类故障,第三门限值可以为单位时间内出现1次固件类故障,即首次检测到该固件类故障时即确定该固件类故障对应的第一子状态为第一重疾子状态。

当第二状态包括第二健康状态,第二疾病状态包括第二轻疾状态和第二重疾状态时,步骤103具体可以包括:

在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;其中,第四预设时间阈值大于第二预设时间阈值。

需要说明的是,其中的第二门限值、第四门限值可以根据需要进行具体设定。例如,第二门限值可以为单位时间内辅助类故障的数量为m,m为正整数。

可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;第四门限值与第六门限值相等;其中,第六门限值为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。

具体的,这里将以辅助类故障为出现心跳报文改包为例进行说明:

在转发设备启动后,转发设备可以默认第二状态为第二健康状态。

在第二状态为第二健康状态后,若单位时间内心跳报文改包数量小于第二门限值,则保持第二状态为第二健康状态。可选地,对于改包类故障,第二门限值可以为单位时间内改包数量为1。因而,在该第二门限值条件下,在第二状态为第二健康状态后,若当前周期内未检测到心跳报文改包,则可以保持第一状态为第一健康状态;或者,若当前周期内检测到心跳报文改包,则心跳报文改包一定大于或者等于第二门限值。

在第二状态为第二健康状态后,若心跳报文改包大于或者等于第二门限值且小于第四门限值,则将第二健康状态更新为第二轻疾状态,第四门限值高于第二门限值。可选地,第四门限值可以与第六门限值一致,第六门限值可以为第一状态为非第一疾病状态(即第一状态为第一健康状态)时根据辅助类故障进行告警动作的门限值,第六门限值通常可以设置为现有技术中心跳报文改包对应的告警门限(即单位时间内心跳报文改包数量为5)。示例性的,若当前周期检测到单位时间内出现3个心跳报文改包,则大于或者等于了第二门限值且小于第四门限值,因而可以将第二健康状态更新为第二轻疾状态。

在第二状态为第二健康状态后,若单位时间内心跳报文改包数量大于或者等于第四门限值,则将第二健康状态更新为第二重疾状态。示例性的,在第二状态为第二健康状态后,若当前周期检测到单位时间内出现5次心跳报文改包(大于或者等于第四门限值),则将第二健康状态更新为第二重疾状态;或者,若当前周期检测到单位时间内出现6次心跳报文改包(大 于或者等于第四门限值),则将第二健康状态更新为第二重疾状态。

在第二状态为第二轻疾状态后,可以在任一周期确定未检测到心跳报文改包的持续时间是否大于或者等于第二预设时间阈值,若大于或者等于第二预设时间阈值,则将第二状态更新为第二健康状态;若小于第二预设时间阈值,则在当前周期检测到单位时间内心跳报文改包数量小于第四门限值(包括当前周期未检测到心跳报文改包)时,保持第二状态为第二轻疾状态,或者,在当前周期检测到单位时间内心跳报文改包数量大于或者等于第四门限值时,将第二轻疾状态更新为第二重疾状态。这里的第二预设时间阈值可以理解为第二轻疾状态老化为第二健康状态对应的老化时间。在第二状态为第二轻疾状态后,若在第二轻疾状态对应的老化时间内持续未检测到心跳报文改包,则可以认为第二轻疾状态已恢复为第二健康状态,因而可以将第二轻疾状态更新为第二健康状态。其中,第二预设时间阈值可以与第一时间阈值相同或不同。

在第二状态为第二重疾状态后,在任一周期确定未检测到心跳报文改包的持续时间是否大于或者等于第四预设时间阈值,若大于或者等于第四预设时间阈值,则将第二重疾状态更新为第二健康状态;若小于第四预设时间阈值,则不论当前周期是否检测到心跳报文改包均保持第二状态为第二重疾状态。这里的第四预设时间阈值可以为第二重疾状态老化为第二健康状态的老化时间。在第二状态为第二重疾状态后,若在第二重疾状态对应的老化时间内持续未检测到心跳报文改包,则可以认为第二重疾状态已恢复为第二健康状态,因而可以将第二重疾状态更新为第二健康状态。由于第二重疾状态的故障严重程度高于第二轻疾状态的故障严重程度,因而第二重疾状态对应的老化时间可以大于第二轻疾状态对应的老化时间,即第四预设时间阈值大于第二预设时间阈值。其中,第四预设时间阈值与第三预设时间阈值可以相同或不同。

上述确定第二状态的过程是以出现的辅助类故障为心跳报文改包为例进行说明的,对于出现的其它辅助类故障为其它辅助类故障例如协议报文丢包时,转发设备可以采用类似的方法确定第一状态。需要说明的是,当出现的辅助类故障为协议报文丢包等丢包类业务时,第二门限值可以为第六门限值的一半,第六门限值为第一状态为非第一疾病状态(即第一状 态为第一健康状态)时根据辅助类故障进行告警动作的门限值。

上述确定第二状态的方法是以出现的辅助类故障为单一故障为例进行说明的,转发设备还可能会检测到多种辅助类故障,此时转发设备可以采用上述方法确定不同辅助类故障分别对应的第二子状态,并将严重程度较高的第二子状态确定为第二状态。举例来说,若当前周期心跳报文改包对应的第二子状态为第二重疾子状态,协议报文丢包对应的第二子状态为第二轻疾子状态,则由于第一重疾子状态的故障严重等级高于第一轻疾子状态,因而转发设备可以确定第二状态为第二重疾状态。此外,在本步骤中,转发设备确定第二状态所采用的预设门限策略仅是举例说明,不同辅助类故障对应的预设门限策略可以不同,具体可以根据需要进行设定,这里不做限定。

当第一状态包括第一健康状态,第一疾病状态包括第一轻疾状态和第一重疾状态,且第二状态包括第二健康状态,第二疾病状态包括第二轻疾状态和第二重疾状态时,步骤104具体可以包括以下几种情况:

1、当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作。

由于第一门限值小于第五门限值,第五门限值为第二状态为非第二疾病状态即第二状态为第二健康状态时根据固件类故障进行告警动作的门限值,第五门限值可以设置为现有技术中固件类故障对应的告警门限,即第一门限值可以小于现有技术中固件类故障对应的告警门限。同样,由于第二门限值小于第六门限值,第六门限值为第一状态为非第一疾病状态(即第一状态为第一健康状态)时根据辅助类故障进行告警动作的门限值,第六门限值可以设置为现有技术中辅助类故障对应的告警门限,即第二门限值可以小于现有技术中辅助类故障对应的告警门限。

当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,表明当前转发设备出现少量固件类故障且出现少量辅助类故障,由当前转发设备引起终端业务大范围故障的概率较大,此时可以及时进行告警以提醒转发设备及时进行相应处理,因而可以提前于现有技术中的告警门限及时进行告警动作,避免终端业务出现大范围故障。

2、当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行 告警动作。

3、当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作。

对于上述2和3,由于少量固件类故障有很大可能不影响终端业务,辅助类故障影响终端业务的可能性较大,因而可以认为辅助类故障对终端业务的影响较固件类故障对终端业务的影响大,因而当第二状态为第二重疾状态且第一状态为第一轻疾状态时可以进行复位动作,而当第二状态为第二轻疾状态且第一状态为第一重疾状态时可以进行告警动作。

对于第2种情况来说,由于第二门限值小于第四门限值,第四门限值与第六门限值一致,因而第二门限值小于第六门限值,即第二门限值可以小于现有技术中辅助类故障对应的告警门限。因而,第2种情况可以提前于现有技术中辅助类故障对应的告警门限及时进行告警动作,以避免终端业务出现大范围故障。

对于第3种情况来说,由于第一门限值小于第五门限值,即第一门限值小于现有技术中固件类故障对应的告警门限;第四门限值与第六门限值一致,即第四门限值与现有技术中辅助类故障对应的告警门限,而现有技术中辅助类故障的告警门限小于现有技术中辅助类故障对应的复位门限,因而第四门限值可以小于现有技术中辅助类故障对应的复位门限。因此,第3种情况可以提前于现有技术中辅助类故障对应的复位门限及时进行复位动作,以避免终端业务出现大范围故障。

4、当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。

由于第三门限值小于第五门限值,第五门限值小于现有技术中固件类故障对应的复位门限,因而第三故障小于现有技术中固件类故障对应的复位门限。第四故障可以小于现有技术中辅助类故障对应的复位门限。

当第一状态为第一重疾状态且第二状态为第二重疾状态时,由当前转发设备引起的终端业务出现大范围故障的概率很大,因而可以提前于现有技术中的复位门限及时进行复位动作,从而可以避免终端业务出现大范围故障。

需要说明的是,本发明实施例中根据固件类故障的故障程度将第一状 态划分为第一健康状态和第一疾病状态,且将第一疾病状态划分为第一轻疾状态和第一重疾状态仅是举例说明。根据故障程度的不同,第一疾病状态还可以包括故障程度更高的第一病危状态、第一病亡状态等其它状态等级,这里不做限定。当然,根据不同故障程度还可以将第一状态划分为其他状态等级,这里不做限定。第二状态的划分与第一状态类似。

综上可知,本发明实施例提供的故障检测方法通过结合固件类故障和辅助类故障两大类故障进行修复动作。实际上,还可以分别结合两个或多个具体的故障项目进行修复动作,例如结合多比特ecc错误和协议报文丢包进行修复动作,或者结合奇偶校验错误和协议报文丢包进行修复动作,但是由于一个设备可以检测的故障项目非常多(例如路由器中可以检测的故障项目可能达到上千项),因而该方法的实现逻辑过于复杂。而本发明实施例中通过结合固件类故障和辅助类故障两大类故障进行修复动作,可以大大减少逻辑上的复杂度。

进一步地,本发明实施例提供的故障检测方法还可以包括:

当第二状态为非第二疾病状态时,若单位时间内固件类故障的数量大于或者等于第五门限值则进行告警,若单位时间内固件类故障的数量大于或者等于第七门限值则进行复位动作,第七门限值高于第五门限值。其中,这里的第五门限值可以设置为现有技术中固件类故障对应的告警门限,这里的第七门限值可以设置为现有技术中固件类故障对应的复位门限。当第二状态为非第二疾病状态即第二状态为第二疾病状态以外的状态(例如第二健康状态)时,可以认为没有出现或基本没有出现辅助类故障,检测到少量固件类故障时不一定影响终端的业务,因而也不需要对当前转发设备提前进行修复动作,此时可以采用现有技术中的门限策略对辅助类故障进行告警动作或复位动作。

当第一状态为非第一疾病状态时,若单位时间内辅助类故障的数量大于或者等于第六门限值则进行告警动作。其中,这里的第六门限值可以设置为现有技术中辅助类故障对应的告警门限。当第一状态为非第一疾病状态即第一状态为第一疾病状态以外的状态(例如第一健康状态)时,可以认为没有出现或基本没有出现固件类故障,检测到的少量辅助类故障可能是网络中的任一设备引起的,而不一定是当前转发设备引起的,因而不需要 对当前转发设备提前进行修复动作,此时可以采用现有技术中的门限策略对辅助类故障进行告警动作。需要说明的是,当第一状态为第一健康状态时,通常很难确定引起辅助类故障的具体是网络中的哪个设备引起的故障,如果不是当前转发设备引起的故障,而对当前转发设备进行复位则一般不能对网络修复带来益处,反而会出现网络震荡等使得网络状况更为糟糕,因而对于辅助类故障通常不需要进行复位,现有技术中通常也不会设置复位门限。此外,对于辅助类故障中转发设备内部的心跳报文故障,由于可以确定是当前转发设备发生了故障,因而可以设置复位门限以便当该故障达到复位门限时对当前转发设备进行复位。

此外,本发明实施例提供的结合固件类故障和辅助类故障两大类故障进行修复动作的方法还可以应用于终端或服务器。对于终端或服务器来说,其辅助类故障包括的具体内容可能与转发设备辅助类故障包括的具体内容不同,但所采用的方法可以与上述过程类似,这里不再详细说明。

本发明实施例提供一种故障检测方法,当转发设备的第一状态为第一疾病状态时可以表明当前转发设备的固件出现少量故障;当转发设备的第二状态为第二疾病状态时通常可以表明当前转发设备所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备的固件故障引起网络出现故障的概率较大,并且当前转发设备将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

参见图3,本发明另一实施例提供一种转发设备200,该转发设备200可以包括:

检测单元201,可以用于检测转发设备200的固件类故障和辅助类故障,固件类故障包括转发设备200的固件故障,辅助类故障包括转发设备200与自身或者与其它网络设备交互的报文出现的故障;

确定单元202,可以用于根据固件类故障及预设门限策略确定第一状态,并根据辅助类故障及预设门限策略确定第二状态;

处理单元203,可以用于当第一状态为第一疾病状态且第二状态为第二疾病状态时,根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状态。

其中,这里的转发设备200可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。

可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态可以包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:

当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;

当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;

当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;

当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。

可选地,辅助类故障包括转发设备200与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备200与其它网络设备交互的协议报文或用户业务数据报文出现的故障。

可选地,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;

在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;

在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;

在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;

其中,第三预设时间阈值大于第一预设时间阈值。

可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。

可选地,第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度;

在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;

在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;

在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;

其中,第四预设时间阈值大于第二预设时间阈值。

可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障 为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;

第四门限值与第六门限值相等;

其中,第六门限值可以为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。

可选地,处理单元203还可以用于:

当第二状态为非第二疾病状态时,若固件类故障大于或者等于第五门限值则进行告警动作,若固件类故障大于或者等于第七门限值则进行复位动作,第七门限值大于第五门限值;

当第一状态为非第一疾病状态时,若辅助类故障大于或者等于第六门限值则进行告警动作。

本发明实施例提供一种转发设备200,当转发设备200的第一状态为第一疾病状态时可以表明当前转发设备200的固件出现少量故障;当转发设备200的第二状态为第二疾病状态时通常可以表明当前转发设备200所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备200的固件故障引起网络出现故障的概率较大,并且当前转发设备200将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

参见图4,本发明另一实施例提供一种转发设备300,该转发设备300可以包括处理器301,存储器302及总线303,其中,存储器302可以用于存储指令和数据;总线303可以用于连接处理器301和存储器302;处理器301执行该指令可以用于检测转发设备300的固件类故障和辅助类故障,固件类故障包括转发设备300的固件故障,辅助类故障包括转发设备300与自身或者与其它网络设备交互的报文出现的故障;用于根据固件类故障及预设门限策略确定第一状态,并根据辅助类故障及预设门限策略确定第二状态;用于当第一状态为第一疾病状态且第二状态为第二疾病状态时,根据预设修复策略进行修复动作,第一疾病状态为单位时间内固件类故障的数量大于或者等于第一门限值时对应的第一状态,第二疾病状态为单位时间内辅助类故障的数量大于或者等于第二门限值时对应的第二状 态。

其中,这里的转发设备300可以是如图1所示基本网络架构中的路由器、交换机等进行报文转发的设备。

可选地,第一疾病状态可以包括第一轻疾状态和第一重疾状态,第一重疾状态对应的故障程度高于第一轻疾状态对应的故障程度;第二疾病状态包括第二轻疾状态和第二重疾状态,第二重疾状态对应的故障程度高于第二轻疾状态对应的故障程度;修复动作包括告警动作或复位动作;根据预设修复策略进行修复动作包括:

当第一状态为第一轻疾状态且第二状态为第二轻疾状态时,进行告警动作;

当第一状态为第一重疾状态且第二状态为第二轻疾状态时,进行告警动作;

当第一状态为第一轻疾状态且第二状态为第二重疾状态时,进行复位动作;

当第一状态为第一重疾状态且第二状态为第二重疾状态时,进行复位动作。

可选地,辅助类故障可以包括转发设备300与自身或与其它网络设备交互的心跳报文出现的故障,以及转发设备300与其它网络设备交互的协议报文或用户业务数据报文出现的故障。

可选地,第一状态还可以包括第一健康状态,第一健康状态对应的故障程度低于第一疾病状态对应的故障程度;

在第一状态为第一健康状态后,若单位时间内固件类故障的数量小于第一门限值,则第一状态为第一健康状态;或者,若单位时间内固件类故障的数量大于或者等于第一门限值且小于第三门限值,则第一状态为第一轻疾状态,第三门限值大于第一门限值;或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则第一状态为第一重疾状态;

在第一状态为第一轻疾状态后,若未检测到固件类故障的持续时间大于或者等于第一预设时间阈值,则第一状态为第一健康状态;否则,若单位时间内固件类故障的数量小于第三门限值,则第一状态为第一轻疾状态,或者,若单位时间内固件类故障的数量大于或者等于第三门限值,则 第一状态为第一重疾状态;

在第一状态为第一重疾状态后,若未检测到固件类故障的持续时间大于或者等于第三预设时间阈值,则第一状态为第一健康状态;否则,第一状态为第一重疾状态;

其中,第三预设时间阈值大于第一预设时间阈值。

可选地,第一门限值可以为单位时间内固件类故障的数量为1,第三门限值可以为第五门限值的一半,第五门限值可以为第二状态为非第二疾病状态时根据固件类故障进行告警动作的门限值。

可选地,第二状态还可以包括第二健康状态,第二健康状态对应的故障程度低于第二疾病状态对应的故障程度;

在第二状态为第二健康状态后,若单位时间内辅助类故障的数量小于第二门限值,则第二状态为第二健康状态;或者,若单位时间内辅助类故障的数量大于或者等于第二门限值且小于第四门限值,则第二状态为第二轻疾状态,第四门限值大于第二门限值;或者,若单位时间内辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;

在第二状态为第二轻疾状态后,若未检测到辅助类故障的持续时间大于或者等于第二预设时间阈值,则第二状态为第二健康状态;否则,若单位时间内辅助类故障的数量小于第四门限值,则第二状态为第二轻疾状态,或者,若辅助类故障大于或者等于第四门限值,则第二状态为第二重疾状态;

在第二状态为第二重疾状态后,若未检测到辅助类故障的持续时间大于或者等于第四预设时间阈值,则第二状态为第二健康状态;否则,第二状态为第二重疾状态;

其中,第四预设时间阈值大于第二预设时间阈值。

可选地,辅助类故障可以包括丢包类故障和改包类故障,若辅助类故障为丢包类故障,则第二门限值可以为第六门限值的一半,若辅助类故障为改包类故障,则第二门限值可以为单位时间改包类故障的数量为1;

第四门限值与第六门限值相等;

其中,第六门限值可以为第一状态为非第一疾病状态时根据辅助类故障进行告警动作的门限值。

可选地,处理器301执行该指令还可以用于当第二状态为非第二疾病状态时,若固件类故障大于或者等于第五门限值则进行告警动作,若固件类故障大于或者等于第七门限值则进行复位动作,第七门限值大于第五门限值;

当第一状态为非第一疾病状态时,若辅助类故障大于或者等于第六门限值则进行告警动作。

本发明实施例提供一种转发设备300,当转发设备300的第一状态为第一疾病状态时可以表明当前转发设备300的固件出现少量故障;当转发设备300的第二状态为第二疾病状态时通常可以表明当前转发设备300所在网络出现少量故障;当第一状态为第一疾病状态且第二状态为第二疾病状态时,由当前转发设备300的固件故障引起网络出现故障的概率较大,并且当前转发设备300将引起终端业务出现大范围故障的概率较大,因而可以及时根据预设修复策略进行告警或复位等修复动作,从而能够解决现有技术中的检测机制对于少量故障被检测到而终端的业务可能会出现大范围故障的情况无法及时进行修复动作的问题。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1