一种设备归一化管理接口的故障诊断信息传送及处理方法

文档序号:8003642阅读:288来源:国知局
一种设备归一化管理接口的故障诊断信息传送及处理方法
【专利摘要】本发明提供一种设备归一化管理接口的故障诊断信息传送及处理方法,应用于包含网络管理工作站(NMS)和运行在光线路终端(OLT)设备上的主代理及子代理的网管系统中,其特征在于,所述方法包括以下步骤:子代理探测OLT设备产生的故障的类型,并将包含故障类型的信息发送给主代理;主代理判断故障的紧急程度,将故障信息封装成报文并上报至NMS;NMS解析报文并分类处理故障;主代理接收NMS返回的相应报文。通过本发明的方法,弥补了OLT设备故障管理可靠性的不足,并提高了主子代理之间信息传输的有效性,节省了网管系统提高故障通知可靠传送的成本,保证了OLT中的主代理可以无一遗漏地把故障诊断通知发送到其期望的目的地,得到及时的维护管理。
【专利说明】一种设备归一化管理接口的故障诊断信息传送及处理方法
【技术领域】
[0001]本发明属于网络管理领域,具体涉及一种设备归一化管理接口的故障诊断信息传送及处理方法。
【背景技术】
[0002]目前,简单网络管理协议(SimpleNetwork Management Protocol, SNMP)是世界上应用最为广泛的网络管理协议,是网络管理事实上的标准,且大多数网络管理系统都是基于SNMP的。SNMP网络管理系统主要由四部分组成:manager、agent、管理信息库(ManagedInformation Base, MIB)和SNMP协议,其中Manager和agent之间就是通过SNMP协议进行通信的。SNMP网管系统可以完成对被管设备的配置管理、性能管理和故障管理等功能,其中,故障管理是网络管理中最重要的任务,而被管设备中的代理向网管系统发送故障通知的机制主要有两种:Trap和Inform。
[0003]Trap是代理向匪S发送的一条非请求性通知消息,用于向管理站报告被管理对象的状态变化,其机制如图1所示。而Inform是一种需要WS确认接收的通知消息,其机制如图2所示。比较图1、2可以看出,与Inform相比较,Trap是一种不可靠的传输方式,因为匪S (网络管理工作站)在收到Trap消息后无需回复任何确认信息,因此SNMP代理也无法知道Trap消息是否已经被正确接收。相对应的,当匪S接收到Inform消息时,它需要向SNMP代理发送一条确认消息,并将这条Inform消息转发给另一个WS。如果WS没有接收到Inform消息,它将不发送应答及转发Inform消息。因此,当SNMP代理无法接收到期望的应答消息时,它将再次发送该条Inform消息给匪S。由此可以看出,Inform机制保证了故障诊断通知的传送可靠性。目前在大多数情况下,Trap被较多地采用,因为Inform机制会耗费更多的网络和设备资源。采用Inform机制后,被管设备不能立即丢弃刚发送过的Inform报文,它需要将该条信息保存在系统内存中,直至被管设备中的代理接收到对应的确认消息,或者超过规定的时间,可以看出这种机制需要耗费一定的设备资源。同时,Trap只会被发送一次,而Inform可能被重复发送数次,这种重复发送Inform报文及接收对应的确认报文又将增加网络流量的额外开销。
[0004]因此,在目前网络资源珍贵的情况下,寻找一个能同时兼顾可靠性和高效性的故障通知方法是一个迫切需求解决的重要问题。

【发明内容】

[0005]为了克服上述现有技术的不足,本发明提供一种设备归一化管理接口的故障诊断信息传送及处理方法,当OLT设备出现故障时,保证故障诊断通知报文传输可靠性的同时又兼顾信息传送的有效性。
[0006]为了实现上述发明目的,本发明采取如下技术方案:
[0007]一种设备归一化管理接口的故障诊断信息传送及处理方法,应用于包含网络管理工作站(匪S)和运行在光线路终端(OLT)设备上的主代理及子代理的网管系统中,其特征在于,所述方法包括以下步骤:
[0008]A.子代理探测OLT设备产生的故障的类型,并将包含故障类型的信息发送给主代理;
[0009]B.主代理判断故障的紧急程度,将故障信息封装成报文并上报至NMS ;
[0010]C.WS解析报文并分类处理故障;
[0011]D.主代理接收匪S返回的确认报文。
[0012]优选地,所述步骤A包括:
[0013]若所述故障为网络管理协议(SNMP)定义的一般故障,则子代理发送的所述信息为AgentX 报文;
[0014]若所述故障为企业自定义的故障,则子代理发送的所述信息为其构建的字符串;
[0015]所述字符串包括:该故障的产生时间、类型、用于表示其紧急程度的severity值。
[0016]优选地,所述步骤B包括:
[0017]B-1.若主代理接收到的信息为字符串,则执行步骤B-2 ;若为AgentX报文,则执行步骤B-3 ;
[0018]B-2.若自定义的故障为紧急故障,则生成Inform PDU ;否则,生成Trap PDU ;执行步骤B-3 ;
[0019]B-3.主代理再将AgentX报文、Inform PDU或Trap PDU进一步封装成SNMP报文并发送给匪S。
[0020]优选地,所述紧急故障为影响系统正常运行的故障;该故障的severity值包括O、
1、2三种,其中,值为O代表使系统受到一定影响但仍可运行的故障,值为I代表使系统性能严重下降,运行受到严重影响的故障,值为2代表使系统处于瘫痪状态、不能运行的故障。
[0021]优选地,所述步骤C包括:匪S解析收到的报文,若所述故障为紧急故障,则返回Response报文至主代理;否则,按照Trap机制处理。
[0022]优选地,所述步骤B中封装的报文为SNMP报文,若该报文发送的是Inform PDU,则主代理于发送该报文的同时启动定时器;所述步骤D中的确认报文为匪S针对紧急故障返回的Response报文,该步骤包括:D-1.若主代理收到所述确认报文,则对其解析并处理;否则,执行步骤D-2;
[0023]D-2.若定时器已到时,主代理判断该紧急故障重发次数是否达到最大值max ;若没有,则重新执行步骤B-3 ;若已达到,则执行步骤D-3 ;
[0024]D-3.主代理将该故障消息数据结构中的关键信息字段重新缓存到另一处,并释放该故障消息数据结构,结束此次紧急故障消息的发送;
[0025]所述最大值max随紧急程度severity值的升高而增大。
[0026]优选地,所述severity值为INTEGER32类型的对象;所述Inform PDU包括EventID标签;该EventID标签为INTEGER32类型的对象;当前故障的EventID标签值Id2如下式表达:
[0027]Id2=3*([Idl/3]+l)+x
[0028]式中,Idl为前一紧急故障的EventID标签值;x为该故障的severity值。
[0029]优选地,NMS构造所述Response报文时,将对应Inform PDU的EventID值填入Response报文结构的请求ID位置处,并于报文的差错状态及差错索引的位置都填入O。[0030]优选地,步骤D-1中所述处理包括:若Response报文中携带的EventID的值与缓存中保存的某条故障消息数据结构的EventID相同,主代理将释放缓存中该故障消息数据结构。
[0031]优选地,所述一般故障包括:冷启动、热启动、链路连接、链路断开、认证失败、相邻路由器失效;所述企业自定义的故障包括:板卡插拔、ONU插拔、电源断开、温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变、信号丢失。
[0032]优选地,所述severity值为O的故障包括:温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变;所述severity值为I的故障包括:板卡插拔、ONU插拔;所述severity值为2的故障包括:信号丢失、电源断开。
[0033]优选地,所述最大值max表达式为:max=severity值+1。
[0034]与现有技术相比,本发明的有益效果在于:
[0035]1、本发明针对企业自定义的陷阱,OLT设备中的子代理进程通过创建的socket套接字,以字符串的形式将自定义结构体snmpd_alarm_struct中的成员信息发送给主代理,提高了故障信息传递的可靠性及有效性;
[0036]2、本发明根据故障的紧急或非紧急的紧急程度,组成不同类型的rou(协议数据单元)Jirou中的第一字段设置不等的数值,然后再统一封装成SNMP报文,匪S在接收到报文后,依据该字段的数值采用不同的机制处理该报文,不仅节省了不必要的设备资源,还提高了网络资源的利用率;
[0037]3、根据紧急故障消息的紧急程度标识,确定不等的报文重发次数,一定程度上合理地节省了网络流量的额外开销,并兼顾了故障诊断通知报文传输的可靠性及有效性;
【专利附图】

【附图说明】
[0038]图1是现有技术中SNMP Trap处理机制示意图;
[0039]图2是现有技术中SNMP Inform处理机制示意图;
[0040]图3是本发明方法的流程图。
【具体实施方式】
[0041]下面结合附图对本发明作进一步详细说明。
[0042]本发明提供一种基于SNMP协议的故障诊断通知报文的发送及应答流程,如图3所示,应用于包含一个网络管理工作站匪S和运行在OLT设备上的主代理及多个子代理的网管系统中,步骤如下:
[0043]A、OLT设备产生故障时,若探测到的为SNMP定义的一般陷阱(如冷启动、热启动、链路连接、链路断开、认证失败、相邻路由器失效),子代理将发送AgentX报文给主代理,若为企业自定义的陷阱(如板卡插拔、ONU插拔、电源断开、温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变、信号丢失),子代理将构建一个字符串,将自定义的结构体成员信息(自定义陷阱产生时间、类型、severity等)发送给主代理;
[0044]B、设备中的主代理在接收到AgentX报文或字符串时,首先进行分析,若为字符串,主代理将根据字符串中的severity信息判断故障的紧急程度,组成Trap或InformPDU0 当 severity 值为 clear、info、warning,即故障非紧急时,组成 Trap PDU,当 severity值为minor、major、critical,即故障紧急时,组成Inform PDU,其中,Inform PDU还携带一个字段来标识紧急故障的紧急程度。紧接着,主代理再将Trap H)U、Inform PDU、AgentX报文封装成SNMP报文发送给NMS。其中,自定义陷阱的等级分类依据:当整个系统处于完全瘫痪状态,不能运行时,将severity值设置为critical,如信号丢失、电源断开;当系统性能严重下降,运行受到严重影响,如板卡丢失、ONU丢失,将severity值设置为major ;当部分设备或者软件出现故障,系统虽受到一定影响但仍可正常运行,如温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变,将severity值设置为minor。
[0045]C、当匪S接收到上述SNMP报文时,解析报文,提取报文中的第三字段,若该字段的值为4 (VITrap TOU)或7 (v2Trap PDU),表示该故障报文为非紧急的,NMS将按照标准的Trap机制来处理该故障信息,结束;若该字段的值为6 (Inform PDU),表不该故障报文为紧急的,OLT中的主代理在发送紧急故障诊断通知报文的同时,启动一个定时器,在该定时器超时时,如果OLT中的主代理仍未收到匪S发来的表示已接收到该条紧急故障报文的Response报文,则表示该条故障诊断通知报文没有成功地被发送到匪S,此时主代理需要重新向匪S发送该紧急报文,且重新启动定时器;若该字段的值为UAgentX PDU的版本号),表不该报文为AgentX报文,此时也按照Trap机制来处理。
[0046]D、根据Inform报文中携带的表示紧急故障的紧急程度标识,OLT中的主代理确定重发一条紧急故障诊断通知的最大次数max (max随着紧急程度的升高而增大,如max=紧急程度标识+1),当主代理重发此条故障诊断通知报文的次数达到max后仍未收到WS的回应时,主理将不再尝试发送,而是将本条故障消息数据结构中的关键信息字段重新缓存在另一处,并释放该故障消息数据结构,结束此次紧急故障消息的发送。
[0047]进一步地,上述方法具有以下特征:
[0048]所述紧急故障消息的紧急程度标识用一个INTEGER32类型的对象EmergentType来表示,其有三个取值0,1,2,分别表示故障消息的紧急程度:弱、中、强,对应severity值:minor λ major、critical。
[0049]进一步地,上述方法还具有以下特征:
[0050]如果所述故障消息为紧急故障消息,在步骤B中,OLT中的主代理还需将该紧急故障消息数据结构缓存起来,且Inform PDU中还携带一 EventID标签并由主代理为其赋值;且该条紧急故障消息的EventID值Id2与所述主代理分配的前一紧急故障消息的EventID值Idl的关系为:Id2=3*([Idl/3]+l)+x, x取值为该故障消息的紧急程度EmergentType。其中,EventID也是一个INTEGER32类型的对象。
[0051]在步骤C中,构造Response报文时,将对应Inform PDU的EventID值填入Response报文结构的请求ID位置处,且报文的差错状态及差错索引的位置都填入O。
[0052]在OLT中的主代理接收到匪S向其发送的Response报文后,对该报文进行解析,若其中携带的EventID的值与缓存中保存的某条故障消息数据结构的EventID相同,主代理将释放缓存中该数据结构。
[0053]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种设备归一化管理接口的故障诊断信息传送及处理方法,应用于包含网络管理工作站(匪S)和运行在光线路终端(OLT)设备上的主代理及子代理的网管系统中,其特征在于,所述方法包括以下步骤: A.子代理探测OLT设备产生的故障的类型,并将包含故障类型的信息发送给主代理; B.主代理判断故障的紧急程度,将故障信息封装成报文并上报至匪S; c.WS解析报文并分类处理故障; D.主代理接收匪S返回的确认报文。
2.如权利要求1所述的方法,其特征在于,所述步骤A包括: 若所述故障为网络管理协议(SNMP)定义的一般故障,则子代理发送的所述信息为AgentX 报文; 若所述故障为企业自定义的故障,则子代理发送的所述信息为其构建的字符串; 所述字符串包括:该故障的产生时间、类型、用于表示其紧急程度的severity值。
3.如权利要求1所述的方法,其特征在于,所述步骤B包括: B-1.若主代理接收到的信息为字符串,则执行步骤B-2 ;若为AgentX报文,则执行步骤 B-3 ; B-2.若自定义的故障为紧急故障,则生成Inform PDU ;否则,生成Trap PDU ;执行步骤B-3 ; B-3.主代理再将AgentX报文、Inform PDU或Trap PDU进一步封装成SNMP报文并发送给匪S。
4.如权利要求3所述的方法,其特征在于:所述紧急故障为影响系统正常运行的故障;该故障的severity值包括0、1、2三种,其中,值为O代表使系统受到一定影响但仍可运行的故障,值为I代表使系统性能严重下降,运行受到严重影响的故障,值为2代表使系统处于瘫痪状态、不能运行的故障。
5.如权利要求1所述的方法,其特征在于,所述步骤C包括:匪S解析收到的报文,若所述故障为紧急故障,则返回Response报文至主代理;否则,按照Trap机制处理。
6.如权利要求1所述的方法,其特征在于:所述步骤B中封装的报文为SNMP报文,若该报文发送的是Inform TOU,则主代理于发送该报文的同时启动定时器;所述步骤D中的确认报文为匪S针对紧急故障返回的Response报文,该步骤包括: D-1.若主代理收到所述确认报文,则对其解析并处理;否则,执行步骤D-2 ; D-2.若定时器已到时,主代理判断该紧急故障重发次数是否达到最大值max ;若没有,则重新执行步骤B-3 ;若已达到,则执行步骤D-3 ; D-3.主代理将该故障消息数据结构中的关键信息字段重新缓存到另一处,并释放该故障消息数据结构,结束此次紧急故障消息的发送; 所述最大值max随紧急程度severity值的升高而增大。
7.如权利要求2或3所述的方法,其特征在于:所述severity值为INTEGER32类型的对象;所述Inform PDU包括EventID标签;该EventID标签为INTEGER32类型的对象;当前故障的EventID标签值Id2如下式表达:
Id2=3*([Idl/3]+l)+x 式中,Idl为前一紧急故障的EventID标签值;x为该故障的severity值。
8.如权利要求5所述的方法,其特征在于:匪S构造所述Response报文时,将对应Inform PDU的EventID值填入Response报文结构的请求ID位置处,并于报文的差错状态及差错索引的位置都填入O。
9.如权利要求6所述的方法,其特征在于,步骤D-1中所述处理包括:若Response报文中携带的EventID的值与缓存中保存的某条故障消息数据结构的EventID相同,主代理将释放缓存中该故障消息数据结构。
10.如权利要求2所述的方法,其特征在于:所述一般故障包括:冷启动、热启动、链路连接、链路断开、认证失败、相邻路由器失效;所述企业自定义的故障包括:板卡插拔、ONU插拔、电源断开、温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变、信号丢失。
11.如权利要求4所述的方法,其特征在于:所述severity值为O的故障包括:温度异常、风扇故障、软件异常、系统繁忙、告警溢出、配置改变;所述severity值为I的故障包括:板卡插拔、ONU插拔;所述severity值为2的故障包括:信号丢失、电源断开。
12.如权利要求6所述的方法,其特征在于:所述最大值max表达式为:max=severity值+1。
【文档编号】H04L12/26GK103812690SQ201310339143
【公开日】2014年5月21日 申请日期:2013年8月6日 优先权日:2013年8月6日
【发明者】孙晓艳, 张增华, 王向群, 王鹤, 李春龙, 吴军民, 张刚, 黄辉, 黄在朝, 于海, 虞跃, 姚启桂, 喻强, 任杰, 陈伟, 黄治, 于鹏飞, 邓辉, 吴鹏, 王玮, 沈文, 侯功, 陶静, 刘川, 陈磊 申请人:国家电网公司, 中国电力科学研究院, 国网上海市电力公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1