节点故障检测方法及装置的制造方法

文档序号:9237943阅读:827来源:国知局
节点故障检测方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信领域,具体而言,涉及一种节点故障检测方法及装置。
【背景技术】
[0002]目前,相关技术中的光纤通道(Fibre Channel,简称为FC)网络具有高带宽、低时延等良好的网络传输特性,使其在存储网络中得到广泛的应用。
[0003]在主机节点经过交换机节点连接至磁阵节点的组网模型中,在已建立连接关系的两个节点之间(主机节点与磁阵节点)进行数据交互,数据平面始终孤立于终端设备节点(主机和磁阵)或交换节点,而无法得知整个网络的连接情况。对于数据路径的可达性和有效性是通过光纤通道的上层来确定的,即当某个交换节点发生故障时,与其存在连接关系的上游节点或交换节点无法知道该故障点下游的节点已经发生故障,上下游节点还是继续发送数据帧,直到最上层(主机和磁阵)感知超时才进行相应的故障处理。
[0004]目前的FC协议并没有提供专门的机制来检测连接有效性和故障检测。对于FC这种高时延要求的传输介质而言,节点故障后带来的无效的帧传输会影响网络流量,严重影响了用户使用FC网络的体验。且当组网层次比较深时,所有节点之间通过帧来检测连接通断在高速接口上也会影响用户的业务带宽。
[0005]在主机与磁阵的典型组网中,少量的磁阵会同时连接大量的主机节点,并为大量的主机同时提供服务,如果交换节点或磁阵节点发生故障,故障恢复管理不能影响其它主机节点的业务。由于主机节点和磁阵没有维护全网的拓扑关系,只有通过FC-GS-6协议所有节点向交换节点注册其身份,在此种情况下,当有故障发生时,手工维护、恢复、管理会极有可能影响正在运行的业务。
[0006]目前的恢复手段基本上是查看实际环境组网物理连接,并且查看网管工具的告警信息,找出与告警信息匹配的物理节点,整理发起物理节点与故障物理节点之间的物理连接线缆才能定位故障,因而无法满足复杂组网环境下快速定位解决故障的要求。还有就是随着磁阵网络的升级与改造,增加设备节点,网络部署会发生改变,会造成已有网络部署的变化,根据以往的维护经验无法满足快速维护网络的需求。
[0007]目前FC协议对一种FC设备,通过众所周知的地址标识访问Name Server,使用FC-GS-6定义的Common Transfer协议来允许客户端附着到FC交换网中的设备的地址标识和属性,其中,使用GPN_ID获取端口名称,使用GNN_ID获取节点名称,使用GCS_ID获取服务标识名,使用GFT_ID获取FC-4属性,使用GPT_ID获取端口标识类型等。主机节点与磁阵节点只能通过交换节点查询到其它节点的零散信息,没有直接的逻辑关系,无法提供统一的组网展现。
[0008]在光纤通道FC-LS-2协议中规定了环回诊断(echo)命令。echo请求接收方将该命令码之后的负荷(payload)内容按照接收到的顺序,通过应答(reply)序列返回至echo命令的发起者,其提供了一种方法用于传输数据帧,并且通过返回payload内容来进行简单环回诊断功能。序列只能有一个巾贞,该巾贞用来传输echo指令和应答。
[0009]然而,目前FC协议中使用的echo仅能实现简单的环回诊断功能,而并不能获取echo报文所经过节点的信息标识。

【发明内容】

[0010]本发明提供了一种节点故障检测方法及装置,以至少解决相关技术中在FC网络中交换节点或终端设备节点之间的连接发生故障后,数据收发节点无法快速感知的问题。
[0011]根据本发明的一个方面,提供了一种节点故障检测方法。
[0012]根据本发明实施例的节点故障检测方法包括:向与当前节点连接的下游叶子节点发送echo报文,其中,echo报文用于检测当前节点与目的节点之间的链路是否发生异常,当前节点和目的节点均为FC网络中的终端设备节点;根据echo应答报文获取在当前节点与目的节点之间的正常工作的各个节点的标识信息;通过获取到的各个节点的标识信息确定是否存在发生故障的节点。
[0013]优选地,根据echo应答报文获取各个节点的标识信息包括:接收来自于目的节点的echo应答报文,其中,echo应答报文中携带的信息包括:echo报文在当前节点与目的节点之间逐级转发经过的每个节点的全球端口名称(WWPN)标识信息;对echo应答报文进行解析,从echo应答报文中提取全部节点的WffPN标识信息。
[0014]优选地,根据echo应答报文获取各个节点的标识信息包括:接收来自于中间节点的echo应答报文,其中,echo应答报文中携带的信息包括:echo报文在当前节点与中间节点之间逐级转发经过的每个节点的WWPN标识信息以及中间节点收集的该中间节点下游的正常工作的全部叶子节点的WffPN标识信息,中间节点为在FC网络中由当前节点向目的节点发送的echo报文经过的交换节点;对echo应答报文进行解析,从echo应答报文中提取全部节点的WffPN标识信息。
[0015]优选地,通过获取到的各个节点的标识信息确定是否存在发生故障的节点包括:判断从echo应答报文中提取的WWPN标识信息是否为在当前节点与目的节点之间的全部节点的标识信息;如果否,则根据提取到的WWPN标识信息确定发生故障的节点的类型,当发生故障的节点为终端设备节点时,则直接将发生故障的节点的状态信息设置为故障状态;当发生故障的节点为交换节点,则将发生故障的节点以及发生故障的节点下级的全部叶子节点的状态信息均设置为故障状态。
[0016]优选地,在从echo应答报文中提取全部节点的WffPN标识信息之后,还包括:根据提取到的WWPN标识信息确定正常工作的各个节点之间的连接关系和全部连接关系的状态信息,生成网络拓扑结构关系图。
[0017]优选地,向与当前节点连接的下游叶子节点发送echo报文包括:按照第一预设周期发送echo报文;如果发送失败或者在预设时长内未接收到echo应答报文,则将第一预设周期调整为第二预设周期,并且连续发送N次echo报文,其中,第二预设周期的取值小于第一预设周期,N为大于I的正整数,连续发送N次echo报文是否成功的结果用于确定是否继续发送echo报文。
[0018]根据本发明的另一方面,提供了一种节点故障检测装置。
[0019]根据本发明实施例的节点故障检测装置包括:发送模块,用于向与当前节点连接的下游叶子节点发送echo报文,其中,echo报文用于检测当前节点与目的节点之间的链路是否发生异常,当前节点和目的节点均为FC网络中的终端设备节点;获取模块,用于根据echo应答报文获取在当前节点与目的节点之间的正常工作的各个节点的标识信息;确定模块,用于通过获取到的各个节点的标识信息确定是否存在发生故障的节点。
[0020]优选地,获取模块包括:第一接收单元,用于接收来自于目的节点的echo应答报文,其中,echo应答报文中携带的信息包括:ech0报文在当前节点与目的节点之间逐级转发经过的每个节点的全球端口名称(WWPN)标识信息;第一提取单元,用于对echo应答报文进行解析,从echo应答报文中提取全部节点的WffPN标识信息。
[0021]优选地,获取模块包括:第二接收单元,用于接收来自于中间节点的echo应答报文,其中,echo应答报文中携带的信息包括:ech0报文在当前节点与中间节点之间逐级转发经过的每个节点的WWPN标识信息以及中间节点收集的该中间节点下游的正常工作的全部叶子节点的WffPN标识信息,中间节点为在FC网络中由当前节点向目的节点发送的echo报文经过的交换节点;第二提取单元,用于对echo应答报文进行解析,从echo应答报文中提取全部节点的WWPN标识信息。
[0022]优选地,确定模块包括:判断单元,用于判断从echo应答报文中提取的WffPN标识信息是否为在当前节点与目的节点之间的全部节点的标识信息;处理单元,用于在判断单元输出为否时,根据提取到的WWPN标识信息确定发生故障的节点的类型,当发生故障的节点为终端设备节点时,则直接将发生故障的节点的状态信息设置为故障状态;当发生故障的节点为交换节点,则将发生故障的节点以及发生故障的节点下级的全部叶子节点的状态信息均设置为故障状态。
[0023]优选地,上述装置还包括:生成模块,用于根据提取到的WffPN标识信息确定正常工作的各个节点之间的连接关系和全部连接关系的状态信息,生成网络拓扑结构关系图。
[0024]通过本发明实施例,采用向与当前节点连接的下游叶子节点发送echo报文,其中,echo报文用于检测当前节点与目的节点之间的链路是否发生异常,当前节点和目的节点均为FC网络中的终端设备节点;根据echo应答报文获取在当前节点与目的节点之间的正常工作的各个节点的标识信息;通过获取到的各个节点的标识信息确定是否存在发生故障的节点,即当前节点主动向下游叶子节点发送echo报文,并接收echo应答报文,从中提取echo报文经过的各个节点的标识信息,而不需要人工配置各节点信息,并根据提取到的各个节点的标识信息及时掌握由节点故障引起的其下游节点数据帧超时,由此解决了相关技术中在FC网络中交换节点或终端设备节点之间的连接发生故障后,数据收发节点无法快速感知的问题,进而实现了对FC网络连接故障的快速检测,使得收发
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1