用于监测云计算环境下网络设备的状态的方法和装置的制造方法

文档序号:9891258阅读:431来源:国知局
用于监测云计算环境下网络设备的状态的方法和装置的制造方法
【技术领域】
[0001]本发明涉及云计算技术,特别涉及用于监测云计算环境下网络设备的状态的方法和装置。
【背景技术】
[0002]云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源,它意味着计算能力也可作为一种商品通过互联网进行流通。
[0003]云计算技术的运用改变了数据中心的网络架构。传统网络采用接入层、汇聚层和核心层的三层互联架构,但是由于云计算的网络设备需要考虑虚拟机的迀移域,因此采用接入层+核心层的两层互连架构,并且网关设置在核心层交换机中以增加迀移域的范围,层间则通过端口聚合互联以增加云计算网络的弹性。
[0004]聚合端口主要用于交换机之间的连接。当两个交换机之间有多条冗余链路时,根据生成树协议(STP),其中的几条链路将被关闭而仅保留一条链路,由此避免层间环路的形成。但是路径冗余的放弃将带来STP链路切换很慢(50秒左右)的后果。当使用以太网通道时,交换机将把一组物理端口联合在一起形成一个逻辑通道,此时交换机将这样的逻辑通道视为一个端口。
[0005]网络设备的状态主要指板卡、端口的使用状态,其异常一般表现为板卡或者端口僵死。目前,监测网络设备板卡状态包括基于Ping机制的方法、基于硬件狗机制的方法和基于分布式网络控制的方法。
[0006]在Ping机制方法中,主控盘使用操作系统提供的ping命令对所有线卡的内网IP地址施行Ping操作,然后检测Ping命令的回馈结果,如果丢包率为100%,就认为该线卡出现异常。
[0007]硬件狗机制方法需要FPGA支持硬件狗功能,软件根据硬件狗要求,在规定时间内对硬件规定的某个寄存器位施行写入操作,如果线卡(PU死机,则在规定的时间内不存在上述写入操作,硬件狗将超时从而重启该线卡。
[0008]在基于分布式网络控制机制的方法中,主控盘生成并发送第一UDP心跳报文至线卡,响应于第一UDP心跳报文,线卡根据自身的资源使用率信息来生成第二 UDP心跳报文并向主控盘发送生成的第二 UDP报文。当主控盘判断线卡的资源使用率超过预设阈值时,判定线卡出现异常。
[0009]但是上述三种方法都存在缺陷。具体而言,在基于ping机制的方法和基于分布式网络控制机制的方法中,利用ICMP或UDP报文来探测,源地址和目的地地址不变,交换机始终通过聚合端口中的某一个端口固定转发,因此无法检测到聚合端口中其他端口的状态。基于硬件狗机制的方法需要硬件支持,此外,采用硬件狗机制将无法同时监测分布式系统内网通信异常的情况。
[0010]由上可见,需要一种能够克服上述缺点的用于监测云计算环境下网络设备的状态的方法和装置。

【发明内容】

[0011]本发明提供用于监测云计算环境下网络设备的状态的方法和装置,其具有实施方便、响应速度快和故障定位能力强等优点。
[0012]根据本发明的一个方面,提供了一种用于监测云计算环境下网络设备的状态的方法,所述网络设备被汇接至位于接入层的交换机,所述方法包含下列步骤:
向所述交换机发送采集所述网络设备的状态的请求;
根据从交换机接收的所述网络设备的状态信息,确定所述网络设备的状态是否出现异常,
其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。
[0013]优选地,在上述方法中,所述报文收发状态包括所述成对端口组处发送和接收的报文的数量。
[0014]优选地,在上述方法中,根据预设时长的间隔内在成对端口组处接收和发送的报文的数量的偏移值来确定所述网络设备的状态是否出现异常。
[0015]优选地,在上述方法中,所述偏移值为预设时长的间隔内在成对端口组处接收和发送的报文的数量之比,如果连续η个时间间隔内所述偏移值小于或等于阈值,则确定所述网络设备的状态是否出现异常,这里η为预先设定的正整数。
[0016]优选地,在上述方法中,与所述交换机的通信基于简单网络管理协议(SNMP)。
[0017]优选地,在上述方法中,所述交换机基于链路层发现协议(LLDP)获取网络拓扑结构的信息,所述网络拓扑结构用于确定成对端口组,并且所述交换机基于生成树协议(STP)得到成对端口组的报文收发状态。
[0018]优选地,在上述方法中,所述报文为网桥协议数据单元(Brou)报文。
[0019]根据本发明的另一个方面,提供了一种用于监测云计算环境下网络设备的状态的装置,包括:
与位于接入层的交换机耦合的收集单元,所述网络设备被汇接至所述交换机,所述收集单元被配置为向所述交换机发送采集所述网络设备的状态的请求和从所述交换机接收所述网络设备的状态信息;
与所述收集单元耦合的处理单元,其被配置为根据所述网络设备的状态信息确定所述网络设备的状态是否出现异常,
其中,所述状态信息包括所述交换机上将所述网络设备互联的成对端口组的报文收发状态,所述成对端口组的其中一个向另一个发送报文。
[0020]优选地,在上述装置中,进一步包括与处理单元耦合的告警单元,其被配置为在所述处理单元确定所述网络设备的状态出现异常时生成告警消息。
【附图说明】
[0021]本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示,附图包括:
图1为按照本发明一个实施例的用于监测云计算环境下网络设备的状态的装置的框图。
[0022]图2为图1中所示交换机的逻辑功能框图。
[0023]图3为按照本发明另一个实施例的用于监测云计算环境下网络设备的状态的方法的流程图。
[0024]图4为可应用于图3所示实施例的确定网络设备是否出现异常的方法的流程图。
[0025]图5为用于表征网络设备出现异常的偏移值-时间的示意图。
【具体实施方式】
[0026]下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整,以将本发明的保护范围更为全面地传达给本领域技术人员。
[0027]诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。
[0028]在云计算环境下,交换机通常将一组物理端口联合在一起形成一个聚合端口,不同类型的数据分组根据其源或者目的MAC地址、IP地址被分配到聚合端口的各个端口。由于在网络监控中同一类型的数据分组将从同一端口转发,因此故障难以被发现。按照本发明的实施例,通过收集网络设备互联端口处报文收发的状态(例如收发报文的数量)并且根据互联端口报文收发状态的偏移值来判断网络设备是否出现异常。
[0029]优选地,收发的报文为网桥协议数据单元(BPDU)报文。BPDU报文是生成树协议(STP)下的一种问候数据分组,其以可配置的间隔发送,用于在网络的网桥间进行信息交换。当一个网桥开始变为活动时,其每个端口都以设定的间隔(例如2秒)发送一个BPDU报文,对于接收到BPDU报文的本地端口,如果接收到的BPDU报文的优先级高于其正要发送的BPDU报文,则该本地端口将优先发送接收到BPDU报文,此后,如果在预设的时间间隔内未接收到高优先级的BPDU报文,则本地端口再发送被延迟的BPDU报文。
[0030]以下借助附图描述本发明的具体实施例。
[0031]图1为按照本发明一个实施例的用于监测云计算环境下网络设备的状态的装置的框图。
[0032]图1所示的用于监测云计算环境下网络设备的状态的装置10包括收集单元110和处理单元120。可选地,装置10还包含告警单元130。
[0033]如图1所示,收集单元110与接入层交换机20耦合,其被配置为向接入层交换机发送采集网络设备(未画出)的状态的请求,其中这些网络设备被汇接至位于接入层的交换机20。优选地,收集单元110与交换机20的通信基于简单网络管理协议(SNMP)。
[0034]由一组网络管理的标准组成,包含一个应用层协议、数据库模型和一组资源对象,其目标是管理互联网上众多厂家生产的软硬件平台,因此受互联网标准网络管理框架的影响很大。
[0035]图2为图1中所示交换机的逻辑功能框图。如图2所示,交换机20包含下列逻辑功能模块:SNMP接收端210、STP模块220和链路层发现协议(LLDP)模块230。
[0036]接收端21
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1