本发明涉及互联网技术领域,具体的说是一种基于snmp协议网络系统孤岛自愈方法。
背景技术:
snmp(简单网络管理协议)是目前使用最为广泛的网络管理通讯协议。随着硬件芯片新能的不管提升,snmp服务器设备管理着越来越多的客户端设备。这些设备可能是跨区、甚至是框省市的,一旦出现故障便不能进行高效定位,影响用户体验,并且维护成本将会非常高。
基于snmp协议网络系统架构,主要由客户端设备、snmp代理、snmp服务器设备三部分组成,形成一个完整的通讯管理系统,在移动通讯组网、机器人集群组网中被广泛采用。
在运维过程中,网络中的主要设备在配置、修改参数或者升级过程中,可能会出现不可控的故障,如果客户端设备与服务器的断链或者单通的情况,导致客户端联系不上服务器,从而形成孤岛,维护人员无法第一时间定位故障原因,影响客户端设备所在地区的用户体验,并增加运维成本。因此提供一种孤岛检测并自愈的方法就显得尤为重要了。
技术实现要素:
针对现有技术中存在的上述不足之处,本发明目的是提供一种基于snmp协议网络系统孤岛自愈方法,以减少运维成本、高效定位故障并在一定情况下通过自愈方法恢复设备运行。
本发明为实现上述目的所采用的技术方案是:一种基于snmp协议网络系统的孤岛自愈方法,具有如下步骤:
(1)心跳互发检测确定服务器与客户端设备通讯正常
在各客户端设备与服务器之间建立请问链路,客户端设备向服务器发送心跳包,同时服务器向客户端也发送心跳包,客户端设备发送的心跳包与服务器发送的心跳包互相独立;客户端设备与服务器各自检测对方发送的心跳包,若客户端设备与服务器能够持续稳定接收到对方发送的心跳包则判断服务器与客户端设备通讯正常;
(2)向客户端发送修改配置参数或新版本
通过步骤(1)判定服务器与客户端设备通讯正常时,服务器向客户端设备发送修改配置参数或新版本,在发送修改配置参数或新版本后向客户端设备发送心跳包表示修改配置参数或新版本发送完毕,客户端在接受修改配置参数或新版本后对原始参数或原始版本进行备份,备份完成后客户端设备向服务器发送心跳包表示接收到修改配置参数或新版本并对原始参数或原始版本进行了备份,心跳发送后客户端设备修改接收的配置参数或安装新版本;
(3)客户端设备孤岛检测
通过步骤(2)客户端设备修改接收的配置参数或安装新版本后,服务器继续向客户端设备发送心跳,若客户端设备连续多次未收到服务器发送心跳包,可以判断服务器至客户端设备方向链路断开,客户端设备启动复位定时器,在复位定时器设定时间内链路仍未恢复,则确定该客户端设备成为孤岛状态;
(4)客户端设备复位以及黑匣子信息记录
通过步骤(3)对客户端设备进行孤岛检测后,如果确定客户端处于孤岛状态,客户端设备回退备份的参数数据并复位客户端设备客户端设备记录黑匣子信息,所述黑匣子信息包括心跳丢失时的起始时间与结束的绝对时间以及复位前的修改配置参数与版本信息,重新建立服务器与客户端设备的请问链路,保证客户端设备与服务器互相发送的心跳包稳定收发,服务器分析故障原因后作出相应的修改,重新进行配置参数修改或升级版本操作。
所述步骤(3)中,在服务器向客户端设备发送心跳包的同时客户端设备也向服务器发送心跳,若服务器连续多次未检测到客户端设备发送的心跳包时,则停止向客户端设备发送心跳包,回收资源且记录下最后一次心跳包的绝对时间。
所述步骤(3)中客户端设备与服务器连续10次未收到对方发送的心跳包作为判断服务器与客户端设备是否断开连接的标准。
所述步骤(3)中复位定时器设定的时间为2小时。
所述步骤(3)、(4)中的孤岛状态为客户端设备与服务器设备失去联系,服务器端无法对此设备进行后续维护操作。
所述客户端设备为通过snmp代理程序与服务器进行snmp协议通讯的设备,所述客户端设备与服务器的设定距离不受地理限制。
所述服务器在网络系统中可部署一组或多组,所述服务器管理大量的客户端设备,对客户端设备进行参数配置、修改,版本升级、状态告警查询、新能统计等维护操作。
所述心跳包的心跳间隔设置为1秒,所述客户端设备与服务器之间的网络连线包括但不限于光纤网络。
本发明的有益效果是:
1.通过步骤(1)心跳互发检测确定服务器与客户端设备通讯正常,在确定服务器与客户端设备通讯正常后,通过步骤(2)向客户端发送修改配置参数或新版本,客户端设备修改接收的配置参数或安装新版本,通过步骤(3)对修改接收的配置参数或安装新版本的客户端设备进行孤岛检测,判断客户端设备是否处于孤岛状态,如果客户端处于孤岛状态,通过步骤(4)对客户端设备复位并记录黑匣子信息,根据黑匣子信息分析故障原因后作出相应的修改,整个处理过程简单高效,很好的减少了节约运维成本;
2.采用互发心跳的方式,可以更准确的分析定位上、下行链路断问题,上行链路是指客户端,下行链路是指服务器至客户端设备方向链路,保证其能够对故障进行高效定位;
3.客户端设备虽然进入了孤岛,但是向用户提供的服务还是正常的,并且尝试恢复与服务器的链接,能够把对用户的影响降低到最小,在硬件未出现问题的情况下,能够通过复位设备,回退修改配置参数或版本并重新与服务器设备建链恢复运行,通过自愈方法恢复设备运行。
附图说明
图1为本发明应用的网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
请参阅图1,一种基于snmp协议网络系统的孤岛自愈方法,具有如下步骤:
(1)心跳互发检测确定服务器与客户端设备通讯正常
在各客户端设备与服务器之间建立请问链路,客户端设备向服务器发送心跳包,同时服务器向客户端也发送心跳包,客户端设备发送的心跳包与服务器发送的心跳包互相独立;客户端设备与服务器各自检测对方发送的心跳包,若客户端设备与服务器能够持续稳定接收到对方发送的心跳包则判断服务器与客户端设备通讯正常;
(2)向客户端发送修改配置参数或新版本
通过步骤(1)判定服务器与客户端设备通讯正常时,服务器向客户端设备发送修改配置参数或新版本,在发送修改配置参数或新版本后向客户端设备发送心跳包表示修改配置参数或新版本发送完毕,客户端在接受修改配置参数或新版本后对原始参数或原始版本进行备份,备份完成后客户端设备向服务器发送心跳包表示接收到修改配置参数或新版本并对原始参数或原始版本进行了备份,心跳发送后客户端设备修改接收的配置参数或安装新版本;
(3)客户端设备孤岛检测
通过步骤(2)客户端设备修改接收的配置参数或安装新版本后,若客户端设备连续多次未收到服务器发送心跳包,可以判断服务器至客户端设备方向链路断开,客户端设备启动复位定时器,在复位定时器设定时间内链路仍未恢复,则确定该客户端设备成为孤岛状态;
(4)客户端设备复位以及黑匣子信息记录
通过步骤(3)对客户端设备进行孤岛检测后,如果确定客户端处于孤岛状态,客户端设备回退备份的参数数据并复位客户端设备客户端设备记录黑匣子信息,黑匣子信息包括心跳丢失时的起始时间与结束的绝对时间以及复位前的修改配置参数与版本信息,重新建立服务器与客户端设备的请问链路,保证客户端设备与服务器互相发送的心跳包稳定收发,服务器分析故障原因后作出相应的修改,重新进行配置参数修改或升级版本操作。
本发明中,步骤(3)中,在服务器向客户端设备发送心跳包的同时客户端设备也向服务器发送心跳,若服务器连续多次未检测到客户端设备发送的心跳包时,则停止向客户端设备发送心跳包,回收资源且记录下最后一次心跳包的绝对时间;步骤(3)中客户端设备与服务器连续10次未收到对方发送的心跳包作为判断服务器与客户端设备是否断开连接的标准;步骤(3)中复位定时器设定的时间为2小时;步骤(3)、(4)中的孤岛状态为客户端设备与服务器设备失去联系,服务器端无法对此设备进行后续维护操作;客户端设备为通过snmp代理程序与服务器进行snmp协议通讯的设备,客户端设备与服务器的设定距离不受地理限制;服务器在网络系统中可部署一组或多组,服务器管理大量的客户端设备,对客户端设备进行参数配置、修改,版本升级、状态告警查询、新能统计等维护操作;心跳包的心跳间隔设置为1秒,客户端设备与服务器之间的网络连线包括但不限于光纤网络。
实施例2:
请参阅图1,一种基于snmp协议网络系统的孤岛自愈方法,具有如下步骤:
(1)心跳互发检测确定服务器与客户端设备通讯正常
在各客户端设备与服务器之间建立请问链路,客户端设备向服务器发送心跳包,同时服务器向客户端也发送心跳包,心跳包的心跳间隔设置为1秒,客户端设备发送的心跳包与服务器发送的心跳包互相独立;客户端设备与服务器各自检测对方发送的心跳包,若客户端设备与服务器能够持续稳定接收到对方发送的心跳包则判断服务器与客户端设备通讯正常;
(2)向客户端发送修改配置参数或新版本
通过步骤(1)判定服务器与客户端设备通讯正常时,服务器向客户端设备发送修改配置参数或新版本,在发送修改配置参数或新版本后向客户端设备发送心跳包表示修改配置参数或新版本发送完毕,客户端在接受修改配置参数或新版本后对原始参数或原始版本进行备份,备份完成后客户端设备向服务器发送心跳包表示接收到修改配置参数或新版本并对原始参数或原始版本进行了备份,心跳发送后客户端设备修改接收的配置参数或安装新版本;
(3)客户端设备孤岛检测
通过步骤(2)客户端设备修改接收的配置参数或安装新版本后,若客户端设备连续多次未收到服务器发送心跳包,可以判断服务器至客户端设备方向链路断开,客户端设备启动复位定时器,复位定时器设定的时间为2小时,在复位定时器设定时间内链路仍未恢复,则确定该客户端设备成为孤岛状态;
(4)客户端设备复位以及黑匣子信息记录
通过步骤(3)对客户端设备进行孤岛检测后,如果确定客户端处于孤岛状态,客户端设备回退备份的参数数据并复位客户端设备客户端设备记录黑匣子信息,黑匣子信息包括心跳丢失时的起始时间与结束的绝对时间以及复位前的修改配置参数与版本信息,重新建立服务器与客户端设备的请问链路,保证客户端设备与服务器互相发送的心跳包稳定收发,服务器分析故障原因后作出相应的修改,重新进行配置参数修改或升级版本操作。
实施例3:
请参阅图1,本发明的有益效果是:通过步骤(1)心跳互发检测确定服务器与客户端设备通讯正常,在确定服务器与客户端设备通讯正常后,通过步骤(2)向客户端发送修改配置参数或新版本,客户端设备修改接收的配置参数或安装新版本,通过步骤(3)对修改接收的配置参数或安装新版本的客户端设备进行孤岛检测,判断客户端设备是否处于孤岛状态,如果客户端处于孤岛状态,通过步骤(4)对客户端设备复位并记录黑匣子信息,根据黑匣子信息分析故障原因后作出相应的修改,整个处理过程简单高效,很好的减少了节约运维成本;
采用互发心跳的方式,可以更准确的分析定位上、下行链路断问题,上行链路是指客户端,下行链路是指服务器至客户端设备方向链路,保证其能够对故障进行高效定位;
客户端设备虽然进入了孤岛,但是向用户提供的服务还是正常的,并且尝试恢复与服务器的链接,能够把对用户的影响降低到最小,在硬件未出现问题的情况下,能够通过复位设备,回退修改配置参数或版本并重新与服务器设备建链恢复运行,通过自愈方法恢复设备运行。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。