网络准入系统的可用性监测系统及方法与流程

文档序号:12789292阅读:489来源:国知局
网络准入系统的可用性监测系统及方法与流程

本发明涉及一种网络准入系统的可用性监测系统及方法。



背景技术:

网络准入系统主要是通过对网络及终端设备的控制来防止非授权设备的接入。在大型企业中网络及终端设备的种类可能会有几十种,数量可能会达到几万台。复杂的场景下比较容易产生局部故障,如果不及时处理,那么局部问题可能会逐渐变成全局问题,从而会对业务产生重要影响。

目前市场上的网络准入系统产品,主要功能集中在准入控制授权、验证以及报表分析方面,无法做到对于整套系统可用性的实时监测,其故障的发现许多依赖人工巡检和报修,致使响应时间慢,故障影响时间长。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中网络准入系统的故障发现许多依赖人工巡检和报修,致使响应时间慢,故障影响时间长的缺陷,提供一种网络准入系统的可用性监测系统及方法。

本发明是通过下述技术方案来解决上述技术问题:

一种网络准入系统的可用性监测系统,所述网络准入系统包括服务器集群,其特点在于,所述可用性监测系统包括:

指标数据获取模块,用于获取所述服务器集群的运行状态的关键指标数据;

判断模块,用于判断所述关键指标数据是否在预设范围内;若否,则生成报警信息并发送至报警模块;

所述报警模块用于提示报警信息;

所述关键指标数据包括服务器的运行状态指标,以及一时间段内所述网络准入系统的认证成功数、终端设备接入数。

较佳地,所述可用性监测系统还包括:

监测模块,用于获取服务器上的进程标识;

判断模块还用于判断所述进程标识中是否存在关键服务的进程标识,并在判断为否时生成报警信息。

较佳地,所述监测模块还用于监测提供关键服务的端口的开启状态;

所述判断模块还用于在判断所述开启状态异常时生成报警信息。

较佳地,所述可用性监测系统还包括:

模拟终端设备,用于通过所述网络准入系统接入局域网;

所述判断模块还用于在判断所述模拟终端设备接入局域网失败时生成报警信息。

较佳地,所述局域网络包括交换机;

所述监测模块还用于监测所述交换机的端口的认证状态方式;

所述判断模块还用于在认证状态方式与预设状态方式不一致的交换机的端口数量超过预设数量时生成报警信息。

较佳地,所述可用性监测系统还包括自恢复模块,所述自恢复模块存储有恢复脚本;所述恢复脚本用于重新启动关键服务的进程,和/或所述恢复脚本用于将故障的服务器拉出集群;

所述判断模块还用于在生成报警信息时发送控制指令至所述自恢复模块;

所述自恢复模块用于在接收到控制指令时触发恢复脚本。

本发明还提供一种网络准入系统的可用性监测方法,其特点在于,所述可用性监测方法利用如上所述的可用性监测系统实现,所述可用性监测方法包括以下步骤:

S101、指标数据获取模块获取所述服务器集群的运行状态的关键指标数据;

S102、判断模块判断所述关键指标数据是否在预设范围内;若否,则生成报警信息并发送至报警模块;

S200、所述报警模块提示报警信息;

所述关键指标数据包括服务器的运行状态指标,以及一时间段内所述网络准入系统的认证成功数、终端设备接入数。

较佳地,所述可用性监测系统还包括监测模块;

所述可用性监测方法还包括以下步骤:

S111、所述监测模块获取服务器上的进程标识;

S112、所述判断模块判断所述进程标识中是否存在关键服务的进程标识,并在判断为否时生成报警信息。

较佳地,所述可用性监测方法还包括以下步骤:

S121、所述监测模块监测提供关键服务的端口的开启状态;

S122、所述判断模块判断所述开启状态是否正常,并在判断为否时生成报警信息。

较佳地,所述可用性监测系统还包括模拟终端设备;

所述可用性监测方法还包括以下步骤:

S131、模拟终端设备通过所述网络准入系统接入局域网;

S132、所述判断模块在判断所述模拟终端设备接入局域网失败时生成报警信息。

较佳地,所述局域网络包括交换机;

所述可用性监测方法还包括以下步骤:

S141、所述监测模块监测所述交换机的端口的认证状态方式;

S142、所述判断模块在判断认证状态方式与预设状态方式不一致的交换机的端口数量超过预设数量时生成报警信息。

较佳地,所述可用性监测方法还包括自恢复模块,所述自恢复模块存储有恢复脚本;所述恢复脚本用于重新启动关键服务的进程,和/或所述恢复脚本用于将故障的服务器拉出集群;

步骤S102还包括:

所述判断模块发送控制指令至所述自恢复模块;

所述自恢复模块在接收到所述控制指令时触发恢复脚本。

本发明的积极进步效果在于:本发明实现了网络准入系统的可用性的实时监测,替代了人工巡检,能及时发现并将网络准入系统的局部故障通知运维人员,有效地减少故障影响时间。

附图说明

图1为本发明实施例1的网络准入系统的可用性监测系统的结构示意图。

图2为本发明实施例2的网络准入系统的可用性监测方法的流程图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

实施例1

为了更好的理解本发明相对于现有技术做出的改进,在对本发明的具体实施方式进行详细说明之前首先对网络准入系统及网络准入系统所管理的交换机进行说明。网络准入系统包括服务器集群,服务器集群中的各个服务器用于对终端设备进入局域网时的准入控制授权、验证以及报表分析。交换机连接多个终端设备。

如图1所示,本实施例的网络准入系统的可用性监测系统包括指标数据获取模块1、判断模块2和报警模块3。指标数据获取模块1用于获取网络准入系统的服务器集群的运行状态的关键指标数据。其中,关键指标数据包括服务器的运行状态指标,例如,服务器的CPU、内存、硬盘、网卡使用率等指标,以及一时间段(可以是每分钟)内网络准入系统的认证成功数、认证失败数、终端设备接入数、在线终端设备总数、各类型的终端设备(PC、IP话机、打印机、手机、平板电脑等)在线数这些专项指标。判断模块2用于判断关键指标数据是否在预设范围(可根据系统实际运行情形自行设置)内;若是,也即关键指标数据在预设范围内,则说明服务器集群的运行状态正常无故障;若否,也即关键指标数据超出预设范围,则说明服务器集群的运行状态可能出现故障,此时判断模块2生成报警信息并发送至报警模块3。报警模块3提示报警信息以通知运维人员及时处理故障。

本实施例中,可用性监测系统还包括监测模块4。监测模块4用于获取服务器上的进程标识,判断模块2还用于判断进程标识中是否存在关键服务的进程标识,并在判断为否时生成报警信息。监测模块4还用于监测提供关键服务的端口的开启状态,判断模块判断开启状态是否正常,并在判断为否时生成报警信息。监测模块4还用于监测交换机的端口的认证状态方式,判断模块2还用于在认证状态方式与预设状态方式不一致的交换机的端口数量超过预设数量时生成报警信息。

需要说明的是,本实施例中的监测模块可以设置多个,每个监测模块的结构可根据监测内容的不同而不同,当然也可将监测模块的结构设置成相同,且监测模块根据监测的内容布置位置,例如,监测服务器的进程标识及端口时,将监测模块布置在服务器集群侧;监测交换机的端口认证状态时,将监测模块部署在另外的服务器上。本实施例中,报警信息包括报警内容和报警方式,报警内容同样根据监测内容的不同而不同,报警方式可以是声光报警方式,也可以通过邮件将报警内容发送至运维人员的邮箱,或通过短信将报警内容发送至运维人员的移动终端处。

本实施例中,可用性监测系统还包括模拟终端设备5。当关键服务的进程和端口、关键指标数据均正常的情况下,故障依然有可能会发生,因此要结合终端设备侧采样来进行监控,具体的:模拟终端设备5通过网络准入系统接入局域网,判断模块2在判断模拟终端设备5接入局域网是否失败,并在判断为是时生成报警信息。

本实施例中,可用性监测系统还包括自恢复模块6,自恢复模块6存储有恢复脚本;恢复脚本用于重新启动关键服务的进程,和/或恢复脚本用于将故障的服务器拉出集群;判断模块2还用于在生成报警信息时发送控制指令至自恢复模块,自恢复模块用于在接收到控制指令时触发恢复脚本。

本实施例中,实现了网络准入系统的可用性的实时监测,替代了人工巡检,能及时发现并将网络准入系统的局部故障通知运维人员,有效地减少故障影响时间。同时能将故障服务器拉出集群,去除了故障对业务的影响。

实施例2

如图2所示,本实施例的网络准入系统的可用性监测方法可对服务器集群的运行状态、关键服务进程和端口、交换机的认证状态方式等进行监测,且上述监测内容同步进行,具体包括以下步骤:

步骤101、指标数据获取模块获取服务器集群的运行状态的关键指标数据;

步骤102、判断模块判断关键指标数据是否在预设范围内;若判断为是,则不动作;若判断为否,则执行步骤200。

其中,关键指标数据包括服务器的运行状态指标,例如,服务器的CPU、内存、硬盘、网卡使用率等指标,以及一时间段(可以是每分钟)内网络准入系统的认证成功数、认证失败数、终端设备接入数、在线终端设备总数、各类型的终端设备(PC、IP话机、打印机、手机、平板电脑等)在线数这些专项指标。

步骤111、监测模块获取服务器上的进程标识;

步骤112、判断模块判断进程标识中是否存在关键服务的进程标识;若判断为是,则不动作;若判断为否,则执行步骤200。

步骤121、监测模块监测提供关键服务的端口的开启状态;

步骤122、判断模块判断开启状态是否正常;若判断为是,则不动作;若判断为否,则执行步骤200。

步骤131、监测模块监测交换机的端口的认证状态方式;

步骤132、判断模块判断认证状态方式与预设状态方式不一致的交换机的端口数量是否超过预设数量;若判断为是,则执行步骤200;若判断为否,则不动作。

步骤141、模拟终端设备通过网络准入系统接入局域网;

步骤142、判断模块判断模拟终端设备接入局域网是否失败;若判断为是,则执行步骤200;若判断为否,则不动作。

步骤200、判断模块生成报警信息并发送至报警模块。

步骤300、报警模块提示报警信息。

本实施例中,可用性监测方法还包括自恢复模块,自恢复模块存储有恢复脚本;恢复脚本用于重新启动关键服务的进程,和/或恢复脚本用于将故障的服务器拉出集群,步骤200还包括:

判断模块发送控制指令至自恢复模块;

步骤200之后还包括:

自恢复模块在接收到控制指令时触发恢复脚本。

下面通过具体实例介绍本发明在可用性监测方法:

(1)关键服务的进程和端口识别以及状态监控

网络准入系统一般是通过交换机上的802.1x协议,采用802.1x或mac、portal认证的方法对终端设备进行准入控制。在服务器上对应的核心程序包括Radius服务程序,SNMPTrap程序、数据库服务程序、DNS服务程序、DHCP服务程序、DHCP监听程序、WEB服务程序等,这些程序均会通过TCP或UDP端口提供网络服务。按照网络准入的产品不同,程序和对应的端口会有所区别。可通过参考产品说明书或通过任务管理器观察程序启动后的新进程来获取这些关键服务的进程名,随后通过netstat命令得到相关的服务端口。

在识别出关键服务后,通过监测模块在服务器上定期进行进程关键字扫描来识别进程是否存在,并将扫描到的状态记录到数据库。当状态异常时自动产生报警通知运维人员。

在识别出相关的端口后,通过在远端电脑上部署端口监测模块定时对服务器上的关键进程的端口进行扫描来识别端口开启状态是否正常,并将扫描到的状态记录到数据库。当状态异常时自动产生报警通知运维人员。

(2)关键性专项指标的识别、数据采样和告警阀值的制定

关键性指标是指异常时可能会触发故障,影响终端用户使用的指标。

除通用的CPU(中央处理器)、内存、硬盘、网卡使用率等指标外,对于网络准入系统还包括每分钟的认证成功数,每分钟的认证失败数,每分钟的终端设备接入数、在线终端设备总数、各类型的终端设备在线数(PC(计算机)、电话机、打印机、手机、平板电脑等)这些专项指标。

这些专项指标的数据采样通过Radius的认证及计费功能结合自行编写的程序来实现,采样结果通过数据库的形式进行记录。

不同的网络准入系统,终端设备数有所不同,且用户使用习惯有所差异。各项告警阀值需要在一段时间数据采样后,通过与正常值对比进行设置:

以每分钟的认证成功数为例,取30天的同比认证成功数为数据样本,去掉故障时的异常数据以及最高的10%和最低的10%的数据。告警阀值上限为剩余数据的最大值*120%,告警阀值的下限为剩余数据的最小值*80%。

(3)终端侧采样点的部署、配置与数据采样

在关键服务的进程和端口、关键性专项指标正常的情况下,故障依然有可能会发生。因此要结合终端侧采样来进行监控。终端采样点为linux或windows系统,根据公司的网络规模、架构等因素,需要分区域部署多个。探测点(也即监测模块)放置在用户接入交换机侧,模拟用户通过网络准入系统接入,随后通过程序来自动连接远程的网络服务实时探测,并记录探测结果到数据库,当无法正常连接远程服务时,则产生报警。

(4)接入交换机侧数据的搜集和告警阀值的制定

交换机侧的数据需要每个被控端口的认证状态,认证方式。以轮询方式通过SNMP(简单网络管理协议)接口读取特定的OID(物联网域名)来搜集。当多端口出现异常时,则产生报警。

(5)故障的自恢复

部分告警后续会触发自恢复功能,对故障进行自恢复。例如告警发现关键服务的进程异常终止,那么会触发恢复脚本,尝试将异常终止的进程启动或将故障服务器拉出集群。

(6)疑问数据日报表

监测过程中,可能会偶尔监测到一些有疑问、尚未达到报警程度的单点数据。这些数据有时候一天可能会有几十条,如果在每次产生时都产生报警,势必会带来很多噪声。但这些数据对于评估系统稳定性是有帮助的。因此,在每天定点通过程序将疑问数据进行汇总后自动发邮件到系统管理员的邮箱,提供给系统管理员进行查阅分析。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1