本发明涉及监控平台,尤其涉及一种基于zabbix的异常监控平台。
背景技术:
1、zabbix是一个基于web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位、解决存在的各种问题。
2、授权公告号为cn114844772a的中国专利公开了基于zabbix监控平台的管理方法及系统。包括:监控管理平台、通过api接口连接所述监控管理平台的所述zabbix监控平台,还包括:于监控管理平台获取到查询命令的状态下输出所述查询命令,并根据所述查询命令获取与所述查询命令匹配的至少一个查询指令;于所述zabbix监控平台获取到所述查询指令的状态下,所述zabbix监控平台根据所述查询指令于zabbix客户端中获取于所述查询指令匹配的查询数据,并将所述查询数据返回至所述监控管理平台。
3、但是上述已公开方案存在如下不足之处:虽然能通过指令查询告警设备和告警原因,但不能实现故障预判,难以在监控对象发生故障前对其进行定位和处理,目前存在一些通过深度学习的模型进行数据处理实现故障预判,但该算法较为复杂,设备投入成本高,还有通过设置基准线和阈值的方式进行判断,但该判断方式精度较低。
技术实现思路
1、本发明目的是针对背景技术中存在的无法通过简单算法实现高精度的故障预判的问题,提出一种基于zabbix的异常监控平台。
2、一方面,本发明提出一种基于zabbix的异常监控平台,包括监控管理平台、代理服务器、网络服务器和远程终端;
3、代理服务器设置在每个网络区域内,扫描网段内存在的监控对象,并收集当前区域的监控对象的监控数据然后传输给网络服务器;网络服务器对数据进行后续处理,网络服务器中设置触发器用来触发警告和自动恢复;
4、监控管理平台提供操作平台,其包括数据存储模块、模板配置模块、规则配置模块和告警模块;模板配置模块用来配置监控模板;规则配置模块用来配置发现规则,发现设备并和监控模板进行关联;
5、数据存储模块用来存储数据并对数据进行分析处理,得到故障预判指数a,其中,p为当前采集的数据,m为历史数据h的平均值,hk表示历史的异常数据,标准差
6、告警模块内设置告警阈值范围y和预判阈值范围y′;
7、远程终端用来接收告警信息和故障预警信息,并与监控管理平台无线通信连接实现远程控制。
8、优选的,自动恢复方式包括关闭通知、发送恢复通知和数据正常后重新恢复。
9、优选的,当前采集的数据p位于告警阈值范围y外时进行告警,输出告警信息,当故障预判指数a位于预判阈值范围y′外时进行预警,输出故障预警信息。
10、优选的,告警模块内设置告警分析单元,告警分析单元用来对告警信息进行分析,分析告警信息时,定义参数如下:运行状况指数b,平均确认时间q,平均恢复时间r,平均故障间隔时间g,式中,q=(t1+t2+...+tn)/n,tn表示告警产生到告警被确认的时间间隔,单位为秒,r=(d1+d2+...+dn)/n,dn表示系统从故障状态恢复正常的时间间隔,单位为秒,g=t/n,t表示系统正常运行的时间总和,单位为秒,n表示系统的故障次数,运行状况指数b数值越大说明系统的稳定性和可靠性越好。
11、优选的,告警模块内设置降频处理单元,用来配置告警的降频处理,即在设定的时间内,对重复触发的相同监控对象的告警进行合并。
12、优选的,代理服务器的网段扫描包括以下步骤:s11、在代理服务器上安装nmap软件;s12、在管理界面中,创建一个新的设备类型,类型选择网络设备;s13、在创建新设备时为其指定ip地址,输入要扫描的ip地址范围;s14、在监控项中,添加一个新项目,类型选择外部检查,并设定命令将ip范围内的设备ip替换成s3中指定的ip地址;s15、保存和应用更改,在监控界面中,刷新新创建的设备,并查看监控项时,会显示指定ip地址范围内扫描到的设备列表。
13、优选的,监控管理平台内设置分组模块,分组模块用来将监控对象添加到不通过的组中,并对应运维人员。
14、另一方面,本发明提出一种基于zabbix的异常监控平台的监控方法,包括以下步骤:
15、s21、在每个网络区域内设置代理服务器,扫描网段内存在的监控对象,通过设置好的规则将其与模板进行自动关联;
16、s22、收集当前区域的监控对象的监控数据并传输给网络服务器;
17、s23、网络服务器对数据进行处理分析,获取故障预测指数,异常数据会使触发器进入告警动作,存在异常趋势的数据会触发预判阈值的触发条件;
18、s24、向远程终端发送告警信息和故障预警信息;
19、s25、通过远程终端处理告警信息和故障预警信息。
20、与现有技术相比,本发明具有如下有益的技术效果:通过设置故障预判指数计算公式,结合历史平均值和历史标准差进行计算,即可得出当前采集的数据的故障预判情况,通过故障预判指数的数值可直观判断数据的情况,实现故障预判,算法简单,执行效率高,计算过程中剔除历史的异常数值,预判精度高。且通过触发器设置触发条件和恢复条件,能完成自动恢复,保证系统的稳定运行。另外能实现告警分析,具体为通过设置运行状况指数对告警信息进行分析,根据公式进行数值计算,便于对系统运行的稳定性和可靠性提供数值参照,从而不定期对系统进行维护,保持良好的运行情况。
1.一种基于zabbix的异常监控平台,其特征在于,包括监控管理平台、代理服务器、网络服务器和远程终端;
2.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,自动恢复方式包括关闭通知、发送恢复通知和数据正常后重新恢复。
3.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,当前采集的数据p位于告警阈值范围y外时进行告警,输出告警信息,当故障预判指数a位于预判阈值范围y′外时进行预警,输出故障预警信息。
4.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,告警模块内设置告警分析单元,告警分析单元用来对告警信息进行分析,分析告警信息时,定义参数如下:运行状况指数b,平均确认时间q,平均恢复时间r,平均故障间隔时间g,式中,q=(t1+t2+...+tn)/n,tn表示告警产生到告警被确认的时间间隔,单位为秒,r=(d1+d2+...+dn)/n,dn表示系统从故障状态恢复正常的时间间隔,单位为秒,g=tn,t表示系统正常运行的时间总和,单位为秒,n表示系统的故障次数,运行状况指数b数值越大说明系统的稳定性和可靠性越好。
5.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,告警模块内设置降频处理单元,用来配置告警的降频处理,即在设定的时间内,对重复触发的相同监控对象的告警进行合并。
6.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,代理服务器的网段扫描包括以下步骤:s11、在代理服务器上安装nmap软件;s12、在管理界面中,创建一个新的设备类型,类型选择网络设备;s13、在创建新设备时为其指定ip地址,输入要扫描的ip地址范围;s14、在监控项中,添加一个新项目,类型选择外部检查,并设定命令将ip范围内的设备ip替换成s3中指定的ip地址;s15、保存和应用更改,在监控界面中,刷新新创建的设备,并查看监控项时,会显示指定ip地址范围内扫描到的设备列表。
7.根据权利要求1所述的基于zabbix的异常监控平台,其特征在于,监控管理平台内设置分组模块,分组模块用来将监控对象添加到不通过的组中,并对应运维人员。
8.一种根据权利要求1所述的基于zabbix的异常监控平台的监控方法,其特征在于,包括以下步骤: