一种基于OpenStack技术的云操作系统的自动化监控运维系统的制作方法

文档序号:18028911发布日期:2019-06-28 22:26阅读:315来源:国知局
一种基于OpenStack技术的云操作系统的自动化监控运维系统的制作方法

本发明涉及云操作系统自动化运维管理应用领域,特别是指一种基于openstack技术的云操作系统的自动化监控运维系统。



背景技术:

自动化监控系统的核心是对提升云操作系统的自动化运维水平,降低系统部署难度,提高监控内容的收集和分析能力,帮助运维人员提前预知或快速定位系统问题。现有企业计算机运维是在用户使用计算机过程中发现故障之后,通知运维人员,再由运维人员采取相应的补救措施。运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后才会进行处理,这种情况使运维人员的工作经常处于被动“救火”状态,让it部门疲惫不堪。不仅如此,随着云计算和互联网的高速发展,大量应用需要横跨不同网络终端,it系统架构越来越复杂。在系统运行过程中,运维人员需要时刻监控并管理平台的运行状况。

国网云操作系统是一个复杂的综合系统,涉及到鉴权、计算、网络、存储、虚机镜像、容器、数据库、大数据、裸机等服务,运维工作较为复杂,随着国网云操作系统大面积试点运行,用户数量、机器数量、系统种类等增加,提高国网云操作系统的自动化运维水平,降低系统部署难度,提高监控内容的收集和分析能力,帮助运维人员提前预知或快速定位系统问题是一个急需解决的问题。



技术实现要素:

有鉴于此,本发明实施例的目的在于提出一种基于openstack技术的云操作系统的自动化监控运维系统,能够实现云操作系统的自动化运维,减轻运维人员的工作难度,减少运维时间,降低劳动成本。

基于上述目的本发明实施例提供的一种基于openstack技术的云操作系统的自动化监控运维系统,包括:

采集模块,用于采集云操作系统中的各项参数信息;

存储模块,用于接收所述参数信息,并对所述参数信息进行管理、分析以及存储;

告警模块,用于根据预设规则对所述参数信息进行判断,对于不满足所述预设规则的所述参数信息进行告警处理。

可选的,所述采集模块还用于实现:每隔预设时间采集所述参数信息,并将所述参数信息发送给所述存储模块存储。

可选的,所述采集系统中的各项参数信息包括:

通过zabbix提供的数据采集方法和插件,采集各项网络参数信息;

通过agent、snmp协议、数据库脚本查询方式采集物理资源数据、虚拟资源数据以及云平台资源数据。

可选的,所述采集系统中的各项参数信息还包括:采集虚拟机监控数据、cpu指标信息、内存指标信息、磁盘指标信息以及网络指标信息。

可选的,所述告警模块还用于实现:根据不同的影响程度设置不同的触发等级,根据所述触发等级设置不同的告警模式以及告警对象。

可选的,所述告警模块用于实现:

设置告警条件;

每隔预设时间通过接口服务器向所述存储模块发送所述参数信息的获取请求;

基于所述告警条件,判断所述参数信息是否触发告警;

若是,则根据所述告警模式向所述告警对象发送告警信息。

可选的,所述告警信息包括:故障设备名称、故障症状、发生部位、发生时间以及发生原因。

可选的,通过邮件、短信以及网页展示的方式向所述告警对象展示所述告警信息。

可选的,还包括展示模块,所述展示模块用于实现:基于用户的请求,将所述参数信息、所述告警信息通过图文、图表的形式进行展示。

可选的,根据预定义报表或者用户自定义报表进行所述参数信息的图文、图表展示。

从上面所述可以看出,本发明实施例提供的基于openstack技术的云操作系统的自动化监控运维系统,对于云操作系统运行中的各项参数信息进行采集并存储,同时按照预设的规则对存储的参数信息进行判断,一旦发现不满足预设规则的参数信息则进行告警,提醒运维人员对该处进行处理,从而帮助运维人员提前预知到云操作系统的故障信息并选择合适的时间进行维护,降低了运维人员的工作难度,减少了运维时间,降低了劳动成本。

附图说明

图1为本发明实施例所述基于openstack技术的云操作系统的自动化监控运维系统的逻辑结构图;

图2为本发明实施例所述采集模块的逻辑结构图;

图3为本发明实施例所述告警管理的逻辑结构图;

图4为本发明实施例所述展示模块的逻辑结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

图1为本发明实施例所述基于openstack技术的云操作系统的自动化监控运维系统的逻辑结构图。

本发明实施例提供一种基于openstack技术的云操作系统的自动化监控运维系统,如图1所示,包括:

采集模块11,用于采集云操作系统中的各项参数信息。

存储模块12,用于接收所述参数信息,并对所述参数信息进行管理、分析以及存储。

告警模块14,用于根据预设规则对所述参数信息进行判断,对于不满足所述预设规则的所述参数信息进行告警处理。

本发明实施例所述基于openstack技术的云操作系统的自动化监控运维系统,对于云操作系统运行中的各项参数信息进行采集并存储,同时按照预设的规则对存储的参数信息进行判断,一旦发现不满足预设规则的参数信息则进行告警,提醒运维人员对该处进行处理,从而帮助运维人员提前预知到云操作系统的故障信息并选择合适的时间进行维护,降低了运维人员的工作难度,减少了运维时间,降低了劳动成本。

可选的,所述采集模块11还用于实现:每隔预设时间采集所述参数信息,并将所述参数信息发送给所述存储模块存储。

可选的,所述采集系统中的各项参数信息包括:

通过zabbix提供的数据采集方法和插件,采集各项网络参数信息。其中,zabbix是一个基于web界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,是国内互联网用户中使用最广的监控软件。zabbix可以运行在linux、solaris、hp-ux、aix、freebsd、openbsd、osx等平台上,保证服务器系统的安全运营。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。在本系统基于zabbix实现对国网云操作系统的监控预警。zabbix由2部分构成,zabbixserver与可选组件zabbixagent。zabbixserver可以通过snmp,zabbixagent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能。zabbixagent需要安装在被监视的目标服务器上,主要完成对硬件信息或与操作系统有关的内存,cpu等信息的收集。

通过agent、snmp协议、数据库脚本查询等方式采集物理资源数据、虚拟资源数据以及云平台资源数据。

在本发明的一些实施例中,所述采集系统中的各项参数信息还包括:采集虚拟机监控数据、cpu指标信息、内存指标信息、磁盘指标信息以及网络指标信息。监控数据的采集分为物理机和虚拟化设备两部分,对于物理机的监控使用snmp、ping和ssh等协议,对于虚拟化的设备采用监控代理agent的形式,具体包括:

监控代理agent通过调用libvirt提供的接口来获得虚拟机监控数据,然后将采集到的性能数据存储到数据库;

cpu状态信息存储在stat文件,通过调用脚本程序获取各项cpu指标信息,按要求封装并传输采集到的cpu指标信息;

内存状态信息存储在meminfo文件,通过调用脚本程序获取各项内存指标信息,按要求封装并传输所采集到的内存指标信息;

磁盘i/o状态信息存储在diskstats文件,通过调用脚本程序获取各项磁盘指标信息,按要求封装并传输所采集到的磁盘指标信息;

从物理机采集到的网络状态信息存储在net/dev文件,通过调用脚本程序获取各项网络指标信息,按要求封装并传输所采集到的网络指标信息。

可选的,存储模块12负责对监控数据的收集、存储、管理、分析,zabbix默认每分钟采集一次item的数据,然后会存入history表中。history表主要存储收集到的历史数据,而trends主要存储经过计算的历史数据。配置相关用户权限管理、监控管理和告警管理,永久的保存数据。

在本发明的另一些实施例中,所述告警模块14还用于实现:根据不同的影响程度设置不同的触发等级,根据所述触发等级设置不同的告警模式以及告警对象。

在本实施例中,告警模块14定义的所述触发等级可以包括故障和告警,其中故障是指系统监测到的可能影响系统运行的异常情况;告警是指系统出现的暂不影响但会威胁到常规运行且需要及时进行调整的异常情况。还可以根据影响程度将告警进一步划分为紧急告警(critical)、主要告警(major)、次要告警(minor)、警告告警(warning)、不确定告警(indeterminate)等五个级别,从而建立完整的告警、通知和确认机制保证告警的及时性和准确性,提高运维效率。在一些具体的实施例中,动力环境的交流停电告警为紧急告警,数据的设备cpu利用率超过门限值告警为重要告警,动力环境的风扇故障为次要告警,门禁、门开告警为警告告警。同时对于不同的告警级别设置不同的告警模式以及告警对象,例如对于故障以及不确定告警(indeterminate)可以只进行网页展示,在运维人员登录系统可查看,而对于紧急告警(critical)可以通过短信、邮件甚至电话等方式第一时间通知运维人员进行处理,并且在推送时不仅只推送给直接负责的运维人员,还可以推送给上一级运维人员,甚至推送给系统管理员,以便于对于级别最高的紧急告警(critical)进行及时的处理。

在本发明的一些实施例中,所述告警模块14用于实现:

步骤101,运维人员通过设置模块设置报警器的告警条件。

步骤102,系统检查报警状态并加载报警器列表,同时每隔预设时间通过接口服务器向所述存储模块发送所述参数信息的获取请求。

步骤103,基于预设的所述告警条件,判断获取到的所述参数信息是否触发告警。

步骤104,若是,则根据所述告警模式向所述告警对象发送告警信息。

可选的,所述告警信息包括:故障设备名称、故障症状、发生部位、发生时间以及发生原因。根据故障代码可以快速确认故障位置等基本信息,并生成告警信息展示或者直接发送给相应的运维人员。

可选的,参照图3所示,可以通过邮件、短信以及web端网页展示的方式向所述告警对象展示所述告警信息。

在本发明的另一些实施例中,所述自动化监控运维系统还包括展示模块13,所述展示模块13用于实现:基于用户的请求,将所述参数信息、所述告警信息通过图文、图表的形式进行展示。展示模块主要提供对参数信息即监控数据的展示功能,包括服务器整体信息、设备的实时信息和历史信息等。系统从业务和资源两个维度为用户查询资源使用信息和系统性能状况,用户可以自行查看监控历史数据和实时数据。通过将采集到的监控数据进行分类组合,输出相应的报表。

如图4所示,展示模块14包括监控管理单元、分布管理单元、应急管理单元以及操控管理单元,其中监控管理单元用于展示物理机状态信息、虚拟机状态信息以及虚拟机规则;分布管理单元用于迁移报表;应急管理单元包括常列表、异常提醒列表以及异常处理列表,分别用于展示异常信息、异常提醒信息以及异常处理信息;操控管理单元用于管理虚拟机控制台。通过展示模块,可以对各种异常、故障信息进行记录与展示,也可以对处理后的故障进行跟踪与记录。

可选的,根据预定义报表或者用户自定义报表进行所述参数信息的图文、图表展示。统计报表应满足既可以设置系统预定义报表,也可以用户自定义报表,用户可以在系统中预定义一些常用报表和字段,方便快捷的查看和分析报表,还可借助存储手段,生成常用用户定义报表及字段组合,方便以后查询。

本发明所述基于openstack技术的云操作系统的自动化监控运维系统,对于云操作系统运行中的各项参数信息进行采集并存储,同时按照预设的规则对存储的参数信息进行判断,一旦发现不满足预设规则的参数信息则进行告警,提醒运维人员对该处进行处理,同时对各项监控信息、故障处理信息等进行展示,提高了国网云操作系统的自动化运维水平,降低了系统部署难度,提高了监控内容的收集和分析能力,帮助运维人员提前预知或快速定位系统问题。同时,能够实时图形化监控云操作系统各个节点的cpu利用率、内存、登录用户数、磁盘空间使用率等基本状态,能大大降低国网云操作系统的运维难度,提高国网云操作系统的健壮性。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1