本发明涉及云平台数据监控领域,具体涉及一种基于混合云平台的监控和告警系统与方法。
背景技术:
1、随着云平台的井喷式发展,为避免云绑架、提高可靠性,企业或者政府的云中心会采用公有云和私有云混合部署的模式。云平台是it工作的基石,监控云平台的运行状态、及时发现云平台中的异常,是极其重要的工作。
2、现有的混合云监控方案,只能在各个云平台下分别设置查询监控信息,且监控指标不统一,监控成本较高。对于混合云部署的场景,监控方案一般是单独基于每个云平台的,即每个云平台都有自己的监控界面和监控指标,运维人员需要挨个查询每个云平台的监控信息。这种监控方案通常无法从整体上监控整个混合云平台的状态以及整体的资源使用情况,而且通常各个云平台的监控指标有所差异,因此这种监控方案是割裂的、不够标准化的。
3、现有的混合云告警方案,只能在各个云平台下分别设置告警信息,且告警功能的支持粒度不统一,告警功能的使用不够友好。在云平台的使用过程中,通常运维人员对于告警的规则设定是保持一致的。在混合云部署的场景下,这要求运维人员在每个云平台上面进行告警规则,且对于复杂的告警规则设置,云平台的支持度不一,不一定能够满足运维人员的要求。随着云平台的种类数量增加,告警的设置变得异常困难。
技术实现思路
1、本发明目的是提供一种基于混合云平台的监控和告警系统与方法,既能将监控指标标准化,统一处理和展示,还能消除各个云平台的告警差异,适用全平台。
2、本发明为实现上述目的,通过以下技术方案实现:
3、一种基于混合云平台的监控和告警系统,包括数据采集模块、数据展示模块、告警模块、数据库和混合云平台,数据采集模块与混合云平台连接,告警模块与数据采集模块连接,数据库分别与数据采集模块、告警模块和数据展示模块连接;
4、数据采集模块包括数据采集任务设置单元、监控数据采集单元、监控指标标准化单元;
5、数据展示模块包括监控指标信息展示单元、异常告警展示单元;
6、告警模块包括告警规则引擎单元、告警通知单元;
7、混合云平台包括公有云平台、私有云平台和监控api。
8、进一步的,数据采集模块采集的混合云平台数据包括cpu数据、内存数据、硬盘数据、网卡数据和二次开发数据;
9、监控数据采集单元包括cpu监控数据采集插件、内存监控数据采集插件、硬盘监控数据采集插件、网卡监控数据采集插件和二次开发监控数据采集插件;
10、监控指标标准化单元包括cpu监控指标标准化插件、内存监控指标标准化插件、硬盘监控指标标准化插件、网卡监控指标标准化插件和二次开发监控指标标准化插件;
11、告警规则引擎单元包括cpu使用率告警规则、内存使用率告警规则、硬盘使用率告警规则、网卡流速告警规则和二次开发告警规则;
12、监控指标信息展示单元包括cpu使用率展示、内存使用率展示、硬盘使用率展示、网卡流速展示和二次开发指标展示;
13、异常告警展示单元包括cpu使用率告警、内存使用率告警、硬盘使用率告警、网卡流速告警和二次开发告警。
14、进一步的,数据采集任务设置单元包括云商凭证设置、数据采集时间频率设置、采集系统线程池大小设置。
15、一种基于混合云平台的监控和告警方法,包括步骤:
16、数据采集模块预设置数据采集任务,数据告警模块预设置告警通知方式和告警规则;
17、根据不同的采集任务,数据采集模块使用不同的采集插件对混合云平台的监控数据进行采集;
18、数据采集模块判定监控数据是否与设定指标一致,将不一致的监控数据标准化处理,将结果保存到数据库,同时推送到数据告警模块;
19、数据告警模块接收采集的监控数据指标,进行判断,如果触发告警规则,根据设置的告警通知方式进行通知,并将数据保存到数据库。
20、进一步的,预设置采集任务包括设置数据采集频率、录入云商凭证、采集任务线程池大小。
21、进一步的,监控数据采集的步骤包括:
22、根据已有的虚机信息查询该虚机位于的云商地域;
23、对每个虚机建立数据采集任务,放置于数据采集模块中;
24、数据采集系统利用多线程技术,提前创建线程池,每接收到一个任务就从线程池中取出一个线程,并根据云商规定的api进行数据采集;
25、根据不同的采集任务,使用不同的采集插件进行相应监控数据的采集。
26、进一步的,监控数据标准化处理步骤包括:指标换算和单位换算。
27、进一步的,指标换算包括:
28、(1)cpu使用率指标换算:
29、① 如云商不直接提供cpu使用率,只提供cpu空闲态的运行时间,则利用如下公式进行计算:
30、cpu使用率=(1 - 空闲态总运行时间/总运行时间) * 100%
31、(2)内存使用率指标换算:
32、① 如云商不直接提供内存使用率指标,只提供已使用内存的指标,则利用如下公式进行计算:
33、内存使用率=(已使用内存/内存总量) * 100%
34、② 如云商不直接提供内存使用率指标,只提供空闲内存的指标,则利用如下公式进行计算:
35、内存使用率=(1-空闲内存/内存总量) * 100%
36、(3)磁盘使用率指标换算:
37、① 如云商不直接提供磁盘使用率指标,只提供已使用磁盘的指标,则利用如下公式进行计算:
38、磁盘使用率=(已使用磁盘/磁盘总量) * 100%
39、② 如云商不直接提供磁盘使用率指标,只提供空闲磁盘的指标,则利用如下公式进行计算:
40、磁盘使用率=(1-空闲磁盘/磁盘总量) * 100%
41、(4)网卡流入/流出速度指标换算:
42、① 如云商不直接提供网卡流入速度指标,只提供指定时间段内流入流量总数的指标,则利用如下公式进行计算:
43、网卡流入速度=流入流量总值/时间段
44、② 如云商不直接提供网卡流出速度指标,只提供指定时间段内流出流量总数的指标,则利用如下公式进行计算:
45、网卡流出速度=流出流量总值/时间段
46、单位换算包括:
47、(1)如资源使用率类型指标不为百分比形式,则转换成百分比的形式;
48、(2)如流量速度不为kbs形式,则换算为kbs形式。
49、进一步的,告警规则包括告警对象,告警等级,触发阈值,持续时间。
50、进一步的,触发告警规则的流程是:当某个告警对象的监控指标在预设置的持续时间内,触发了阈值和规则,则发送预设置的告警等级的告警信息。
51、本发明的优点在于:采集混合云下的各个云平台的监控指标,对监控数据进行标准化,以及统一的展示,解决了混合云平台下资源监控指标混乱的问题,降低运维监控成本;
52、可以在混合云平台下对告警规则一次设置各平台通用,解决了混合云平台告警规则无法复用的问题,屏蔽了不同云平台的告警设置的差异。