本申请涉及人工智能,特别是涉及一种集群监控方法、装置、计算机设备和存储介质。
背景技术:
1、分布式应用程序协调服务软件(zookeeper,zk),是一个分布式的服务框架,主要用来解决分布式集群中应用系统的一致性问题。它能提供基于类似于文件系统的目录节点树方式的数据存储,zookeeper主要是用来维护和监控存储的数据的状态变化,通过监控这些数据的状态变化,从而达到基于数据的集群管理。
2、传统技术中的,zk监控主要采取每套zk集群配置单独的监控设备的方式。监控设备与zk集群一一对应。如果有多套zk集群则对应的需要多台监控设备。这种方式,导致运维成本较高,故,亟需改进。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够降低集群运维复杂度的集群监控方法、装置、计算机设备和存储介质。
2、第一方面,本申请提供了一种集群监控方法,该方法包括:
3、获取各候选集群的基本信息和当前数据处理量;其中,所述基本信息至少包括集群名称、集群ip和监控状态;
4、根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群;
5、根据各可监控集群的基本信息,从各可监控集群中选择至少一个待监控集群;
6、对各待监控集群进行监控。
7、在其中一个实施例中,所述根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群,包括:
8、基于历史数据处理量与历史性能指标数据之间的对应关系,根据各候选集群的当前数据处理量,确定各候选集群的预占用性能指标数据;
9、根据所述预占用性能指标数据与本地监控设备的当前性能指标数据之间的比对结果,从各候选集群中选择至少一个可监控集群。
10、在其中一个实施例中,所述对各待监控集群进行监控,包括:
11、针对每一待监控集群,与该待监控集群建立会话通道;
12、通过所述会话通道,向该待监控集群发送监控指令,以指示该待监控集群执行所述监控指令,并反馈监控结果。
13、在其中一个实施例中,该方法还包括:
14、若根据所述监控结果,识别到该待监控集群内的集群节点发生变更,则根据发生变更的集群节点的节点信息,更新监控指令;
15、通过所述会话通道,重新向该待监控集群发送更新后的监控指令。
16、在其中一个实施例中,所述通过所述会话通道,向该待监控集群发送监控指令之后,所述方法还包括:
17、若未接收到该待监控集群反馈的监控结果,则对该待监控集群与所述本地监控设备之间的会话通道进行检测;
18、在根据检测结果,识别到所述会话通道存在异常的情况下,重新建立与该待监控集群之间的会话通道。
19、在其中一个实施例中,该方法还包括:
20、在根据检测结果,识别到所述会话通道正常的情况下,将所述本地监控设备的当前性能指标数据和性能指标阈值进行比对;
21、若比对结果为所述当前性能指标数据大于所述性能指标阈值,则输出所述本地监控设备的异常预警信息。
22、第二方面,本申请还提供了一种集群监控装置,该装置包括:
23、获取模块,用于获取各候选集群的基本信息和当前数据处理量;其中,所述基本信息至少包括集群名称、集群ip和监控状态;
24、配置模块,用于根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群;
25、切换模块,用于根据各可监控集群的基本信息,从各可监控集群中选择至少一个待监控集群;
26、监控模块,用于对各待监控集群进行监控。
27、第三方面,本申请还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
28、获取各候选集群的基本信息和当前数据处理量;其中,所述基本信息至少包括集群名称、集群ip和监控状态;
29、根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群;
30、根据各可监控集群的基本信息,从各可监控集群中选择至少一个待监控集群;
31、对各待监控集群进行监控。
32、第四方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
33、获取各候选集群的基本信息和当前数据处理量;其中,所述基本信息至少包括集群名称、集群ip和监控状态;
34、根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群;
35、根据各可监控集群的基本信息,从各可监控集群中选择至少一个待监控集群;
36、对各待监控集群进行监控。
37、第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
38、获取各候选集群的基本信息和当前数据处理量;其中,所述基本信息至少包括集群名称、集群ip和监控状态;
39、根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群;
40、根据各可监控集群的基本信息,从各可监控集群中选择至少一个待监控集群;
41、对各待监控集群进行监控。
42、上述集群监控方法、装置、计算机设备和存储介质,传统技术中各本地监控设备与各待监控集群之间存在一一对应关系;本申请中的本地监控设备存储有各候选集群的基本信息和当前数据处理量,并且能够自动地根据各候选集群的当前数据处理量、本地监控设备的当前性能指标数据以及各可监控集群的基本信息,从候选集群中选择至少一个待监控集群;因此,集群管理员依据业务需求,在本地监控设备上动态配置(增加、删除或修改)相应的候选集群的基本信息和当前数据处理量,本地监控设备即可查找到对应的待监控集群,实现监控对象的动态配置;进一步的对各待监控集群实现自动化地监控。相比于传统技术,一台本地监控设备可以监控至少一个待监控集群,且本地监控设备支撑动态配置,可以实现不同监控对象的选择和切换,降低了对多集群运维的复杂度。
1.一种集群监控方法,其特征在于,由本地监控设备执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据各候选集群的当前数据处理量和本地监控设备的当前性能指标数据,从各候选集群中选择至少一个可监控集群,包括:
3.根据权利要求1所述的方法,其特征在于,所述对各待监控集群进行监控,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求3所述的方法,其特征在于,所述通过所述会话通道,向该待监控集群发送监控指令之后,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.一种集群监控装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。