一种对象存储集群的健康监测方法及相关装置、存储介质与流程

文档序号:36419625发布日期:2023-12-20 06:59阅读:33来源:国知局
一种对象存储集群的健康监测方法及相关装置与流程

本技术涉及对象存储集群的运维,特别涉及一种对象存储集群的健康监测方法及相关装置、存储介质。


背景技术:

1、在当前大数据时代,随着企业业务上云的不断推进,对象存储的应用越来越广泛,在企业内部运行的私有化对象存储集群规模也随之增大,而分布式对象存储系统中的某个组件节点出现故障会影响整个系统的可用性,造成短时间内的服务失效,因此当前对于对象存储系统的监控要求也越来越高。

2、当前对于对象存储系统的监控主要是对数据处理的过程以及处理结果进行监控,以能在某一个组件节点在进行数据处理过程中出现故障时,可以及时的发现异常,并定位出具体的异常情况,以便于运维人员及时对故障进行修复,保证系统也可以快速恢复。

3、但是现有的方式只能是在出现故障时及时发现故障,并不能在故障未发生前提前发现可能会导致出现故障的情况,即无法发现系统存在的亚健康问题,从而未能及时进行处理避免故障发现,而故障在发现后,即使是及时进行处理还是对业务处理造成了影响,因此现有的方式无法有效保证系统的可用性。


技术实现思路

1、基于上述现有技术的不足,本技术提供了一种对象存储集群的健康监测方法及相关装置、存储介质,以解决现有的方法无法有效保证系统的可用性的问题。

2、为了实现上述目的,本技术提供了以下技术方案:

3、本技术第一方面提供了一种对象存储集群的健康监测方法,包括:

4、分别针对每个目标系统架构层,获取所述目标系统架构层的组件在各项通用状态检查项上的当前信息;其中,所述目标系统架构层包括接入转发层、逻辑处理层、元数据存储层以及数据存储层;

5、基于各项所述通用状态检查项对应的健康配置信息,检查所述目标系统架构层的组件在各项通用状态检查项上的当前信息的健康状态;

6、分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息;

7、基于所述目标系统架构层对应的各项专有状态检查项对应的健康配置信息,检查所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息的健康状态;

8、将所述目标系统架构层的组件的各项状态检查项的健康状态检查结果汇总并反馈;其中,所述状态检查项包括所述通用状态检查项以及所述专有状态检查项。

9、可选地,在上述的对象存储集群的健康监测方法中,所述获取所述目标系统架构层的组件在各项通用状态检查项上的当前信息,包括:

10、获取所述目标系统架构层的组件的当前cpu核数、当前内存大小、当前磁盘信息、当前操作系统版本、当前ntp时钟同步服务状态以及配置、当前dns域名解析服务状态以及配置、当前网卡服务状态以及配置、当前定时任务守护进程运行状态、当前系统日志中指定项信息、当前三方依赖软件库配置。

11、可选地,在上述的对象存储集群的健康监测方法中,所述目标系统架构层为所述接入转发层,所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息,包括:

12、分别获取所述接入转发层的组件的当前ngxin进程的存活状态、当前指定端口的连通性、当前核心处理进程的存活状态、当前旁路路由进程的存活状态。

13、可选地,在上述的对象存储集群的健康监测方法中,所述目标系统架构层为所述逻辑处理层,所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息,包括:

14、分别获取所述逻辑处理层的组件的当前组件核心配置、当前核心进程的存活状态、当前特定服务端口的存活状态以及当前特定业务日志项。

15、可选地,在上述的对象存储集群的健康监测方法中,所述目标系统架构层为所述元数据存储层,所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息,包括:

16、分别获取所述元数据存储层的组件的当前关键进程的存活状态、当前关键进程监听端口的状态、当前磁盘运行数据、当前运维系统异常信息。

17、可选地,在上述的对象存储集群的健康监测方法中,所述目标系统架构层为所述数据存储层,所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息,包括:

18、分别获取所述数据存储层的组件的当前关键进程的存活状态、当前关键进程监听端口的状态、当前磁盘运行数据、当前运维系统异常信息、数据回滚执行状态、磁盘损坏处理流程信息。

19、可选地,在上述的对象存储集群的健康监测方法中,还包括:

20、分别针对系统的每个功能接口,按照所述功能接口对应的检查周期调用所述功能接口;

21、接收所述功能接口的反馈数据;

22、基于所述功能接口的反馈数据判断所述功能接口是否存在异常。

23、本技术第二方面提供了一种对象存储集群的健康监测装置,包括:

24、通用项获取单元,用于分别针对每个目标系统架构层,获取所述目标系统架构层的组件在各项通用状态检查项上的当前信息;其中,所述目标系统架构层包括接入转发层、逻辑处理层、元数据存储层以及数据存储层;

25、通用项检查单元,用于基于各项所述通用状态检查项对应的健康配置信息,检查所述目标系统架构层的组件在各项通用状态检查项上的当前信息的健康状态;

26、专项获取单元,用于分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息;

27、专项检查单元,用于基于所述目标系统架构层对应的各项专有状态检查项对应的健康配置信息,检查所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息的健康状态;

28、结果反馈单元,用于将所述目标系统架构层的组件的各项状态检查项的健康状态检查结果汇总并反馈;其中,所述状态检查项包括所述通用状态检查项以及所述专有状态检查项。

29、可选地,在上述的对象存储集群的健康监测装置中,所述通用项获取单元,包括:

30、通用项获取子单元,用于获取所述目标系统架构层的组件的当前cpu核数、当前内存大小、当前磁盘信息、当前操作系统版本、当前ntp时钟同步服务状态以及配置、当前dns域名解析服务状态以及配置、当前网卡服务状态以及配置、当前定时任务守护进程运行状态、当前系统日志中指定项信息、当前三方依赖软件库配置。

31、可选地,在上述的对象存储集群的健康监测装置中,所述目标系统架构层为所述接入转发层,所述专项获取单元执行所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息时,用于:

32、分别获取所述接入转发层的组件的当前ngxin进程的存活状态、当前指定端口的连通性、当前核心处理进程的存活状态、当前旁路路由进程的存活状态。

33、可选地,在上述的对象存储集群的健康监测装置中,所述目标系统架构层为所述逻辑处理层,所述专项获取单元执行所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息时,用于:

34、分别获取所述逻辑处理层的组件的当前组件核心配置、当前核心进程的存活状态、当前特定服务端口的存活状态以及当前特定业务日志项。

35、可选地,在上述的对象存储集群的健康监测装置中,所述目标系统架构层为所述元数据存储层,所述专项获取单元执行所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息时,用于:

36、分别获取所述元数据存储层的组件的当前关键进程的存活状态、当前关键进程监听端口的状态、当前磁盘运行数据、当前运维系统异常信息。

37、可选地,在上述的对象存储集群的健康监测装置中,所述目标系统架构层为所述数据存储层,所述专项获取单元执行所述分别获取所述目标系统架构层的组件在所述目标系统架构层对应的各项专有状态检查项上的当前信息时,用于:

38、分别获取所述数据存储层的组件的当前关键进程的存活状态、当前关键进程监听端口的状态、当前磁盘运行数据、当前运维系统异常信息、数据回滚执行状态、磁盘损坏处理流程信息。

39、可选地,在上述的对象存储集群的健康监测装置中,还包括:

40、调用单元,用于分别针对系统的每个功能接口,按照所述功能接口对应的检查周期调用所述功能接口;

41、接收单元,用于接收所述功能接口的反馈数据;

42、判断单元,用于基于所述功能接口的反馈数据判断所述功能接口是否存在异常。

43、本技术第三方面提供了一种电子设备,包括:

44、存储器和处理器;

45、其中,所述存储器用于存储程序;

46、所述处理器用于执行所述程序,所述程序被执行时,具体用于实现如上述任意一项所述的对象存储集群的健康监测方法。

47、本技术第四方面提供了一种计算机存储介质,用于存储计算机程序,所述计算机程序被执行时,用于实现如上述任意一项所述的对象存储集群的健康监测方法。

48、本技术提供了一种对象存储集群的健康监测方法,将系统划分为接入转发层、逻辑处理层、元数据存储层以及数据存储层四个目标系统架构层,以能有针对性对实现不同功能的组件进行健康检查,从而保证健康检查的全面性和准确性。具体在检查过程中,分别针对每个目标系统架构层,获取目标系统架构层的组件在各项通用状态检查项上的当前信息,架构层的组件在各项通用状态检查项上的当前信息的健康状态,从而实现对组件在通用项上的检查。分别获取目标系统架构层的组件在目标系统架构层对应的各项专有状态检查项上的当前信息,基于目标系统架构层对应的各项专有状态检查项对应的健康配置信息,检查目标系统架构层的组件在目标系统架构层对应的各项专有状态检查项上的当前信息的健康状态,从而实现对该层组件所具体的特点的健康检查。最后将目标系统架构层的组件的各项状态检查项的健康状态检查结果汇总并反馈,实现了对系统的各层组件的全面的健康检查,以能及时发现系统中存在的不健康问题,即可能会引起故障的问题,从而可以在故障发现前及时进行处理,避免故障的发生,进而有效保证了系统的可用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1