本技术涉及多机房运维领域,尤其涉及一种基于aiops的运维控制方法以及相关设备。
背景技术:
1、在现代信息技术领域,尤其是在复杂的多机房运维环境中,aiops(人工智能运维)技术已被广泛应用于自动化和优化运维任务,然而,传统的aiops系统的凭证管理通常是集中式管理,在大规模和分布式的多机房运维控制环境中,若集中式管理被攻破,则会导致所有相关机房被攻破,则无法有效解决多机房、公有云和私有云等跨机房场景下发自动化任务的安全运维需求,进而影响多机房系统的安全性和可靠性。
技术实现思路
1、以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
2、本技术实施例提供了一种基于aiops的运维控制方法以及相关设备,旨在解决现有技术无法有效解决多机房、公有云和私有云等跨机房场景下发自动化任务的安全运维需求,进而影响多机房系统的安全性和可靠性的技术问题。
3、为实现上述目的,本技术实施例的第一方面提出了一种基于aiops的运维控制方法,所述方法应用于所述基于aiops的运维控制系统的控制层,所述运维控制系统包括管理服务器、与所述管理服务器通信连接的机房,所述机房包括控制层、执行层以及若干主机,所述方法包括:
4、每隔预设时间从所述管理服务器的第一任务池中拉取若干与所述机房相关的初始任务数据,其中,每个初始任务数据均关联有相应的主机信息;
5、根据所拉取的初始任务数据所关联的主机信息以及预设的凭证信息表,确定每个初始任务数据对应的主机凭证信息,其中,所述凭证信息表包括若干主机信息以及与每个主机信息相关联的凭证信息;
6、将每个初始任务数据与所确定的对应的主机凭证信息确定为中间任务数据并存储至第二任务池中;
7、若检测到所述执行层发起的任务拉取请求,响应于所述任务拉取请求以控制所述执行层从第二任务池中拉取若干中间任务数据,并使所述执行层根据预先设置的任务模式分配规则将所拉取的中间任务数据分配至不同的主机上。
8、在一些实施例中,所述方法还包括:
9、在被分配的主机通过所述执行层执行所述中间任务数据对应的目标任务之后,接收所述执行层回调的所述目标任务对应任务结果;
10、对所述任务结果进行数据上报处理。
11、在一些实施例中,所述将每个初始任务数据与所确定的对应的主机凭证信息确定为中间任务数据并存储至第二任务池中之后,还包括:
12、记录多个中间任务数据的任务下发时间;
13、根据所述任务下发时间确定处于未下发状态的所述中间任务数据是否超时;
14、在确定所述中间任务数据超时的情况下,根据预设的策略决定确定所述中间任务数据是否被抛弃;
15、在确定所述中间任务数据被抛弃的情况下,接收所述执行层回调的表征任务失败的任务结果。
16、在一些实施例中,所述方法还包括:
17、确定所述目标任务是否执行成功;
18、在确定所述目标任务未执行成功的情况下,根据预设的重试策略确定所述目标任务是否需要重新执行;
19、在确定所述目标任务需要重新执行的情况下,控制所述执行层从第二任务池中拉取所述目标任务对应的中间任务数据,并使所述执行层将所拉取的中间任务数据分配至对应主机上,使得被分配的主机通过所述执行层执行所述目标任务。
20、在一些实施例中,所述方法还包括:
21、在所述目标任务完成后,记录所述目标任务的完成时间和所述任务结果的上报状态;
22、根据所述完成时间和所述上报状态,从若干完成的所述目标任务中确定出长时间未上报的超时任务;
23、对所述超时任务的上报失败原因进行数据上报处理;
24、若接收所述执行层回调的所述超时任务对应任务结果,则对所述超时任务对应任务结果进行数据上报处理。
25、在一些实施例中,所述方法还包括:
26、对所述任务结果进行数据上报处理后,获取上报结果;
27、在所述上报结果表征上报失败的情况下,对所述任务结果进行上报状态修改处理,并在预设时限再次对所述任务结果进行数据上报处理;
28、在所述任务结果的上报时间超过所述预设时限的情况下,停止对所述任务结果进行数据上报处理,并修改所述任务结果的上报状态和对应所述中间任务数据的任务状态。
29、为实现上述目的,本技术实施例的第二方面提出一种基于aiops的运维控制系统,所述系统包括:管理服务器、与所述管理服务器通信连接的机房,所述机房包括控制层、执行层以及若干主机;
30、其中,所述控制层用于每隔预设时间从所述管理服务器的第一任务池中拉取若干与所述机房相关的初始任务数据,其中,每个初始任务数据均关联有相应的主机信息;根据所拉取的初始任务数据所关联的主机信息以及预设的凭证信息表,确定每个初始任务数据对应的主机凭证信息,其中,所述凭证信息表包括若干主机信息以及与每个主机信息相关联的凭证信息;将每个初始任务数据与所确定的对应的主机凭证信息确定为中间任务数据并存储至第二任务池中;若检测到所述执行层发起的任务拉取请求,响应于所述任务拉取请求以控制所述执行层从第二任务池中拉取若干中间任务数据,并使所述执行层根据预先设置的任务模式分配规则将所拉取的中间任务数据分配至不同的主机上。
31、为实现上述目的,本技术实施例的第三方面提出了一种基于aiops的运维控制装置,所述装置设置在所述基于aiops的运维控制系统的控制层,所述运维控制系统包括管理服务器、与所述管理服务器通信连接的机房,所述机房包括控制层、执行层以及若干主机,所述装置包括:
32、初始数据拉取单元,用于每隔预设时间从所述管理服务器的第一任务池中拉取若干与所述机房相关的初始任务数据,其中,每个初始任务数据均关联有相应的主机信息;
33、凭证信息确定单元,用于根据所拉取的初始任务数据所关联的主机信息以及预设的凭证信息表,确定每个初始任务数据对应的主机凭证信息,其中,所述凭证信息表包括若干主机信息以及与每个主机信息相关联的凭证信息;
34、中间数据存储单元,用于将每个初始任务数据与所确定的对应的主机凭证信息确定为中间任务数据并存储至第二任务池中;
35、拉取请求执行单元,用于若检测到所述执行层发起的任务拉取请求,响应于所述任务拉取请求以控制所述执行层从第二任务池中拉取若干中间任务数据,并使所述执行层根据预先设置的任务模式分配规则将所拉取的中间任务数据分配至不同的主机上。
36、为实现上述目的,本技术实施例的第四方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
37、为实现上述目的,本技术实施例的第五方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
38、本技术提供的基于aiops的运维控制方法以及相关设备,具有以下有益效果:首先,本技术通过控制层每隔预设时间从管理服务器的第一任务池中拉取若干与机房相关的初始任务数据,并将每个初始任务数据与所确定的对应的主机凭证信息确定为中间任务数据并存储至第二任务池中,进而响应于任务拉取请求以控制执行层从第二任务池中拉取若干中间任务数据,并使执行层根据预先设置的任务模式分配规则将所拉取的中间任务数据分配至不同的主机上的方式,将凭证信息存储在控制层中,进而可以有效解决当前多机房、公有云和私有云等跨机房场景中,凭证信息集中管理所导致的若集中式管理被攻破,则会导致所有相关机房被攻破的技术问题,进而解决多机房、公有云和私有云等跨机房场景下发自动化任务的安全运维需求,有效提高多机房系统的安全性和可靠性。