本发明涉及大规模网络环境领域,尤其涉及一种分布式it自动化运维系统。
背景技术:
1、数字化转型在组织模式、内部流程、上下游合作模式等方面给企业经营理念带来深刻的变化,以应对越来越不确定、复杂化、个性化的内外部环境,敏捷的企业管理理念要求有与之相匹配的敏捷it架构支撑。双模it架构、分布式微服务应用架构、devops管理思想、云原生技术,在数字化时代构建与敏捷管理相适应的it系统中发挥越来越重要作用,it自动化是上述这些数字化转型支撑技术在质量和效率方面的催化剂,是推动数字化技术创造价值的引擎。
2、当前企业多个it自动化系统和工具分散建设模式,缺乏对it基础设施统一操作管理,不能为itsm、devops、ai/mlops系统提供安全、可靠、灵活的企业级it基础设施操作自服务能力,无法满足数字化时代对it架构敏捷性要求。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种分布式it自动化运维系统。
2、根据本发明的一个方面,提供了一种分布式it自动化运维系统,所述系统包括:操作层、控制层、协调层、应用层、能力开放层,具体包括:
3、代理模块,为操作层部件,用于实现具体的自动化操作功能;
4、操作服务模块,为控制层部件,实现代理控制和分组管理;
5、服务编排模块,为协调层部件,实现自动化作业流程编排,接受各个场景模块的指令,执行自动化作业流程;
6、定时调度模块,为协调层部件,实现整个系统所有定时任务的触发执行;
7、场景模块,为应用层部件,实现特定应用场景功能;
8、api网关,为能力开放层部件,对外提供自动化服务能力;
9、服务注册配置模块,为全局管理部件,为除代理外的各个模块实例提供服务注册和集中配置管理;
10、运维管理模块,为全局管理部件,监控所有模块实例的健康状态;
11、数据存储模块,用于存储数据,包括缓存模块和数据库模块;
12、本发明提供的一种分布式it自动化运维系统,所述系统包括:
13、(1)代理模块以socket客户端身份与操作服务模块建立长连接,配置两个或以上操作服务模块地址实现主备模式高可用,当与当前操作服务模块通信异常时,代理模块自动切换到备份操作服务模块。
14、(2)对于通过远程协议进行操作的it资源对象,可以配置两个以上代理模块对这些it资源对象进行操作,确保代理操作的高可靠性。操作服务模块从服务编排模块或者场景模块接收到目标it资源对象的操作指令后,从其中选择一个可用的代理执行操作。
15、(3)对于代理所在宿主服务器的操作,可以将需要高可用或者负载分担的多个服务器划为一个组,服务编排模块或者场景模块将目标设备组发送给操作服务模块,操作服务模块按策略在同一个设备组的多个服务器之间进行任务分配,实现操作高可用。
16、(4)上述三点确保从操作服务模块到代理到it资源通信链路的高可用。
17、(5)多个操作服务模块实现代理模块的分域管理,扩大自动化操作规模。操作服务模块负责维护其管理域范围内的it资源对象、代理模块,并将三者通信关系维护在缓存模块中。代理启动时向操作服务模块注册自己,定时报告其负责操作的it资源在线状态。当代理与当前连接的操作服务模块通信异常时自动切换到备份操作服务模块,后者自动更新缓存模块中的代理与操作服务模块连接关系。
18、(6)运维管理模块通过心跳机制定时检测操作服务模块的在线状态,当操作服务模块离线时,会从缓存模块删除该操作服务模块及其下的所有代理、it资源通信关系。
19、(7)多个服务编排模块实现自动化流程的并行计算。服务编排模块定期向服务注册配置模块更新任务负载信息,场景模块、api网关模块、定时调度模块在调用编排服务模块执行自动化流程之前,先向服务注册配置模块申请负载最低的服务编排模块执行。服务编排模块在执行自动化流程的每个自动化任务时,根据目标it资源找到操作服务模块,向其下发执行指令。服务编排模块将自动化流程实例信息、执行状态和结果信息写入数据库的同时也缓存在缓存模块中。正常情况下,操作服务模块向发送自动化任务的服务编排模块返回执行信息。如果发送自动化任务的服务编排模块出现故障,操作服务模块通过服务注册配置模块获取备份服务编排模块并返回自动化任务执行信息。新接管的服务编排模块从缓存模块中获取自动化流程实例信息,并驱动流程实例执行。
20、(8)定时调度任务模块高可用。采用全局任务定时调度机制,由定时调度任务模块按设置的调度策略启动各个定时任务,具体任务执行由操作服务模块、服务编排模块、场景模块完成。结构上采用一主一从或者一主多从保证高可用,结合服务注册配置模块,本发明提出一种简化的选主算法,实现多个定时调度任务模块之间实时选主。
21、(9)服务注册配置模块为本发明的分布式it自动化运维系统除代理模块之外的所有模块提供服务注册和集中配置管理服务,采用多个模块集群结构。
22、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种分布式it自动化运维系统,其特征在于,所述运维系统包括:操作层、控制层、协调层、应用层、能力开放层,具体包括:
2.根据权利要求1所述的一种分布式it自动化运维系统,其特征在于,所述系统支撑各种场景功能的服务编排模块是分布式的,在多个服务编排模块实例中并行执行多个自动化流程实例,自动化流程实例执行信息通过缓存模块实现全局共享;
3.根据权利要求1所述的一种分布式it自动化运维系统,其特征在于,所述系统由操作服务模块和代理模块组成的自动化任务操作子系统是分布式的;
4.根据权利要求1所述的一种分布式it自动化运维系统,其特征在于,所述系统的定时调度模块、运维管理模块采用主备模式,同一时刻只能由主模块实例执行,需要实现多个实例之间选主;