一种基于故障自愈的应用程序自动化运维方法和系统与流程

文档序号:33624465发布日期:2023-03-25 14:55阅读:91来源:国知局
一种基于故障自愈的应用程序自动化运维方法和系统与流程

1.本发明涉及应用程序运维,特别是一种基于故障自愈的应用程序自动化运维方法和系统。


背景技术:

2.随着电网公司全面建设国际领先的能源互联网企业,高度重视数字化、网络化和智能化发展,充分应用“大云物移智链”等先进技术和手段,推进能源转型与信息技术深度融合、科技创新与产业升级相互促进,增强发展新动能。
3.各类生产应用系统也在支撑企业安全生产、运营和客户服务,而应用系统的运行往往会受到各类因素的影响,从而出现异常情况。当非工作时间系统发生故障时,运维人员赶往现场则会花费一定时间,无法第一时间进行处理,长时间的系统故障会影响用户使用和国网公司指标考核,为保障公司业务系统的稳定运行,需要建立一套基于应用服务状态的自动化运维机制,通过配置系统服务信息的手段对业务系统重要服务进行实时监控、告警、自愈,一旦系统服务出现异常退出、端口异常、页面响应异常、数据库连接异常等情况,可根据自定义配置的规则第一时间进行相应处理,大大缩短系统故障时间。


技术实现要素:

4.发明目的:本发明的目的是提供一种基于故障自愈的应用程序自动化运维方法和系统,从而及时收集服务器资源使用情况及应用服务运行情况,减少人工运维被动处理的时间,建立有效的预警和故障自动恢复机制,形成“自动化、智能化、数字化”的全新运维工作模式。
5.技术方案:本发明所述的一种基于故障自愈的应用程序自动化运维方法,包括以下步骤:
6.(1)实时采集应用程序所在服务器的信息;
7.(2)实时采集应用程序运行资源占用、日志信息;
8.(3)根据历史信息及实时采集信息分析预测程序运行状态;
9.(4)异常状态告警;
10.(5)根据程序的启停方法,设定故障自愈流程;
11.(6)实时监控程序运行状态,实现故障自愈。
12.所述步骤(1)具体为:
13.(1.1)利用分布式数据实时采集技术,实时采集应用程序所在服务器的信息,所述信息包括所需运维的应用程序服务器cpu、内存、i/o、网络、硬盘的服务器运行信息,以及操作系统的操作日志、错误日志、运行日志;
14.(1.2)对采集的服务器信息进行智能化检索分类,提取对应用程序运行有影响的信息。
15.所述步骤(2)具体为:
16.(2.1)利用分布式实时采集技术,采集所监控的应用程序的状态信息,所述状态信息包括进程号、内存、cpu、端口、带宽占用的情况;
17.(2.2)实时采集应用程序运行的日志信息。
18.在步骤(1)和步骤(2)中,实时数据采集技术支持用户主动推送、用户自定义插件;支持动态水平扩展,支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询。
19.所述步骤(3)具体为:
20.(3.1)根据服务器与应用程序历史信息,分析应用程序运行状况和态势;
21.(3.2)根据历史信息与实时采集数据分析,预测应用程序运行状态,对可能出现的异常进行告警。
22.所述步骤(4)具体为:对出现异常的服务器和应用程序进行告警。
23.所述步骤(5)具体为:根据应用程序的启动脚本,设定应用程序的故障自愈流程。
24.所述步骤(6)具体为:
25.(6.1)通过应用监测完成对应用程序异常状态的判断,监测分为直接判断与辅助判断;
26.(6.1.1)直接判断:利用采集的应用进程信息与端口占用信息判断应用程序进程是否存活,若出现异常,则直接重启应用,实现故障自愈;
27.(6.1.2)辅助判断:对于系统进程尚在存活状态,且端口通信正常,但实际已经处于假死状态的应用,需通过人工辅助判断的方式实现故障的自愈;
28.(6.2)利用主机通信、数据库连接探测、模拟页面访问实现对应用状态的探查,当出现异常状态时,及时发出告警,通过人工判断或者预先定义好的规则实现应用的故障判断与自愈。
29.一种基于故障自愈的应用程序自动化运维系统,所述系统包括以下模块:
30.数据采集模块:用于实时采集应用程序所在服务器的信息,实时采集应用程序运行资源占用、日志信息;用于实时采集信息分析预测程序运行状态;
31.告警模块:用于对出现异常的服务器和应用程序进行告警;
32.故障自愈模块:用于设定故障自愈流程,实现故障自愈。
33.一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的一种基于故障自愈的应用程序自动化运维方法。
34.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种基于故障自愈的应用程序自动化运维方法。
35.有益效果:与现有技术相比,本发明具有如下优点:
36.1、本发明能够持续提升大型企业系统运维管理及业务服务能力,有利于充公发挥公司运维服务价值,服务于公司内部管理提升,支撑精益管理、智慧运营的各类业务应用,为公司创造巨大直接和间接效益;
37.2、本发明通过“主动发现,自动解决”的机制节省人力投入,进而提升各业务应用的可靠性,为业务部门创造巨大经济效益奠定条件基础;
38.3、本发明通过持续提升运维能力,帮助公司内部组织和部门不断提升业务服务质量,持续为客户创造价值,降低公司对应用系统的维护成本,同时为企业提供应用维护服
务,长期产生经济效益;
39.4、本发明能够实现与各类业务系统集成便于应用管理并快速扩展,通过深化运维管控能力,有效保障系统运行生命周期安全,防范重大安全事件的发生,能够有效节省应对系统安全事件的运维保障开支,提升公司管理效益。
附图说明
40.图1为本发明所述方法的步骤流程图;
41.图2为本发明所述方法的的整体架构图;
42.图3为故障自愈流程图。
具体实施方式
43.下面结合附图对本发明的技术方案作进一步说明。
44.如图1-2所示,一种基于故障自愈的应用程序自动化运维方法,步骤如下:
45.(1)实时采集应用程序所在服务器的信息。
46.(1.1)利用分布式数据实时采集技术,实时采集应用程序所在服务器的信息,所述信息包括所需运维的应用程序服务器cpu、内存、i/o、网络、硬盘的服务器运行信息,以及操作系统的操作日志、错误日志、运行日志。
47.(1.2)对采集的服务器信息进行智能化检索分类,提取对应用程序运行有影响的信息。
48.(2)实时采集应用程序运行资源占用、日志信息。
49.(2.1)利用分布式实时采集技术,采集所监控的应用程序的状态信息,所述状态信息包括进程号、内存、cpu、端口、带宽占用的情况。
50.(2.2)实时采集应用程序运行的日志信息。
51.在步骤(1)和步骤(2)中,实时数据采集技术支持用户主动推送、用户自定义插件;支持动态水平扩展,支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询。
52.(3)根据历史信息及实时采集信息分析预测程序运行状态。
53.(3.1)根据服务器与应用程序历史信息,分析应用程序运行状况和态势。
54.(3.2)根据历史信息与实时采集数据分析,预测应用程序运行状态,对可能出现的异常进行告警。
55.(4)异常状态告警:对出现异常的服务器和应用程序进行告警。
56.(5)根据程序的启停方法,设定故障自愈流程:根据应用程序的启动脚本,设定应用程序的故障自愈流程。
57.(6)如图3所示,实时监控程序运行状态,实现故障自愈。
58.(6.1)通过应用监测完成对应用程序异常状态的判断,监测分为直接判断与辅助判断。
59.(6.1.1)直接判断:利用采集的应用进程信息与端口占用信息判断应用程序进程是否存活,若出现异常,则直接重启应用,实现故障自愈。
60.(6.1.2)辅助判断:对于系统进程尚在存活状态,且端口通信正常,但实际已经处于假死状态的应用,需通过人工辅助判断的方式实现故障的自愈。
61.(6.2)利用主机通信、数据库连接探测、模拟页面访问实现对应用状态的探查,当出现异常状态时,及时发出告警,通过人工判断或者预先定义好的规则实现应用的故障判断与自愈。
62.一种基于故障自愈的应用程序自动化运维系统,所述系统包括以下模块:
63.数据采集模块:用于实时采集应用程序所在服务器的信息,实时采集应用程序运行资源占用、日志信息;用于实时采集信息分析预测程序运行状态;
64.告警模块:用于对出现异常的服务器和应用程序进行告警;
65.故障自愈模块:用于设定故障自愈流程,实现故障自愈。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1