本公开涉及人工智能领域,尤其涉及面向基础实施层的服务器安全运行方法、装置及电子设备。
背景技术:
1、基础实施层是领域驱动设计(domain-driven design)模型的最底层。基础实施层通过架构框架支持模型中各层次间的交互模式,也为其他层提供通用的技术能力。例如:为应用层传递消息、为领域层提供持久化机制、为用户界面层提供组件配置等。
2、基础实施层的服务器的安全性,是系统稳定运行的前提条件,但是在实际生产运行过程中,由于系统设计或外部客户量级变化等原因,可能导致基础实施层的服务器在某项资源类型上的资源占用量发生异常波动,容易导致相关应用长时间中断对外服务,提升了系统运营风险。
3、因此,如何识别服务器发生异常波动的源头并及时修复,成为本领域技术人员急需解决的技术问题。
技术实现思路
1、鉴于上述问题,本公开提供一种克服上述问题或者至少部分地解决上述问题的面向基础实施层的服务器安全运行方法、装置及电子设备,技术方案如下:
2、一种面向基础实施层的服务器安全运行方法,包括:
3、获得基础实施层的服务器在目标资源类型上的第一当前资源占用量;
4、在所述第一当前资源占用量不小于所述目标资源类型的预设应急处理阈值的情况下,获得所述服务器的各应用程序在所述目标资源类型上的第一资源占用数据;
5、利用所述第一资源占用数据,在各所述应用程序中确定出第一目标程序;
6、基于所述第一目标程序的功能场景信息,在预置应急解决方案库中检索出与所述第一目标程序匹配的多个应急处理策略;
7、依次执行各个所述应急处理策略对所述第一目标程序进行处理;
8、在任一所述应急处理策略执行后,获得所述服务器在所述目标资源类型上的第二当前资源占用量;
9、在所述第二当前资源占用量小于所述预设应急处理阈值的情况下,控制所述第一目标程序继续运行。
10、可选的,所述第一资源占用数据包括资源占用率,所述利用所述第一资源占用数据,在各所述应用程序中确定出第一目标程序,包括:
11、将各所述应用程序的所述资源占用率分别与预设百分比阈值进行比较,将所述资源占用率大于所述预设百分比阈值的所述应用程序确定为第一目标程序。
12、可选的,所述第一资源占用数据包括资源占用趋势数据和请求分发数,所述利用所述第一资源占用数据,在各所述应用程序中确定出第一目标程序,包括:
13、利用所述资源占用趋势数据和所述请求分发数,分别获得所述应用程序的故障源评估数据;
14、基于所述故障源评估数据由大至小的顺序,在各所述应用程序中确定出第一目标程序。
15、可选的,在所述获得基础实施层的服务器在目标资源类型上的第一当前资源占用量之后,所述方法还包括:
16、在所述第一当前资源占用量不小于所述目标资源类型的预设告警阈值且小于所述预设应急处理阈值的情况下,获得所述服务器的各所述应用程序在所述目标资源类型上的第二资源占用数据;
17、利用所述第二资源占用数据,在各所述应用程序中确定出第二目标程序;
18、向所述第二目标程序发送与所述目标资源类型对应的告警通知,以使所述第二目标程序自动降低在所述目标资源类型上的资源占用量。
19、可选的,在所述在任一所述应急处理策略执行后,获得所述服务器在所述目标资源类型上的第二当前资源占用量之后,所述方法还包括:
20、在所述第二当前资源占用量小于所述预设应急处理阈值的情况下,确定所述应急处理策略为应急生效策略;
21、将所述应急生效策略和各所述应用程序的所述第一资源占用数据进行对应存储,生成与所述第一目标程序对应的热回滚操作信息。
22、可选的,在将所述应急生效策略和各所述应用程序的所述第一资源占用数据进行对应存储,生成与所述第一目标程序对应的热回滚操作信息之后,所述方法还包括:
23、基于所述热回滚操作信息,生成重检模拟数据和重检确认操作列表;
24、利用所述重检模拟数据,执行所述重检确认操作列表中的各项操作,获得重检结果;
25、基于所述重检结果,生成与所述第一目标程序对应的故障汇总诊断信息。
26、可选的,在所述基于所述重检结果,生成与所述第一目标程序对应的故障汇总诊断信息之后,所述方法还包括:
27、获得用户发送的与所述故障汇总诊断信息对应的辅助诊断指令;
28、响应于所述辅助诊断指令,重新执行所述利用所述重检模拟数据,执行所述重检确认操作列表中的各项操作,获得重检结果的步骤。
29、可选的,在所述将所述应急生效策略和各所述应用程序的所述第一资源占用数据进行对应存储,生成与所述第一目标程序对应的热回滚操作信息之后,所述方法还包括:
30、统计所述第一目标程序在特定周期内的故障总次数和每次故障时对应的故障上下文信息;
31、利用所述故障总次数和所述故障上下文信息,更新与所述第一目标程序对应的故障区域图。
32、一种面向基础实施层的服务器安全运行装置,包括:第一当前资源占用量获得单元、第一资源占用数据获得单元、第一目标程序确定单元、应急处理策略检索单元、应急处理单元、第二当前资源占用量获得单元和程序运行控制单元,
33、所述第一当前资源占用量获得单元,用于获得基础实施层的服务器在目标资源类型上的第一当前资源占用量;
34、所述第一资源占用数据获得单元,用于在所述第一当前资源占用量不小于所述目标资源类型的预设应急处理阈值的情况下,获得所述服务器的各应用程序在所述目标资源类型上的第一资源占用数据;
35、所述第一目标程序确定单元,用于利用所述第一资源占用数据,在各所述应用程序中确定出第一目标程序;
36、所述应急处理策略检索单元,用于基于所述第一目标程序的功能场景信息,在预置应急解决方案库中检索出与所述第一目标程序匹配的多个应急处理策略;
37、所述应急处理单元,用于依次执行各个所述应急处理策略对所述第一目标程序进行处理;
38、所述第二当前资源占用量获得单元,用于在任一所述应急处理策略执行后,获得所述服务器在所述目标资源类型上的第二当前资源占用量;
39、所述程序运行控制单元,用于在所述第二当前资源占用量小于所述预设应急处理阈值的情况下,控制所述第一目标程序继续运行。
40、一种电子设备,所述电子设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的面向基础实施层的服务器安全运行方法。
41、借由上述技术方案,本公开提供的面向基础实施层的服务器安全运行方法、装置及电子设备,可应用于人工智能领域或金融领域。本公开获得基础实施层的服务器在目标资源类型上的第一当前资源占用量;在第一当前资源占用量不小于目标资源类型的预设应急处理阈值的情况下,获得服务器的各应用程序在目标资源类型上的第一资源占用数据;利用第一资源占用数据,在各应用程序中确定出第一目标程序;基于第一目标程序的功能场景信息,在预置应急解决方案库中检索出与第一目标程序匹配的多个应急处理策略;依次执行各个应急处理策略对第一目标程序进行处理;在任一应急处理策略执行后,获得服务器在目标资源类型上的第二当前资源占用量;在第二当前资源占用量小于预设应急处理阈值的情况下,控制第一目标程序继续运行。本公开通过监控基础实施层的服务器的当前资源占用量,可以及时识别到导致服务器的资源占用量出现波动的应用程序,并提供应急处理策略对该应用程序进行处理,以降低应用程序故障造成的影响,保障基础实施层的服务器的安全运行,避免出现系统运行风险。
42、上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。