本申请属于通信领域,具体涉及一种人工智能训练平台报警管理方法、装置、设备和存储介质。
背景技术:
1、随着人工智能技术的不断发展,人工智能训练平台随之出现。人工智能训练平台可管理计算节点的集群来为用户提交的多任务分配资源。为了维护集群稳定,人工智能训练平台对平台资源使用情况和各种软硬件指标进行监控。
2、当前,在人工智能训练平台中都会内置一些针对软硬件和平台资源的监控指标。在平台运行过程中,监控系统会实时对内置的监控指标进行采集,并将采集到的监控数据存储到时序数据库中。另一方面,报警系统会对采集到的监控数据进行分析,判断是否需要产生报警信息。
3、然而,在实际使用过程中,简单地对大量内置监控指标进行监控和分析,容易导致业务复杂度激增。
技术实现思路
1、本申请实施例的目的是提供一种人工智能训练平台报警管理方法、装置、设备和存储介质,能够解决简单地对大量内置监控指标进行监控和分析,容易导致业务复杂度激增的问题。
2、为了解决上述技术问题,本申请是这样实现的:
3、第一方面,本申请实施例提供了一种人工智能训练平台报警管理方法,该方法包括:
4、获取监控指标、报警项和报警策略,其中,所述监控指标对应至少一个报警资源,所述报警策略包括报警规则;
5、获取所述监控指标的监控数据,其中,所述监控数据包括多个所述报警资源的监控数据;
6、根据所述监控数据、所述报警项和所述报警规则,判断是否生成报警信息。
7、第二方面,本申请实施例提供了一种人工智能训练平台报警管理装置,该装置包括:
8、第一获取模块,用于获取监控指标、报警项和报警策略,其中,所述监控指标对应至少一个报警资源,所述报警策略包括报警规则;
9、第二获取模块,用于获取所述监控指标的监控数据,其中,所述监控数据包括多个报警资源的监控数据;
10、第一判断模块,用于根据所述监控数据、所述报警项和所述报警规则,判断是否生成报警信息。
11、第三方面,本申请实施例提供了一种设备,该设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
12、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
13、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
14、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
15、本申请实施例相对于现有技术而言,可以自定义报警项和报警策略,一个报警策略可以通过逻辑关系关联多个报警项,从而实现了复杂逻辑场景下的报警配置,避免了简单地对大量内置监控指标进行监控和分析,容易导致业务复杂度激增的问题。
1.一种人工智能平台报警管理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述监控数据、所述报警项和所述报警规则,判断是否生成报警信息之后,还包括:
3.根据权利要求1所述的方法,其特征在于,所述获取监控指标、报警项和报警策略之后,还包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述监控数据、所述报警项和所述报警规则,判断是否生成报警信息,包括:
5.根据权利要求1所述的方法,其特征在于,所述报警策略,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述监控数据、所述报警项和所述报警规则,判断是否生成报警信息之后,还包括:
7.根据权利要求6所述的方法,其特征在于,所述在所述记录存在的情况下,根据所述报警策略、所述报警资源对应的所述报警时间与预置的屏蔽时长,判断当前时间是否在屏蔽时长之内之后,还包括:
8.一种人工智能平台报警管理装置,其特征在于,包括:
9.一种设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的人工智能平台报警管理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的人工智能平台报警管理方法的步骤。