本发明涉及人工智能,尤其涉及一种模型训练性能维护方法、装置、电子设备及存储介质。
背景技术:
1、在模型开发和适配中,适配的模型数量会越来越多,在此过程中,算子、显存、通信等性能会不断改进,以往适配好的模型在精度、训练速度、显存等方面可能因此出现性能方面的问题。因此,需要对模型的性能等进行维护。
2、目前,通过人工经验或者观察等方式来判断模型的各性能指标是否正常。然而,通过人工被动地维护模型性能状态,需要相关人员有一定经验、按照特定方式才能排查(例如分析日志、运行测试代码等),该过程有一定门槛,可持续化维护较为困难。
技术实现思路
1、本发明提供一种模型训练性能维护方法、装置、电子设备及存储介质,可以主动维护模型训练性能,解决了可持续化维护较为困难的问题。
2、本发明提供一种模型训练性能维护方法,包括:
3、响应于目标模型的训练完成指令,获取训练后的目标模型的多个当前性能指标;
4、针对每个所述当前性能指标,基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值;
5、响应于所述当前性能指标满足所述目标性能阈值对应的预设条件,将所述当前性能指标更新至所述阈值数据库,以实现模型训练性能的主动维护。
6、根据本发明提供的一种模型训练性能维护方法,所述基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值,包括:
7、计算所述阈值数据库中所述当前性能指标对应的所有所述历史性能指标的平均值,作为所述当前性能指标对应的所述目标性能阈值。
8、根据本发明提供的一种模型训练性能维护方法,所述基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值,包括:
9、将所述阈值数据库中所述当前性能指标对应的所有所述历史性能指标,按照从性能最优到性能最劣的顺序行排序;
10、计算排序靠前的第一数量的所述历史性能指标的平均值,作为所述当前性能指标对应的所述目标性能阈值。
11、根据本发明提供的一种模型训练性能维护方法,所述基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值,包括:
12、将所述阈值数据库中所述当前性能指标对应的所有所述历史性能指标,按照从性能最劣到性能最优的顺序行排序;
13、计算排序靠前的第二数量的所述历史性能指标的平均值,作为所述当前性能指标对应的所述目标性能阈值。
14、根据本发明提供的一种模型训练性能维护方法,所述基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值,包括:
15、将所述阈值数据库中所述当前性能指标对应的所有所述历史性能指标进行随机打散;
16、从随机打散后的所有所述历史性能指标中抽取排序靠前的第三数量的所述历史性能指标;
17、计算所述第三数量的所述历史性能指标的平均值,作为所述当前性能指标对应的所述目标性能阈值。
18、根据本发明提供的一种模型训练性能维护方法,所述基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值,包括:
19、从所述阈值数据库中所述当前性能指标对应的所有所述历史性能指标中随机抽取第四数量的所述历史性能指标;
20、计算所述第四数量的所述历史性能指标的平均值,作为所述当前性能指标对应的所述目标性能阈值。
21、根据本发明提供的一种模型训练性能维护方法,在基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值之前,还包括:
22、从所述阈值数据库中的所述历史性能指标中确定异常指标,并剔除所述异常指标。
23、根据本发明提供的一种模型训练性能维护方法,在响应于目标模型的训练完成指令,获取训练后的目标模型的多个当前性能指标之前,还包括:
24、响应于主动触发指令,对所述目标模型进行训练;
25、在训练完成后生成所述训练完成指令。
26、根据本发明提供的一种模型训练性能维护方法,所述响应于主动触发指令,对所述目标模型进行训练,包括:
27、周期性地扫描服务器集群下的空闲资源;
28、响应于扫描到所述空闲资源,抢占所述空闲资源,并生成所述主动触发指令;
29、响应于所述主动触发指令,利用所述空闲资源对所述目标模型进行训练。
30、根据本发明提供的一种模型训练性能维护方法,还包括:
31、响应于未扫描到所述空闲资源,终止本次所述目标模型的训练。
32、根据本发明提供的一种模型训练性能维护方法,所述响应于主动触发指令,对所述目标模型进行训练,包括:
33、实时监测服务器集群下的空闲资源;
34、响应于监测到所述空闲资源占所述服务器集群下的总资源的占比超过预设占比阈值,生成所述主动触发指令;
35、响应于所述主动触发指令,利用所述空闲资源对所述目标模型进行训练。
36、根据本发明提供的一种模型训练性能维护方法,还包括:
37、响应于所述阈值数据库中的所述历史性能指标的总数大于预设数量,删除所述阈值数据库中存入时间最早的所述历史性能指标。
38、根据本发明提供的一种模型训练性能维护方法,还包括:
39、响应于所述当前性能指标不满足所述预设条件,确定所述当前性能指标出现异常,并将所述当前性能指标出现异常的消息反馈给目标对象。
40、根据本发明提供的一种模型训练性能维护方法,所述预设条件为所述当前性能指标处于所述目标性能阈值的预设波动范围内。
41、根据本发明提供的一种模型训练性能维护方法,在响应于主动触发指令,对所述目标模型进行训练之前,还包括:
42、根据已有日志数据监测当前环境是否存在异常;
43、响应于所述当前环境存在异常,将所述当前环境存在异常的消息通知给目标对象,并终止本次所述目标模型的训练。
44、根据本发明提供的一种模型训练性能维护方法,还包括:
45、根据模型训练日志监测所述目标模型的训练过程是否存在异常状态;
46、响应于所述目标模型的训练过程存在所述异常状态,将所述目标模型的训练过程存在所述异常状态的消息通知给目标对象,并终止本次获取所述训练后的目标模型的多个所述当前性能指标。
47、本发明还提供一种模型训练性能维护装置,包括:
48、指标获取模块,用于响应于目标模型的训练完成指令,获取训练后的目标模型的多个当前性能指标;
49、阈值确定模块,用于针对每个所述当前性能指标,基于阈值数据库中所述当前性能指标对应的历史性能指标,确定所述当前性能指标对应的目标性能阈值;
50、指标更新模块,用于响应于所述当前性能指标满足所述目标性能阈值对应的预设条件,将所述当前性能指标更新至所述阈值数据库,以实现模型训练性能的主动维护。
51、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的模型训练性能维护方法。
52、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的模型训练性能维护方法。
53、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的模型训练性能维护方法。
54、本发明提供的模型训练性能维护方法、装置、电子设备及存储介质,首先,响应于目标模型的训练完成指令,获取训练后的目标模型的多个当前性能指标,可以主动触发当前性能指标的获取;而后,针对每个当前性能指标,基于阈值数据库中当前性能指标对应的历史性能指标,确定当前性能指标对应的目标性能阈值;响应于当前性能指标满足目标性能阈值对应的预设条件,意味着当前性能指标的有效,将当前性能指标更新至阈值数据库,随着阈值数据库的不断更新,可以实现目标性能阈值的可持续化维护,从而实现模型训练性能的主动维护。本发明可以主动维护模型训练性能,解决了可持续化维护较为困难的问题。