异常处理器的确定方法、装置及非易失性存储介质与流程

文档序号:37355895发布日期:2024-03-18 18:40阅读:16来源:国知局
异常处理器的确定方法、装置及非易失性存储介质与流程

本申请涉及数据处理领域,具体而言,涉及一种异常处理器的确定方法、装置及非易失性存储介质。


背景技术:

1、在对大模型进行训练时,通常需要采用大量的gpu(graphics processing unit,图形处理器)来执行训练任务。而如果在训练过程中gpu出现错误会严重影响训练结果。目前相关技术中针对gpu错误通常是在模型训练任务中断后在对使用的gpu进行故障判断,导致无法及时发现故障gpu,影响训练任务的训练效率。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种异常处理器的确定方法、装置及非易失性存储介质,以至少解决由于相关技术中无法在训练任务的执行过程中预先确定可能发生故障的图形处理器导致的训练任务效率过低的技术问题。

2、根据本申请实施例的一个方面,提供了一种异常处理器的确定方法,包括:获取目标系统中的图形处理器的运行数据,并依据预设预警规则和图形处理器的运行数据确定在目标系统中的第一异常图形处理器,其中,目标系统包括多个图形处理器;确定目标训练任务对应的目标系统中的图形处理器集合,并依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定第二异常图形处理器;依据第一异常图形处理器和第二异常图形处理器的运行数据对预设异常判断模型进行训练,得到目标异常判断模型,并依据目标异常判断模型对预警规则进行更新,其中,目标异常判断模型用于在图形处理器中确定第三异常图形处理器。

3、可选地,依据预设预警规则和图形处理器的运行数据确定第一异常图形处理器的步骤包括:依据预设预警规则确定预警数据类型;在运行数据中确定预警数据类型对应的预警运行数据,以及预警运行数据对应的异常判断规则;依据异常判断规则对预警运行数据进行判断,从而确定第一异常图形处理器。

4、可选地,预警运行数据包括第一类预警运行数据和第二类预警运行数据,其中,第一类预警运行数据为依据预设阈值确定图形处理器是否故障的数据,第二类预警运行数据为依据目标系统中的各个图形处理器的第二类预警运行数据分布情况确定图形处理器是否故障的数据;依据异常判断规则对预警运行数据进行判断,从而确定第一异常图形处理器的步骤包括:对于第一类预警运行数据,确定第一类预警运行数据对应的预设阈值,并依据各个图形处理器对应的第一类预警运行数据与预设阈值的比较结果在各个图形处理器中确定第一异常图形处理器;对于第二类预警运行数据,依据目标系统中的各个图形处理器的第二类预警运行数据的分布情况,确定第二类预警运行数据对应的异常取值区间,并确定位于异常取值区间中的第二类预警数据对应的图形处理器为第一异常图形处理器。

5、可选地,依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定第二异常图形处理器的步骤包括:确定图形处理器集合对应的运行数据集合,其中,运行数据集合中包括多个数据采集时间点对应的图形处理器集合中的全部图形处理器的运行数据,多个数据采集时间点为在当前检测时间点之前的时间点,当前检测时间点为依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定异常图形处理器的时间点;依据运行数据对应的数据采集时间点,确定运行数据的权重,其中,数据采集时间点越接近当前检测时间点,权重越大;依据运行数据的权重和运行数据集合,确定各个图形处理器对应的检测数据;依据检测数据在图形处理器集合中确定第二异常图形处理器。

6、可选地,依据检测数据在图形处理器集合中确定第二异常图形处理器的步骤包括:确定目标异常划分树模型;通过目标异常划分树模型处理检测数据,从而确定图形处理器集合中的各个第二异常图形处理器对应的异常检测数据;依据各个第二异常图形处理器对应的异常检测数据,确定各个图形处理器的异常分数;依据异常分数在图形处理器集合中确定第二异常图形处理器。

7、可选地,目标异常判断模型包括第一基础学习器,第二基础学习器,第三基础学习器和元学习器,其中,第一基础学习器包括支持向量机,第二基础学习器包括梯度提升决策树,第三基础学习器包括全连接神经网络,元学习器包括逻辑回归模型。

8、可选地,依据目标异常判断模型对预警规则进行更新的步骤包括:依据第二基础学习模型确定各个类型的运行数据的重要程度;依据重要程度对预警规则进行更新,其中,对预警规则进行更新包括:更新预警规则中的运行数据类型。

9、根据本申请实施例的另一方面,还提供了一种异常处理器的确定装置,包括:第一处理模块,用于获取目标系统中的图形处理器的运行数据,并依据预设预警规则和图形处理器的运行数据确定在目标系统中的第一异常图形处理器,其中,目标系统包括多个图形处理器;第二处理模块,用于确定目标训练任务对应的目标系统中的图形处理器集合,并依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定第二异常图形处理器;第三处理模块,用于依据异常图形处理器的运行数据对预设异常判断模型进行训练,得到目标异常判断模型,并依据目标异常判断模型对预警规则进行更新,其中,目标异常判断模型用于在图形处理器中确定第三异常图形处理器。

10、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质中存储有程序,其中,在程序运行时控制非易失性存储介质所在设备执行异常处理器的确定方法。

11、根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行异常处理器的确定方法。

12、在本申请实施例中,采用获取目标系统中的图形处理器的运行数据,并依据预设预警规则和图形处理器的运行数据确定在目标系统中的第一异常图形处理器,其中,目标系统包括多个图形处理器;确定目标训练任务对应的目标系统中的图形处理器集合,并依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定第二异常图形处理器;依据第一异常图形处理器和第二异常图形处理器的运行数据对预设异常判断模型进行训练,得到目标异常判断模型,并依据目标异常判断模型对预警规则进行更新,其中,目标异常判断模型用于在图形处理器中确定第三异常图形处理器的方式,通过多种方式联合预测可能出现故障的异常图形处理器,并根据预测结果对预设预警规则进行修正,达到了在训练任务执行过程中准确确定可能出现故障的异常图形处理器的目的,从而实现了提高训练任务的效率的技术效果,进而解决了由于相关技术中无法在训练任务的执行过程中预先确定可能发生故障的图形处理器导致的训练任务效率过低的技术问题。



技术特征:

1.一种异常处理器的确定方法,其特征在于,包括:

2.根据权利要求1所述的异常处理器的确定方法,其特征在于,所述依据预设预警规则和所述图形处理器的运行数据确定第一异常图形处理器的步骤包括:

3.根据权利要求2所述的异常处理器的确定方法,其特征在于,所述预警运行数据包括第一类预警运行数据和第二类预警运行数据,其中,所述第一类预警运行数据为依据预设阈值确定所述图形处理器是否故障的数据,所述第二类预警运行数据为依据所述目标系统中的各个所述图形处理器的第二类预警运行数据分布情况确定所述图形处理器是否故障的数据;所述依据所述异常判断规则对所述预警运行数据进行判断,从而确定所述第一异常图形处理器的步骤包括:

4.根据权利要求1所述的异常处理器的确定方法,其特征在于,所述依据所述图形处理器集合中的图形处理器的运行数据在所述图形处理器集合中确定所述第二异常图形处理器的步骤包括:

5.根据权利要求4所述的异常处理器的确定方法,其特征在于,所述依据所述检测数据在所述图形处理器集合中确定所述第二异常图形处理器的步骤包括:

6.根据权利要求1所述的异常处理器的确定方法,其特征在于,所述目标异常判断模型包括第一基础学习器,第二基础学习器,第三基础学习器和元学习器,其中,所述第一基础学习器包括支持向量机,所述第二基础学习器包括梯度提升决策树,所述第三基础学习器包括全连接神经网络,所述元学习器包括逻辑回归模型。

7.根据权利要求6所述的异常处理器的确定方法,其特征在于,所述依据所述目标异常判断模型对所述预警规则进行更新的步骤包括:

8.一种异常处理器的确定装置,其特征在于,包括:

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述的异常处理器的确定方法。

10.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的异常处理器的确定方法。


技术总结
本申请公开了一种异常处理器的确定方法、装置及非易失性存储介质。其中,该方法包括:获取目标系统中的图形处理器的运行数据,并依据预设预警规则和图形处理器的运行数据确定在目标系统中的第一异常图形处理器;确定目标训练任务对应的目标系统中的图形处理器集合,并依据图形处理器集合中的图形处理器的运行数据在图形处理器集合中确定第二异常图形处理器;依据第一异常图形处理器和第二异常图形处理器的运行数据对预设异常判断模型进行训练,得到目标异常判断模型,并依据目标异常判断模型对预警规则进行更新。本申请解决了由于相关技术中无法在训练任务的执行过程中预先确定可能发生故障的图形处理器导致的训练任务效率过低的技术问题。

技术研发人员:魏鹏,阮宜龙,刘雨涵,燕媛媛,杨磊
受保护的技术使用者:中国电信股份有限公司
技术研发日:
技术公布日:2024/3/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1