人工智能算力集群的异常定位方法、装置、设备及介质与流程

文档序号:37278592发布日期:2024-03-12 21:15阅读:10来源:国知局
人工智能算力集群的异常定位方法、装置、设备及介质与流程

本发明涉及计算机,尤其涉及人工智能算力集群的异常定位方法、装置、设备及介质。


背景技术:

1、大模型的训练通常需要依托人工智能算力集群提供基础算力,人工智能算力集群的性能会直接影响模型的训练效率,因此,保证人工智能算力集群的性能对大模型的落地应用和迭代升级具有重要意义。

2、人工智能算力集群的性能可受多种因素影响,例如,集群规模越大,则系统越复杂,软硬件的故障概率越大,且通信和同步等非计算时间占比更容易增大,加速比容易降低。

3、然而,在人工智能算力集群这种复杂系统下较难定位性能降低的具体原因,在现有技术中,通常是获取加速卡的性能分析插件分析定位性能相关的原因,但是通过现有技术的分析方法,难以具体定位到性能降低的根本原因,且分析过程复杂。


技术实现思路

1、本发明提供了一种人工智能算力集群的异常定位方法、装置、设备及介质,能够在人工智能算力集群对模型训练效果不佳时,根据训练过程中的运行数据以及性能结果数据,精准快速定位导致训练效果降低的至少一个干扰项。

2、根据本发明的一方面,提供了一种人工智能算力集群的异常定位方法,包括:

3、使用待测的人工智能算力集群对目标业务模型进行训练,并收集训练过程中的运行数据以及性能结果数据,其中,人工智能算力集群包括至少一个能够引发训练异常的干扰项;

4、生成与运行数据匹配的运行数据特征向量,以及与性能结果数据对应的性能结果特征向量;

5、采用预先训练的性能诊断模型对运行数据特征向量和性能结果特征向量进行处理,得到性能诊断结果向量,其中,性能诊断结果向量中的一个向量元素对应人工智能算力集群中的一个干扰项;

6、根据所述性能诊断结果向量中各向量元素的数值,在所述人工智能算力集群中定位确实引发训练异常的目标干扰项。

7、根据本发明的另一方面,提供了一种人工智能算力集群的异常定位装置,包括:

8、训练数据获取模块,用于使用待测的人工智能算力集群对目标业务模型进行训练,并收集训练过程中的运行数据以及性能结果数据,其中,人工智能算力集群包括至少一个能够引发训练异常的干扰项;

9、特征向量生成模块,用于生成与运行数据匹配的运行数据特征向量,以及与性能结果数据对应的性能结果特征向量;

10、性能诊断结果获取模块,用于采用预先训练的性能诊断模型对运行数据特征向量和性能结果特征向量进行处理,得到性能诊断结果向量,其中,性能诊断结果向量中的一个向量元素对应人工智能算力集群中的一个干扰项;

11、目标干扰项定位模块,用于根据所述性能诊断结果向量中各向量元素的数值,在所述人工智能算力集群中定位确实引发训练异常的目标干扰项。

12、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:

13、至少一个处理器;以及

14、与所述至少一个处理器通信连接的存储器;其中,

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的人工智能算力集群的异常定位方法。

16、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的人工智能算力集群的异常定位方法。

17、本发明实施例的技术方案,通过获取人工智能算力集群对目标业务模型训练过程中的运行数据以及性能结果数据,从而生成运行数据特征向量以及性能结果特征向量,并利用性能诊断模型对生成运行数据特征向量以及性能结果特征向量进行处理,获取性能诊断结果向量,根据性能诊断结果向量中各向量元素的数值,定位人工智能算力集群中引发训练异常的目标干扰项的方式,能够在人工智能算力集群对模型训练效果不佳时,精准快速定位导致训练效果降低的至少一个干扰项,从而根据已确定的干扰项对人工智能算力集群进行优化,提高人工智能算力集群性能。

18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种人工智能算力集群的异常定位方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述运行数据中包括多项运行参数,每一项运行参数可以为连续值或离散值;所述性能结果数据中包括多项性能结果参数,每一项性能结果参数可以为连续值或离散值。

3.根据权利要求2所述的方法,其特征在于,生成与运行数据匹配的运行数据特征向量,以及与性能结果数据对应的性能结果特征向量,包括:

4.根据权利要求3所述的方法,其特征在于,对运行数据以及性能结果数据进行预处理,生成运行数据初始向量以及性能结果初始向量,包括:

5.根据权利要求1所述的方法,其特征在于,采用预先训练的性能诊断模型对运行数据特征向量和性能结果特征向量进行处理,得到性能诊断结果向量,包括:

6.根据权利要求1所述的方法,其特征在于,根据所述性能诊断结果向量中各向量元素的数值,在所述人工智能算力集群中定位确实引发训练异常的目标干扰项,包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:

8.一种人工智能算力集群的异常定位装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的人工智能算力集群的异常定位方法。


技术总结
本发明公开了一种人工智能算力集群的异常定位方法、装置、设备及介质。该方法包括:使用待测的人工智能算力集群对目标业务模型进行训练,并收集训练过程中的运行数据以及性能结果数据;生成与运行数据匹配的运行数据特征向量,以及与性能结果数据对应的性能结果特征向量;采用预先训练的性能诊断模型对运行数据特征向量和性能结果特征向量进行处理,得到性能诊断结果向量;根据所述性能诊断结果向量中各向量元素的数值,在所述人工智能算力集群中定位确实引发训练异常的目标干扰项。采用上述技术方案,能够在人工智能算力集群对模型训练效果不佳时,根据训练过程中的运行数据以及性能结果数据,精准快速定位导致训练效果降低的至少一个干扰项。

技术研发人员:廖金龙,姚建国,吴长平,许士芳
受保护的技术使用者:上海燧原科技股份有限公司
技术研发日:
技术公布日:2024/3/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1