本公开涉及人工智能,尤其涉及集合通信,具体涉及异常设备确定方法、装置、电子设备以及存储介质。
背景技术:
1、随着深度学习技术的广泛应用,深度学习模型的训练数据、模型参数规模和硬件资源需求也随之快速增长,进而由于硬件故障导致的数据传输故障的发生概率也在增加。
2、因此,在大规模集合通信的场景中,亟需一种快速准确确定硬件资源中的异常设备的方法,以降低硬件故障对深度学习模型的训练和应用的影响。
技术实现思路
1、本公开提供了一种异常设备确定的方法、装置、电子设备以及存储介质。
2、根据本公开的一方面,提供了一种异常设备确定方法,包括:响应于分布式集合通信系统的通信时长大于预定阈值,获取用于构建分布式集合通信系统的多个通信单元的操作日志;分布式集合通信系统用于执行深度学习模型的数据传输任务,操作日志包括多个通信单元的标识和多个通信单元的数据传输状态;根据多个通信单元的标识和多个通信单元的数据传输状态,从多个通信单元中确定目标通信单元,目标通信单元的数据传输状态与用于执行相同数据传输任务的其他通信单元的数据传输状态不同;以及根据目标通信单元的标识和预定部署数量,确定与目标通信单元对应的异常设备,其中,预定部署数量指示了分布式集合通信系统中每一台设备部署的通信单元的数量。
3、根据本公开的另一方面,提供了一种异常设备确定装置,包括:获取模块、第一确定模块和第二确定模块。获取模块,用于响应于分布式集合通信系统的通信时长大于预定阈值,获取用于构建分布式集合通信系统的多个通信单元的操作日志;分布式集合通信系统用于执行深度学习模型的数据传输任务,操作日志包括多个通信单元的标识和多个通信单元的数据传输状态。第一确定模块,用于根据多个通信单元的标识和多个通信单元的数据传输状态,从多个通信单元中确定目标通信单元,目标通信单元的数据传输状态与用于执行相同数据传输任务的其他通信单元的数据传输状态不同。第二确定模块,用于根据目标通信单元的标识和预定部署数量,确定与目标通信单元对应的异常设备,其中,预定部署数量指示了分布式集合通信系统中每一台设备部署的通信单元的数量。
4、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如上描述的方法。
5、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使所述计算机执行如上描述的方法。
6、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如上描述的方法。
7、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种异常设备确定方法,包括:
2.根据权利要求1所述的方法,其中,所述根据所述多个通信单元的标识和所述多个通信单元内的数据传输状态,从所述多个通信单元中确定目标通信单元,包括:
3.根据权利要求2所述的方法,其中,所述数据传输状态包括数据传输任务标识;
4.根据权利要求3所述的方法,其中,所述通信组内包括i个通信单元,i为大于1的整数,所述对所述每一个通信组内的多个通信单元的数据传输任务标识进行分析,得到第一分析结果,包括:
5.根据权利要求4所述的方法,其中,所述根据所述第一分析结果,确定所述目标通信单元,包括:
6.根据权利要求3所述的方法,其中,所述数据传输状态还包括:与数据传输任务对应的传输进度,还包括:
7.根据权利要求6所述的方法,其中,所述通信组内包括i个通信单元,i为大于1的整数,所述对所述多个通信单元的与数据传输任务对应的传输进度进行分析,得到第二分析结果,包括:
8.根据权利要求7所述的方法,其中,所述根据所述第二分析结果,确定所述目标通信单元,包括:
9.根据权利要求1所述的方法,还包括:
10.根据权利要求9所述的方法,其中,所述多个通信单元包括s个,s为大于1的整数,所述根据所述多个通信单元的数据传输状态和所述数据传输特征,从所述多个通信单元中确定目标通信单元,包括:
11.根据权利要求10所述的方法,其中,所述响应于所述数据传输特征为对称传输,且第s个通信单元的数据传输状态与前s-1个通信单元的数据传输状态不同,从所述多个通信单元中确定目标通信单元,包括:
12.根据权利要求9所述的方法,其中,所述多个通信单元包括t个,t为大于1的整数,所述根据所述多个通信单元的数据传输状态和所述数据传输特征,从所述多个通信单元中确定目标通信单元,包括:
13.根据权利要求12所述的方法,其中,所述响应于所述数据传输特征为非对称传输,且所述第一差异与所述第二差异满足预设条件,从所述多个通信单元中确定目标通信单元,包括:
14.根据权利要求12所述的方法,其中,所述预设条件包括:所述第一差异与所述第二差异不相等。
15.根据权利要求1所述的方法,其中,所述根据所述目标通信单元的标识和预定部署数量,确定与所述目标通信单元的目标设备,包括:
16.一种异常设备确定装置,包括:
17.根据权利要求16所述的装置,其中,所述第一确定模块包括:
18.根据权利要求17所述的装置,其中,所述数据传输状态包括数据传输任务标识;所述第一确定子模块包括:
19.根据权利要求18所述的装置,其中,所述通信组内包括i个通信单元,i为大于1的整数,所述第一分析单元包括:
20.根据权利要求19所述的装置,其中,所述第一确定单元包括:
21.根据权利要求18所述的装置,其中,所述数据传输状态还包括:与数据传输任务对应的传输进度,所述第一确定子模块包括:
22.根据权利要求21所述的装置,其中,所述通信组内包括i个通信单元,i为大于1的整数,所述第二分析单元包括:
23.根据权利要求22所述的装置,其中,所述第二确定单元包括:
24.根据权利要求16所述的装置,还包括:
25.根据权利要求24所述的装置,其中,所述多个通信单元包括s个,s为大于1的整数,所述第三确定模块包括:
26.根据权利要求25所述的装置,其中,所述第二确定子模块包括:
27.根据权利要求24所述的装置,其中,所述多个通信单元包括t个,t为大于1的整数,所述第三确定模块包括:
28.根据权利要求27所述的装置,其中,所述第三确定子模块包括:
29.根据权利要求27所述的装置,其中,所述预设条件包括:所述第一差异与所述第二差异不相等。
30.根据权利要求16所述的装置,其中,所述第二确定模块包括:
31.一种电子设备,包括:
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。