本申请涉及云计算领域,尤其涉及一种网络可靠性评估方法、装置、设备及计算机存储介质。
背景技术:
1、当前rdma(remote direct memory access,远程直接数据存取)网络是大型训练业务及机器学习等高性能计算的首选,为了保证业务的顺利进行,衡量rdma网络的可靠性是在业务进行之前的重要步骤;
2、现有的rdma网络评估方式为根据rdma网络中各个节点的可靠度及节点之间的串并联关系,手动计算出业务对应的pcc(parallel computing chain,并行计算链)可靠性,最终根据pcc的可靠性计算出rdma网络的可靠性,但是由于大型训练的业务会包含上千个节点,且业务对应的pcc包含的节点有可能也是不固定的,手动计算的效率很低。
技术实现思路
1、本申请提供了一种网络可靠性评估方法、装置、设备及计算机存储介质,用于解决评估rdma网络可靠性时,手工计算繁琐,并且无法评估复杂rdma网络的问题,提高评估rdma网络可靠性的效率。
2、第一方面,本申请提供了一种网络可靠性评估方法,包括:
3、针对rdma的n个业务中的任意一个业务,在所述任意一个业务的仿真过程中,确定所述任意一个业务对应的pcc包括的多个节点;其中所述n个业务进行仿真的时间信息相同;
4、基于所述节点在所述仿真过程包括的各时间段的节点状态,确定所述pcc对应的目标时间段的总时长;其中,所述节点状态是基于rdma中各节点的可靠度和预设概率分布确定的,所述节点状态包括可靠状态和不可靠状态;所述pcc对应的目标时间段为各时间段pcc为可靠pcc的时间段;
5、基于各pcc对应的所述目标时间段的总时长和仿真时长确定各pcc对应的可靠性,其中所述各pcc对应的可靠性表征对应pcc的可靠程度;
6、根据各pcc的可靠性,确定所述rdma网络的可靠性。
7、在一个或多个可能的实施例中,所述基于所述节点在所述仿真过程包括的各时间段的可靠状态,确定所述pcc对应的目标时间段的总时长,包括:
8、针对任意一个时间段,若所述所述pcc包括的至少一个链路在所述任意一个时间段内连通,则确定所述任意一个时间段为所述pcc对应的目标时间段,其中所述任意一个时间段内连通的链路上的节点在所述任意一个时间段内的节点状态为可靠状态;
9、基于所述pcc对应的目标时间段,确定所述目标时间段的总时长。
10、在一个或多个可能的实施例中,所述基于各pcc对应的所述目标时间段的总时长和仿真时长确定各pcc对应的可靠性,包括:
11、将各pcc对应的所述目标时间段的总时长与仿真时长的比值作为各pcc对应的可靠性。
12、在一个或多个可能的实施例中,所述n个业务进行仿真的时间信息相同为所述n个业务的仿真开始时刻和仿真结束时刻均相同。
13、在一个或多个可能的实施例中,所述根据各pcc的可靠性,确定所述rdma网络的可靠性,包括:
14、基于各pcc对应业务的预设权重,将各pcc对应的可靠性进行加权平均,得到加权平均值;
15、将所述加权平均值作为所述rdma网络的可靠性。
16、在一个或多个可能的实施例中,所述确定所述任意一个业务对应的pcc包括的多个节点,包括:
17、根据所述任意一个业务对应的任务量,确定所述任意一个业务对应的pcc包括的节点的数量,并根据所述节点的数量确定所述pcc包括的多个节点。
18、第二方面,本申请还提供一种网络可靠性评估装置,所述装置包括:
19、pcc确定模块,用于针对rdma的n个业务中的任意一个业务,在所述任意一个业务的仿真过程中,确定所述任意一个业务对应的pcc包括的多个节点;其中所述n个业务进行仿真的时间信息相同;
20、目标时间段确定模块,用于基于所述节点在所述仿真过程包括的各时间段的节点状态,确定所述pcc对应的目标时间段的总时长;其中,所述节点状态是基于rdma中各节点的可靠度和预设概率分布确定的,所述节点状态包括可靠状态和不可靠状态;所述pcc对应的目标时间段为各时间段pcc为可靠pcc的时间段;
21、pcc可靠性确定模块,用于基于各pcc对应的所述目标时间段的总时长和仿真时长确定各pcc对应的可靠性,其中所述各pcc对应的可靠性表征对应pcc的可靠程度;
22、rdma网络可靠性确定模块,用于根据各pcc的可靠性,确定所述rdma网络的可靠性。
23、第三方面,本申请还提供一种网络可靠性评估设备,所述设备包括:
24、至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面中任何一项所述的方法。
25、第四方面,本申请还提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行如第一方面中任何一项上述的方法。
26、根据本申请提供的一种网络可靠性评估方法、装置、设备及计算机存储介质,首先确定各业务对应的pcc包括的多个节点,并根据节点在各时间段的节点状态,确定各pcc在各时间段是否为可靠pcc,并最终根据各pcc的可靠性确定整个rdma网络的可靠性,解决了评估rdma网络可靠性时,手工计算繁琐,并且无法评估复杂rdma网络的问题,提高评估rdma网络可靠性的效率。
1.一种网络可靠性评估方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述节点在所述仿真过程包括的各时间段的可靠状态,确定所述pcc对应的目标时间段的总时长,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于各pcc对应的所述目标时间段的总时长和仿真时长确定各pcc对应的可靠性,包括:
4.根据权利要求1所述的方法,其特征在于,所述n个业务进行仿真的时间信息相同为所述n个业务的仿真开始时刻和仿真结束时刻均相同。
5.根据权利要求1或3所述的方法,其特征在于,所述根据各pcc的可靠性,确定所述rdma网络的可靠性,包括:
6.根据权利要求1~4任一所述的方法,其特征在于,所述确定所述任意一个业务对应的pcc包括的多个节点,包括:
7.一种网络可靠性评估装置,其特征在于,所述装置包括:
8.一种网络可靠性评估设备,其特征在于,所述设备包括:
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序用于使计算机执行如权利要求1-6中任何一项所述的方法。