一种基于快速重路由的拥塞恢复方法、装置、设备和介质与流程

文档序号:36315409发布日期:2023-12-08 01:11阅读:54来源:国知局
一种基于快速重路由的拥塞恢复方法与流程

本发明涉及数据处理,尤其涉及一种基于快速重路由的拥塞恢复方法、装置、设备和介质。


背景技术:

1、快速发展的高性能存储、计算等应用,对数据中心网络性能提出了更高需求。远程直接存储器存取(remote direct memory access,rdma)由于其内核旁路的特点,可以在内存间直接进行数据拷贝,大大降低了cpu的开销,因此在数据中心的占比日益增加。目前,rdma网络已经在国内外数据中心广泛部署,并且一些互联网企业也开始使用rdma来部署加速存储、机器学习、异构计算等业务。

2、数据中心间流行的是基于clos网络的fat-tree、spine-leaf架构,通过多层交换机的组合来发挥出rdma网卡的性能。上述架构主要是通过五元组哈希为依据的、逐跳的、基于流的等成本多路径(equal-cost multi-path,ecmp)路由算法来实现负载均衡。然而,在rdma网络通信过程中,源端口号是由源目队列对(queue pair,qp)号随机哈希生成,进一步会导致选路的随机性。当在多层交换机拓扑上并发的进行rdma通信时,很容易因为负载不均导致拥塞,使应用的性能下降。

3、具体地,当单个交换机发生拥塞时,会导致该交换机所在的多条路径受到影响,进而影响多个rdma的通信性能。另外,当拥塞发生后,一般通过暴力搜索的方式进行路由重选,根据重选路由确定出新的路径、但这种重选路由方法繁杂、效率低,影响应用的性能。


技术实现思路

1、本发明的目的是解决,在网络节点发生拥塞时,如何准确地定位出拥塞发生点,并快速解决拥塞的问题,为解决该技术问题,本申请实施例提供一种基于快速重路由的拥塞恢复方法、装置及设备,具体地公开了如下技术方案:

2、第一方面,本发明实施例公开一种基于快速重路由的拥塞恢复方法,所述方法包括:

3、获取第一端设备到第二端设备之间、经过至少一层网络设备的多条传输路径;

4、利用五元组监控技术在所述多条传输路径中确定待传输流量的路径,以及确定所述待传输流量路径对应的状态信息;

5、根据所述状态信息检测所述待传输流量的路径上是否发生拥塞;

6、如果发生拥塞,则利用色块匹配算法在至少一条候选路径中找到目标路径,并将所述发生拥塞的路径更新为所述目标路径。

7、第二方面,本发明实施例还公开了一种基于快速重路由的拥塞恢复装置,所述装置包括:

8、获取单元,用于获取第一端设备到第二端设备之间、经过至少一层网络设备的多条传输路径;

9、确定单元,用于利用五元组监控技术在所述多条传输路径中确定待传输流量的路径,以及确定所述待传输流量路径对应的状态信息;

10、检测单元,用于根据所述状态信息检测所述待传输流量的路径上是否发生拥塞;

11、查找单元,用于在所述检测单元检测出发生拥塞情况下,利用色块匹配算法在至少一条候选路径中找到目标路径;

12、更新单元,用于将所述发生拥塞的路径更新为所述目标路径。

13、第三方面,本发明实施例还公开了一种电子设备,包括处理器和存储器,所述存储器与所述处理器耦合;其中,所述存储器上存储有计算机可读程序指令,当所述指令被所述处理器执行时,实现如前述第一方面所述的基于快速重路由的拥塞恢复方法。

14、另外,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序指令,当该指令被处理器执行时,实现前述第一方面所述的基于快速重路由的拥塞恢复方法。

15、本发明提供的基于快速重路由的拥塞恢复方法、装置和设备,能够在网络拥塞发生时,提前对路径进行探测,并快速找到最优路径(目标路径)进行重路由操作,从而减少拥塞对应用性能的影响。具体地,在拥塞感知方面,利用五元组监控,快速地对应用原路径以及网络状况进行感知,从而判断出待传输路径中哪些路径发生拥塞。在拥塞恢复方面,利用色块匹配算法,能够在线性时间复杂度内找到目标路径,再通过修改源端口号的方式进行快速重路由,从而快速解决拥塞问题。

16、另外,本方法在整体性能上,使用了拥塞感知与恢复机制之后,使得带宽上能够有10%以上的提升,能够让训练任务执行的更快。同时,相比之前的随机哈希选路,使用重路由的主动选路的方差更小、整体带宽更稳定、任务训练的波动更小。



技术特征:

1.一种基于快速重路由的拥塞恢复方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述利用五元组监控技术在所述多条传输路径中确定待传输流量的路径,包括:

3.根据权利要求2所述的方法,其特征在于,所述状态信息包括:待传输流量的路径上的至少一个交换机状态信息;

4.根据权利要求3所述的方法,其特征在于,所述交换机状态信息通过传输时延表示;

5.根据权利要求1-4任一项所述的方法,其特征在于,在检测所述待传输流量的路径上是否发生拥塞之前,还包括:

6.根据权利要求5所述的方法,其特征在于,根据所述一个或多个目标交换机确定包含所述目标交换机的所述目标路径,包括:

7.根据权利要求5所述的方法,其特征在于,所述不同颜色中包括:第一颜色、第二颜色和第三颜色,其中,第一颜色表征交换机上无流量传输,第二颜色表征交换机上流量已达到负载阈值,第三颜色表征交换机上有流量传输、但未达到所述负载阈值;

8.根据权利要求1-4任一项所述的方法,其特征在于,将所述发生拥塞的路径更新为所述目标路径,包括:

9.根据权利要求2-4任一项所述的方法,其特征在于,将所述发生拥塞的路径更新为所述目标路径之后,还包括:

10.一种基于快速重路由的拥塞恢复装置,其特征在于,所述装置包括:

11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器与所述处理器耦合;

12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时,实现如权利要求1至9中任一项所述的基于快速重路由的拥塞恢复方法。


技术总结
本发明公开一种基于快速重路由的拥塞恢复方法、装置、设备和介质,该方法包括:获取第一端设备到第二端设备之间、经过至少一层网络设备的多条传输路径;利用五元组监控技术在所述多条传输路径中确定待传输流量的路径,以及确定所述待传输流量路径对应的状态信息;根据所述状态信息检测所述待传输流量的路径上是否发生拥塞;如果发生拥塞,则利用色块匹配算法在至少一条候选路径中找到目标路径,并将所述发生拥塞的路径更新为所述目标路径。本方法能够在拥塞发生时,提前对路径进行探测,并快速找到最优路径进行重路由操作,从而减少拥塞对应用性能的影响。

技术研发人员:王磊,江卓,张宇超,龚向阳,王剑
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1