一种计算集群及计算集群的连接方法与流程

文档序号:36833922发布日期:2024-01-26 16:50阅读:36来源:国知局
一种计算集群及计算集群的连接方法与流程

本技术涉及计算,尤其涉及一种计算集群及计算集群的连接方法。


背景技术:

1、当前,在集群通信场景中,同一集群内的不同计算装置之间往往需要进行大量数据的交互。其中,集群通信场景例如可以包括人工智能(artificial intelligence,ai)训练场景和高性能计算(high performance computing,hpc)场景。示例性地,在ai训练场景下,随着模型的规模越来越大,分布式ai训练成为了主流趋势。在分布式ai训练中,不同的训练装置分别负责整个训练过程中的不同环节,并且通过相互通信来实现训练过程中的数据交互。由于不同的训练装置之间需要交互大量的数据,因此训练装置之间的通信成为了影响模型训练性能的重要部分。

2、目前,同一集群内的不同计算装置之间的通信依靠基于电交换机的网络拓扑来实现。其中,同一集群内的所有计算装置共用同一个网络拓扑,通常是通过随机路由的方式在网络拓扑的多条通信链路中选择用于交互数据的通信链路。在这种情况下,不同的计算装置可能会选择到相同的通信链路来交互数据,从而出现链路冲突的情况下,影响通信性能。

3、针对网络拓扑中出现的链路冲突的情况,相关技术中提出负载均衡路由、自适应路由等路由配置的方式来减少链路冲突现象的发生,但是各有弊端。然而,受限于基于电交换机的网络拓扑的特性,相关技术中所提出的路由配置方式通常只能够尽可能减少出现链路冲突的情况,无法完全避免链路冲突的产生,进而导致计算装置之间的通信性能容易受到影响。


技术实现思路

1、本技术提供了一种计算集群,能够完全避免出现链路冲突的现象,保证计算装置之间的通信性能。

2、本技术第一方面提供一种计算集群,包括:第一计算节点和第二计算节点,第一计算节点和第二计算节点分别包括多个计算装置。

3、第一计算节点的多个计算装置连接至至少一个第一波长交叉设备,第二计算节点的多个计算装置连接至至少一个第二波长交叉设备。例如,假设第一计算节点包括n个计算装置,该n个计算装置均连接至一个第一波长交叉设备,其中n为大于1的整数。

4、并且,与第一计算节点连接的至少一个第一波长交叉设备通过光交叉连接设备连接至与第二计算节点连接的至少一个第二波长交叉设备。这样,第一计算节点中的多个计算装置中任意一个计算装置均能够通过上述的至少一个第一波长交叉设备、光交叉连接设备及至少一个第二波长交叉设备与第二计算节点中的多个计算装置中的任意一个计算装置连通。也就是说,第一计算节点中的计算装置在向第二计算节点中的计算装置发送数据时,数据依次经过第一波长交叉设备、光交叉连接设备以及第二波长交叉设备,最终到达第二计算节点中的计算装置。

5、在第一计算节点中的计算装置与第二计算节点中的计算装置进行通信的过程中,第一波长交叉设备在接收到不同计算装置所发送的数据后,采用不同波长的光信号来承载这些来源不同的数据。然后,第一波长交叉设备根据这些来源不同的数据的目的地,选择将不同波长的光信号发送至光交叉连接设备的一个或多个端口,进而由光交叉连接设备将光信号转发至第二波长交叉设备。最后,第二波长交叉设备将从光交叉连接设备所发送的光信号进行分解并将分解得到的光信号分别发送至第二计算节点中相应的计算装置。

6、得益于光信号传输的特性,同一条光纤上能够同时传输多个波长的光信号。因此,本方案中通过将不同计算装置所发送的数据通过不同波长的光信号来承载,能够使得不同计算装置所发送的数据能够通过相同的路径来发送且数据间互不干扰,保证第一计算节点中的多个计算装置与第二计算节点中的多个计算装置能够通过波长交叉设备和光交叉连接设备实现全连接,进而完全避免了出现链路冲突的现象,保证了计算装置之间的通信性能。

7、在一种可能的实现方式中,第一计算节点为第一物理设备,第一计算节点中的多个计算装置归属于所述第一物理设备,至少一个第一波长交叉设备的数量为一个。第二计算节点为第二物理设备,第二计算节点中的多个计算装置归属于第二物理设备,至少一个第二波长交叉设备的数量为一个。其中,第一物理设备和第二物理设备可以为物理服务器。

8、简单来说,第一计算节点中的多个计算装置可以是归属于一个物理服务器上,第二计算节点中的多个计算装置也是归属于一个物理服务器上。即,两个不同物理服务器上的计算装置通过一个第一波长交叉设备、光交叉连接设备以及一个第二波长交叉设备实现全连接。

9、本方案中,在小规模的计算集群中,通过波长交叉设备以及光交叉连接设备来实现不同子节点上的计算装置之间的全连接,能够避免计算装置之间出现链路冲突的现象,保证了计算装置之间的通信性能。

10、在一种可能的实现方式中,第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备,第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。并且,第一计算节点和第二计算节点中的每个子节点中可以是包括一个或多个计算装置。其中,子节点可以为物理节点,具体可以为一个物理服务器。

11、本方案中,在计算节点中包括较多计算装置的情况下,可以将一个计算节点可以分为多个子节点,且各个子节点内包括多个计算装置,能够便于对大量的计算装置进行管理以及任务分配,且不影响各个计算装置之间的通信性能。

12、在一种可能的实现方式中,计算集群中的光交叉连接设备的数量为多个。第一计算节点中的多个计算装置和第二计算节点中的多个计算装置均具有编号,第一计算节点和第二计算节点中具有相同编号的计算装置通过波长交叉设备连接至同一个光交叉连接设备。

13、例如,第一计算节点中的m个计算装置所被分配的编号分别为:1、2、3…m;第二计算节点中的m个计算装置所被分配的编号也是分别为:1、2、3…m。那么,第一计算节点中和第二计算节点中编号为1的计算装置可以是接入光交叉连接设备1;第一计算节点中和第二计算节点中编号为2的计算装置可以是接入光交叉连接设备2,以此类推。

14、本方案中,通过按照相同的编号顺序对每个计算节点内的多个计算装置进行编号,进而使得不同计算节点内具有相同编号的计算装置均能够通过波长交叉设备接入同一个光交叉连接设备,从而实现每个计算节点内相同编号的计算装置之间的相互通信,满足ai训练场景的需求。

15、在一种可能的实现方式中,计算集群中的光交叉连接设备的数量为多个。第一计算节点的多个计算装置归属于多个子节点,第二计算节点的多个计算装置归属于多个子节点。其中,每个子节点具体可以为一个物理服务器。并且,第一计算节点中的多个子节点和第二计算节点中的多个子节点均具有编号。第一计算节点和第二计算节点中具有相同编号的子节点通过波长交叉设备连接至同一个光交叉连接设备。

16、本方案中,通过按照相同的编号顺序对每个计算节点内的多个物理服务器进行编号,进而使得不同计算节点内具有相同编号的物理服务器均能够通过波长交叉设备接入同一个光交叉连接设备,从而实现每个计算节点内相同编号的物理服务器之间的相互通信,满足ai训练场景的需求。

17、在一种可能的实现方式中,第一计算节点中的第一计算装置与第二计算节点中的第二计算装置连通,当第一计算节点中的第一计算装置需要与第二计算节点中的第三计算装置连通时,同时连接第二计算装置与第三计算装置的波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三计算装置的连接。

18、本方案中,通过在波长交叉设备上切换计算装置之间的连接,能够便于计算装置在通信过程中快速切换通信对象,保证计算装置之间的通信灵活性。

19、在一种可能的实现方式中,连接第二计算装置与第三计算装置的目标波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三装置的连接具体包括:第三计算装置发送请求至目标波长交叉设备,目标波长交叉设备根据请求将光开关切换至与第三计算装置连接的输出端口,从而实现将与第一计算装置连接的输入端口连接到与第三计算装置连接的输出端口。

20、这样一来,第一计算装置发送到目标波长交叉设备上的光信号则可以被转发至第三计算装置。

21、在一种可能的实现方式中,第一计算节点和第二计算节点中的每个计算装置中包括路由表,路由表用于指示计算装置所连接的波长交叉设备与其他计算装置之间的连接关系。

22、具体地,路由表中可以包括源计算节点、目的计算节点、发送端的波长交叉设备连接到光交叉连接设备的输出端口(即光交叉连接设备的输入端口)、接收端的波长交叉设备连接到光交叉连接设备的输入端口(即光交叉连接设备的输出端口)。也就是说,对于计算集群中的任意一个计算装置而言,该计算装置能够通过路由表确定自身所连接的波长交叉设备与其他计算节点中的其他计算装置之间的连接关系,进而在需要切换通信对象时能够向波长交叉设备发送相应的请求来切换连接。

23、此外,连接第二计算装置与第三计算装置的目标波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三装置的连接,具体包括:

24、第三计算装置根据第三计算装置中的路由表确定目标波长交叉设备中连接第一计算装置的输入端口和连接第三计算装置的输出端口,并发送请求至目标波长交叉设备,目标波长交叉设备再根据请求将与第一计算装置连接的输入端口连接到与第三计算装置连接的输出端口。具体来说,第三计算装置可以是根据所配置的路由表确定目标波长交叉设备通过哪个端口与计算节点中的第一计算装置连接,进而根据路由表向目标波长交叉设备发送请求。

25、在一种可能的实现方式中,每个计算装置通过接收软件定义网络(softwaredefined network,sdn)控制器发送的路由表配置请求来生成路由表,sdn控制器用于在光交叉连接设备中配置波长交叉设备之间的连接。

26、在一种可能的实现方式中,计算集群还包括第三计算节点,第一计算节点通过第一计算节点中的第一子节点中的计算装置与第二计算节点连接,第一计算节点通过第一计算节点中的第二子节点中的计算装置与第三计算节点连接,当第一子节点中的计算装置需要与第三计算节点中的计算装置通信时,第一子节点中的计算装置将数据发送至第二子节点中的计算装置,再由第二子节点中的计算装置将数据发送至第三计算节点中的计算装置。

27、也就是说,当一个计算节点中的某一个子节点的计算装置不能够通过波长交叉设备和光交叉连接设备与其他计算节点的计算装置建立连接时,该子节点的计算装置可以向同一个计算节点内的其他子节点中的计算装置发送数据,由其他子节点中的计算装置帮忙将数据转发至其他计算节点的计算装置,从而在大规模的计算集群中实现任意计算装置之间的通信。

28、在一种可能的实现方式中,计算集群用于执行人工智能任务或者hpc任务。以计算计算应用于执行人工智能任务为例,该人工智能任务具体例如为分布式ai训练任务。在分布式ai训练任务中,计算装置之间所交互的数据流往往是连续且长时间的,即一个计算装置往往会持续固定地与另一个计算装置进行数据的交互。因此,在基于波长交叉设备和光交叉连接设备配置好两个计算装置之间用于通信的光路后,即可持久地保持所配置好的光路,能够有效地避免频繁切换光路所带来的时延问题。

29、本技术第二方面提供一种计算集群的连接方法,该计算集群包括第一计算节点和第二计算节点,该方法包括:

30、将第一计算节点的多个计算装置与至少一个第一波长交叉设备连接,以及将第二计算节点的多个计算装置与至少一个第二波长交叉设备连接;

31、将至少一个第一波长交叉设备通过光交叉连接设备连接至至少一个第二波长交叉设备,以使得第一计算节点中的多个计算装置任意一个计算装置通过至少一个第一波长交叉设备、光交叉连接设备、及至少一个第二波长交叉设备与第二计算节点中的多个计算装置中的任意一个计算装置连通。

32、在一种可能的实现方式中,第一计算节点为第一物理设备,第一计算节点中的多个计算装置归属于所述第一物理设备,至少一个第一波长交叉设备的数量为一个。第二计算节点为第二物理设备,第二计算节点中的多个计算装置归属于第二物理设备,至少一个第二波长交叉设备的数量为一个。其中,第一物理设备和第二物理设备可以为物理服务器。

33、在一种可能的实现方式中,第一计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。第二计算节点的多个计算装置归属于多个子节点,一个子节点对应一个波长交叉设备。

34、在一种可能的实现方式中,计算集群中的光交叉连接设备的数量为多个,第一计算节点中的多个计算装置和第二计算节点中的多个计算装置均具有编号。将至少一个第一波长交叉设备通过光交叉连接设备连接至至少一个第二波长交叉设备,具体可以包括:将第一计算节点和第二计算节点中具有相同编号的计算装置所连接的波长交叉设备连接至同一个光交叉连接设备。

35、或者,第一计算节点的多个计算装置归属于多个子节点,第二计算节点的多个计算装置归属于多个子节点,第一计算节点中的多个子节点和第二计算节点中的多个子节点均具有编号。将至少一个第一波长交叉设备通过光交叉连接设备连接至至少一个第二波长交叉设备,具体包括:将第一计算节点和第二计算节点中具有相同编号的子节点所连接的波长交叉设备连接至同一个光交叉连接设备。

36、在一种可能的实现方式中,第一计算节点中的第一计算装置与第二计算节点中的第二计算装置连通,当第一计算节点中的第一计算装置需要与第二计算节点中的第三计算装置连通时,通过同时连接第二计算装置与第三计算装置的波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三计算装置的连接。

37、在一种可能的实现方式中,通过连接第二计算装置与第三计算装置的目标波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三装置的连接包括:

38、由第三计算装置发送请求至目标波长交叉设备,并通过目标波长交叉设备根据请求将与第一计算装置连接的输入端口连接到与第三计算装置连接的输出端口。

39、在一种可能的实现方式中,第一计算节点和第二计算节点中的每个计算装置中包括路由表,该路由表用于指示计算装置所连接的波长交叉设备与其他计算装置之间的连接关系。连接第二计算装置与第三计算装置的目标波长交叉设备将第一计算装置与第二计算装置的连接切换为第一计算装置与第三装置的连接,具体包括:

40、由第三计算装置根据第三计算装置中的路由表确定目标波长交叉设备中连接第一计算装置的输入端口和连接第三计算装置的输出端口,并发送请求至目标波长交叉设备,并通过目标波长交叉设备根据请求将与第一计算装置连接的输入端口连接到与第三计算装置连接的输出端口。

41、在一种可能的实现方式中,该方法还包括:

42、通过sdn控制器在光交叉连接设备中配置波长交叉设备之间的连接;

43、通过sdn控制器向每个计算装置发送路由表配置请求,以使得每个计算装置生成路由表。

44、在一种可能的实现方式中,计算集群还包括第三计算节点。该方法还包括:

45、将第一计算节点中的第一子节点中的计算装置与第二计算节点连接,以及将第一计算节点中的第二子节点中的计算装置与第三计算节点连接,以使得当第一子节点中的计算装置需要与第三计算节点中的计算装置通信时,第一子节点中的计算装置将数据发送至第二子节点中的计算装置,再由第二子节点中的计算装置将数据发送至第三计算节点中的计算装置。

46、在一种可能的实现方式中,该计算集群用于执行人工智能任务或者hpc任务。

47、其中,第二方面任一种实现方式所带来的技术效果可参见上述第一方面中不同实现方式所带来的技术效果,此处不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1