并行计算机、节点装置以及并行计算机的控制方法

文档序号:8344603阅读:814来源:国知局
并行计算机、节点装置以及并行计算机的控制方法
【技术领域】
[0001]本发明涉及并行计算机、节点装置以及并行计算机的控制方法。
【背景技术】
[0002]存在一种能够与外部的网络进行通信的并行计算机。图1表示与外部的网络之间收发数据的并行计算机的例子。图1的并行计算机IA具有进行计算处理的多个计算节点lla、llb、…、以及同用于与外部装置进行通信的NIC(Network Interface Card:网络接口卡)13连接的一个I/O (Input/Output)节点12。另外,计算节点以及I/O节点分别具有CPU (Central Processing Unit)以及路由器。而且,计算节点11以及I/O节点12经由路由器连接。另外,I/O节点12的CPU与NIC13连接,并能够经由NIC13与外部网络2A进行通信。
[0003]另外,作为将并行计算机所包含的多个计算节点以及I/O节点连接起来的拓扑结构,已知有网格(mesh)、环(torus)等。如果在发送源的计算节点与目的地的I/O节点之间存在能够取的多个路径,则即使在通信路径上的计算节点发生故障的情况下,并行计算机的各计算节点也能够绕过发生故障的计算节点来发送数据。
[0004]专利文献1:日本特开平10 - 69471号公报
[0005]专利文献2:日本特开2007 - 110240号公报
[0006]然而,迂回路径例如是由对并行计算机的计算节点分配处理的管理节点指示的,I/o节点的NIC不保持用于对从外部网络接收的数据所设定的迂回路径。因此,在接收到从外部网络向并行计算机内部的计算节点的数据的情况下,I/o节点的NIC无法对接收到的数据设定并行计算机内部的网络中的迂回路径。

【发明内容】

[0007]因此,公开的技术的目的在于,在向并行计算机内的计算节点发送从外部网络接收的数据的情况下,即使在通信路径上的计算节点产生不良状况时,也能够绕过产生不良状况的计算节点来转发数据。
[0008]公开的技术的一方面是具有多个节点的并行计算机。另外,各个节点具有路由器,其直接或者间接地与各个其它节点连接;以及网络接口,其与并行计算机的外部网络连接,该网络接口具有存储部,其对表示与从包含该网络接口的节点至其它节点的通信路径对应的迂回路径的迂回路径信息进行保持;以及接收处理部,在网络接口从外部网络接收到以该并行计算机的节点为目的地的数据的情况下,该接收处理部将与从包含该网络接口的节点至数据的目的地节点的通信路径对应的迂回路径信息设定于数据,并向目的地节点发送设定有迂回路径信息的数据。
[0009]根据公开的技术,在向并行计算机内的计算节点发送从外部网络接收到的数据的情况下,即使在通信路径上的计算节点产生不良状况时,也能够绕过产生不良状况的计算节点来转发数据。
【附图说明】
[0010]图1是表示并行计算机的一个例子的图。
[0011]图2是用于说明二维网格的图。
[0012]图3是表不互联的一个例子的图。
[0013]图4是用于说明互联的详细内容的图。
[0014]图5是表不互联的其它例子的图。
[0015]图6是表不节点的构成的一个例子的图。
[0016]图7A是表不路由器的构成的一个例子的图。
[0017]图7B是NIC的功能框图的一个例子。
[0018]图8是表示实施方式所涉及的数据包的构成的一个例子的图。
[0019]图9是向外部网络发送数据的处理的处理流程的一个例子。
[0020]图10是NIC登记迂回路径的处理的处理流程的一个例子。
[0021]图11是表示在地址表中登记的信息的一个例子的图。
[0022]图12是从外部网络接收数据的处理的处理流程的一个例子。
[0023]图13是确认数据的目的地的处理的处理流程的一个例子。
[0024]图14是管理节点设定迂回路径信息的处理的处理流程的一个例子。
【具体实施方式】
[0025]以下,参照附图,对一实施方式所涉及的并行计算机进行说明。以下的实施方式的构成是例示,本并行计算机并不限于实施方式的构成。
[0026][互联的拓扑结构]
[0027]首先,对并行计算机的互联的拓扑结构(即,并行计算机的内部网络的连接方式)进行说明。并行计算机具有多个计算节点,各计算节点具有CPU、路由器等。而且,各计算节点经由路由器与其它几个计算节点连接,并将连接计算节点间的内部网络称为互联(Interconnect)。另外,多个CPU并行地进行计算,并经由互联相互收发计算结果,或在并行计算机内的计算节点与外部网络之间收发数据。
[0028]互联的拓扑结构能够基于表示与邻接的计算节点的连接(即,链接)的数量的次数(degree)、表示计算节点间的最大距离的直径(diameter)、对称性(symmetry)等进行分类。如果是各计算节点与其它全部计算节点连接的完全结合,则不经由其它计算节点等而能够在任意的两个计算节点间直接进行通信。然而,伴随着计算节点数的增加,完全结合的安装变得困难。因此,现实中,采用将邻接的计算节点连接成网状的拓扑结构即网格(mesh)、将网格中的端的计算节点彼此连接而使全部的计算节点的链接数相等的拓扑结构即环(torus)等。
[0029]图2表示二维网格的例子。图2所示的并行计算机IB在图2中呈网状地具有表示左右方向的X方向、表示上下方向的Y方向上的各四个,共计16个计算节点。而且,各计算节点与X方向以及Y方向的邻接的计算节点连接。此外,存在于外周部的计算节点与存在于其内侧的计算节点相比连接节点数较少。另外,在图2的例子中,为了便于说明,作为计算节点的识别符号附加了表示X方向以及Y方向的连接顺序的2个连贯的号码。
[0030]图3表示本实施方式所涉及的拓扑结构的一个例子。图3的并行计算机IC所包含的24个计算节点(也表示为节点装置)被分成6个组IG?6G。各组分别包括4个计算节点O?3,组内的4个计算节点O?3以完全结合连接。另外,在组间,存在于对应的位置上的计算节点(在图3的例子中,组内的编号相同的计算节点)串联连接,形成I维环。在图3的例子中,为了便于识别各计算节点,将组编号以及节点编号连接起来而称为计算节点IGO?计算节点6G3。另外,在图3的例子中,计算节点3G0以及计算节点3G1与采用了以太网(注册商标)规格的外部网络2B(以下,仅称为以太网2B)连接。此外,在本实施方式中,为了便于说明,将与外部网络可通信地连接的计算节点称为I/O节点。
[0031]在本实施方式中,至少一个计算节点的路由器具有以太网NIC。此外,也可以是全部的计算节点的路由器都具有以太网NIC(即,与外部网络连接的网络接口)。如果将并行计算机具有的多个计算节点的构成统一,则能够抑制计算节点的开发、验证所花费的工作量。
[0032]接下来,图4表示图3中的组3G与以太网2B的连接的详细内容。在图4的例子中,组3G包括4个计算节点3Gi(i = 0、1、2、3)。另外,计算节点3Gi分别具有CPU3GiC、路由器3G0R以及以太网NIC3GiN。此外,为了便于说明,将路由器与以太网NIC连接起来表示,然而也可以是路由器具有以太网NIC。而且,以太网NIC3G0N以及3G1N与以太网2B连接。这样,多个以太网NIC中的至少一部分经由开关等以物理方式与外部网络(例如,以太网)连接。
[0033]另外,与并行计算机的内部网络连接的管理节点可以切换以太网NIC的有效或者无效的设定。在图4的例子中,虚线表示的以太网NIC3G2N以及3G3N被设定为无效,是未作为以太网NIC发挥作用的状态。另外,实线表示的以太网NIC3G0N以及3G1N的作为以太网NIC的功能被有效化。
[0034]例如,管理节点也可以与各以太网NIC建立对应地将有效或者无效的设定存储到规定的注册表。而且,也可以是基于该设定,管理节点指示使用于各计算节点与外部网络的通信的以太网NIC。即,通过管理节点变更设定,能够使各计算节点具有的以太网NIC有效化或者无效化。管理节点也可以在并行计算机的起动时或者使计算节点执行的处理的分配(也表示为任务的投入)时,适当地进行以太网NIC的有效化或者无效化。
[0035]此外,本实施方式所涉及的管理节点例如是控制多个计算节点的动作的节点。管理节点可以是图3所示的计算节点IGO?计算节点6G3中的任意一个,例如图5所示,也可以是与计算节点IGO?计算节点6G3中的至少一个计算节点连接的其它节点。图5所示的管理节点4与计算节点2G2连接。另外,如上述,管理节点具有图5未图示的寄存器,该寄存器能够与各计算节点具有的以太网NIC建立对应地存储有效或者无效的设定。
[0036]此外,图3?图5所示的组的数量、组所包含的计算节点的数量、计算节点间的连接的数量是一个例子,本实施方式的并行计算机并不限定于此。
[0037][节点的构成]
[0038]图6表示计算节点的构成的一个例子。本实施方式所涉及的并行计算机I的计算节点100 (相当于图3以及5的计算节点IGO?计算节点6G3)具有CPUlOl、存储器102、网络I/F(Interface)103、和路由器104。而且,CPU101、存储器102、以及网络I/F103通过总线105连接。另外,网络I/F103与路由器104连接,路由器104与存在于内部网络的未图示的I个以上的其它计算节点连接。并且,也有经由路由器104具有的未图示的网络I/F(例如,以太网NIC)与外部网络(例如,以太网)连接的情况。另外,对各计算节点具有的网络I/F103赋予物理地址(例如MAC地址),能够使用物理地址与外部网络进行通信。在实施方式中,物理地址是指预先分配给通信装置的固有的地址。此外,上述的管理节点也能够成为与例如图6所示的计算节点同样的构成。
[0039]计算节点100的CPUlOl例如从未图示的管理节点经由内部网络以及路由器104接受任务的投入,并进行运算处理。另外,CPUlO
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1