信息处理系统、控制设备和控制信息处理系统的方法

文档序号:6542252阅读:160来源:国知局
信息处理系统、控制设备和控制信息处理系统的方法
【专利摘要】本发明涉及一种信息处理系统、控制设备和控制信息处理系统的方法。并行计算机包括经由传输路径彼此连接的多个处理器。作业管理服务器确定经过使处理器当中的与要输入的作业相对应的特定数量的处理器相连接的传输路径的通信路径,并且将这些作业输入至经由所确定的通信路径相连接的特定数量的处理器。链路控制服务器控制经由连接处理器的传输路径当中的没有包括在通信路径中的传输路径所连接的处理器的发送/接收电路。
【专利说明】信息处理系统、控制设备和控制信息处理系统的方法

【技术领域】
[0001] 这里公开的实施例涉及信息处理系统、控制设备和控制信息处理系统的方法。

【背景技术】
[0002] 传统上,已知有具有多个计算节点的并行计算机通过数值计算来进行模拟的技 术。这种技术的已知示例包括将作为模拟的对象的计算空间分割成多个区域并且使不同的 计算节点执行对不同分割区域的模拟的并行计算机系统。
[0003] 并行计算机系统将计算空间分割成多个区域并且将这些分割区域规则地映射到 计算节点。也就是说,并行计算机系统将每个分割区域映射到具有与分割区域的位置关系 相同的位置关系的计算节点。然后,并行计算机系统使每个计算节点进行对映射到该计算 节点的区域的模拟,由此进行整个计算空间的模拟。
[0004] 这里,例如当进行诸如海啸的三维空间中的现象的模拟时,三维空间的分割区域 受到相邻区域显著影响。在随着各区域之间的距离变短而各区域之间的相关性变强的模 拟中,随着进行通信的计算节点之间的距离变短,通信量增加。因此,在三维空间中的现象 的模拟中,每个计算节点与其相邻的计算节点的通信同与其它计算节点的通信相比大大增 力口。因此,例如,并行计算机系统使用经由具有多维正交坐标的拓扑的直接互连网络所连接 的多个计算节点来高效地执行模拟。
[0005] 此外,一些并行计算机系统包括计算节点经由具有环状(环形)拓扑的直接互连网 络相连接的网络。在该示例中,多个计算节点当中的彼此相邻的计算节点经由链路直接相 连接,并且位于网络的两端的计算节点经由链路直接相连接。与具有网状拓扑的直接互连 网络的情况相比,甚至包括在两端处的计算节点的以这种方式连接的计算节点可以以较高 的速度进行通信。因此,即使当诸如在使用周期边界条件的模拟中在计算节点的两端之间 存在相关性时,具有以环状连接的节点的并行计算机系统也可以高效地执行模拟。此外,通 信节点之间的通信路径增加,因而,对分带宽(bisection band widhth)增加,结果减少了 各计算节点之间的业务量(traffic)。这里,对分带宽是当任意分割具有经由网络所连接的 计算节点的并行计算机系统时、分割得到的计算节点组之间的通信带宽。在并行计算机中, 将对分带宽值设计成不等于或小于特定值以便确保并行计算机的整体性能很重要。
[0006] 作为用于确定并行处理器的信息通信路径的技术,存在如下传统技术:将信息顺 序地发送至与包括传输目的地坐标点的多边形相对应的节点当中的、与具有给出到传输目 的地坐标点的最短路径的边的多边形相对应的节点。
[0007] 专利文献1 :日本早期公开专利公布第01-156860号
[0008] 然而,在并行计算机系统中,确保了物理连接的节点之间的路径的连接状态相同, 而与在这些路径上通信量是大还是小无关。因此,针对通信量小并因而仅需要小带宽和低 传输速度的路径确保了不必要的带宽和传输速度,这导致电力消耗的浪费。
[0009] 此外,即使利用基于包括传输目的地的坐标点的多边形的边与坐标点之间的距离 来确定传输目的地的传统技术,也难以降低电力消耗。
[0010] 因此,本发明的实施例的一个方面的目的是提供电力消耗降低的信息处理系统、 控制设备和控制信息处理系统的方法。


【发明内容】

[0011] 根据本发明的一方面,一种信息处理系统包括:信息处理装置,其包含经由传输路 径彼此连接的多个算术处理单元;管理装置,确定经过使多个算术处理单元当中的、与要输 入的作业相对应的特定数量的算术处理单元相连接的传输路径的通信路径,并且将作业输 入至经由所确定的通信路径连接的特定数量的算术处理单元;以及控制设备,控制经由使 算术处理单元相连接的传输路径当中的、没有包括在通信路径中的传输路径所连接的算术 处理单元的发送/接收电路。

【专利附图】

【附图说明】
[0012] 图1是示出根据实施例的信息处理系统的框图;
[0013] 图2是示出六维坐标轴的图;
[0014] 图3是用于说明处理器之间的互连路径和服务处理器的连接的图;
[0015] 图4是示出逻辑坐标轴的图;
[0016] 图5是示出在处理器中没有发生故障时的逻辑连接的一个示例的图;
[0017] 图6是示出在处理器中发生故障时的逻辑连接的一个示例的图;
[0018] 图7是示出根据实施例的并行计算机的详情的框图;
[0019] 图8是示出根据实施例的信息处理系统中使互连路径的通道退化的处理的流程 图;
[0020] 图9是示出生成逻辑坐标的处理的流程图;
[0021] 图10是示出根据变型例的并行计算机的详情的框图;
[0022] 图11是示出作业管理服务器和链路控制服务器的硬件配置的一个示例的图;以 及
[0023] 图12是示出并行计算机中的每个节点的硬件配置的一个示例的图。

【具体实施方式】
[0024] 将参照附图来说明本发明的优选实施例。以下实施例不限制本申请的信息处理系 统、控制设备和控制信息处理系统的方法。
[0025] 图1是示出根据实施例的信息处理系统的框图。如图1所示,本实施例的信息处 理系统包括并行计算机1、作业管理服务器2、链路控制服务器3和输入装置4。
[0026] 并行计算机1包括作为多个算术处理装置的处理器11和作为系统控制设备的服 务处理器12。
[0027] 处理器11被布置成具有多个坐标轴。例如,在本实施例中,如图2所示,使用坐标 轴X、Y、Z、A、B和C的位置来确定处理器11在六维空间内的位置。图2是示出六维坐标轴 的图。坐标轴X、Y和Z形成三维空间。坐标轴A、B和C分别是用于确保在X轴方向、Y轴 方向和Z轴方向上所布置的处理器11的冗余性的坐标轴。坐标轴X上的处理器11和坐标 轴A上的处理器11利用三维环状连接拓扑相连接。坐标轴Y上的处理器11和坐标轴B上 的处理器11利用三维环状连接拓扑相连接。坐标轴Z上的处理器11和坐标轴C上的处理 器11利用三维环状连接拓扑相连接。也就是说,X-A平面上的处理器利用三维环状连接拓 扑彼此连接。Y-B平面上的处理器利用三维环状连接拓扑彼此连接。Z-C平面上的处理器 利用三维环状连接拓扑彼此连接。例如,即使当利用Y轴方向和B轴方向定义的Y-B平面 上的一些处理器11中发生故障时,利用以Y轴和B轴定义的三维环也可以通过绕过发生故 障的处理器11来维持Y-B平面上的处理器11之间的连接。这里,尽管处理器11被布置成 使得可以在六维空间内指定这些处理器11的位置,但坐标轴不是固定的。也就是说,根据 要执行的作业来动态地分配乂、¥、23、8和(:,以使得关于处理器11的六个方向,乂轴、¥轴 和Z轴彼此垂直并且A、B和C分别与X轴、Y轴和Z轴的冗余方向相对应。
[0028] 图3是用于说明处理器之间的互连路径和服务处理器的连接的图。在图3中,作 为处理器11的一个示例,示出了四个处理器111至114。处理器111至114当中的彼此相 邻的处理器11经由互连路径13相连接。互连路径13中的每一个均包括多个通道(例如,8 个通道)。当使用所有通道来传输数据时,互连路径13的传输速率最快。在互连路径13的 一些通道退化而停止使用之后,互连路径113可以使用其余通道来传输数据。在本实施例 中,通常使用互连路径13的所有通道来传输数据。
[0029] 在图3中,处理器111连接至处理器112和113,并且进一步连接至其它相邻的处 理器11 (未示出)。处理器112连接至处理器111和114,并且进一步连接至其它相邻的处 理器11 (未示出)。处理器113连接至处理器111和114,并且进一步连接至其它相邻的处 理器11 (未示出)。处理器114连接至处理器112和113。经由互连路径13连接的处理器 可以使用互连路径13来彼此进行通信。
[0030] 每个处理器进行算术处理。例如,在进行诸如海啸的大规模灾难的三维模拟时,处 理器执行再现大规模灾难中的物体的运动的算术处理。在三维模拟中,将三维空间的部分 区域分配至每个处理器。这些处理器在所分配的区域内进行对物体的运动的算术计算。
[0031] 针对预定数量的多个处理器设置一个服务处理器。例如,针对每102个处理器配 置一个服务处理器。服务处理器均连接至相应的处理器中的每一个。本实施例描述了针对 每特定数量的处理器设置一个服务处理器的情况。然而,可以针对每特定数量的处理器设 置两个服务处理器。
[0032] 服务处理器连接至链路控制服务器3。每个服务处理器从链路控制服务器3接收 用以控制处理器的指令,并且根据所接收到的控制指令来控制相应的处理器。稍后将详细 描述服务处理器对处理器的控制。
[0033] 返回图1,将继续进行描述。作业管理服务器2包括作业管理器21、逻辑坐标生成 单元22和资源管理单元23。
[0034] 输入装置4将与用于要执行的作业的坐标轴X、Y和Z相对应的节点数输入至作业 管理器21。以下将要执行的作业称为"执行作业"。这里,该作业实际由处理器11来执行。 然而,在以下描述中,"节点"执行这样的作业,这表示分配有该节点的每个处理器11均执行 该作业。
[0035] 作业管理器21将所接收到的执行作业在X方向、Υ方向和Ζ方向上的节点数发送 至逻辑坐标生成单元22。
[0036] 之后,作业管理器21从逻辑坐标生成单元22接收关于是否可以向处理器11分配 节点的确定结果。当无法分配与要输入的作业相对应的节点时,作业管理器21等待,直到 例如在完成其它作业之后处理器11被释放为止,并且可以向所需数量的处理器分配节点。 在特定时间段内等待之后,作业管理器21再次将用于输入作业的X轴方向、Y轴方向和Z轴 方向上的节点数发送至逻辑坐标生成单元22,以便针对要执行的作业分配节点。
[0037] 当将节点分配给处理器11时,作业管理器21从逻辑坐标生成单元22接收表示被 分配作为执行作业的节点的处理器11的逻辑连接的逻辑坐标。这里,以预先提供给处理 器的节点数与逻辑坐标生成单元22确定的逻辑坐标之间的对应关系表示处理器的逻辑坐 标。
[0038] 作业管理器21向资源管理单元23通知处理器11的逻辑坐标和节点数。然后,作 业管理器21根据逻辑坐标来向实际处理器11分配作业,并且向资源管理单元23通知处理 器11执行作业的请求。
[0039] 逻辑坐标生成单元22包括存储有处理器11的物理布置和连接的处理器间通信路 径库221。此外,逻辑坐标生成单元22存储并行计算机1的处理器11当中的已使用的处理 器11。
[0040] 逻辑坐标生成单元22从作业管理器21接收执行作业所需的X轴方向、Y轴方向 和Z轴方向上的节点数。逻辑坐标生成单元22可以基于与每个坐标轴相对应的节点数来 指定执行这些执行作业的节点的连接形式。逻辑坐标生成单元22基于存储在处理器间通 信路径库221中的处理器11的物理布置来获取除已使用的处理器11以外的处理器11。然 后,逻辑坐标生成单元22搜索可以布置执行这些执行作业的节点的位置。也就是说,逻辑 坐标生成单元22确定是否可以使用除已使用的处理器11以外的处理器11来确保与执行 这些执行作业的节点的连接形式相对应的区域。当确保了可以配置执行这些执行作业的节 点的位置时,逻辑坐标生成单元22将表示可以分配节点的通知发送至作业管理器21。
[0041] 这里,在本实施例的信息处理系统中,如稍后所述,布置在六维空间内的诸如X-A 坐标平面的每个坐标平面上的节点以一笔画(unicursal)的环形方式顺序地连接,并且将 一笔画形式的节点顺序当作一个坐标轴。将坐标平面当作坐标轴,由此当坐标轴上的节点 中发生故障时,在避开发生故障的节点的同时再次以一笔画的环形方式连接节点,并且维 持了朝向坐标轴的方向的连接。在以下描述中,将诸如X-A坐标平面的每个坐标平面当作 坐标轴。
[0042] 逻辑坐标生成单元22生成作为具有布置有执行作业的X轴和A轴的逻辑坐标轴 的X-A轴。逻辑坐标生成单元22生成作为具有布置有执行作业的Y轴和B轴的逻辑坐标 轴的Y-B轴。逻辑坐标生成单元22生成作为具有布置有执行作业的Z轴和C轴的逻辑坐 标轴的Z-C轴。如上所述,X-A轴、Y-B轴和Z-C轴均形成三维环状并且确保了冗余性。图 4是示出逻辑坐标轴的图。也就是说,逻辑坐标生成单元22使图2所示的六维坐标轴中的 X轴与A轴、Y轴与B轴以及Z轴与C轴成对,并且生成图4所示的三维逻辑坐标。
[0043] 逻辑坐标生成单元22将物理相邻的处理器11用于逻辑相邻的处理器11。更具 体地,逻辑坐标生成单元22将连续编号的物理坐标顺序地分配给物理相邻的处理器11,由 此生成逻辑连接。也就是说,逻辑连接是由一系列逻辑坐标表示的连接。然后,逻辑坐标生 成单元22将逻辑坐标轴上的处理器11相连接以生成环形逻辑连接,并且利用所生成的逻 辑连接来表示逻辑坐标轴上的坐标。这里,环形形式是如下形式:将逻辑坐标的编号顺序地 提供给处理器11,以使得处理器11经由互连路径13相互连接,并且具有最初编号的处理 器11和具有最后编号的处理器11经由互连路径13彼此连接。利用两个轴来定义逻辑坐 标轴。因而,逻辑坐标生成单元22可以通过连接逻辑轴上的处理器11来形成环形逻辑连 接。
[0044] 这里,参照图5和图6来描述逻辑连接的生成。图5是示出在处理器中没有发生故 障时的逻辑连接的一个示例的图。图6是示出在处理器中发生故障时的逻辑连接的一个示 例的图。这里,描述了 Y-B轴的情况。图5和图6的Y-B轴与图4的Y-B轴相对应。在图 5和图6这两者中,横向方向与Y轴方向相对应,并且垂直方向与B轴方向相对应。也就是 说,横向布置的处理器11在Y轴方向上,并且连接横向布置的处理器11的互连路径13是 在Y轴方向上延伸的互连路径。垂直布置的处理器11在B轴方向上,并且连接垂直布置的 处理器11的互连路径13是在B轴方向上延伸的互连路径。此外,关于图5和图6中的在 B轴方向上布置成一行的处理器11,顶部处理器11和底部处理器11也彼此相邻,并且这些 处理器11经由互连路径13相连接。也就是说,在图5和图6中,连接处理器11的线表示 互连路径13。
[0045] 如图5所示,在Y-B轴方向的平面上的处理器11中没有发生故障时,逻辑坐标生 成单元22沿着互连路径13以一笔画的环形形式连接所有处理器11。然后,逻辑坐标生成 单元22在处理器11当中选择一个处理器11作为原点并且向所选择的处理器11提供编号 0。然后,逻辑坐标生成单元22沿着以一笔画形式连接的路径向每个处理器11顺序地提供 逻辑坐标。这样,如图5所示,逻辑坐标生成单元22向Y-B轴方向的平面上的处理器11分 配逻辑坐标。因而,图5中的沿着粗线所示的路径的方向是Y-B轴方向,并且提供给每个处 理器11的编号表不逻辑坐标。
[0046] 在图6中,在Y-B轴方向的平面上的处理器11当中的处理器115中发生故障。在 这种情况下,逻辑坐标生成单元22沿着互连路径13以一笔画的环形形式连接除处理器115 以外的所有处理器11。然后,逻辑坐标生成单元22在除处理器115以外的处理器11当中 选择一个处理器11作为原点并且向所选择的处理器11提供编号0。然后,逻辑坐标生成单 元22沿着以一笔画形式连接的路径向每个处理器11顺序地提供逻辑坐标。这样,即使在 处理器115中发生故障时,如图6所示,逻辑坐标生成单元22也可以向Y-B轴方向的平面 上的处理器11提供逻辑坐标。因而,图6中的沿着粗线所示的路径的方向是Y-B轴方向, 并且提供给处理器11的编号表示逻辑坐标。
[0047] 然后,逻辑坐标生成单元22存储分配给所有处理器11的节点编号与逻辑坐标之 间的对应关系。
[0048] 之后,逻辑坐标生成单元22向作业管理器21通知节点编号与逻辑坐标之间的对 应关系以及节点数。
[0049] 资源管理单元23预先接收操作员从输入装置4输入的作业及其设置信息。作业 的设置信息例如包括将哪个作业被分配给哪个节点的信息。
[0050] 资源管理单元23从作业管理器21获取节点编号与逻辑坐标之间的对应关系以及 节点数。另外,资源管理单元23从作业管理器21接收作业执行请求。
[0051] 在接收到作业执行请求的情况下,资源管理单元23使用逻辑坐标来指定将哪个 作业分配给以一笔画形式连接的处理器11当中的哪个处理器组。然后,资源管理单元23 将所分配的作业输入至并行计算机1的处理器11中的每一个。
[0052] 接下来,资源管理单元23将节点编号与逻辑坐标之间的对应关系发送至链路控 制服务器3的坐标转换单元31。
[0053] 链路控制服务器3包括坐标转换单元31、子路径(sub path)确定单元32、电力控 制单元33。
[0054] 坐标转换单元31存储节点编号与作为由六维坐标空间内的坐标(X,Y,Z,A,B,C) 表示的六维坐标的物理坐标之间的对应关系。
[0055] 坐标转换单元31从资源管理单元23接收节点编号与逻辑坐标之间的对应关系。 然后,坐标转换单元31使用所存储的节点编号与六维物理坐标(X,Y,Z,A,B,C)之间的对应 关系、基于所接收到的节点编号与三维逻辑坐标(X-A,Y-B,Z-C)之间的对应关系来将每个 处理器11的三维逻辑坐标转换成六维物理坐标。
[0056] 然后,坐标转换单元31向子路径确定单元32通知作为被分配有执行作业的节点 的每个处理器11的逻辑坐标和物理坐标。
[0057] 子路径确定单元32从坐标转换单元31获取被分配有执行该执行作业的节点的每 个处理器11的逻辑坐标和物理坐标。
[0058] 然后,子路径确定单元32获取逻辑坐标连续的两个处理器11 (S卩,逻辑坐标彼此 相邻的两个处理器11)的物理坐标,并且子路径确定单元32将连接所获取到的物理坐标的 互连路径13确定为主路径。此外,子路径确定单元32将除主路径以外的互连路径13确定 为子路径。
[0059] 子路径确定单元32向电力控制单元33通知子路径的信息。这里,子路径的信息 可以是经由这样的子路径所连接的两个处理器11的物理坐标对。
[0060] 电力控制单元33从子路径确定单元32获取子路径的信息。然后,电力控制单元 33指示对经由作为退化对象的子路径所连接的处理器11进行控制的服务处理器12使连 接作为子路径的互连路径13上的处理器的多个通道退化。更具体地,当处理器经由Μ条通 道(Μ是等于或大于1的整数)相连接时,电力控制单元33做出用以使X条通道(X是等于 或大于1的整数)退化并且经由Ν条通道(Ν=Μ-Χ)连接这些处理器的指示。
[0061] 这里,返回至并行计算机1,描述处理器11和服务处理器12的操作。
[0062] 处理器11从资源管理单元23接收所分配的作业。然后,处理器11执行所接收到 的作业。这里,在本实施例中,例如,在输入作业为三维模拟时,在作为模拟对象的三维空间 内彼此接近的位置之间的相互影响相对显著。也就是说,在处理器11执行作业时,逻辑坐 标相邻的节点之间的通信增加。例如,在诸如图5和图6中的逻辑坐标的情况下,处理器11 使用粗线所示的主路径来频繁地与其它处理器进行通信。
[0063] 控制经由子路径所连接的处理器11的服务处理器12从链路控制服务器3接收通 道退化指令以及子路径的信息。
[0064] 然后,服务处理器12指示经由子路径所连接的处理器11使作为子路径的互连路 径13的通道退化。例如,服务处理器12指示经由作为退化对象的子路径所连接的处理器 11的发送/接收电路(未示出)将通道减少为一半。
[0065] 处理器11从服务处理器12接收指示,并且按指示使互连路径13的通道退化。
[0066] 这里,参照图3和图7来描述通道的退化。图7是示出根据本实施例的并行计算 机的详情的框图。以下描述使图3中的处理器112和114之间、处理器111和113之间、处 理器112和114之间以及处理器113和114之间的互连路径13的通道退化的情况。
[0067] 服务处理器121从链路控制服务器3接收用以使处理器112和114之间的互连路 径13以及处理器111和113之间的互连路径13的通道退化的指令。然后,服务处理器121 指示处理器111将处理器111与处理器113之间的互连路径13的通道减少为一半。服务 处理器122指示处理器112将处理器112与处理器114之间的互连路径13的通道减少为 一半。
[0068] 服务处理器122从链路控制服务器3接收用以使处理器113和111之间的互连路 径13、处理器114和112之间的互连路径13以及处理器113和114之间的互连路径13的 通道退化的指令。然后,服务处理器122指示处理器113将处理器113与处理器111之间的 互连路径13的通道减少为一半。服务处理器122指示处理器114将处理器114与处理器 112之间的互连路径13的通道减少为一半。此外,服务处理器122指示处理器113和114 将连接在这两者之间的互连路径13的通道减少为一半。
[0069] 处理器111从服务处理器121接收该指示并且使处理器111与处理器113之间的 互连路径13的通道减少为一半。图3中的虚线所示的箭头表示退化的通道。处理器112 从服务处理器121接收该指示并且使处理器112与处理器114之间的互连路径13的通道 退化为一半。
[0070] 处理器113从服务处理器122接收该指示并且使处理器113和111之间的互连路 径13以及处理器113和114之间的互连路径13的通道分别退化为一半。处理器114从服 务处理器122接收该指示并且使处理器114和112之间的互连路径13以及处理器114和 113之间的互连路径13的通道分别退化为一半。
[0071] 这里,参照图7来描述处理器11进行的通道退化处理的示例。图7仅示出并行计 算机1中的两个处理器11以说明处理器11的详情。如图1和图3所示,并行计算机11实 际包括多个处理器11。
[0072] 并行计算机1包括在服务处理器12与处理器11之间的设置控制单元140。处理 器11包括发送/接收电路130。发送/接收电路130包括通道退化控制单元131、接收单 元132和发送单元133。
[0073] 设置控制单元140从服务处理器12接收通道退化指令。然后,设置控制单元140 向通道退化控制单元131通知作为退化对象的互连路径的信息和退化程度的信息。
[0074] 接收单元132使用连接至其它处理器11的互连路径的多个通道来接收数据。发 送单元133使用连接至其它处理器11的互连路径的多个通道来发送数据。
[0075] 通道退化控制单元131从设置控制单元140接收作为退化对象的互连路径的信息 和退化程度的信息。通道退化控制单元131在作为退化对象的互连路径中确定要退化的通 道。然后,通道退化控制单元131切断向被确定为退化的通道的电力供给。因而,接收单元 132和发送单元133无法使用电力供给被切断的通道。接收单元132和发送单元133使用 被供给电力的通道来进行通信。
[0076] 这里,为了便于说明,图7示出了发送/接收电路130与另一处理器11进行通信。 然而,发送/接收电路130可以与多个处理器11进行通信。在这种情况下,针对每个处理 器11,发送/接收电路130优选地包括接收单元132和发送单元133。另外,可以针对进行 通信的其它处理器11中的每一个来设置一个发送/接收电路130。
[0077] 返回图3,将继续进行描述。接收到来自服务处理器12的指令的处理器11使互连 路径13退化,由此作为子路径的所有互连路径13都退化。在图5或图6中,例如,粗线所 示的互连路径13是主路径,并且细线所示的互连路径13是子路径。在这种情况下,处理器 11使图5或图6中的细线所示的互连路径130退化。关于退化的互连路径的通道,驱动路 径的发送/接收电路的电源被切断。因而,可以降低电力消耗。
[0078] 如上所述,在三维模拟中,例如,在相邻节点之间频繁地进行通信,但在彼此不相 邻的节点之间没有频繁地进行通信。也就是说,作为除表示逻辑上彼此相邻的节点的连接 的主路径以外的子路径的互连路径13的通信量小。因而,即使在作为子路径的互连路径13 的通道退化时,对模拟处理的影响也小,并且不会造成问题。然后,可以通过这样使互连路 径13的通道退化来降低电力消耗。
[0079] 以下将参照图8来描述本实施例的信息处理系统中的使互连路径13的通道退化 的处理。图8是示出本实施例的信息处理系统中的使互连路径13的通道退化的处理的流 程图。
[0080] 作业管理服务器2根据从输入装置4输入的作业输入指令来开始作业输入确定 (步骤S1)。更具体地,作业管理器21从输入装置4接收与用于要执行的作业的坐标轴X、 Y和Z相对应的节点数的输入。然后,作业管理器21将与用于作业的坐标轴X、Y和Z相对 应的节点数发送至逻辑坐标生成单元22,并且指示逻辑坐标生成单元22生成逻辑坐标。
[0081] 逻辑坐标生成单元22从作业管理器21接收与用于作业的坐标轴X、Υ和Ζ相对 应的节点数。然后,逻辑坐标生成单元22使用存储在处理器间通信路径库221中的处理器 11的物理布置和已使用的处理器11的信息来确定是否可以分配这样的节点数和逻辑坐标 (步骤S2)。在难以分配这样的节点数和逻辑坐标时(在步骤S2中为"否"),该处理返回至步 骤S1,并且逻辑坐标生成单元22等待,直到处理器11变得可用为止。
[0082] 相反,在可以分配这样的节点数和逻辑坐标时(在步骤S2中为"是"),逻辑坐标生 成单元22生成逻辑坐标(步骤S3)。然后,逻辑坐标生成单元22向作业管理器21通知所生 成的逻辑坐标的信息。这里,逻辑坐标的信息包括节点数与逻辑坐标之间的对应关系。例 如,以下描述生成图5所示的逻辑坐标的情况。这里,将节点0的节点编号分配给图5中的 具有逻辑坐标0的处理器11,并且节点编号沿着Β轴增大。假定分配节点编号,以使得Β轴 方向上的底部处理器11之后的处理器11是Υ轴方向上的下一行上的Β轴方向上的顶部处 理器11。在这种情况下,逻辑坐标生成单元22向作业管理器21通知以下信息。也就是说, 节点〇具有逻辑坐标0。节点1具有逻辑坐标19。节点2具有逻辑坐标20。节点3具有逻 辑坐标1。节点4具有逻辑坐标18。节点编号和逻辑坐标以这种方式彼此相对应,并且最 后,节点20具有逻辑坐标8。逻辑坐标生成单元22向作业管理器21通知这样的信息。
[0083] 作业管理器21从逻辑坐标生成单元22接收表示可以进行分配的通知,并且获取 逻辑坐标生成单元22所生成的逻辑坐标的信息。然后,作业管理器21向资源管理单元23 通知逻辑坐标的信息,并且请求资源管理单元23请求启动作业(步骤S4)。
[0084] 资源管理单元23接收作业启动请求,并且将分配给与处理器11相对应的每个节 点的作业输入至分配有逻辑坐标的处理器11中的每一个,以使得处理器11执行作业(步骤 S5)。
[0085] 资源管理单元23向链路控制服务器3的坐标转换单元31通知节点数和逻辑坐标 的信息(步骤S6)。
[0086] 坐标转换单元31从资源管理单元23接收节点数和逻辑坐标的信息。然后,坐标 转换单元31基于逻辑坐标的信息来获取具有各逻辑坐标的处理器11的物理坐标,并且将 这些逻辑坐标转换成物理坐标(步骤S7)。然后,坐标转换单元31向子路径确定单元32通 知逻辑坐标的信息和与逻辑坐标相对应的物理坐标的信息。
[0087] 更具体地,对于如图5所示的处理器11,坐标转换单元31存储以下的节点数与 物理坐标之间的对应关系:节点〇=(〇,〇,〇,〇,〇,〇)(在括号内表示坐标(X,Y,Z,A,B,C)), 节点 1=(0,0,0,0,1,0),节点 2=(0,0,0,0,2,0),节点 3=(0,1,0,0,0,0),节点 4=(0, 1,0,0, 1,0),......,节点20=(0,6,0,0,2,0)。然后,坐标转化单元31按以下方式将 逻辑坐标转换成物理坐标。也就是说,将逻辑坐标〇转换成物理坐标。将逻 辑坐标1转换成物理坐标(0, 1,0, 0, 0, 0)。将逻辑坐标2转换成物理坐标(0, 2, 0, 0, 0, 0)。 将逻辑坐标3转换成物理坐标(0, 2, 0, 0, 1,0)。以此方式,顺序地转换逻辑坐标,并且最后 将逻辑坐标20转换成物理坐标(0, 0, 0, 0, 2, 0)。
[0088] 子路径确定单元32基于所接收到的逻辑坐标和物理坐标的信息来将具有相邻逻 辑坐标的处理器11之间的互连路径13指定为主路径。然后,子路径确定单元32使用所指 定的主路径来确定哪些互连路径13是子路径(步骤S8)。更具体地,子路径确定单元32将 除主路径以外的互连路径13指定为子路径。然后,子路径确定单元32向电力控制单元33 通知子路径的信息。
[0089] 例如,子路径确定单元32将由逻辑坐标连续的处理器11的物理坐标之间的差表 示的互连路径13确定为主路径。在图5的情况下,例如,逻辑坐标0和逻辑坐标1在以物 理坐标表示时分别为(0, 0, 0, 0, 0, 0)和(0, 1,0, 0, 0, 0)。也就是说,Y坐标从0转变为1。 然后,子路径确定单元32将物理坐标(0, 0, 0, 0, 0, 0)处的处理器11的Y坐标从0转变为 1所经由的互连路径13确定为主路径。同样,逻辑坐标1和逻辑坐标2在以物理坐标表示 时分别为(〇, 1,〇, 〇, 〇, 〇)和(〇, 2, 0, 0, 0, 0)。也就是说,Y坐标从1转变为2。然后,子路 径确定单元32将物理坐标(0, 1,0, 0, 0, 0)处的处理器11的Y坐标从1转变为2所经由的 互连路径13确定为主路径。以此方式,子路径确定单元32重复主路径的指定。然后,子路 径确定单元32将除所指定的主路径以外的互连路径确定为子路径。
[0090] 电力控制单元33从子路径确定单元32获取子路径的信息。然后,电力控制单元 33指示服务处理器12使子路径的通道退化(步骤S9)。
[0091] 服务处理器12从电力控制单元33接收用以使子路径的通道退化的指令。然后, 服务处理器12指示经由作为子路径的互连路径13所连接的处理器11使通道退化(步骤 S10)。
[0092] 处理器11使服务处理器12指定的互连路径13的通道退化(步骤S11)。
[0093] 随后,将参照图9来描述逻辑坐标的生成。图9是示出生成逻辑坐标的处理的流 程图。
[0094] 逻辑坐标生成单元22使用表示六维的六个坐标轴中的每两个坐标轴来生成逻辑 轴。然后,逻辑坐标生成单元22在所生成的逻辑轴当中选择一个逻辑轴(步骤S101)。
[0095] 逻辑坐标生成单元22将逻辑坐标顺序地提供给所选择的逻辑轴上的处理器11 以使得相邻的处理器11具有连续编号的逻辑坐标,并且向这些逻辑坐标分配节点(步骤 S102)。
[0096] 然后,逻辑坐标生成单元22存储逻辑坐标,由此存储哪些处理器11在逻辑上彼此 相邻(步骤S103)。
[0097] 之后,逻辑坐标生成单元22关于作业大小的所有节点确定是否完成了逻辑坐标 的分配(步骤S104)。当尚未完成关于作业大小的所有节点对逻辑坐标的分配时(在步骤 S104中为"否"),逻辑坐标生成单元22使该处理返回至步骤S101。
[0098] 相反,当完成了关于作业大小的所有节点对逻辑坐标的分配时(在步骤S104中为 "是"),逻辑坐标生成单元22完成逻辑坐标的生成。
[0099] 如上所述,本实施例的信息处理系统使除逻辑坐标彼此相邻的处理器以外的处理 器之间的互连路径退化。这样,本实施例的信息处理系统可以在维持作为通信量大的互连 路径的主路径的带宽的同时,限制通信量小的互连路径的带宽。因而,本实施例的信息处理 系统可以在维持算术处理的性能的同时降低电力消耗。特别地,例如在三维模拟中,在彼此 相邻的节点之间进行大部分通信。因而,本实施例的信息处理系统使得可以在确保模拟处 理的性能的同时抑制电力消耗。
[0100] 夺型例
[0101] 在本实施例中,电力控制单元33通过使互连路径13的通道退化来降低电力消耗。 然而,还可以应用其它方法。例如,电力控制单元33可以通过降低数据传送的频率来降低 电力消耗。
[0102] 在这种情况下,电力控制单元33指示服务处理器12降低经由作为子路径的互连 路径13所连接的处理器11之间的数据发送和接收的频率。
[0103] 服务处理器12指示经由电力控制单元33指定的子路径所连接的处理器11中的 每一个以降低这些处理器之间的数据发送和接收的频率。
[0104] 处理器11从服务处理器12接收用以降低将数据发送到经由子路径与处理器11 连接的其它处理器11以及从经由子路径与处理器11连接的其它处理器11接收数据的频 率的指令。然后,处理器11在以比经由主路径的数据发送和接收所使用的频率低的频率与 经由子路径与处理器11连接的其它处理器11进行通信时,以最大速度经由主路径进行通 信。
[0105] 图10是示出根据变型例的并行计算机的详情的框图。发送/接收电路130包括 频率控制单元134、接收单元132和发送单元133。
[0106] 设置控制单元140从服务处理器120接收通道退化指令。设置控制单元140指定 要控制的互连路径。然后,设置控制单元140向频率控制单元134通知所指定的互连路径 的信息以及使用这些互连路径的通信中所使用的频率。这里,设置控制单元140指定的频 率低于经由主路径的数据发送和接收中所使用的频率。
[0107] 接收单元132使用频率控制单元134指定的频率来经由互连路径从其它处理器11 接收数据。发送单元133使用频率控制单元134指定的频率来经由互连路径将数据发送至 其它处理器11。
[0108] 频率控制单元134从设置控制单元140接收要降低数据发送和接收的频率的互连 路径的信息和要使用的频率的信息。频率控制单元314向经由所指定的互连路径进行通信 的接收单元132和发送单元133通知在数据发送和接收中要使用的频率。
[0109] 这样,与主路径相比,在子路径上以较低的频率进行数据发送和接收,由此可以降 低电力消耗。
[0110] 此外,在本实施例中,作为初始状态,使用互连路径的所有通道,并且从这样的状 态开始减少通道。然而,相反,可以减少初始状态下所使用的通道并且增加主路径上所使用 的通道。
[0111] 以上描述说明了处理器六维布置在并行计算机中的示例情况。然而,维数不限于 此,只要设置具有冗余性的坐标轴并且在这样的坐标轴上确定主路径即可。例如,处理器可 以四维布置,以使得仅在三维中的一维方向上提供冗余性。在二维模拟的情况下,处理器可 以三维配置,以使得仅在一维方向上提供冗余性。
[0112] 此外,在以上描述中,如图1所示,作业管理服务器2和链路控制服务器3是单独 的服务器。因而,用于作业控制的网络与用于电力控制的网络分开。然而,作业管理服务器 2和链路控制服务器3可以被集成为一个服务器。
[0113] 此外,作业管理服务器2可设置有链路控制服务器3的功能,以使得作业管理服务 器2确定子路径并且经由用于控制的网络指示处理器11进行退化,而接收到该指示的处理 器11使互连路径13的通道退化。
[0114] 硬件结构
[0115] 图11是示出作业管理服务器和链路控制服务器的硬件结构的一个示例的图。作 业管理服务器2和链路控制服务器3这两者都可以通过图11所示的硬件配置来实现。
[0116] 例如,如图11所示,作业管理服务器2和链路控制服务器3包括中央处理单元 (CPU) 901、存储器902和硬盘903。
[0117] CPU901、存储器902和硬盘903经由总线904彼此连接。
[0118] 作业管理服务器2的硬盘903存储各种程序,诸如实现在图1中示为示例的作业 管理器21、逻辑坐标生成单元22和资源管理单元23的功能的程序。此外,硬盘903存储处 理器间通信路径库221。
[0119] 链路控制服务器3的硬盘903存储诸如实现在图1中示为示例的坐标转换单元 31、子路径确定单元32和电力控制单元33的功能的程序的各种程序。
[0120] 作业管理服务器2的CPU901和存储器902实现作业管理器21、逻辑坐标生成单元 22和资源管理单元23的功能。例如,CPU901读出硬盘903中所存储的各种程序,将实现作 业管理器21、逻辑坐标生成单元22和资源管理单元23的功能的处理加载到存储器902,并 且执行该处理。
[0121] 链路控制服务器3的CPU901和存储器902实现坐标转换单元31、子路径确定单元 32和电力控制单元33的功能。例如,CPU901读出硬盘903中所存储的各种程序,将实现坐 标转换单元31、子路径确定单元32和电力控制单元33的功能的处理加载到存储器902,并 且执行该处理。
[0122] 此外,图12是示出并行计算机中的每个节点的硬件配置的一个示例的图。如图12 所示,节点910包括CPU911、存储器912和收发器913。
[0123] 存储器912和收发器913经由总线与CPU911相连接。
[0124] 收发器913包括接收器931和驱动器932。例如,收发器913实现图7和图10所 示的发送/接收电路130的功能。
[0125] 驱动器932经由互连路径向其它节点发送数据。例如,驱动器932实现图7和图 10所示的发送单元133的功能。
[0126] 接收器931经由互连路径从其它节点接收数据。例如,接收器931实现图7和图 10所示的接收单元132的功能。
[0127] CPU911和存储器913根据所分配的作业来执行算术处理。
[0128] 本申请的信息处理系统、控制设备和控制信息处理系统的方法的一个方面发挥了 降低电力消耗的效果。
【权利要求】
1. 一种信息处理系统,包括: 信息处理装置,包括经由传输路径彼此连接的多个算术处理单元; 管理装置,确定经过使所述多个算术处理单元当中的、与要输入的作业相对应的特定 数量的算术处理单元相连接的传输路径的通信路径,并且将所述作业输入至经由所确定的 通信路径连接的所述特定数量的算术处理单元;以及 控制设备,控制经由使所述多个算术处理单元相连接的传输路径当中的、没有包括在 所述通信路径中的传输路径所连接的算术处理单元的发送/接收电路。
2. 根据权利要求1所述的信息处理系统,其中,所述管理装置确定经过使所述特定数 量的算术处理单元相连接的传输路径的通信路径,以使得所述通信路径为环形。
3. 根据权利要求1所述的信息处理系统,其中,所述管理装置确定经过使所述特定数 量的算术处理单元相连接的传输路径的通信路径,以使得所述通信路径为一笔画的。
4. 根据权利要求1所述的信息处理系统,其中, 所述算术处理单元被配置成使用多个坐标轴的坐标值来指定所述算术处理单元的物 理位置,以及 所述管理装置使用与所述多个坐标轴当中的两个相互不同的坐标轴相对应的逻辑坐 标对来确定所述通信路径。
5. 根据权利要求4所述的信息处理系统,其中, 所述算术处理单元被配置成使用六个坐标轴的坐标值来指定所述算术处理单元的物 理位置,以及 所述管理装置使用与所述六个坐标轴当中的两个相互不同的坐标轴相对应的逻辑坐 标对来确定所述通信路径。
6. 根据权利要求1所述的信息处理系统,其中, 每条所述传输路径均包括多个通道,以及 所述控制设备控制经由没有包括在所述通信路径中的每条传输路径的通道所连接的 算术处理单元的发送/接收电路,以增加和减少所述通道当中的在通信中所使用的通道数 量。
7. 根据权利要求1所述的信息处理系统,其中,所述控制设备控制经由没有包括在所 述通信路径中的传输路径的通道所连接的算术处理单元的发送/接收电路,以增加和减少 没有包括在所述通信路径中的传输路径的频率。
8. -种控制设备,其连接至信息处理装置,所述信息处理装置包括:多个算术处理单 元,经由传输路径彼此连接;以及管理装置,确定经过使所述多个算术处理单元当中的、与 要输入的作业相对应的特定数量的算术处理单元相连接的传输路径的通信路径,并且将所 述作业输入至经由所确定的通信路径连接的所述特定数量的算术处理单元,其中, 所述控制设备控制经由使所述算术处理单元相连接的传输路径当中的、没有包括在所 述通信路径中的传输路径所连接的算术处理单元的发送/接收电路。
9. 一种控制信息处理系统的方法,所述信息处理系统包括信息处理装置,所述信息处 理装置包括经由传输路径彼此连接的多个算术处理单元,所述方法包括以下步骤: 由包括在所述信息处理系统中的管理装置确定经过使所述多个算术处理单元当中的、 与要输入的作业相对应的特定数量的算术处理单元相连接的传输路径的通信路径,并且由 所述管理装置将所述作业输入至经由所确定的通信路径连接的所述特定数量的算术处理 单元;以及 由包括在所述信息处理系统中的控制设备控制经由使所述算术处理单元相连接的传 输路径当中的、没有包括在所述通信路径中的传输路径所连接的算术处理单元的发送/接 收电路。
【文档编号】G06F15/16GK104111911SQ201410123639
【公开日】2014年10月22日 申请日期:2014年3月28日 优先权日:2013年4月18日
【发明者】宫崎博行 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1