最优总体拓扑结构并行计算机系统的制作方法

文档序号:6330351阅读:765来源:国知局
专利名称:最优总体拓扑结构并行计算机系统的制作方法
技术领域
本发明涉及并行计算机系统,特别涉及总体拓扑结构的最优设计,属于计算机技术领域。
计算机系统的总体拓扑结构有很多类型,如超立方体结构、二维网格结构、三维网格结构、环形层次结构、二元树结构等。目前运算速度达到每秒万亿次的有美国的“青山”、“蓝山”、“蓝色太平洋”等,它们的结构属于图3、4所示的二维网格结构或二元树结构。图中,·是计算机节点,线段是机间链路。人们在追求减少链路的同时,又为了传输的需要,开发了路由器等复杂的链路结构,所以功能/价格比不能令人满意。
图4所示二元树结构的计算机系统,其链路数L=P-1(P为计算机节点数),使得它在结构上达到了最优,但由于P=20+21+......+2K-2+2K-1=2K-1是个奇数,因此二元树结构的计算机系统的计算机节点数是个奇数,这是它并行计算性能不好的基本原因。因此二元树结构计算机系统不能称为最优的总体拓扑结构系统。
最优总体拓扑结构计算机系统应满足两个条件1.结构最优,即满足L=P-1;2.P=2K,K是正整数。第二条是完全并行计算的结构基础。
计算机系统本身就是一个复杂的大系统,系统科学是计算机系统设计的指导思想。但是,在系统科学和计算机科学之间还应该有一个桥梁科学,这就是数学工程学。数学工程学是研究数学问题如何在计算机系统求解的科学。数学工程学认为求解一个数学问题是一个过程,是一个包含空间复杂性和时间复杂性的多阶段、可控制、可优化的过程。数学工程学认为一个复杂的数学问题的求解总是化为一些更简单、更基本的数学问题来求解的,如一个飞行器(导弹、飞机、航天器等)的计算过程总可以用一个微积分方程或差分方程来描述,而求解这些复杂的数学问题,总要求解特征方程特征值,从而求得它们。求解特征方程的过程是求解更基本的线性方程组,这些最基本的数学问题为向量加法、向量乘法、向量乘矩阵、矩阵乘向量、矩阵加法、矩阵乘法、矩阵求逆、线性方程求解、线性规划求解等。数学工程学的研究表明,这些最基本的数学问题中,表征与计算机可并行计算相对应的参数是并行数。而并行数一般表为2的幂,如矩阵求逆、线性方程求解,或4的幂,如矩阵加法、矩阵乘法。因此,并行数中数2的幂是一个偶数。而二元树结构计算机系统的计算机节点数P是个奇数,所以二元树结构计算机系统的并行计算功能不是很好。
鉴于上述,本发明的目的是提出一类计算机的总体拓扑结构,它能够满足1.计算机的节点数P是2的幂;2.链路数L=P-1,既达到结构最优,又能实现完全并行计算。
为实现上述目的,本发明采用以下技术方案一种最优总体拓扑结构并行计算机系统,其特征在于它由P=2K个计算机节点、L=P-1条链路、1个服务器组成,K为正整数,其中每个节点各连接一台计算机;链路分为0~(K-1)共K层,最底层链路中每条链路的两个端点与P个节点中的两个节点相连,其余各层链路中每条链路的两个端点与下一层链路中的两个链路相连;每条链路的两个端点处各设一快速开关;服务器与各节点及各快速开关相连,以便控制各计算机的输入输出状态及系统的数据流向。
系统采用不设公共存储器的分布式存储方式,各节点连接的计算机包含存储器,以便减少计算机间传输的数据。
本发明的优点1.完全达到并行输入、并行输出、并行传输、并行计算;2.计算数据减少;3.在相同的有效计算机台数下,在相同的CPU主频下,本系统的计算速度可达最快。
下面结合实施例和附图对本发明作详细说明。


图1为本发明的拓扑结构图;图2为应用本发明拓扑结构求和过程;图3、4分别为二维网格、二元树结构图。
若总体拓扑结构的计算机系统的计算机节点数P=2K,K为正整数,则它是由两个2K-1计算机系统通过一条链路连接而成。每个2K-1计算机系统是由两个2K-2计算机系统通过一条链路连接而成,......。因此,我们得到了本发明要求保护的一种总体拓扑结构——二元树结构链路系统。该链路系统是一个多层次结构,L=20+21+...+2K-2+2K-1=2K-1,共有K层,每层分别有20、21、...2K-1条链路。第K层的链路,我们称为基链路,基链路上的每条链路的两个端点与两个计算机节点相连接,所以它能连接2K个计算机节点。而其它各层链路中每条链路的两端分别与下一层链路中的两条链路相连。从而构成二元树结构的链路系统。为了控制和传输数据的需要,每条链路上设有两个快速开关,分列在链路的两边。此外,为了控制整个系统的数据流向,需要对开关的状态及各计算机的输入输出状态进行控制,因此还配置了一个与各节点及各快速开关相连的服务器。所以,本发明提出的最优总体拓扑结构计算机系统是由2K个计算机节点+2K-1条链路+服务器组成的,参见图1。其中服务器S的功能是根据数学工程学方法,根据数学问题的种类、规模、有关算法,根据数学问题的时空复杂性确定使并行数等于计算机有效台数,并使计算时间最短,根据空间复杂性确定数据分布式存储方案、数据调度方案,描述并行计算的全过程。
上述二元树结构链路系统可称为“二元树结构链路器”,简称“链路器”,它有2K-1条链路、2K+1-2个快速开关、2K+1-2条控制线和2K个计算机节点接口,可以做在一个芯片上。
此外,系统可采用不设公共存储器的分布式存储方式,即仅在各节点连接的计算机中包含存储器。分布式存储十分重要,它使得计算机间传输的数据大大减少,省去了公共存储器与计算机间的传输过程,也是实现计算机间并行传输的依据,它可大大减少计算机间的传输时间。
下面列举一些本发明的应用例子1.矩阵乘法求两个N*N矩阵A和B的乘积C,C=A*B所需时间记为T*N,若P=8、N=8,则由时间复杂性分析确定为T*8=2(4T*4+2T+4)=4(16T*2+12T+2)=8(64T*+56T+),其中T*、T+分别表示标量乘法、标量加法单位时间。由此可见①并行数8=P;②每台计算机要计算64次乘法和56次加法。下面表示的是A矩阵的某行与B矩阵相乘的计算过程
由于采用分布式存储,减少了数据由内存调到计算机、计算结果再送回存储器的过程。在以上计算过程中I=1、2、......、8,数据AIJ、BIJ对所有的J都存在I机中,即按行存储。因此,必有一列的两个乘数都存在同一台机器中。如I=1,则第一列的两个乘数都存在1#机中,因此这些乘数不需传输;对于其它列每一次乘法中的两个乘数,有一个乘数在1#机中,该乘数也不用传输,另一个乘数在其它机器中,需要机间传输到该1#机中。同时,该乘数也要传输到其它6台机器中。
由此可见,需要传输的数据,对本例而言只有64个,占全部数据的一半。因此,机间的传输量少。而且每一个都是并行传输,对任何一台机器,都是输出8个数据输入56个数据。每台机器都做64次乘法、56次加法。做加法的数据全部在同一台机器中,不需要传输数据。因而做到了完全并行传输、并行计算。
该例说明最优总体拓扑结构计算机系统实现了结构最优、数据并行传输、并行输入、并行输出、并行计算,且计算的时间最短、传输的数据最少,因此本发明计算机系统的实测速度等于峰值速度。由于链路结构简单、成本低,所以速度/价格比大大提高。其频率宽度完全能够满足数据传输的需要。
在可以预见的将来,即便计算机的CPU主频选用500MHZ,应用本发明系统很容易构成如下类型的并行计算机(P为计算机台数、L为链路数、V为峰值运算速度)P 32 64 128 256 512 10242048L 31 63 127 255 511 10232047V 1.6*10103.2*10106.4*10101.28*10112.56*10115.12*10111.024*1012P 4096 8192 1638432768 65536131072L 4095 8191 1638332767 65535131071V 2.048*10124.096*10128.192*10121.6384*10133.2768*10136.5536*1013P 2621445242881048576 2097152L 2621435242871048575 2097151 ……V 1.31072*10142.62144*10145.24288*10141.048576*10152.求N个数的和链路器通过控制线来控制计算机节点的数据传输。控制线输入为1,表示所控制的开关接通,为0则断开。这样随控制线为1或0的状态来描述、改变、控制各开关的状态。控制线的状态机器变化是由服务器的调度程序来控制的。设P=16,恰可用十五链路器来说明它的控制过程首先给每个计算机节点输入N/P个数据,做加法需要时间[N/P-1]T+后(用方括号表示取整),每台机器只有一个数据。
控制所有J为奇数的机器PJ为输出,所有J为偶数的机器PJ为输入,控制开关K1、K2、...K16为1,其余开关为0。经过T+(T+)时间后,其中T为数据传输时间,控制开关K2、K4、...K16为1,K21、K22、...K28为1,其余开关为0,P2输出、P4输入、P6输出、P8输入、P10输出、P12输入、P14输出、P16输入,再经过T+(T+)后,控制开关K4、K8、K12、K16、K22、K24、K26、K28、K31、K32、K33、K34为1,其余开关为0,P4输出、P8输入、P12输出、P16输入,再经过T+(T+)后,控制开关K8、K16、K24、K28、K32、K34、K41、K42为1,其余开关为0,P8输出、P16输入,经过T+(T+)后,得到16个数的和,计算全部完毕。因此求解N个数的和,总的计算时间为T+=(N/16+3)(T+)+4T。
图2表示了求和过程,其中节点的符号“-”、“+”分别表示输出、输入,链路上的实线、虚线分别表示链路上的开关接通、断开。
3.召集电话会议、视频、音频节目、现场直播将发送节点置于发送状态,将需要接收信息的节点置于接收状态,将发送节点至各接收节点间的链路上的开关接通,即可实现电话会议、视频和音频节目传播、现场直播等。
4.网络搜索引擎将发送节点置于发送状态,接收节点置于接收状态,将该两节点间的链路上的开关接通,即可将信息迅速从发送节点传输到接收节点。
权利要求
1.一种最优总体拓扑结构并行计算机系统,其特征在于它由P=2K个计算机节点、L=P-1条链路、1个服务器组成,K为正整数,其中每个节点各连接一台计算机;链路分为0~(K-1)共K层,最底层链路中每条链路的两个端点与P个节点中的两个节点相连,其余各层链路中每条链路的两个端点与下一层链路中的两个链路相连;每条链路的两个端点处各设一快速开关;服务器与各节点及各快速开关相连,以便控制各计算机的输入输出状态及系统的数据流向。
2.如权利要求1所述的最优总体拓扑结构并行计算机系统,其特征在于系统采用不设公共存储器的分布式存储方式,各节点连接的计算机包含存储器,以便减少计算机间传输的数据。
全文摘要
一种最优总体拓扑结构并行计算机系统,它由文档编号G06F15/16GK1258890SQ0010003
公开日2000年7月5日 申请日期2000年1月5日 优先权日2000年1月5日
发明者郭宝山, 柳克俊, 郭凯 申请人:郭宝山
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1