一种用于大型电力系统暂态稳定研究的小型化超级仿真器的制作方法

文档序号:14689794发布日期:2018-06-15 16:45阅读:171来源:国知局
本发明涉及一种小型化的超级计算机,具体涉及一种用于大型电力系统暂态稳定研究的小型化超级仿真器。
背景技术
:众所周知,我国研制成功“银河”超级计算机后,又研制了“曙光”超级计算机,近年研制成功的天河I号和天河II号超级计算机在全球排名第一。这些超级计算机体积庞大,有的甚至要占半个足球场大的空间,价格十分惊人。一般科研单位很难拥有一台真正属于自己的超级计算机,普通课题组则更是望尘莫及。银河和曙光超级计算机基本上是由若干PC机或其主板实现并行处理的,具体的并接点设置在主板的端口处。从CPU相互之间数据交换的角度来看,这种结构的巨型机各并行处理核之间的通信带宽并不适合大型电力系统暂态稳定并行仿真。电力系统仿真与现代物理、化学和材料研究不同,大型电力系统暂态仿真主要涉及一个10000-50000阶大型矩阵的逆阵,采用数学方法将这一巨大矩阵分解成数个相互解耦的对角阵和不解耦的边角块,其中一个对角阵由一个CPU或一个并行处理核负责计算。银河和曙光超级计算机有几千个这样的CPU或并行处理核,如果按上述方法将电力系统分解成几千个小区(即所谓的细粒度),一个CPU或一个并行处理核负责某个与此对应的对角块,则并不能达到预期的并行处理速率,因为各CPU或各并行处理核之间交换数据引起的耗时太多。天河I号或天河II号属于多核CPU+GPU仿真平台,情况基本上与银河和曙光超级计算机相似,不同点仅在于用擅长线性代数运算的GPU协助CPU从而加速计算。不难看出,这种结构超级计算机的并行CPU之间的通信时间并没有减少,还另外增加了CPU与GPU之间的通信环节。所以说这种超级计算机在技术方面也不是很适应大型电力系统暂态并行仿真。国家电力科学研究院于2006年建成世界上首套基于PC机集群的可模拟万节点级的电力系统全数字实时仿真装置ADPSS,最近获得国家科技进步一等奖,ADPSS由8台普通电脑并采用高速以太网相互并接起来。成本并不很高,并行仿真10s的暂态过程实际耗用机时仅约4.5s,已经做到超实时仿真。但这是有条件的,即在10s时间内主要进行的是机网暂态仿真,只有在电网结构发生变化的短时间内才转而进行电磁暂态仿真,所以这种系统还不能满足未来智能电网更高的需求,但很难胜任更复杂、要求更高的计算任务。国内还有一些并行仿真或并行潮流计算研究组利用服务器内置多核CPU和外插GPU的仿真平台,目前还处于研究进程之中,进展不理想。在单台服务器的多核CPU平台上再外插一些另行购买的GPU插件只能组成一个小系统,如果将若干台这样的服务器并接起来则与天河I号或天河II号相同。这种单台服务器式仿真器的缺点是GPU的数目少,最大的问题同样在于GPU与CPU之间数据交换的带宽不够,影响了并行仿真效果,所以这种平台目前还停留在机电暂态仿真研究方面,尚未见到有人能在这种平台上很好地实现大型电力系统的电磁暂态仿真。电力系统尚需体积更小、性价比更好的并行计算平台,即可用于电网稳定等研究工作的小型化超级仿真器。技术实现要素:发明目的:针对上述现有技术,提出一种用于大型电力系统暂态稳定研究的小型化超级仿真器。技术方案:一种用于大型电力系统暂态稳定研究的小型化超级仿真器,包括1-8个机柜,每个机柜中设有4-6个机箱,每个机箱中设有一块硬件背板以及6-8个嵌入式计算插件,每个嵌入式计算插件包括4-6片带通信功能的高速计算芯片和2-3片FPGA芯片以及一个48-96针接口,所述带通信功能的高速计算芯片中集成有CPU和GPU;其中,单个嵌入式计算插件上的所有高速计算芯片之间均通过SPI总线相互连接,并通过数据通信总线连接FPGA芯片的输入端,所述FPGA芯片通过硬件逻辑电路将数据通信总线转换为16路数据线,所述16路数据线通过48-96针接口与机箱中的硬件背板连接;所述硬件背板上设有4×4矩阵制总线,单个机箱中的所有嵌入式计算插件之间通过硬件背板上的所述4×4矩阵制总线相连;单个机柜中的所有机箱之间通过CAN总线、USB、高速以太网相连,所有机柜之间通过光纤相连。进一步的,各机柜之间或单个机柜中各机箱之间传输的数据采用基于DNA组装及蛋白质合成原理的密码子数据压缩算法对数据进行压缩,包括如下步骤:首先,将待传数据按所需精度进行约化;然后对约化后的数据按设计规则进行排列,得到各数据在排列中的标识;数据发送方将标识发送至数据接收方,数据接收方根据标识从排列中查找得到数据。进一步的,所述带通信功能的高速计算芯片为高通生产的型号为4XX、6XX、8XX、LC1XXX系列无线通信芯片或TI生产的高速多核DSP芯片。一种基于用于大型电力系统暂态稳定研究的小型化超级仿真器的电力系统仿真机网接口相量旋转计算方法,利用嵌入式计算插件中高速计算芯片运行GPU屏幕旋转算法来进行电力系统仿真机网接口的相量旋转计算,任一机网接口对应屏幕上一点的旋转;其中,GPU屏幕旋转算法中采用glRotated旋转函数或glRotatef旋转函数,并将Z轴设定为旋转轴,得到齐次坐标下的旋转变换矩阵MTR(θ)为:MTR(θ)=cosθ-sinθ00sinθcosθ0000100001]]>所述旋转变换矩阵MTR(θ)即为机网接口的坐标变换矩阵,θ为机网接口相量旋转角。有益效果:(1),本发明的超级仿真器抛弃普遍使用的传统台式电脑芯片模式,改用带通信功能的高速计算芯片。手机对图像要求很高,现代手机中的芯片无一例外地将高性能的CPU和GPU集成于同一芯片。可见这种结构的芯片实际上与AMD和Intel公司的台式电脑CPU-GPU集成芯片基本相同,所不同的该类芯片运行温度为105℃-125℃,符合电力系统使用105℃-125℃元器件的要求。此外,该类芯片一般已内置足够的存储器,而不像台式电脑那样还要另行配置存储器,增加了PCB的复杂程度,特别是易受电力系统强电磁场的干扰。此外,高通等生产的型号为4XX、6XX、8XX、LC1XXX系列无线通信芯片的价格只有几十元到100多元/每片,比起1-2万元的GPU插件不但便宜而且能显著提高CPU和GPU之间的通信带宽,温度问题也得到解决。另外,在加载完初始程序及数据后可停用芯片中的无线通信功能,与电力电子控制芯片停用部分功能的普遍做法完全相同,即芯片这部分不送电,这将减少芯片的发热量,增加热容量和散热量。(2),本发明的超级仿真器抛弃个人计算机和超级计算机的传统结构模式,即不再采用电脑主板结构。电脑主板上集成的很多元器件并非全部用于计算,相当一部分是为办公之类的其它工作服务的。对于超级仿真器非但没有必要,还影响各并行CPU之间的通信带宽。每个插件上有多片芯片,一个机箱有多个相同的插件,各插件之间通过专门设计的硬件背板连接。各CPU之间的电气距离因此大大缩短,有效改善各CPU之间的通信带宽,从而进一步加速并行仿真速度。(3),带通信功能的高速计算芯片中的GPU是为了手机中的图像快速处理而设计的。现在几乎所有的研究组在科学计算中仅利用GPU的向量和矩阵相乘这一功能,未能充分利用GPU的潜能。本发明的仿真器可在电力系统仿真中利用GPU的屏幕像素旋转功能实现机网接口中出现的三角函数的快速计算。(4),现有超级计算机各并行CPU之间的距离是机箱到机箱的距离,而本发明超级仿真器将多片CPU布置在同一块嵌入式计算插件的印刷电路板(PCB)上,距离只有几个厘米。与天河I号或天河II号相比,本发明超级仿真器GPU与CPU之间的距离由原来的几十厘米缩小到现在的几毫米,带宽增加约50倍。(5),按本发明的设计一个机柜可以宽松地布置1024颗并行处理核。8个机柜就是8192颗并行处理核,这个数目已经远大于天河II号并行核的数目。而8个机柜只需一个普通房间即可布置完毕,比现有超级计算机所占房间少得多,一般科研单位甚至课题组也完全能够负担。仅天河I号或天河II号的几千块GPU插件就价值近半亿元,本发明的超级仿真器即使按8个机柜计算,其成本还不到超级计算机的百分之一。(6),本发明超级仿真器的另一显著特点是升级维修方便。超级仿真器各嵌入式计算插件有完备的自检功能,开机后如发现故障,只要将故障插件拔掉,换一块并不要求同一型号的插上去即可。附图说明图1是嵌入式计算插件结构示意图;图2是每个机箱中嵌入式计算插件连接示意图;图3是FPGA-硬件背板一体化矩阵制总线示意图;图4是机箱与机箱之间的连接示意图;图5是基于DNA组装及蛋白质合成原理的密码子数据压缩算法结构示意图;图6是各机柜之间连接意图。具体实施方式下面结合附图对本发明做更进一步的解释。一种用于大型电力系统暂态稳定研究的小型化超级仿真器,包括1-8个机柜,每个机柜中设有4-6个机箱,每个机箱中设有一块硬件背板以及6-8个嵌入式计算插件,每个嵌入式计算插件包括4-6片带通信功能的高速计算芯片和2-3片FPGA芯片以及一个48-96针接口。其中,单个嵌入式计算插件上的所有高速计算芯片之间均通过SPI总线相互连接,并通过数据通信总线连接FPGA芯片的输入端,FPGA芯片通过硬件逻辑电路将数据通信总线转换为16路数据线,16路数据线通过48-96针接口与机箱中的硬件背板连接。硬件背板上设有4×4矩阵制总线,单个机箱中的所有嵌入式计算插件之间通过硬件背板上的4×4矩阵制总线相连;单个机柜中的所有机箱之间通过CAN总线、USB、高速以太网相连,所有机柜之间通过光纤相连。各机柜之间或单个机柜中各机箱之间传输的数据采用两级压缩,具体为:首先对原始数据采用压缩算法进行压缩,然后再利用基于DNA组装及蛋白质合成原理的密码子数据压缩算法对首次压缩得到的数据进行再次压缩。其中,基于DNA组装及蛋白质合成原理的密码子数据压缩算法中包括三组密码子以及对应的三组反密码子,三组密码子依次为GGA、GCU、AAC,对应的三组反密码子依次为CCU、CGU、UUG。在本实施例中,如图1所示,单个嵌入式计算插件上设置了4片带通信功能的高速计算芯片和2片FPGA芯片。其中,带通信功能的高速计算芯片选用高通等生产的型号为4XX、6XX、8XX、LC1XXX系列无线通信芯片和TI等生产的高速多核DSP芯片,优选14nm低耗的820系列,该类芯片的特点是具有多CPU和多GPU,且带内置了无线通信模块;同时,该类芯片内置有足够的存储器,对电力系统仿真器而言其数据总线无需外引,使得嵌入式计算插件的PCB既简洁又抗干扰。整个仿真器通过3G、4G或5G等无线网络与控制中心联络,在进行电力系统暂态稳定研究时,高速计算芯片的程序和有关初始数据由控制中心的台式主机或笔记本电脑将BBDF分解后对应的程序和初始值远程Bootload至各有关CPU+GPU高速计算芯片,计算过程中各CPU+GPU芯片通过SPI总线交换数据。同一机箱各嵌入式计算插件之间的距离比同一计算插件内部芯片之间的距离要大得多,但又不像机箱或机柜之间那样可以方便地使用光纤。同一机箱内各插件之间的距离会影响通信和数据交换的速率,从而影响仿真器的总体仿真速度。如图2所示,本发明先将嵌入式计算插件各芯片之间的SPI总线连接到本插件的FPGA输入端,经FPGA硬件逻辑电路后变成16路数据线,经插件的48-96针接口与硬件背板相连,再经硬件背板的矩阵制总线连至另一嵌入式计算插件的48-96针接口,即形成如图3所示的FPGA—硬件背板一体化矩阵制总线,各嵌入式计算插件之间进行数据交换,使插件之间的等效电气距离缩短并基本上与PCB内部高速计算芯片之间的距离相当,保证各CPU之间数据通信速率基本相同、各并行处理器的负载基本均衡,从而提高超级仿真器的整体速度。本实施例中,每个机箱中具有8块嵌入式计算插件,单个机柜中的4个机箱之间通过CAN总线、USB、高速以太网相连进行数据交互,如图4所示;所有机柜之间通过光纤相连,如图6所示。本实施例中,每个机箱一般有32颗CPU+GPU高速计算芯片,总共有256个并行处理核。控制中心的台式主机或笔记本电脑通过USB等接口与一个机箱相连接即可组成一个小系统,借助这个平台能开展多种多样的科学研究。每个机柜一般有128颗CPU+GPU高速计算芯片,总共有1024个并行处理核。该系统与工作站连接后就能形成一个颇具规模的电力系统暂态稳定仿真平台。由8个机柜组成的系统一般有8192个并行处理核,是一个名符其实的超级仿真器。在此平台上,不仅可以开展现代大型智能电网仿真研究,还可进行物理、化学和材料等学科的研究工作。在进行电力系统暂态稳定研究时,主要涉及特大型矩阵求逆并对角分解,电力系统发电机方程经过差分与网络方程联立后得到的雅可比矩阵再经适当排列即可得到第一层BBDF(BlockBorderedDiagonalForm),其中网络方程本身也可继续进行基于图论的分解,从而形成第二层BBDF。在第二层BBDF基础上,可将各分区以及与其相连的发电机划归同一子任务,由同一组CPU+GPU进行计算。实际上各子任务的对角矩阵块还可进一步分解,这样CPU+GPU就需进行时间并行处理和流水线作业。电力系统并行仿真主要使用其矢量和矩阵相乘这一功能,GPU设计之初的目的是进行屏幕像素的快速平移和旋转计算。屏幕像素平移的计算量其实很小,而屏幕像素的任意旋转计算则十分耗时,由此发展出一整套已相当完善的图像硬件处理技术和图形理论。图形学API中的旋转函数glRotated或glRotatef所使用的从原点出发的任意轴的旋转变换公式的基本部分与电磁暂态仿真机网接口中的坐标变换矩阵完全相同,这样电力系统某台发电机的机网接口就与屏幕上某点像素的旋转对应起来,电力系统中数千台发电机的机网接口就变成屏幕上数千个点的旋转问题,而GPU正是用硬件来高速并行实现这些像素的旋转,因此本发明用GPU屏幕像素旋转算法实现电力系统仿真机网接口的仿真计算。机网接口主要进行坐标变换并建立起部分待求控制量与已知状态量之间的关系,以推进仿真计算。所述坐标变换矩阵为:C(θ)=cos(θ-π/6)sin(θ-π/6)-sin(θ-π/6)cos(θ-π/6),C-1(θ)=cos(θ-π/6)-sin(θ-π/6)sin(θ-π/6)cos(θ-π/6),]]>其中,θ为机网接口相量旋转角。机网接口方程由坐标变换矩阵和发电机1d-2qPark方程联合求解确定如下:-(xd+LT/K2)0xafxaD000-(xq+LT/K2)00xaQxaH-xaf0xfxfD00-xaD0xfDxD000-xaQ00xQxHQ0-xaH00xHQxHpidpiqpifpiDpiQpiH=r+RT/K2ω(xq+LT/K2)00ωxaQωxaHω(xd+LT/K2)r+RT/K2-ωxaf-ωxaD0000-rf000000-rD000000-rQ000000-rHidiqifiDiQiH+cos(θ-π/6)sin(θ-π/6)0-sin(θ-π/6)cos(θ-π/6)000rf/xaf000000000uanuβnEfd]]>其中,xd,xq,xaf,xaD,xaQ,xaH,xf,xfD,xD,xQ,xHQ,xH为PARK方程电抗参数;p=d/dt;id,iq为发电机直轴、交轴电流;if为励磁电流;iD,iQ,iH为等效阻尼绕组电流;r为定子电阻;K为变压器变比;ω为发电机角速度;LT,RT为变压器电感和电阻;rf为励磁绕组电阻;rD,rQ,rH为等效阻尼绕组电阻;uαn,uβn为变压器侧电压;Efd为电动势。仿真计算每积分一步每台机组均涉及两次C(θ)和一次C-1(θ)的计算。如果系统有2000台发电机,这样每积分一步就将涉及4000次C(θ)和2000次C-1(θ)的计算。因C(θ)和C-1(θ)中含有三角函数,所以这类计算在串行机中比较耗时。GPU图形学API中的旋转函数glRotated或glRotatef使用从原点出发的任意轴的旋转变换公式:Ra=UUT+(cos(angle))(I3×3-UUT)-(sin(angle))S其中,U=(x,y,z)T为任意轴的单位向量,S=0-zyz0-x-yx0]]>相应的齐次坐标旋转变换矩阵为:MTR=0Ra000001]]>将Z轴设定为旋转轴时,齐次坐标下的旋转变换矩阵最终变为:MTR(θ)=cosθ-sinθ00sinθcosθ0000100001]]>其中,不参加旋转的Z轴分量往往用来表示三维物体图形的深度。第四维中的1作为齐次坐标的特征,由GPU的统一编程模型所决定。可见MTR(θ)的基本部分与前述机网接口中的坐标变换矩阵C-1(θ)完全相同,这样电力系统暂态稳定仿真中某台发电机的机网接口就与屏幕上某个点的旋转对应起来,系统中数千台发电机的机网接口就可以用屏幕上数千个对应点的旋转来表示。GPU内部几乎全部由硬件来并行处理这些点的旋转,因此用GPU进行机网接口相量旋转的计算速度非常快。为了消除累积误差,程序开始时的变换矩阵MT通常设置为单位阵I。图形学API中的旋转变换函数glRotated或glRotatef的计算结果将使当前的变换矩阵变为MTMTR(θ)。因初始MT=I,所以首次MTMTR(θ)=MTR(θ),用它作用于某台发电机机网接口的“点数据”即可实现相应相量的θ角旋转。旋转后的数据可从Cuda与OpenGL的互操作中得到,也可直接使用Cg代码获取。GPU相量旋转程序构架与常规MicrosoftVisualC++MFC编程基本相同,差别仅在于包括专用核心库(OpenGL32)、工具库(GIU32)和辅助库(GIAux),并创建HGLRC类型的渲染句柄m_hRC=wglCreateContext(dc.m_hDC)。为了将所有发电机机网接口待旋转的“点数据”输入到GPU,以便实施并行旋转变换,图形学API采用三类矩阵系统:模型视图矩阵(MODELVIEW)、投影矩阵(PROJECTION)和纹理矩阵(TEXTURE)。电力系统暂态稳定仿真的机网接口仿真计算使用其中的模型视图矩阵即可。电网中所有发电机的θ角并不相等,所以各发电机机-网接口“点数据”的旋转角也就随之而异,其处理方法与CADA中的多线程编程完全相同。以上各种缩短通信距离的措施是提高通信和数据交换速度的重要方法,但还有必要将待交换的数据量压缩后发出去,在接受端再将压缩数据恢复,以进一步提高通信速度。已经有了很多种压缩数据算法,本发明提出一种基于DNA组装及蛋白质合成原理的密码子数据压缩算法,用于各机柜之间或单个机柜中各机箱之间传输数据。蛋白质合成有3个关键角色:mRNA、将特定氨基酸运输到位的tRNA以及形成酰胺键的核糖体。mRNA是部分解旋DNA的一条单股且与DNA分离的复制链,它在蛋白质合成中是正确地将氨基酸单元按次序排列的模板。由3个连续的碱基序列即所谓的密码子决定一种具体的氨基酸,4种碱基的3碱基排列与组合共有64种,实际使用其中的20种,大自然允许几个密码子表示同一个氨基酸以保证容错度。这样在tRNA的帮助下,即可沿着mRNA模板合成蛋白质。在这过程中,每种tRNA携带20种氨基酸中的一种。tRNA上的互补3碱基序列即所谓的反密码子,使每个tRNA所携带的特定氨基酸以正确的次序沿着mRNA的密码子序列排队,最后由核糖体完成酰胺键连接,从而结束蛋白质的合成。各机柜之间或单个机柜中各机箱之间传输的数据采用基于DNA组装及蛋白质合成原理的密码子数据压缩算法对数据进行压缩,包括如下步骤:首先,将待传数据按所需精度进行约化;然后对约化后的数据按设计规则进行排列,得到各数据在排列中的标识;数据发送方将标识发送至数据接收方,数据接收方根据标识从排列中查找得到数据。例如,电网各节点的功角摇摆数据在30度至158度之内。首先将待传数据按所需精度进行一些约化,并分成8个区,每区有32个数据,如表1所示:表1待传数据及其8个分区设每工频周波发出一次轨迹数据,经实时采样矫正后,每0.5秒传送一次数据,即每隔0.5秒一次性传送25个数据至总部。如每个数据占用一个字,0.5秒就需传送25个字。这是一个节点情况,全国电网有成千上万个节点,因此总的数据传输量很大。基于DNA/RNA蛋白质组装原理的数据传输方法即使在使用最简单密码子和同样数据压缩策略条件下,也可使数据传送量减少至原来的8/25。具体如下所述:用5位二进制数表示表1中的行号,即用密码子00000表示第1行,00001表示第2行,…,用11111表示第32行。再用3位二进制数表示列号,即用000表示第1列,001表示第2列,…,111表示第8列。如此编码后就由原来每0.5秒发送25字降为现在每0.5秒发8个字即128位数据,其中每5位代表一个密码子,25个密码子占125位,剩下的3位表示本次发送数据在表1中的列号(跨列则补发一次)。这样总部收到密码子后按表1所示关系即可重新组装真实数据。如上所述,可以根据实际需要提出多种密码子方案,如2级、3级或非线性密码子,其中2级密码子相对简单,效果较好。本发明的小型化超级仿真器的高速计算芯片内含多核CPU和高效GPU,在配置8个机柜情况下,总共约有8192个高速并行计算核,不仅可用于大型电力系统暂态稳定并行仿真和测控,还可用于工程热物理全三维计算、核物理和粒子物理仿真、化学分子和天体物理模拟等等。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1