基于arm和fpga的高性能计算节点及计算方法_2

文档序号：8258443阅读：来源：国知局

下面结合【具体实施方式】并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。
[0025]实施例:
下面结合具体附图和实施例对本发明作进一步说明。
[0026]为了提高计算节点的性能及密度，同时降低高性能计算系统的功耗，并降低高性能计算系统TC0，本发明包括计算节点条，如图1和2所示，计算节点条采用SO-DIMM计算机内存类型的外形尺寸(133.35mm*40mm)，计算节点条上设置了两个计算单元，充分体现了计算节点的高密度性。
[0027]如图3所示:计算单元设有两颗Zynq-7000芯片5;Zynq_7000芯片5内集成了双核的Cortex-ARM9片上处理系统8及28nm的低功耗FPGA可编程逻辑模块13; FPGA可编程逻辑模块13内部设有APB总线接口 12及应用计算模块11，应用计算模块11通过FPGA内的APB总线接口 12与Zynq-7000芯片5内部的AXI总线接口 9连接，AXI总线接口 9与Cortex-ARM9片上处理系统8连接；Cortex_ARM9片上处理系统8外围集成了 DDR3内存6、Flash 3、micro SD存储接口(配置TF存储卡)4、千兆以太网PHY芯片2;千兆以太网PHY芯片2通过千兆以太网接口 10与SO-DIMM接口 I连接；Zynq-7000芯片5通过高速环网接口 7与SO-DIMM接口 I连接。所有组成部件全负载运行时，计算单元的实际功耗约为1W左右，及整个计算节点的实际功耗仅为20W。
[0028]具体地，整个计算节点条插在匹配的业务刀片上，可实现大规模系统的互连与构建，其中，SO-DIMM接口 I为数据发送接收的端口，服务器通过业务刀片将发送指令及数据传递给SO-DIMM接口 I，若计算单元准备就绪，则服务器与计算单元成功连接，进而实现任务的分发、计算、结果返回等等处理操作。
[0029]如图4所示:计算单元的启动过程。系统上电复位后，Cortex_ARM9片上处理系统8即开始进行配置，对Flash 3和micro SD存储卡4等基本外设控制器进行初始化，使得Cortex-ARM9片上处理系统8可以访问这些外设，之后从NOR Flash 3和micro SD存储卡4中加载启动镜像。镜像加载成功后便启动第一阶段的启动加载器(FSBL，First StageBoot Loader),首先完成M10，Clock, DDR及其他器件初始化，然后获取分区并验证header，验证通过后，从选中的启动flash或TF中加载分区。如果有bitstream则配置FPGA，如果有应用程序则拷贝到DDR中，紧接着加载U-boot，完成Linux内核device- tree的加载，并最终完成Linux内核根文件系统加载，系统正常启动。
[0030]如图5所示:计算单元的计算流程。在系统正常启动准备就绪后，服务器便将准备好的需要处理的数据通过以太网传输给ARM，ARM根据具体应用对数据进行相应的处理以得到需要FPGA计算的数据，然后将这些数据通过AXI总线接口传输至FPGA端的APB总线上，并最终传输至FPGA端的应用计算模块上进行计算；应用计算模块完成计算后，将计算结果返回到ARM端，ARM对计算结果进行验证，如果验证通过，则将结果返回到服务器端，任务结束。
[0031]本发明采用SO-DI丽计算机内存类型的外形尺寸(133.35mm*40mm)，在节点上设置了两个计算单元，所述计算单元设置了集成了双核的Cortex-ARM9片上处理系统及28nm的低功耗FPGA的Zynq-7000芯片，以及DDR3内存、Flash、micro SD存储接口(配置TF存储卡)、千兆以太网PHY芯片、高速环网接口等。整个计算节点功耗不到20W，相比一块GPU卡的235W，功耗降低了 10倍之多，而计算性能是一块GPU卡(GTX580)的2倍之多。
[0032]本发明结构新颖、紧凑、密度高，可低功耗、低成本地实现不同应用的高效能计算，适应范围广，性能稳定，安全可靠。
[0033]应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种基于ARM和FPGA的高性能计算节点，其特征在于，计算节点条上包括两个计算单元，所述计算单元集成有ARM片上处理系统和FPGA，所述FPGA通过AXI总线接口与ARM连接，所述计算单元连接SO-DIMM。
2.根据权利要求1所述的基于ARM和FPGA的高性能计算节点，其特征在于，所述FPGA内部设有APB总线接口及应用计算模块，所述应用计算模块通过APB总线接口与AXI总线接口连接。
3.根据权利要求1所述的基于ARM和FPGA的高性能计算节点，其特征在于，所述计算单元外围集成有DDR3内存、Flash、micro SD存储接口、千兆以太网PHY芯片、高速环网接口以及时钟、电源、维护诊断功能模块；所述千兆以太网PHY芯片通过千兆以太网接口与SO-DI丽接口连接，所述高速环网接口与SO-DI丽接口连接。
4.根据权利要求1所述的基于ARM和FPGA的高性能计算节点，其特征在于，所述计算节点条插在匹配的业务刀片上，所述SO-DIMM接口为数据发送接收的端口，服务器通过业务刀片将发送指令及数据传递给SO-DIMM接口，若计算单元准备就绪，则服务器与计算单元成功连接。
5.—种基于ARM和FPGA的高性能计算节点的计算单元的启动方法，其特征在于，包括以下步骤: 系统上电复位后，ARM片上处理系统开始进行配置，对外设控制器进行初始化，从Flash和micro SD存储卡中加载启动镜像；启动第一阶段的启动加载器，首先完成M1、Clock、DDR器件初始化，然后获取分区并验证header，验证通过后从选中的启动flash或TF中加载分区；如果有bitstream(FPGA配置文件)则配置FPGA，如果有应用程序则拷贝到DDR中，加载U-boot，完成Linux内核根文件系统加载，系统正常启动。
6.一种基于ARM和FPGA的高性能计算节点的计算方法，其特征在于，包括以下步骤: 在系统正常启动准备就绪后，服务器将数据通过以太网传输给ARM，ARM根据具体应用对数据进行相应的处理以得到需要FPGA计算的数据，然后将这些数据传输至FPGA端的应用计算模块上进行计算；应用计算模块完成计算后，将计算结果返回到ARM端，ARM对计算结果进行验证，如果验证通过，则将结果返回到服务器端，任务结束。
【专利摘要】本发明公开了一种基于ARM和FPGA的高性能计算节点，计算节点条上包括两个计算单元，所述计算单元集成有ARM片上处理系统和FPGA，所述FPGA通过AXI总线接口与ARM连接，所述计算单元连接SO-DIMM。结构新颖、紧凑、密度高，通过对FPGA进行特定程序算法优化，可以大大提高对特定应用程序的执行效率，同时还可以大大降低系统的功耗，并降低系统TCO（总体拥有成本）；能根据不同的用途对应用计算模块配置不同的应用位流，适应范围广，安全可靠。
【IPC分类】G06F15-16
【公开号】CN104572569
【申请号】CN201510029266
【发明人】韩文报, 王芳, 吴建元
【申请人】江苏微锐超算科技有限公司, 王芳, 吴建元
【公开日】2015年4月29日
【申请日】2015年1月21日

完整全部详细技术资料下载

当前第2页1 2