基于arm和fpga的高性能计算节点及计算方法_2

文档序号:8258443阅读:来源:国知局
下面结合【具体实施方式】并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0025]实施例:
下面结合具体附图和实施例对本发明作进一步说明。
[0026]为了提高计算节点的性能及密度,同时降低高性能计算系统的功耗,并降低高性能计算系统TC0,本发明包括计算节点条,如图1和2所示,计算节点条采用SO-DIMM计算机内存类型的外形尺寸(133.35mm*40mm),计算节点条上设置了两个计算单元,充分体现了计算节点的高密度性。
[0027]如图3所示:计算单元设有两颗Zynq-7000芯片5;Zynq_7000芯片5内集成了双核的Cortex-ARM9片上处理系统8及28nm的低功耗FPGA可编程逻辑模块13; FPGA可编程逻辑模块13内部设有APB总线接口 12及应用计算模块11,应用计算模块11通过FPGA内的APB总线接口 12与Zynq-7000芯片5内部的AXI总线接口 9连接,AXI总线接口 9与Cortex-ARM9片上处理系统8连接;Cortex_ARM9片上处理系统8外围集成了 DDR3内存6、Flash 3、micro SD存储接口(配置TF存储卡)4、千兆以太网PHY芯片2;千兆以太网PHY芯片2通过千兆以太网接口 10与SO-DIMM接口 I连接;Zynq-7000芯片5通过高速环网接口 7与SO-DIMM接口 I连接。所有组成部件全负载运行时,计算单元的实际功耗约为1W左右,及整个计算节点的实际功耗仅为20W。
[0028]具体地,整个计算节点条插在匹配的业务刀片上,可实现大规模系统的互连与构建,其中,SO-DIMM接口 I为数据发送接收的端口,服务器通过业务刀片将发送指令及数据传递给SO-DIMM接口 I,若计算单元准备就绪,则服务器与计算单元成功连接,进而实现任务的分发、计算、结果返回等等处理操作。
[0029]如图4所示:计算单元的启动过程。系统上电复位后,Cortex_ARM9片上处理系统8即开始进行配置,对Flash 3和micro SD存储卡4等基本外设控制器进行初始化,使得Cortex-ARM9片上处理系统8可以访问这些外设,之后从NOR Flash 3和micro SD存储卡4中加载启动镜像。镜像加载成功后便启动第一阶段的启动加载器(FSBL,First StageBoot Loader),首先完成M10,Clock, DDR及其他器件初始化,然后获取分区并验证header,验证通过后,从选中的启动flash或TF中加载分区。如果有bitstream则配置FPGA,如果有应用程序则拷贝到DDR中,紧接着加载U-boot,完成Linux内核device- tree的加载,并最终完成Linux内核根文件系统加载,系统正常启动。
[0030]如图5所示:计算单元的计算流程。在系统正常启动准备就绪后,服务器便将准备好的需要处理的数据通过以太网传输给ARM,ARM根据具体应用对数据进行相应的处理以得到需要FPGA计算的数据,然后将这些数据通过AXI总线接口传输至FPGA端的APB总线上,并最终传输至FPGA端的应用计算模块上进行计算;应用计算模块完成计算后,将计算结果返回到ARM端,ARM对计算结果进行验证,如果验证通过,则将结果返回到服务器端,任务结束。
[0031]本发明采用SO-DI丽计算机内存类型的外形尺寸(133.35mm*40mm),在节点上设置了两个计算单元,所述计算单元设置了集成了双核的Cortex-ARM9片上处理系统及28nm的低功耗FPGA的Zynq-7000芯片,以及DDR3内存、Flash、micro SD存储接口(配置TF存储卡)、千兆以太网PHY芯片、高速环网接口等。整个计算节点功耗不到20W,相比一块GPU卡的235W,功耗降低了 10倍之多,而计算性能是一块GPU卡(GTX580)的2倍之多。
[0032]本发明结构新颖、紧凑、密度高,可低功耗、低成本地实现不同应用的高效能计算,适应范围广,性能稳定,安全可靠。
[0033]应当理解的是,本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种基于ARM和FPGA的高性能计算节点,其特征在于,计算节点条上包括两个计算单元,所述计算单元集成有ARM片上处理系统和FPGA,所述FPGA通过AXI总线接口与ARM连接,所述计算单元连接SO-DIMM。
2.根据权利要求1所述的基于ARM和FPGA的高性能计算节点,其特征在于,所述FPGA内部设有APB总线接口及应用计算模块,所述应用计算模块通过APB总线接口与AXI总线接口连接。
3.根据权利要求1所述的基于ARM和FPGA的高性能计算节点,其特征在于,所述计算单元外围集成有DDR3内存、Flash、micro SD存储接口、千兆以太网PHY芯片、高速环网接口以及时钟、电源、维护诊断功能模块;所述千兆以太网PHY芯片通过千兆以太网接口与SO-DI丽接口连接,所述高速环网接口与SO-DI丽接口连接。
4.根据权利要求1所述的基于ARM和FPGA的高性能计算节点,其特征在于,所述计算节点条插在匹配的业务刀片上,所述SO-DIMM接口为数据发送接收的端口,服务器通过业务刀片将发送指令及数据传递给SO-DIMM接口,若计算单元准备就绪,则服务器与计算单元成功连接。
5.—种基于ARM和FPGA的高性能计算节点的计算单元的启动方法,其特征在于,包括以下步骤: 系统上电复位后,ARM片上处理系统开始进行配置,对外设控制器进行初始化,从Flash和micro SD存储卡中加载启动镜像; 启动第一阶段的启动加载器,首先完成M1、Clock、DDR器件初始化,然后获取分区并验证header,验证通过后从选中的启动flash或TF中加载分区; 如果有bitstream(FPGA配置文件)则配置FPGA,如果有应用程序则拷贝到DDR中,加载U-boot,完成Linux内核根文件系统加载,系统正常启动。
6.一种基于ARM和FPGA的高性能计算节点的计算方法,其特征在于,包括以下步骤: 在系统正常启动准备就绪后,服务器将数据通过以太网传输给ARM,ARM根据具体应用对数据进行相应的处理以得到需要FPGA计算的数据,然后将这些数据传输至FPGA端的应用计算模块上进行计算; 应用计算模块完成计算后,将计算结果返回到ARM端,ARM对计算结果进行验证,如果验证通过,则将结果返回到服务器端,任务结束。
【专利摘要】<b>本发明公开了一种基于</b><b>ARM</b><b>和</b><b>FPGA</b><b>的高性能计算节点,计算节点条上包括两个计算单元,所述计算单元集成有</b><b>ARM</b><b>片上处理系统和</b><b>FPGA</b><b>,所述</b><b>FPGA</b><b>通过</b><b>AXI</b><b>总线接口与</b><b>ARM</b><b>连接,所述计算单元连接</b><b>SO-DIMM</b><b>。结构新颖、紧凑、密度高,通过对</b><b>FPGA</b><b>进行特定程序算法优化,可以大大提高对特定应用程序的执行效率,同时还可以大大降低系统的功耗,并降低系统</b><b>TCO</b><b>(总体拥有成本);能根据不同的用途对应用计算模块配置不同的应用位流,适应范围广,安全可靠。</b>
【IPC分类】G06F15-16
【公开号】CN104572569
【申请号】CN201510029266
【发明人】韩文报, 王芳, 吴建元
【申请人】江苏微锐超算科技有限公司, 王芳, 吴建元
【公开日】2015年4月29日
【申请日】2015年1月21日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1