一种基于Arria10的FPGA异构加速卡的制作方法

文档序号:11691023阅读:411来源:国知局
一种基于Arria10的FPGA异构加速卡的制造方法与工艺

本发明属于异构计算领域,具体涉及一种基于arria10的fpga异构加速卡。



背景技术:

异构计算可以用来提高提高系统的计算性能。dnn语音识别、在线识别、cnn图像识别、bing搜索、大数据处理等对数据中心处理性能要求越来越高,早期采用的异构计算架构是cpu+gpu,由于一般单gpu板卡功耗在250w以上。

2015年数据中心的电耗达1000亿度,年耗电量超过全社会用电量的1.5%。在美国,2013年数据中心领域总用电量就达到恐怖的910亿度。同时据调研,至2020年数据中心年度用电总量将达到1380亿度。互联网时代的腾讯、百度、阿里云、google、facebook、microsoft等互联网公司,以大数据、大用户等信息为核心资源,数据中心内部设备复杂,散热量大,制冷要求高,保障性要求也高,其中空调系统所产生的功耗约占数据中心总功耗的40%左右。

此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种基于arria10的fpga异构加速卡,是非常有必要的。



技术实现要素:

本发明的目的在于,针对上述异构计算采用cpu+gpu方式能耗高的缺陷,提供一种基于arria10的fpga异构加速卡,以解决上述技术问题。

为实现上述目的,本发明给出以下技术方案:

一种基于arria10的fpga异构加速板卡,包括fpga芯片,与fpga芯片连接的光口模块、内存通道模块、pcie主机接口、配置模块、电源转换模块、时钟模块、led指示模块、板上usbblaster,与板上usbblaster连接的microusb连接器;

电源转换模块还与光口模块、内存通道模块、pcie主机接口连接,时钟模块还与板上usbblaster通过jtag调试接口连接。pcie主机接口给电源转换模块提供电压输入,电源转换模块给光口模块、内存通道模块,fpga芯片提供电压输入。

优选地,电源转换模块与pcie主机接口的连接可以替换为电源转换模块与外接电源的连接。

优选地,光口模块包括至少两个光口,内存通道模块包括至少两个内存通道。

优选地,内存通道模块采用支持ddr4sdramsodimm型号内存条的内存通道;内存通道模块的内存通道支持64bit或者72bit的数据宽度;64bit的数据宽度不带自纠码ecc,72bit的数据宽度带自纠码ecc,内存通道模块支持存储容量大小可适配;

光口模块采用sfp小型可插拔封装的光口,光口模块的光口为支持ge、10ge和25ge的以太网络接口。

优选地,时钟模块包括与fpga芯片连接的pll芯片、第二单端晶振、第一差分晶振、第二差分晶振,与pll芯片连接的第一单端晶振、cpld芯片;cpld芯片还与板上usbblaster通过jtag调试接口连接。

优选地,时钟模块的pll芯片与cpld芯片连接通过i2c接口;第一单端晶振与pll芯片的连接为时钟信号,第二单端晶振与fpga芯片的连接为时钟信号;第一差分晶振与fpga芯片的连接和第二差分晶振与fpga芯片的连接为一对差分时钟;pll芯片与fpga芯片的连接包括一对内存输入参考差分时钟和一对光口输入参考差分时钟。

优选地,电源转换模块包括与pcie主机接口连接的第一转换单元、第二转换单元、第三转换单元,与第二转换单元连接的第四转换单元、第五转换单元、第六转换单元、第七转换单元;

第一转换单元、第四转换单元、第五转换单元、第六转换单元还分别与fpga芯片连接,第二转换单元还与光口模块连接,第三转换单元还与内存通道模块连接,第六转换单元还与内存通道模块连接,第七转换单元还与内存通道模块连接。

优选地,电源转换模块的第一转换单元、第二转换单元、第三转换单元的输入电压为12v,第一转换单元的输出电压为0.95v,输出电流大于30a,第二转换单元的输出电压为3.3v,第三转换单元的输出电压为0.6v,第四转换单元、第五转换单元、第六转换单元、第七转换单元的输入电压为3.3v,第四转换单元的输出电压为1.03v,第五转换单元的输出电压为1.8v,第六转换单元的输出电压为1.2v,第七转换单元的输出电压为2.5v。

优选地,pcie主机接口为支持pcie3.0×8的金手指,pcie主机接口与fpga芯片的连接包括数据信号和时钟信号。

优选地,配置模块支持串行或并行方式的配置flash,并行方式的配置flash采用norflash芯片,norflash芯片可以用于fpga的快速被动并行方式配置。

优选地,led指示模块支持若干组led灯,指示不同的工作状态。

本发明的有益效果在于:本发明采用cpu+fpga异构加速计算,fpga与gpu一样具备高性能计算,但功耗在35w以下,能效是gpu的5倍以上,cpu+fpga异构加速计算同时拥有更低时延和更快加速性能,在互联网时代的大数据和云计算领域将替代cpu+gpu。

此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。

由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。

附图说明

图1为本发明系统连接示意图;

图2为时钟模块连接示意图;

图3为电源转换模块示意图;

其中,1.fpga芯片;2.第一光口;3.第二光口;4.第一内存通道;5.第二内存通道;6.pcie主机接口;7.配置模块;8.电源转换模块;9.时钟模块;10.led指示模块;11.microusb连接器;12.板上usbblaster;13.pll芯片;14.cpld芯片;15.第一单端晶振;16.第二单端晶振;17.第一差分晶振;18.第二差分晶振;19.第一转换单元;20.第二转换单元;21.第三转换单元;22.第四转换单元;23.第五转换单元;24.第六转换单元;25.第七转换单元;26.光口模块;27.内存通道模块。

具体实施方式:

为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明具体实施例中的附图,对本发明中的技术方案进行清楚、完整地描述。

如图1所示,本发明提供一种基于arria10的fpga异构加速板卡,包括fpga芯片1,与fpga芯片连接的光口模块26、内存通道模块27、pcie主机接口6、配置模块7、电源转换模块8、时钟模块9、led指示模块10、板上usbblaster12,与板上usbblaster12连接的microusb连接器11;

电源转换模块8还与光口模块26、内存通道模块27、pcie主机接口6连接,时钟模块9还与板上usbblaster12通过jtag调试接口连接;pcie主机接口6给电源转换模块8提供电压输入,电源转换模块8给光口模块26、内存通道模块27,fpga芯片1提供电压输入;

pcie主机接口6为支持pcie3.0×8的金手指,pcie主机接口6与fpga芯片1的连接包括数据信号和时钟信号,pcie主机接口6与电源转换模块8的连接为电源电压输入;

配置模块7支持串行或并行方式的配置flash,并行方式的配置flash采用norflash芯片,norflash芯片可以用于fpga的快速被动并行方式配置;

led指示模块10支持若干组led灯,指示不同的工作状态;

内存通道模块27采用支持ddr4sdramsodimm型号内存条的内存通道;内存通道模块27的内存通道支持64bit或者72bit的数据宽度;64bit的数据宽度不带自纠码ecc,72bit的数据宽度带自纠码ecc,内存通道模块27支持存储容量大小可适配;内存通道模块27包括两个内存通道,第一内存通道4和第二内存通道5;

光口模块26采用sfp小型可插拔封装的光口,光口模块26的光口为支持ge、10ge和25ge的以太网络接口;光口模块26包括两个光口,第一光口2和第二光口3;

如图2所示,时钟模块9包括与fpga芯片1连接的pll芯片13、第二单端晶振16、第一差分晶振17、第二差分晶振18,与pll芯片13连接的第一单端晶振15、cpld芯片14;cpld芯片14还与板上usbblaster12通过jtag调试接口连接;时钟模块9的pll芯片13与cpld芯片14连接通过i2c接口;第一单端晶振15与pll芯片13的连接为时钟信号,第二单端晶振16与fpga芯片1的连接为时钟信号;第一差分晶振17与fpga芯片1的连接和第二差分晶振18与fpga芯片1的连接为一对差分时钟;pll芯片13与fpga芯片1的连接包括一对内存输入参考差分时钟和一对光口输入参考差分时钟;单端晶振产生时钟输出,差分晶振产生差分时钟输出,主机通过jtag调试接口再经cpld芯片14可以任意修改pll芯片13内差分时钟输出,cpld芯片14与pll芯片13通过i2c接口通信。pll芯片13输出多种不同的差分时钟,支持时钟的配置,kernel工作的时钟、pcie3.0x8核的参考时钟、两组ddr4sdramsodimm内存通道的输入参考时钟、两组sfp+ge/10ge/25ge光口的输入参考时钟。

如图3所示,电源转换模块8包括与pcie主机接口6连接的第一转换单元19、第二转换单元20、第三转换单元21,与第二转换单元20连接的第四转换单元22、第五转换单元23、第六转换单元24、第七转换单元25;第一转换单元19、第四转换单元22、第五转换单元23、第六转换单元24还分别与fpga芯片1连接,第二转换单元20还与光口模块26连接,第三转换单元21还与内存通道模块27连接,第六转换单元24还与内存通道模块27连接,第七转换单元25还与内存通道模块27连接;

电源转换模块8的第一转换单元19、第二转换单元20、第三转换单元21的输入电压为12v,第一转换单元19的输出电压为0.95v,输出电流大于30a,给fpga供电,第二转换单元20的输出电压为3.3v,给光口供电,第三转换单元21的输出电压为0.6v,给内存通道供电,第四转换单元22、第五转换单元23、第六转换单元24、第七转换单元25的输入电压为3.3v,第四转换单元22的输出电压为1.03v,给fpga供电,第五转换单元23的输出电压为1.8v,给fpga供电,第六转换单元24的输出电压为1.2v,给fpga和内存通道供电,第七转换单元25的输出电压为2.5v,给内存通道供电。

本发明支持至少两个光口,至少两个内存通道,支持pcie3.0×8,支持串行或并行的配置flash,支持pcie独立供电或者外接电源;支持多种不同的时钟,支持多种不同的电源。

arria10,指的altera公司发布的10系列fpga产品之一,arria10为基于台积电20nm工艺的面向中端市场的产品,altera意在用arria10替代更多现有asic/assp的市场。

fpga(field-programmablegatearray),即现场可编程门阵列,它是在pal、gal、cpld等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(asic)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。fpga属于一类更通用的可编程逻辑设备,简单来说,是一种可重新配置的集成电路。fpga既能提供集成电路的性能优势,又具备设备可重新配置的灵活性;fpga能够简单地通过使用触发器来实现时序逻辑,并通过使用查找表来实现组合逻辑,还可以通过块内存(blockram)实现片上数据缓存等功能;fpga还含有硬化组件以实现一些常用功能,例如支持pcie3.0x8硬核、ddr42133mbps或者更高的控制器硬核、高速serdes、sfp+10ge/25ge硬核、高速dsp运算内核等硬核。

pcie,pci-express是最新的总线和接口标准,它原来的名称为“3gio”,是由英特尔在2001年提出的,很明显英特尔的意思是它代表着下一代i/o接口标准。pcie属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(qos)等功能。pcie交由pci-sig(pci特殊兴趣组织)认证发布后才改名为“pci-express”,简称“pci-e”。这个新标准将全面取代现行的pci和agp,最终实现总线标准的统一。它的主要优势就是数据传输速率高,目前最高的16x2.0版本可达到10gb/s,而且还有相当大的发展潜力。pciexpress也有多种规格,从pciexpress1x到pciexpress16x,能满足将来一定时间内出现的低速设备和高速设备的需求。pci-express最新的接口是pcie3.0接口,其比特率为8gb/s,约为上一代产品带宽的两倍,并且包含发射器和接收器均衡、pll改善以及时钟数据恢复等一系列重要的新功能,用以改善数据传输和数据保护性能。

microusb,是usb2.0标准的一个便携版本,比部分手机使用的miniusb接口更小,micro-usb是mini-usb的下一代规格,由usb标准化组织美国usbimplementersforum(usb-if)于2007年1月4日制定完成。micro-usb支持otg,和mini-usb一样,也是5pin的。micro系列的定义包括标准设备使用的micro-b系列插槽;otg设备使用的micro-ab插槽;micro-a和micro-b插头,还有线缆。micro系列的独特之处是他们包含了不锈钢外壳,万次插拔不成问题。

ddr4sdram,ddr4sdram是一种高带宽的计算机存储器规格,属于sdram家族的存储器产品。ddr4sdram(double-data-ratefourthgenerationsynchronousdynamicrandomaccessmemory,简称为ddr4sdram),是一种高带宽的计算机存储器规格。它属于sdram家族的存储器产品,提供了相较于ddr3sdram更高的运行性能与更低的电压,是现时最新的存储器规格。早于2011年,三星电子制造并公布全球首支ddr4-sdram存储器模块,2012年9月jedec宣布正式成为ddr3sdram(第三代双倍数据率同步动态随机存取存储器)的后继存储器标准。起始数据传送率由2133mt/s起跳,上限暂定为4266mt/s。实际相关的主板、处理器产品将于2014年面世。

so-dimm(smalloutlinedualin-linememorymodule):这是一种改良型的dimm模块,比一般的dimm模块来得小,应用于笔记型计算机、列表机、传真机或是各种终端机等。so-dimm,中文含意为“小外形双列内存模组”,它是一种类型的计算机内存模组。相对于dimm来说,so-dimm具有更小的外形尺寸(大致是正常dimm尺寸的一半)。因此,so-dimm主要用于笔记本电脑等一些对尺寸有较高要求的使用场合。so-dimm具有72管脚(支持32位数据传输)或144管脚或200管脚(支持64位数据传输)。

ecc,是“errorcorrectingcode”的简写,中文名称是“错误检查和纠正”。ecc是一种能够实现“错误检查和纠正”的技术,ecc内存就是应用了这种技术的内存,一般多应用在服务器及图形工作站上,这将使整个电脑系统在工作时更趋于安全稳定。

sfp光模块,sfp封装--热插拔小封装模块,目前最高速率可达10.3g,接口为lc,sfp可以简单的理解为gbic的升级版本。sfp模块体积比gbic模块减少一半,只有大拇指大小。可以在相同的面板上配置多出一倍以上的端口数量。sfp模块的其他功能基本和gbic一致。

ge=gigabitethernet,千兆以太网(接口),10ge是万兆以太网(接口),25ge是2.5万兆以太网(接口)。

i2c,(inter-integratedcircuit)总线是由philips公司开发的两线式串行总线,用于连接微控制器及其外围设备。是微电子通信控制领域广泛采用的一种总线标准。它是同步通信的一种特殊形式,具有接口线少,控制方式简单,器件封装形式小,通信速率较高等优点。i2c总线支持任何ic生产工艺(cmos、双极型)。通过串行数据(sda)线和串行时钟(scl)线在连接到总线的器件间传递信息。每个器件都有一个唯一的地址识别(无论是微控制器——mcu、lcd驱动器、存储器或键盘接口),而且都可以作为一个发送器或接收器(由器件的功能决定)。lcd驱动器只能作为接收器,而存储器则既可以接收又可以发送数据。除了发送器和接收器外,器件在执行数据传输时也可以被看作是主机或从机(见表1)。主机是初始化总线的数据传输并产生允许传输的时钟信号的器件。此时,任何被寻址的器件都被认为是从机。

cpld(complexprogrammablelogicdevice)复杂可编程逻辑器件,是从pal和gal器件发展出来的器件,相对而言规模大,结构复杂,属于大规模集成电路范围。是一种用户根据各自需要而自行构造逻辑功能的数字集成电路。其基本设计方法是借助集成开发软件平台,用原理图、硬件描述语言等方法,生成相应的目标文件,通过下载电缆(“在系统”编程)将代码传送到目标芯片中,实现设计的数字系统。

pll,(phaselockedloop):为锁相回路或锁相环,用来统一整合时脉讯号,使高频器件正常工作,如内存的存取资料等。pll用于振荡器中的反馈技术。许多电子设备要正常工作,通常需要外部的输入信号与内部的振荡信号同步。一般的晶振由于工艺与成本原因,做不到很高的频率,而在需要高频应用时,有相应的器件vco,实现转成高频,但并不稳定,故利用锁相环路就可以实现稳定且高频的时脉冲讯号。

usbblaster,指的是altera的fpga/cpld程序下载电缆,通过计算机的usb接口可对altera的fpga/cpld以及配置芯片进行编程、调试等操作。

norflash,是一种非易失闪存技术,是intel在1988年创建,norflash带有sram接口,有足够的地址引脚来寻址,可以很容易地存取其内部的每一个字节,nor的特点是芯片内执行(xip,executeinplace),这样应用程序可以直接在flash闪存内运行,不必再把代码读到系统ram中。nor的传输效率很高,在1~4mb的小容量时具有很高的成本效益,但是很低的写入和擦除速度大大影响了它的性能。

jtag接口,(jointtestactiongroup;联合测试工作组)是一种国际标准测试协议(ieee1149.1兼容),主要用于芯片内部测试。现在多数的高级器件都支持jtag协议,如dsp、fpga器件等。标准的jtag接口是4线:tms、tck、tdi、tdo,分别为模式选择、时钟、数据输入和数据输出线。

本发明的实施例是说明性的,而非限定性的,上述实施例只是帮助理解本发明,因此本发明不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他的具体实施方式,同样属于本发明保护的范围。

当前第1页1 2 
网友询问留言 已有2条留言
  • 访客 来自[中国] 2023年09月19日 11:52
    挺厉害的啊
    0
  • 访客 来自[中国] 2023年09月19日 11:51
    挺厉害的啊
    0
1