一种基于多芯片并行处理的计算卡的制作方法

文档序号:13804741阅读:135来源:国知局

本发明涉及计算卡的应用领域,特别涉及一种基于多芯片并行处理的计算卡。



背景技术:

目前,机器学习对日常生活影响深远,过去基于数据的机器学习大多是利用具体领域的专业知识来人工地“塑造”所要学习的“特征”,计算机从大量示例数据中习得组合特征提取系统的能力,则使得计算机视觉、语音识别和自然语言处理等关键领域实现了重大的性能突破。对这些数据驱动技术的研究被称为深度学习,对于深度学习来说,目前硬件加速主要靠使用gpu计算集群作为通用计算处理单元。作为最主流的gpu编写平台,各个主要的深度学习工具均用其来进行gpu加速。相比传统的通用处理器,gpu的核心计算能力要多出几个数量级,也更容易进行并行计算。

然而,他们都面临着一个限制条件,即硬件加速能力仍需加强,才可能满足扩大现有数据和算法规模的需求。

作为gpu在算法加速上强有力的竞争者,fpga与gpu优势之处在于硬件配置灵活,且在相同环境下fpga具有更高的稳定性,以及单位能耗下比gpu提供更好的表现。随着fpga因为高抽象化设计工具的出现而越来越容易编写,其可重构性又使得定制架构成为可能,同时高度的并行计算能力提高了指令执行速度,fpga将为深度学习的研究者带来好处。现代fpga还支持部分动态重新配置,当fpga的一部分被重新配置时另一部分仍可使用。这将对大规模深度学习模式产生影响,fpga的各层可进行重新配置,而不扰乱其他层正在进行的计算。



技术实现要素:

为解决上述背景技术中存在的问题,本发明的目的在于提供一种基于多芯片并行处理的计算卡,以达到并行处理,性能高,且小巧便捷,节约环保的目的。

为达到上述目的,本发明的技术方案如下:

一种基于多芯片并行处理的计算卡,包括fpga管控单元、fpga节点计算单元、fpga外部接口单元、散热单元;

所述fpga管控单元与fpga节点计算单元互联,所述fpga管控单元控制计算卡各个部位的状态时序,所述fpga外部接口单元包括外部接口通讯模块与外部接口供电模块,其中,所述外部接口通讯模块通过fpga金手指与外部硬件pci或pci-e卡槽连接,所述外部接口供电模块通过fpga电源接口与外部供电系统进行连接,以保持计算卡各个部件的正常工作,所述散热单元用于对fpga节点计算单元进行散热,保证计算卡正常有序的工作,所述fpga节点计算单元实现并行计算。

优选的,所述状态时序包括cpld时序、数据的存取时序。

优选的,所述fpga节点计算单元通过接收上位机指令,针对不同业务方向提供更适宜的算法程序进行动态加载,且计算加速比高,性能高。

优选的,所述fpga节点计算单元还实现了流水处理,其与并行计算共存从而减小了输入与输出的延时比。

优选的,所述外部接口通讯模块兼容pci、pcie不同位宽的总线接口,所述pcie接口支持热插拔,不管是老式硬件或者新式硬件均能兼容,以满足不同系统设备对数据传输带宽不同的需求。

通过上述技术方案,本发明提供的一种基于多芯片并行处理的计算卡,以其高计算加速比、并行计算能力、高性能、可拓展、延时低的优势,同时,以其低成本、低功耗、节约环保的特点,满足大数据时代的数据处理需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例所公开的一种基于多芯片并行处理的计算卡的结构框图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供的一种基于多芯片并行处理的计算卡,如图1所示,包括fpga管控单元1、fpga节点计算单元2、fpga外部接口单元3、散热单元4;

所述fpga管控单元1与fpga节点计算单元2互联,所述fpga管控单元1包括fpga计算芯片,一张计算卡包含相同的4块fpga计算芯片,运算处理能力高达数亿次每秒,所述fpga管控单元2控制计算卡各个部位的状态时序,包括cpld时序、数据的存取时序,cpld时序用于动态加载算法应用程序,通过jtag接口向cpld时序灌输算法应用程序,所述fpga管控单元2还用于分配管理计算板卡上的计算节点;所述fpga外部接口单元3包括外部接口通讯模块与外部接口供电模块,其中,所述外部接口通讯模块通过fpga金手指与外部硬件pci或pci-e卡槽连接,所述外部接口通讯模块兼容pci、pcie不同位宽的总线接口,所述pcie接口支持热插拔,所述外部接口供电模块通过fpga电源接口与外部供电系统进行连接,以保持计算卡各个部件的正常工作,所述散热单元4用于对fpga节点计算单元进行散热,保证计算卡正常有序的工作,所述散热单元4采用散热效果更好的合金材质,更大程度为其散热,所述fpga节点计算单元实现并行计算。

所述fpga节点计算单元2通过接收上位机指令,针对不同业务方向提供更适宜的算法程序进行动态加载,且计算加速比高,性能高。

所述fpga节点计算单元2还实现了流水处理,其与并行计算共存从而减小了输入与输出的延时比。

该计算卡采用4颗alterav芯片,性能高,具有更强的可拓展性,支持飞速增长的数据规模和架构;高度的并行计算能力提高了指令执行速度,为大数据处理提供更高的加速比;响应速度快,延时低,不仅可以做到并行烧录,而且还能实现流水处理,大大减小了输入与输出的延时比;具有先进工艺、小封装、低功耗、低成本等特点,且实现板级驱动,同一台设备可以加载不同的应用程序,针对上层软件具有更强的兼容性;打破常规计算卡尺寸,小巧便捷,适配硬件服务器范围更广,包括普通pc、小型硬件服务器等,小巧便捷,节约环保。

本发明公开的一种基于多芯片并行处理的计算卡,以其高计算加速比、并行计算能力、高性能、可拓展、延时低的优势,同时,以其低成本、低功耗、节约环保的特点,满足大数据时代的数据处理需求。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。



技术特征:

技术总结
本发明公开了一种基于多芯片并行处理的计算卡,包括fpga管控单元、fpga节点计算单元、fpga外部接口单元、散热单元;fpga管控单元与fpga节点计算单元互联,fpga管控单元控制计算卡各个部位的状态时序,fpga外部接口单元包括外部接口通讯模块与外部接口供电模块,外部接口通讯模块通过fpga金手指与外部硬件PCI和/或PCI‑E卡槽连接,外部接口供电模块通过fpga电源接口与外部供电系统进行连接,散热单元用于对fpga节点计算单元进行散热,fpga节点计算单元实现并行计算。本发明可实现并行处理,性能高,且小巧便捷,节约环保。

技术研发人员:唐春辉
受保护的技术使用者:无锡小算科技有限公司
技术研发日:2017.11.24
技术公布日:2018.02.23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1