一种并行处理器阵列结构的制作方法

文档序号:12304926阅读:306来源:国知局
一种并行处理器阵列结构的制作方法与工艺

本发明涉及处理器技术领域,具体的说是一种并行处理器阵列结构。



背景技术:

现有实现计算功能的芯片主要有单核soc,多核soc,fpga等。多核或众核soc的结构常见的有:

一、以总线或交换开关为基本互连架构的多核设计。这种结构中,每个处理器核访问存储的路径都是一样的,总线(或者交换开关)被不同的处理器核交替使用从而达到访问共享存储的目的。各个处理器核类似于传统的单核处理器。这种结构的明显劣势来自于总线或者交换开关成为系统瓶颈,这个瓶颈体现在系统性能和功耗两个方面:从系统性能上来讲这种体系结构的核心:总线或者交换开关仍旧依赖全局金属互联线,其性能并不能随着半导体技术进步而提高。这种全局性地互连要求所有的通信都先汇聚到同一个地方然后又再传播出去,其效率之低也是可想而知的。从延迟上讲,电信号需要给长达整个芯片边长的金属线充电,其电阻电容很大,充电时间很长,因此信号延迟很大;从吞吐率上来讲,所有的信号传输都要通过这个总线或者交换开关,其带宽是无法适应处理器核数量的增长的。同样的坏消息来自于功耗。无论是连接多个核的总线还是四通八达的交换开关,其功耗都不是可以扩展的。

二、流处理器以及gpu(通用图形处理器)结构。它是通过在处理器内部设置多个alu来提高数据并行处理速度。不过后来大家发现gpu的能力其实非常有限:首先,只有存在大量规则数据并行的应用程序,gpu才能发挥其巨大优势。程序中的分支跳转以及线程间的数据共享都是gpu的软肋,就算能够被支持,效率也不高。如果谁想在gpu上做webserver,那基本上是痴人说梦。其次,gpu需要对应用程序进行大量优化,以挖掘其并行性。这个优化过程需要对gpu结构和被优化的程序本身有着深刻地理解。这和在通用处理器编程中打开几个优化选项的难度不可同日而语。

三、网络互连为主的处理器。使用片上网络的办法,使得众多的处理器核通过分布式的通讯方式相互沟通,从而避免了集中的互连设计带来的系统性能瓶颈以及较大的功耗开销。raw的难点在于对于应用程序需要就行网络和计算的双重优化,否则程序运行的效率较低。这使得编译器中指令调度不光考虑运算单元的成本,还有通讯的成本,搜索空间和复杂度大大提高。fpga强调的是门阵列。即它提供了一种独特连线结构,连接各个可编程门单元。fpga虽然能直接支持硬件描述语言,但是它在实现逻辑时要用通用的门结构来搭建用户专用的门结构,门浪费有些严重,功耗利用率较低,由于同时要熟悉软件和硬件,所以开发难度也大。

当代,随着人工智能,工业4.0,机器人,智能硬件,物联网等的快速发展,人们对并行计算提出了更高的要求。而在并行计算中有3个问题非常核心,一是如何组织各个处理器和各个加速器,便于各个处理器访问加速器;二是如何提高访问速度,同时又不占用过多芯片资源。三是如何选择适用于通用领域或特定专用领域计算的处理器和加速器。

总线式互联因其互联占用芯片资源少而在处理器数量较少的系统中被广泛采用。当处理器数量增加时,总线式互联连线变长,延迟不能再接受。

所以亟需一种并行处理器阵列结构来解决上述问题。



技术实现要素:

针对上述现有技术不足,本发明提供一种以分组矩阵的形式布置各个处理器核和加速器的组织架构,保证支持各种常见的处理器核加速器挂载的一种并行处理器阵列结构。

本发明提供的一种并行处理器阵列结构是通过以下技术方案实现的:

一种并行处理器阵列结构,其特征在于,包括芯片和处理器,所述芯片上设置多个处理器,组成一级处理器组,多个一级处理器组组成二级处理器组,多个二级处理器组组成三级处理器组,以此类推,即所述并行处理器阵列包括多级,每级由小到大程包含关系,每个级包括多个小一级的处理器组,其中,每级处理器组中的每个处理器或处理器组通过译码器或仲裁器连接加速器和总线连接器。

所述处理器组中的一个处理器通过译码器连接加速器和总线连接器,所述总线连接器可连接组间共享的加速器。

所述处理器组通过仲裁器连接加速器和总线连接器。

本发明的有益效果是:本发明提供的结构做出的改变在于即便是在处理器数量较多时,仍然能够使用较少芯片资源来完成处理器之间的通信。同时能保证对邻近资源的访问延迟低,将少量若干处理器作为1组,组内使用简单的总线互联或者其它连接方式,每组又等同于1个处理器来和其它组互联。这种组织方式允许使用简单的处理器互联技术来连接组内外各个处理器。既解决了处理器间互联的问题,节省了芯片资源,也降低了访问延迟。

附图说明

图1是本发明整体结构示意图;

图2是实施例2结构示意图;

图3是实施例3结构示意图。

具体实施方式

下面将通过实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

如图1所示,一种并行处理器阵列结构,包括芯片和处理器,所述1芯片上设置4个处理器,组成一级处理器组,4个一级处理器组组成二级处理器组,4个二级处理器组组成三级处理器组,每级处理器组中的处理器组连接对应级共享加速器组和总线连接器,……,不断这样叠加下去,可以支持很多个处理器,而且对处理器的种类也没有限制,同时也保证了处理器能够访问(一级组)组内的资源和组间共享的资源,这个组间共享的资源,不仅仅包括处理器所在的二级组,三级组,……,也包括soc芯片最外围的共享的一些外设或接口。

实施例2

如图2所示,所述处理器组中的一个处理器通过译码器连接加速器和总线连接器,所述总线连接器可连接组间共享的加速器。

实施例3

如图3所示,图3是组内各个加速器或总线连接器与组内4个处理器之间的连接关系,所述处理器组通过仲裁器连接加速器和总线连接器。

以上所述实施例仅表示本发明的实施方式,其描述较为具体和详细,但并不能理解为对本发明范围的限制。应当指出的是,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明保护范围。



技术特征:

技术总结
本发明涉及一种并行处理器阵列结构,包括芯片和处理器,所述芯片上设置多个处理器,组成一级处理器组,多个一级处理器组组成二级处理器组,多个二级处理器组组成三级处理器组,以此类推,即所述并行处理器阵列包括多级,每级由小到大程包含关系,每个级包括多个小一级的处理器组,其中,每级处理器组中的每个处理器或处理器组通过译码器或仲裁器连接加速器和总线连接器。本发明即便是在处理器数量较多时,仍然能够使用较少芯片资源来完成处理器之间的通信。同时能保证对邻近资源的访问延迟低;这种组织方式允许使用简单的处理器互联技术来连接组内外各个处理器。既解决了处理器间互联的问题,节省了芯片资源,也降低了访问延迟。

技术研发人员:葛松芬
受保护的技术使用者:葛松芬
技术研发日:2017.08.09
技术公布日:2017.10.27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1