背景技术:
1、当前的高性能计算(hpc)和图形处理能够利用比当前能提供的给定现代系统存储器实现更多的存储器带宽。例如,许多hpc应用程序的字节到浮点运算(b:f)比率介于8:1和1:1之间。因此,hpc应用程序需要从主存储器中获取1到8个字节来执行每个浮点运算。在另一个示例中,高性能共轭梯度(hpcg)基准具有大于4的b:f比率。具有b:f比率为1:10的现代图形处理单元(gpu)对此类应用程序造成了显著的存储器限制。需要一种在处理环境中改进的高性能存储器实现的解决方案,以及在这种环境中以本地化方式实现存储器访问以减少存储器访问的能量和延迟的方法。
技术实现思路
1、本公开的实施例涉及堆叠在处理器上的高带宽存储器。公开了用于通过在处理器裸片上堆叠大容量存储器来为处理系统提供一级存储器的系统和方法。在一个实施例中,一个或更多个存储器裸片堆叠在处理器裸片上。处理器裸片包括多个处理块,其中每个块包括处理单元、映射器和块网络。每个存储器裸片包括多个存储器块。处理块耦合到处理块上方或下方的每个存储器块。竖直对齐的存储器块包括用于处理块的本地存储器区块。在一个实施例中,n个处理块耦合到m个存储器块。与传统存储器相比,访问本地存储器块的存储器带宽(字节/秒)与浮点运算/秒(b:f)的比率可以提高50倍。此外,传输每个位所消耗的能量可以减少10倍。
2、在一个实施例中,一种设备包括裸片堆栈,所述裸片堆栈包括处理器裸片和至少一个存储器裸片,所述处理器裸片包括多个处理块,每个存储器裸片包括多个存储器块,其中裸片在第一维度中对齐并在第二维度中堆叠。该设备还包括在每个处理块和在至少一个存储器裸片的每个存储器裸片中的对应存储器块之间的导电路径,其中对应存储器块在第二维度中堆叠在处理块上。在一个实施例中,处理器是图形处理单元(gpu)内的流式多处理器。在一个实施例中,处理器裸片相对于存储器裸片“倒置”。在一个实施例中,中介层可以包括在包括处理器裸片和存储器裸片的设备内。
1.一种设备,包括:
2.根据权利要求1所述的设备,其中所述导电路径包括在所述第二维度中的裸片穿孔结构,所述裸片穿孔结构被制造在所述至少一个存储器裸片中的每一个存储器裸片内,以用于在每个处理块和所述对应存储器块之间的通信。
3.根据权利要求2所述的设备,其中所述裸片穿孔结构包括硅穿孔、焊料凸块或混合键合中的至少一者。
4.根据权利要求2所述的设备,其中所述裸片穿孔结构耦合到所述处理器裸片,所述处理器裸片在每个处理块的周边内的在至少所述第一方向上分布的位置处。
5.根据权利要求2所述的设备,其中所述裸片穿孔结构耦合到所述至少一个存储器裸片,所述至少一个存储器裸片在每个存储器块的周边内的在至少所述第一方向分布的位置处。
6.根据权利要求1所述的设备,其中所述裸片堆栈还包括至少一个中介层衬底,所述中介层衬底在所述第一维度中对齐并且在所述第二维度中堆叠。
7.根据权利要求6所述的设备,其中所述裸片堆栈和至少一个附加裸片堆栈在所述第一维度中对齐并且被固定到所述至少一个中介层衬底。
8.根据权利要求1所述的设备,其中所述裸片堆栈被围封在集成电路封装内。
9.根据权利要求1所述的设备,其中所述处理器裸片包括图形处理单元。
10.根据权利要求1所述的设备,其中所述处理器裸片包括至少一个中央处理单元。
11.根据权利要求1所述的设备,其中所述至少一个存储器裸片包括安置在所述处理器裸片和第二存储器裸片之间的第一存储器裸片。
12.根据权利要求10所述的设备,其中所述第一存储器裸片的第一接口直接耦合到所述多个处理块中的至少一个处理块的接口,并且所述第二存储器裸片的第二接口通过在所述第一存储器裸片内制造的裸片穿孔结构间接耦合到所述至少一个处理块。
13.根据权利要求1所述的设备,其中每个处理块包括映射电路,所述映射电路经配置以将由所述处理块生成的地址转换至本地存储器区块中的位置,所述本地存储器区块包括在所述至少一个存储器裸片的每个存储器裸片中的所述对应存储器块。
14.根据权利要求1所述的设备,其中每个处理块包括映射电路,所述映射电路经配置以将由所述处理块生成的地址转换至以下中的一者中的位置:包括所述至少一个存储器裸片的每个存储器裸片中的所述对应存储器块的本地存储器区块、所述处理器裸片内的不同处理块的所述本地存储器区块、包含在所述设备内的附加裸片堆栈、或在所述设备外部的附加裸片堆栈。
15.根据权利要求14所述的设备,其中每个处理块包括在所述处理块之间的通信网络的接口,所述通信网络用于访问所述处理器裸片内的所述不同处理块的所述本地存储器区块、包括在所述设备内的所述附加裸片堆栈、或在所述设备外部的所述附加裸片堆栈中的至少一者,并且所述接口的导电连接沿所述处理块的周边安置。
16.根据权利要求1所述的设备,其中所述处理器裸片包括通信网络的接口,并且用于所述接口的导电连接沿所述处理器裸片的周边安置。
17.根据权利要求16所述的设备,其中所述通信网络能够访问包括在所述设备内的附加裸片堆栈或在所述设备外部的附加裸片堆栈内的附加存储器块中的至少一者。
18.一种方法,包括:
19.根据权利要求18所述的方法,其中在服务器上或在数据中心中执行生成和传输步骤中的至少一者以生成图像,并且所述图像被流式传输到用户设备。
20.根据权利要求18所述的方法,其中所述生成和传输步骤中的至少一者在云计算环境中执行。
21.根据权利要求18所述的方法,其中所述生成和传输步骤中的至少一者被执行以用于利用在机器、机器人或自主车辆中使用的神经网络进行训练、测试或推理。
22.根据权利要求18所述的方法,其中在包括图形处理单元的一部分的虚拟机上执行所述生成和传输步骤中的至少一者。
23.一种系统,包括:
24.根据权利要求23所述的系统,其中所述导电路径包括在所述第二维度中的裸片穿孔结构,所述裸片穿孔结构被制造在所述至少一个存储器裸片中的每一个存储器裸片内,以用于在每个处理块和所述对应存储器块之间的通信。