一种基于2.5D先进封装技术的多核处理器的制作方法

文档序号:12363663阅读:634来源:国知局
一种基于2.5D先进封装技术的多核处理器的制作方法与工艺

本发明具体涉及一种基于2.5D先进封装技术的多核处理器,属于多核处理器技术领域。



背景技术:

近年来,智能设备发展迅猛。以平板电脑,智能手机及可穿戴设备为代表的智能产品在移动智能与移动互联网领域获得了长足进步与发展,在改变人们生活方式的同时,也深刻影响了人们的理念。处理器作为智能设备的核心部分,拥有广阔的应用市场。但随着智能技术的发展,对处理器的要求更加严格。高速,低功耗,广泛兼容性是未来处理器的发展方向。多核处理器由于具有并行处理能力与高能效优势备受设计人员青睐,这就需要高速、高带宽和高可靠性的片间接口。随着应用软件进一步复杂,多核处理器的核数目在不断提升,存储器与加速硬件在不断改变。

近年来出现的2.5D先进封装技术,采用μ-bump技术,可将若干高速互连的芯片并排的键和到同一硅介层中,实现多芯片的单封装集成。2.5D先进封装兼具了PCB多芯片的灵活性,2D片上互连的高速性以及3D/TSV所欠缺的散热性。希望通过将基于2.5D先进封装技术的片间接口电路应用于多核处理器的设计中,发现并解决面向2.5D片间接口的多核处理器在核数目拓展,存储器拓展,加速器拓展与高速、高带宽和高可靠性的片间互连等方面的问题。



技术实现要素:

发明目的:本发明的目的在于应用2.5D先进封装技术,将多核芯片并排键和到同一块硅介层上实现多芯片的单封装集成,并首次将基于2.5D集成的片间接口电路应用到多核处理器上实现多芯片间高速互连。进而发现、研究并解决多核处理器设计在面向2.5D片间接口电路的核数目拓展、存储体系拓展、加速器拓展和片间互连等方面遇到的难点问题和关键技术。通过提出一种芯片级的具有高度的功能灵活性,架构可重构性以及芯片可复用性的2.5D多核架构,探索多核处理器架构演进。发明主要创新点是首次将TRX片间接口电路应用于2.5D集成的多核处理器中,从而实现了功能上具有灵活性、可拓展性以及可重构性的优点,电路性能上具有高速、高带宽和高能效的优势。

技术方案

本发明的目的是通过如下的措施来达到的:

A.多核处理器及扩展架构

本发明的多核处理器架构核心是一块8核32位MIPS处理器101,与外界通过TRX电路105和异步FIFO 106通信,可作为最小系统工作。进一步提高数据局部性,8核进一步分为两个簇102,每簇为4核,簇内通过共享存储方式通信,簇间通过基于包交换控制的电路交换双层片上网络进行消息传递。每个MIPS核包含由1.5K字的私有指令存储器和1K字的片上共享数据存储器。系统还可以纵向拓展8片16KB的SRAM存储器模块103,并可以被簇内处理器和全局DMA共享访问。为了在通信和多媒体应用中加速核心进程,系统还在横向拓展了4片加速器模块104,其中包括H.264熵解码,16点FFT和复数乘法模块。核-存储器,核-加速器的连接采用了相同的接口电路,在核-存储器接口额外设计了数据选择器逻辑单元,使得系统在纵向可配置成双层片上网络的拓展连接,从而实现核-核的规模拓展,获得加倍运算能力。

B.全定制高速TRX片间接口电路

全定制高速TRX模块105,其主要由串行器803、电流型逻辑缓冲器804、TSI通道806、采样器809、解码器810、TX压控振荡器(VCO)805、时钟数据恢复电路(CDR)811、RX压控振荡器VCO812组成;

8:1串行器803将并行数据转化为串行序列,串行器的输出接到电流型逻辑缓冲器CML804的输入;

电流型逻辑缓冲器CML804的输出驱动2.5D TSI806的T型线;

TSI806T型线的另一端接采样器,采样器接收到串行数据后将串行数据送给解码器810,解码器最终将串行数据转换为并行数据完成数据传输;

压控振荡器用来产生时钟信号,采用基于延迟锁相环(DLL)的时钟数据恢复(CDR)电路811调节采样时钟的偏斜,使用两个异或门(XOR)构成的相位检测器来判断采样时钟相对于输入数据的位置,并产生“早”脉冲和“晚”脉冲。此外,还应用了电荷泵(charge-pump)将这些脉冲转换成多种电平来控制DLL延迟线,DLL 延迟线则用来调节时钟的延迟相位,并且反馈给采样器809作为采样时钟信号。

有益效果

本发明采用2.5D先进封装技术,应用μ-bump技术,将若干高速互连的芯片并排地键合到同一块硅介层上,进而实现多核芯片的单封装集成。2.5D先进封装兼具了PCB多芯片互连的灵活性、2D片上互连的高速性以及3D/TSV所欠缺的散热性。此外将2.5D先进封装技术引入到多核处理器设计中来,能够发现、研究并解决多核处理器设计在面向2.5D片间接口的核数目拓展、存储体系拓展、加速器拓展和片间互连等方面遇到的难点问题和关键技术。进而探索出一种芯片级的具有高度的功能灵活性、架构可重构性以及硅片可复用性的2.5D多核架构。

附图说明

1、图1为2.5D技术多核处理器的基本架构;

2、图2为全定制高速片间接口TRX电路;

3、图3为2.5D集成示意图。

其中:101为两簇8核处理器模型;102为;102为簇内的核0处理器;103为片外存储器0;104为片外加速器;105为TRX定制电路;106为异步FIFO;107为簇内的核1处理器;108为簇内的核2处理器;109为簇内的核3处理器;110为片外存储器1;111为片外存储器2;112为片外存储器3。

801为TxD电路模块;802为TX data;803为串行器;804为电流型逻辑缓冲器;805为TX压控振荡器(VCO);806为TSI通道;

807为RxD电路模块;

808为RX data;809为采样器;810为解码器;811为时钟数据恢复电路(CDR);

812为RX压控振荡器(VCO)。

301为芯片1;302为芯片2;303为芯片3;304为TSI;305为硅介层;306为片间接口电路;307为UART控制电路。

具体实施方式

根据前述发明的内容,本次2.5D多核处理器设计采用Global Foundry的65nm LPE工艺,基于传统的2D芯片EDA设计工具,对全部的数字部分进行了芯片的物理实现。重点采用了层次化设计流程和数模混合设计方法,大量地采用了参数化设计和Perl语言自动生成脚本技巧,有力地保障了流片项目的如期完成。多核芯片面积为3.29×2.34mm2,等效逻辑门为127万,IC Compiler时序报告显示1.2V电压下工作频率为500MHz,Prime Time PX功耗分析结果显示单核的典型功耗为25.5mW,能效为51.0pj/OP。片外存储器芯片面积为1.30×0.83mm2,工作频率为719MHz;片外加速器芯片面积为1.30×0.83mm2。

首先,核心是一块8核32位MIPS处理器101,与外界通过TRX电路105和异步FIFO 106通信,可作为最小系统工作。进一步提高数据局部性,8核进一步分为两个簇102,每簇为4核,簇内通过共享存储方式通信,簇间通过基于包交换控制的电路交换双层片上网络进行消息传递。每个MIPS核包含由1.5K字的私有指令存储器和1K字的片上共享数据存储器。系统还可以纵向拓展8片16KB的SRAM存储器模块103,并可以被簇内处理器和全局DMA共享访问。为了在通信和多媒体应用中加速核心进程,系统还在横向拓展了4片加速器模块104,其中包括H.264熵解码,16点FFT和复数乘法模块。

如图3所示,是2.5D系统集成示意图。对于普通的片间接口电路是在2D的基础上在同一芯片内直接实现不同模块间的高速互连。而本发明首次实现了将片间接口电路306应用在2.5D多核处理器上。与2D接口电路不同的是,2.5D封装技术利用微凸点(μ-bump)制程将已经制作好的若干个裸片301、302、303键合到同一块衬底305上,并且用一种称为TSI304(Through Silicon Interposer)的传输线互连起来,最后做在一个封装内部。基于2.5D技术的片间接口电路306引入到多核处理器设计中来,解决了多核处理器设计在面向2.5D的核数目拓展、存储体系拓展和加速器拓展等方面遇到的难点问题。从而实现了一种芯片级的具有高度的功能灵活性、架构可重构性以及硅片可复用性的2.5D多核架构。

片间接口电路306的应用作为本设计的一个创新点,起到芯片间互连通信的作用,首次将片间接口电路306应用于2.5D多核处理器。由于2.5D封装采用了基于μ-bump的flit-chip(倒装芯片)技术,多核芯片顶层金属上按照DRC规则放置了246个八边形块状金属(长75um、pitch间距160um)用来与硅介层305(Silicon Interposer)的键合。在做后端版图时,所有的片间互连信号和连接到封装管脚的信号都要连接到顶层金属块上,由于系统支持了12路双向的片间传输通道,这样根据片间I/O资源的分配结果,每条单向的物理传输通道只有5个,而片间接口电路306的顶层端口是被抽象成32位异步FIFO,既保证了5个物理通道正确地传输32位数据,又确保了片间的信号完整性。

首次在2.5D多核处理器架构上应用片间接口电路,其实现了2D片上互联线的高速、高带宽和高能效性(寄生RC小,驱动电路少)。全定制高速TRX电路是整个片间接口的末级,与2.5D TSI 806物理通道直接相连,其中关键部分就是由串行器803、电流型逻辑缓冲器804等组成的发送端和由采样器809、解串器810等组成的接收端电路。发送器使用8:1串行器803将8位并行数据转化为串行序列。4个D触发器被用来构成移位寄存器链对于每组偶数(D0,D2,D4,D8)或奇数(D1,D3,D5,D7)数据位,之后接2选1选择器将它们结合起来。电流型逻辑电路(CML)804输出驱动发送器与接收器间TSI 806的T-线。多核I/O接口的发送端的驱动电路由两级级联CML缓冲器构成。为了减轻阻抗的失配,使用50欧的电阻来进行传输线的阻抗匹配。在接收端,采样器809连接到数据时钟恢复模块(CDR)811,将电流型信号转化为数字CMOS电平信号,然后由数字信号经过解串器810从而转化为8位并行数据。基于延迟锁相环(DLL)的时钟数据恢复(CDR)电路811用来调节采样时钟的偏斜,使用两个异或门XOR构成的相位检测器来判断采样时钟相对于输入数据的位置,并产生“早”脉冲和“晚”脉冲。此外,还应用了电荷泵(charge-pump) 将这些脉冲转换成多种电平来控制DLL延迟线,DLL延迟线则用来调节时钟的延迟相位,并且反馈给采样器809作为采样时钟信号。

该模块在8Gbps工作速率下,TxD功耗为15.24mW,延迟为1.16ns,RxD功耗为7.10mW,延迟为2.69ns。由于本文提出的2.5D多核芯片支持12路通道双向并行传输,故而,系统的片间数据传输的峰值带宽为24GB/s,其中存储器访问部分为16GB/s。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1