面向高性能sram的分级结构的制作方法

文档序号:6739629阅读:223来源:国知局
专利名称:面向高性能sram的分级结构的制作方法
技术领域
本发明涉及一种高性能SRAM内部最优分级的方法及其架构。本发明可以有效实现SRAM关键路径上第一级和第二级的总延迟近似相等,避免了延迟短板问题。另外,相比于传统的架构,采用内部字线分级架构对于触发器的驱动能力要求大大降低,同样降低延迟,从而实现SRAM性能的最优化。
背景技术
静态随机存储器SRAM (Static Random Access Memory)是易失性存储器(掉电后丢失,再次上电后的数据为随机数据)。它以双稳态电路作为存储单元,不需要刷新电路即能保存其内部存储的数据,而且工作速度较快,因此它是计算机系统中直接与CPU交换数据的器件。不管是大型机中的Cache,还是SOC中的寄存器,SRAM都是用于与CPU直接交换 数据的必不可少的部件。中低速的CPU或者DSP通常采用单周期读取的SRAM实现Cache,而高速CPU和DSP工作频率较高,单周期读数据不易实现。SRAM主要由译码器、阵列的读写、时序控制,灵敏放大器等模块组成。传统结构信号流从译码器、阵列读写到最终的输出。由于面积效率的限制,译码器和阵列读写的延迟很难控制在200ps以内,为了达到4GHz以上工作频率,传统结构受到限制。为了解决SRAM高频时的性能瓶颈问题,诸多技术见诸于文献报道。这其中具有代表性的SRAM架构方案有 J. Pille 等人在 2008 年的论文《Implementation of the Cell BroadbandEngineer in65nm SOI Technology Featuring Dual Power Supply SRAM Arrays Supporting6GHz at
I.3V》中提出的内部分级结构,此方式Pipeline结构非常适合集成于Cache,吞吐量也增加了几乎2倍。但是读数据存在一个周期延迟,而且此分割方式直接从WLL分开,不一定是最优的,而且第一个周期存在较大的浪费。J. Gab Joong 和 L. Moon Key 在论文《Design of a scalable pipelined RAMsystem))中首先发表的Pipeline结构,应用于Packet switching (分组开关),将大尺寸的SRAM分块,从而可以分别对小块进行读写数据,最终提高了单个SRAM快的速度,提高吞吐量。但如不连续的进行读数据,则需要等多个时钟周期才能读出正确数据,不适合Cache应用。大部分Intel处理器中的Cache采用多周期读写,从而提高了时钟速度,但是实际吞吐量没有提高。这是因为多个周期读、写相当于时钟分频后控制SRAM,对于SRAM吞吐量没有改变。本发明提出的内部最优分级的SRAM架构可以有效避免上述问题并实现SRAM性能的最优化。如图3所示,字线采用分级技术,在GWLL和Local WLL之间插入触发器,从而每级都包含近似相等的寄生电容,因此不存在第二级延迟短板的问题。此实现方式每个触发器仅需驱动少量的存储单元,降低了触发器尺寸和时钟负载。其次,采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样降低延迟
发明内容
本发明要解决的技术问题本发明涉及的技术问题是采用内部分级架构和关键路径优化实现高的工作频率,解决高性能处理器中Cache的性能限制问题。本发明的技术方案为面向高性能SRAM的分级结构,采用内部最优分级结构,存储阵列每一行的存储单元Bitcell分成N级,一行存储单元总个数为T,即每级的存储单元个数为T/N,二进制SRAM地址数据经过字线译码器模块译码后,被选择的一行全局字线GffLL升高,下一个时钟上升沿到来时,被选择行的内部触发器同时触发,该行N个模块的Bitcell全部打开;写操作时,具体写入的Bitcell的位置由列选择器模块译码后决定;读操作时最终作为输出的具体Bitcell位置同样取决于列选择器模块的译码结果,选中的Bitcell数据通过位线和列选择器后输出。所述内部最优分级结构的SRAM存储阵列为字线采用分级技术,在全局字线GWLL和局部字线Local WLL之间插入触发器,将存储阵列分成Bitcell数目相等的N级,GWLL经字线译码器模块分级为GWLL1, GffLL2,……GWLLm共M行,存储阵列每一行的Bitcell分成 N级,一行存储单元的个数为T,即每级的存储单元个数为T/N ;字线译码器的输出作为存储阵列模块的控制输入,读操作时,位线数据经译码选中的列选择器模块写入存储阵列模块;写操作时,选中的Bitcell数据通过位线和列选择器等待下一个时钟上升沿输出。本发明针对SRAM工作速度问题提出了高性能SRAM架构及关键路径优化的技术方案。字线采用分级技术,在GWLL和Local WLL之间插入触发器,将存储阵列分成存储单元数目相等的若干级,从而每级都包含近似相等的寄生电容,不存在第二级延迟短板的问题。另外,此实现方式每个触发器仅需驱动少量的存储单元,可以大大降低触发器尺寸和时钟负载。表示地址信息的二进制数据经过字线译码器模块译码后,相应行所在的触发器都快速触发,该行的Bitcell全部打开进行读写操作。读操作时最终作为输出的具体Bitcell位置取决于列选择器模块的译码结果。经过地址译码,列选择器模块选择相应Bitline作为输入,其结果进入输出锁存模块等待时钟信号控制最终输出。有益效果本发明提出的SRAM内部最优分级结构,通过Bitline放电延迟合理选择N的数目,可以实现第一级和第二级的总延迟近似相等,从而实现性能最优。假设字线分级后每级的存储单元个数为N,一行存储单元总个数为T,如T=128,字线分组数N大于1,根据延迟分析模型可以得出分级数目越多,GWLL上延迟变化很小,而LWLL的延迟会大大降低。如图5所示,当Ν=4时,GffLL与LWLL延迟差为17. 2ps,LffLL的延迟近似为GWLL的一半。其次,采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样可以大大降低延迟。


图I为传统结构SRAM的关键路径框图。图2为采用内部分级的SRAM结构框图。图3为本发明提出的内部最优分级结构的框图。图4为采用内部最优分级结构的SRAM存储阵列放大示意图。图5为采用内部最优分级结构的SRAM随分级数目N增加,GWLL与LWLL延迟的变化示意图。
具体实施例方式SRAM作为计算机系统中直接与CPU交换数据的器件,必须满足高工作频率,低延迟的性能要求。本发明提出的高性能SRAM架构和关键路径的优化能够有效降低延迟,提高工作频率,从而实现SRAM性能的最优化。SRAM主要由译码器、阵列的读写、时序控制等模块组成。传统结构信号流从译码器、阵列读写到最终的输出。由于面积效率的限制,译码器和阵列读写的延迟很难控制在200ps以内,为了达到4GHz以上工作频率,传统结构受到限制。为了说明高性能SRAM架构及关键路径优化的给SRAM性能带来的提升,我们下面分别对传统结构SRAM、内部分级结构和内部最优分级结构进行分析和比较。如图I所不是传统结构SRAM的关键路径不意图。传统结构SRAM的关键路径由输入锁存11、译码器12、字线驱动13、存储单元14、灵敏放大器15和输出驱动16构成。二进制SRAM地址数据作为输入,进入输入锁存模块11。输入锁存模块11的输出经两级译码器模块12被译码为2n位数据信息。信号经字线驱动模块13,通过字线WLL进入存储阵列14。译码后的信息选取相应的行进行读写操作,结果经位线到达已经打开的列选择器模块15,再经灵敏放大器模块16放大,放大后的结果最后进入输出驱动模块17等待时钟信号控制输出。由于面积效率,通常译码器、字线驱动和Bitline上寄生较大,降低Bitline上存储单元个数会提高性能,但是由于所需的容量越来越大,因此此方法不是非常有用。如图2所示为IBM提出的内部分级的结构框图,该结构在字线驱动模块和存储阵列之间加入触发器,将SRAM关键路径分成两级,从而性能可以大幅度提升,理想情况下可以提高2倍。同传统结构的框图相似,地址信息作为输入,首先进入输入锁存模块21,经时钟控制信号地址信息进入两级译码器模块22,分别进行行列地址的译码,信号作为字线驱动模块23的输入,触发器模块24被触发,经过译码相应行所在的存储单元Bitcell全部打·开进行读写操作,读写结果经被选中的列地址选择器26通过位线Bitline到达灵敏放大器模块27。灵敏放大器模块27将读写结果放大,放大结果作为输出驱动模块28的输入,等待时钟信号控制输出。内部分级技术虽然可以较大幅度地提升SRAM的性能,但是该技术存在着较大的延迟第一级主要是译码器延迟,字线驱动负载为触发器,因此仅包含一个大的寄生电容;而第二级需要驱动字线和位线,存在两个大寄生电容,因此第二级延迟决定了工作的最大速度,存在延迟短板。另外,触发器输出需要驱动大的字线负载,因此对于触发器设计比较困难,时钟负载也增加,同样增加了额外的延迟。图3即是本发明提出的内部最优分级结构的框图。字线采用分级技术,在GWLL和Local WLL之间插入触发器,将存储阵列分成存储单元Bitcell数目相等的若干级,从而每级都包含近似相等的寄生电容,因此不存在第二级延迟短板的问题。此实现方式每个触发器仅需驱动少量的存储单元,可以大大降低触发器尺寸和时钟负载。二进制SRAM地址数据首先进入输入锁存模块31,输出经两级译码器模块32进行行列地址译码,使相应的行列打开。字线驱动模块33驱动GWLL,经过译码的信号进入内部最优分级的存储阵列模块34,存储阵列模块34内的触发器被快速触发,相应行所在的存储单元Bitcell全部打开。写操作时,具体写入的Bitcell的位置由列选择器模块35译码后决定。读操作时,最终作为输出的具体Bitcell位置同样取决于列选择器模块35的译码结果。经过地址译码,列选择器模块35选择相应位线作为输入,其输出作为灵敏放大器模块36的输入。灵敏放大器模块36将读数据放大后,结果进入输出驱动模块37,等待时钟信号控制输出。图4是采用内部最优分级结构的SRAM存储阵列放大后的示意图。如图所示,采用内部最优分级结构后,GWLL经字线译码器模块41分级为GWLL1, GWLL2,……GWLLm共M行,采用内部最优分级结构后将存储阵列每一行的Bitcell分成N级,一行Bitcell总个数为
T,即每级的Bitcell个数为T/N。分级后的模块411,421,......4MN结构上完全一致的。二
进制SRAM地址数据经过字线译码器模块41译码后,被选择的一行GWLL升高,下一个时钟上升沿到来时,被选择行的内部触发器同时触发,该行N个模块的Bitcell全部打开。写操作时,具体写入的Bitcell的位置由列选择器模块42……4N译码后决定。读操作时最终作
为输出的具体Bitcell位置也取决于列选择器模块42......4N的译码结果,选中的Bitcell 数据通过位线和列选择器42……4N后输出。图5为采用内部最优分级结构的SRAM随分级数目N增加,GWLL与LWLL延迟的变化示意图。如T=128,字线分组数N大于1,根据延迟分析模型可以得出分级数目越多,GWLL上延迟变化很小,而LWLL的延迟会大大降低,当Ν=4时,GWLL与LWLL延迟差为17. 2ps, LffLL的延迟近似为GWLL的一半。因此采用字线内部分级架构,通过位线Bi11 ine放电延迟合理选择N的数目,可以实现第一级和第二级的总延迟近似相等,从而实现性能最优。其次,采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样可以有效降低延迟。综上所述,本发明架构下的SRAM能够在高速下稳定工作,满足高速CPU和DSP较高工作频率的要求。这主要得益于内部最优分级结构的如下优势(1)无延迟短板通过Bitline放电延迟合理选择分级N的数目,可以使第一级和第二级的总延迟近似相等,从而实现性能最优,避免了延迟短板问题;(2)触发器设计简单SRAM存储阵列内部最优分级后,每一级触发器需要驱动的存储单元Bitcell数目大大减小,可以大幅降低触发器尺寸和时钟负载的要求,避免了触发器因高驱动要求带来的设计困难,从而可以有效降低延迟。以上所述仅为本发明的一个较佳实施例,凡根据本发明权利要求所做的均等变化与修饰,皆应属于本发明发明的涵盖范围。
权利要求
1.面向高性能SRAM的分级结构,其特征是采用内部最优分级结构,存储阵列每一行的存储单元Bitcell分成N级,一行存储单元总个数为T,即每级的存储单元个数为T/N,二进制SRAM地址数据经过字线译码器模块(41)译码后,被选择的一行全局字线GWLL升高,下一个时钟上升沿到来时,被选择行的内部触发器同时触发,该行N个模块的Bitcell全部打开;写操作时,具体写入的Bitcell的位置由列选择器模块译码后决定;读操作时最终作为输出的具体Bitcell位置同样取决于列选择器模块的译码结果,选中的Bitcell数据通过位线和列选择器后输出。
2.根据权利要求I所述的面向高性能SRAM的分级结构,其特征是所述内部最优分级结构的SRAM存储阵列为字线采用分级技术,在全局字线GWLL和局部字线LocalWLL之间插入触发器,将存储阵列分成Bitcell数目相等的N级,GffLL经字线译码器模块(41)分级为GWLL1, GWLL2,……GWLLm共M行,存储阵列每一行的Bitcell分成N级,一行存储单元的个数为T,即每级的存储单元个数为T/N ;字线译码器(41)的输出作为存储阵列模块的控制输入,读操作时,位线数据经译码选中的列选择器模块(42)……(4N)写入存储阵列模块;写操作时,选中的Bitcell数据通过位线和列选择器(42)……(4N)等待下一个时钟上升沿输出。
全文摘要
面向高性能SRAM的分级结构,字线采用分级技术,在全局字线GWLL和局部字线之间插入触发器,将存储阵列分成存储单元Bitcell数目相等的N级,GWLL经字线译码器模块分级为M行,一行Bitcell的个数为T,即每级的Bitcell个数为T/N,分级后的模块结构上完全一致,二进制SRAM地址数据经过字线译码器模块译码后,被选择的一行GWLL升高,下一个时钟上升沿到来时,被选择行的内部触发器同时触发,该行N个模块的Bitcell全部打开;写操作时,具体写入的Bitcell的位置由列选择器模块译码后决定,读操作时最终作为输出的具体Bitcell位置同样取决于列选择器模块的译码结果,选中的Bitcell数据通过位线和列选择器后输出。
文档编号G11C11/413GK102915760SQ201210322289
公开日2013年2月6日 申请日期2012年9月2日 优先权日2012年9月2日
发明者柏娜, 张钿钿, 朱贾峰, 冯越, 陈铭 申请人:江苏东大集成电路系统工程技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1