一种高性能静态随机存储器内部最优分级的方法及其架构的制作方法

文档序号:6739520阅读:116来源:国知局
专利名称:一种高性能静态随机存储器内部最优分级的方法及其架构的制作方法
技术领域
本发明涉及静态随机存储器领域,尤其是一种高性能静态随机存储器内部最优分级的方法及其架构。
背景技术
静态随机存储器SRAM (Static Random Access Memory)是易失性存储器,它以双稳态电路作为存储单元,无需刷新电路即能保存其内部存储的数据,而且工作速度较快,因此它是计算机系统中直接与CPU交换数据的器件。不管是大型机中的缓存Cache,还是片上系统SOC中的寄存器,SRAM都是用于与CPU直接交换数据的必不可少的部件。
SRAM主要由译码器、阵列的读写、时序控制,灵敏放大器等模块组成。由于面积效率的限制,译码器和阵列读写的延迟很难控制在200ps以内,为了达到4GHz以上工作频率,传统结构受到限制。为了解决SRAM高频时的性能瓶颈问题,诸多技术见诸于文献报道。这其中具有代表性的SRAM架构方案有J. Pille等人在2008年的论文《Implementation ofthe Cell Broadband Engineer in 65 nm SOI Technology Featuring Dual Power SupplySRAM Arrays Supporting 6 GHz at I. 3 V》中提出的内部分级结构,此方式Pipeline结构非常适合集成于Cache,吞吐量也增加了几乎2倍。但是读数据存在一个周期延迟,而且此分割方式直接从WLL分开,不是最优的,而且第一个周期存在较大的浪费。J. Gab Joong 和 L. Moon Key 在论文《Design of a scalable pipelined RAMsystem))中首先发表的Pipeline结构,应用于Packet switching (分组开关),将大尺寸的SRAM分块,从而可以分别对小块进行读写数据,最终提高了单个SRAM快的速度,提高吞吐量。但如不连续的进行读数据,则需要等多个时钟周期才能读出正确数据,不适合Cache应用。大部分Intel处理器中的Cache采用多周期读写,从而提高了时钟速度,但是实际吞吐量没有提高。这是因为多个周期读、写相当于时钟分频后控制SRAM,对于SRAM吞吐量没有改变。

发明内容
本发明的首要目的在于提供一种能够有效降低延迟、提高工作频率,从而实现SRAM性能最优化的高性能静态随机存储器内部最优分级的方法,该方法包括在全局字线GffLL和局部字线Local WLL之间插入触发器,将存储阵列的每一行分成存储单元Bitcell数目相等的N个存储模块。本发明的另一目的在于提供一种高性能静态随机存储器内部最优分级的架构,包括用于接收二进制SRAM地址数据的输入锁存模块,其输出端依次通过两级译码器、字线驱动模、字线译码器与存储阵列相连,存储阵列的每一行由N个所含存储单元Bitcell数目相等的存储模块组成,存储阵列内设触发器,存储阵列依次通过列选择器、灵敏放大器与输出驱动模块相连。由上述技术方案可知,本发明通过位线Bi11 ine放电延迟合理选择N的数目,可以实现第一级和第二级的总延迟近似相等,从而实现性能最优。假设字线分级后每行的存储模块个数为N,一行存储单元Bitcell总个数为T,若T=128,字线分组数N大于I,根据延迟分析模型可以得出分级数目越多,全局字线GWLL上延迟变化很小,而局部字线Local WLL的延迟会大大降低。采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样可以有效降低延迟。


图I为本发明的内部最优分级结构框 图2为图I中存储阵列的结构不意 图3为采用本发明随分级数目N增加,全局字线GWLL与局部字线Local WLL延迟的变化示意图。
具体实施例方式一种高性能静态随机存储器内部最优分级的方法,该方法包括在全局字线GWLL和局部字线Local WLL之间插入触发器,将存储阵列4的每一行分成存储单元Bitcell数目相等的N个存储模块,从而每个存储模块都包含近似相等的寄生电容,因此能够避免存在第二级延迟短板的问题。采用这种实现方式,每个触发器仅需驱动少量的存储单元Bitcell,可以大大降低触发器的尺寸和时钟负载。若所述存储阵列4每一行的存储单元Bitcell的总个数为T,将存储阵列4每一行的存储单元Bitcell分成N个存储模块,则每个存储模块所包含的存储单元Bitcell的个数为T/N,一个触发器对应该存储模块中的T/N个存储单元Bitcell。如图1、2所示。如图1、2所示,二进制SRAM地址数据经过字线译码器8译码后,存储阵列4被选择的一行的全局字线GWLL升高,下一个时钟上升沿到来时,存储阵列4被选择的一行的触发器同时触发,该行N个存储模块的存储单元Bitcell全部打开。在进行写操作时,具体写入的存储单元Bitcell的位置由列选择器5译码后决定,列选择器5通过位线与存储单元Bitcell进行数据传输。在进行读操作时,最终作为输出的具体存储单元Bitcell的位置取决于列选择器5的译码结果,选中的存储单元Bitcell的数据通过位线和列选择器5后输出。如图1、2所示,本发明的架构包括用于接收二进制SRAM地址数据的输入锁存模块1,其输出端依次通过两级译码器2、字线驱动模块、字线译码器8与存储阵列4相连,存储阵列4的每一行由N个所含存储单元Bitcell数目相等的存储模块组成,存储阵列4内设触发器,存储阵列4依次通过列选择器5、灵敏放大器6与输出驱动模块7相连。二进制SRAM地址数据首先进入输入锁存模块1,输出经两级译码器2进行行列地址译码,使相应的行列打开。字线驱动模块3驱动全局字线GWLL,经过译码的信号进入内部最优分级的存储阵列4,存储阵列4内的触发器被快速触发,相应行所在的存储单元Bitcell全部打开。经过地址译码,列选择器5选择相应位线作为输入,其输出作为灵敏放大器6的输入,灵敏放大器6将读数据放大后,结果进入输出驱动模块7,等待时钟信号控制输出。如图2所示,所述的字线驱动模块与字线译码器相连,产生全局字线GWLL,字线译码器输出的全局字线GWLLp GffLL2……GWLLm与触发器的信号输入端相连,触发器的时序控制端接CLK时钟信号,译码后的全局字线GWLLp GffLL2……GWLLm作为行地址选择信号控制存储阵列4中的存储单元Bitcell,存储单元Bitcell通过位线与列选择器5相连。以下结合图1、2、3对本发明作进一步的说明。二进制SRAM地址数据经过字线译码器8译码后,被选择的一行字线GWLL升高,下一个时钟上升沿到来时,被选择的该行的触发器同时触发,该行N个存储模块的存储单元Bitcell全部打开。如图3所示,若T=128,N大于1,根据延迟分析模型可以得出分级数目越多,全局字线GWLL上延迟变化很小,而局部字线Local WLL的延迟会大大降低,当N=4时,全局字线GffLL与局部字线Local WLL延迟差为17. 2ps,局部字线Local WLL的延迟近似为全局字线GffLL的一半。因此采用字线内部分级架构,通过位线Bitline放电延迟合理选择N的数目,可以实现第一级和第二级的总延迟近似相等,从而实现性能最优。其次,采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样可以有效降低延迟。
·
综上所述,本发明架构下的SRAM能够在高速下稳定工作,满足高速CPU和DSP较高工作频率的要求。这主要得益于内部最优分级结构的如下优势(1)无延迟短板通过位线Bitline放电延迟合理选择分级N的数目,可以使第一级和第二级的总延迟近似相等,从而实现性能最优,避免了延迟短板问题;(2)触发器设计简单SRAM存储阵列4内部最优分级后,每一级触发器需要驱动的存储单元Bitcell的数目大大减小,可以大幅降低触发器尺寸和时钟负载的要求,避免了触发器因高驱动要求带来的设计困难,从而可以有效降低延迟。
权利要求
1.一种高性能静态随机存储器内部最优分级的方法,该方法包括 在全局字线GWLL和局部字线Local WLL之间插入触发器,将存储阵列的每一行分成存储单元Bitcell数目相等的N个存储模块。
2.根据权利要求I所述的高性能静态随机存储器内部最优分级的方法,其特征在于若所述存储阵列每一行的存储单元Bitcell的总个数为T,将存储阵列每一行的存储单元Bitcell分成N个存储模块,则每个存储模块所包含的存储单元Bitcell的个数为T/N,一个触发器对应该存储模块中的T/N个存储单元Bitcell。
3.根据权利要求I所述的高性能静态随机存储器内部最优分级的方法,其特征在于二进制SRAM地址数据经过字线译码器译码后,存储阵列被选择的一行的全局字线GWLL升高,下一个时钟上升沿到来时,存储阵列被选择的一行的触发器同时触发,该行N个存储模块的存储单元Bitcell全部打开。
4.根据权利要求I所述的高性能静态随机存储器内部最优分级的方法,其特征在于在进行写操作时,具体写入的存储单元Bitcell的位置由列选择器译码后决定,列选择器通过位线与存储单元Bitcell进行数据传输。
5.根据权利要求I所述的高性能静态随机存储器内部最优分级的方法,其特征在于在进行读操作时,最终作为输出的具体存储单元Bitcell的位置取决于列选择器的译码结果,选中的存储单元Bitcell的数据通过位线和列选择器后输出。
6.根据权利要求I所述的高性能静态随机存储器内部最优分级的架构,其特征在于包括用于接收二进制SRAM地址数据的输入锁存模块,其输出端依次通过两级译码器、字线驱动模块、字线译码器与存储阵列相连,存储阵列的每一行由N个所含存储单元Bitcell数目相等的存储模块组成,存储阵列内设触发器,存储阵列依次通过列选择器、灵敏放大器与输出驱动模块相连。
7.根据权利要求6所述的高性能静态随机存储器内部最优分级的架构,其特征在于所述的字线驱动模块与字线译码器相连,产生全局字线GWLL,字线译码器输出的全局字线GWLLpGWLL2……GWLLm与触发器的信号输入端相连,触发器的时序控制端接CLK时钟信号,译码后的全局字线GWLLp GWLL2……GWLLm作为行地址选择信号控制存储阵列中的存储单元Bitcell,存储单元Bitcell通过位线与列选择器相连。
全文摘要
本发明涉及高性能静态随机存储器内部最优分级的方法,该方法包括在全局字线GWLL和局部字线LocalWLL之间插入触发器,将存储阵列的每一行分成存储单元Bitcell数目相等的N个存储模块。本发明还公开了一种高性能静态随机存储器内部最优分级的架构。本发明通过Bitline放电延迟合理选择N的数目,可以实现第一级和第二级的总延迟近似相等,从而实现性能最优。假设字线分级后每行的存储模块个数为N,一行存储单元Bitcell总个数为T,若T=128,字线分组数N大于1,根据延迟分析模型可以得出分级数目越多,全局字线GWLL上延迟变化很小,而局部字线LocalWLL的延迟会大大降低。采用内部字线分级架构,相比于传统的架构,对于触发器的驱动能力要求大大降低,同样可以有效降低延迟。
文档编号G11C11/413GK102760487SQ20121028053
公开日2012年10月31日 申请日期2012年8月9日 优先权日2012年8月9日
发明者孟坚, 柏娜, 洪琪 申请人:安徽大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1