用于实现具有不同操作模式的多级存储器分级结构的设备和方法

文档序号：6485203阅读：176来源：国知局

用于实现具有不同操作模式的多级存储器分级结构的设备和方法
【专利摘要】描述用于在计算机系统中集成包括非易失性存储器层的存储器和存储分级结构的系统和方法。在一个实施例中，PCMS存储器装置用作分级结构中的一层，有时称作“远存储器”。更高性能存储器装置（例如DRAM）放置在远存储器前面并且用来掩蔽远存储器的性能限制的一些。这些更高性能存储器装置称作“近存储器”。在一个实施例中，“近存储器”配置成工作在多个不同操作模式中，包括(但不限于)：第一模式，其中近存储器作为远存储器的存储器高速缓存进行操作；以及第二模式，其中向近存储器分配系统地址空间的第一地址范围，其中向远存储器分配系统地址空间的第二地址范围，其中第一范围和第二范围表示整个系统地址空间。
【专利说明】用于实现具有不同操作模式的多级存储器分级结构的设备和方法
[0001]
【技术领域】
[0002]一般来说，本发明涉及计算机系统领域。更具体来说，本发明涉及用于实现多级存储器分级结构的设备和方法。
【背景技术】
[0003]A.当前存储器和存储配置
当今计算机革新的限制因素之一是存储器和存储技术。在常规计算机系统中，系统存储器(又称作主要存储器、主存储器、可执行存储器)通常由动态随机存取存储器(DRAM)来实现。基于DRAM的存储器甚至在没有存储器读取或写入发生时也消耗功率，因为它必须不断对内部电容器进行再充电。基于DRAM的存储器是易失性的，这意味着，一旦去除功率，则DRAM存储器中存储的数据丢失。常规计算机系统还依靠多级缓存来改进性能。高速缓存是定位在处理器与系统存储器之间的高速存储器，以便比可以从系统存储器服务于存储器存取请求更快地服务于存储器存取请求。这类高速缓存通常采用静态随机存取存储器(SRAM)来实现。高速缓存管理协议可用来确保将最频繁存取的数据和指令存储在高速缓存级之一中，由此减少存储器存取事务的数量并且改进性能。
[0004]关于大容量存储(又称作辅助存储或磁盘存储)，常规大容量存储装置通常包括磁介质(例如硬盘驱动器)、光介质(例如压缩盘(⑶)驱动器、数字多功能光盘(DVD)等)、全息介质和/或大容量闪速存储器(例如固态驱动器(SSD)、可拆卸闪存驱动器等)。一般来说，这些存储装置被认为是输入/输出(I/O)装置，因为它们由处理器经过实现各种I/O协议的各种I/O适配器来存取。这些I/O适配器和I/O协议消耗大量功率，并且能够对管芯面积和平台的形状因数具有显著影响。在没有连接到永久电源时，具有有限电池使用寿命的便携或移动装置(例如膝上型计算机、上网本、平板计算机、个人数字助理(PDA)、便携媒体播放器、便携游戏装置、数码相机、移动电话、智能电话、功能电话等)可包括可移动大容量存储装置(例如嵌入式多媒体卡(eMMC)、安全数字(SD)卡))，其通常经由低功率互连和I/O控制器耦合到处理器，以便满足活动和空闲功率预算。
关于固件存储器(例如引导存储器(又称作BIOS闪存))，常规计算机系统通常使用闪速存储器装置来存储经常被读取但很少(或者从不)被写入的永久系统信息。例如，在引导过程(基本输入和输出系统(BIOS)镜像)期间由处理器运行以初始化关键系统组件的初始指令通常存储在闪速存储器装置中。市场上当前可用的闪速存储器装置一般具有有限速度(例如50 MHz)。这个速度通过读协议的开销进一步减小(例如2.5 MHz)。为了加速BIOS执行速度，常规处理器一般在引导过程的预扩展固件接口(PEI)阶段期间缓存BIOS代码的一部分。处理器高速缓存的大小对PEI阶段中使用的BIOS代码(又称作“PEI BIOS代码”)的大小提出限制。B.相变存储器(PCM)及相关技术
有时又称作相变随机存取存储器(PRAM或PCRAM)、PCME、奥式统一存储器或硫属化物RAM(C-RAM)的相变存储器(PCM)是一种类型的非易失性计算机存储器，其利用硫属化物玻璃的独特行为。由于通过电流的经过所产生的热量，硫属化物玻璃能够在两种状态之间来切换:结晶和非晶。PCM的最近版本能够实现两种附加的不同状态。
[0005]PCM提供比闪存要高的性能，因为PCM的存储器元件能够更快速切换，写入(将单独位改变成I或O)能够在无需首先擦除单元的整个块的情况下进行，以及来自写入的降级较慢(PCM装置可经受得住大约I亿次写循环；PCM降级归因于编程、金属(和其它材料)迁移和其它机制期间的热膨胀)。
【专利附图】

【附图说明】[0006]以下的描述和附图用来说明本发明的实施例。附图中:
图1示出按照本发明的实施例的高速缓存和系统存储器布置；
图2示出本发明的实施例中采用的存储器和存储分级结构；
图3示出其上可实现本发明的实施例的计算机系统；
图4A示出按照本发明的实施例包括PCM的第一系统架构；
图4B示出按照本发明的实施例包括PCM的第二系统架构；
图4C示出按照本发明的实施例包括PCM的第三系统架构；
图4D示出按照本发明的实施例包括PCM的第四系统架构；
图4E示出按照本发明的实施例包括PCM的第五系统架构；
图4F示出按照本发明的实施例包括PCM的第六系统架构；
图4G示出按照本发明的实施例包括PCM的第七系统架构；
图4H示出按照本发明的实施例包括PCM的第八系统架构；
图41示出按照本发明的实施例包括PCM的第九系统架构；
图4J示出按照本发明的实施例包括PCM的第十系统架构；
图4K示出按照本发明的实施例包括PCM的第十一系统架构；
图4L示出按照本发明的实施例包括PCM的第十二系统架构；以及图4M示出按照本发明的实施例包括PCM的第十三系统架构；
图5A示出包括易失性近存储器和非易失性远存储器的系统架构的一个实施例；
图5B示出存储器侧高速缓存(MSC)的一个实施例；
图5C示出包括集成标签高速缓存和ECC生成/校验逻辑的存储器侧高速缓存(MSC)的另一个实施例；
图示出示范标签高速缓存和ECC生成器/校验单元的一个实施例；
图5E示出包括PCM控制器的PCM DI丽的一个实施例；
图6A示出按照本发明的一个实施例专用于某些所指定系统物理地址(SPA)范围的MCE控制器和高速缓存；
图6B示出按照本发明的一个实施例的系统存储器映射、近存储器地址映射和PCM地址映射之间的示范映射；
图6C示出按照本发明的一个实施例的系统物理地址(SPA)与PCM物理装置地址(PDA)或者近存储器地址(NMA)之间的示范映射；以及
图6D示出按照本发明的一个实施例的系统物理地址(SPA)空间与存储器通道地址(MCA)空间内的存储器页之间的交织。
【具体实施方式】
[0007]在以下描述中，阐述了诸如逻辑实现、操作码、用于指定操作数的装置、资源划分/共享/重复实现、系统组件的类型和相互关系以及逻辑划分/集成选择的许多具体细节，以便提供对本发明的更透彻了解。然而，本领域的技术人员将会理解，即使没有这类具体细节，也可实施本发明。在其它情况下，没有详细示出控制结构、门级电路和完整软件指令序列，以免影响混淆本发明。通过所包含的描述，本领域的技术人员将能够实现适当的功能性而无需过度的实验。
[0008]说明书中提到“ 一个实施例”、“实施例”、“ 一个示例实施例”等表示所述的实施例可包括特定特征、结构或特性，但可能不一定每一个实施例都包括该特定特征、结构或特性。此外，这类词语不一定指同一个实施例。此外，在结合一个实施例描述特定特征、结构或特性时，无论是否明确描述，认为结合其它实施例来实现这种特征、结构或特性是在本领域的技术人员的知识范围之内的。
[0009]在以下描述和权利要求书中，可使用术语“耦合”和“连接”及其派生。应当理解，这些术语并不是要作为彼此的同义词。“耦合”用于表示彼此可以有或者可以没有直接物理或电接触的两个或更多元件相互配合或交互。“连接”用于表示相互耦合的两个或更多元件之间的通信的建立。
[0010]加括号的文本以及具有虚线边界的框(例如长划线、短划线、点划线、点)在本文中有时用来示出可选操作/组件，其对本发明的实施例添加附加特征。但是，这种标记法不应当被理解为意味着这些是唯一选项或者可选的操作/组件，和/或具有实线边界的框在本发明的某些实施例中不是可选的。
[0011]介绍
随着不断增加数量的处理器核和新使用模型(例如虚拟化)，存储器容量和性能要求持续增加。另外，存储器功率和成本分别成为电子系统的总功率和成本的显著成分。
本发明的一些实施例通过在存储器技术之间智能地细分性能要求和容量要求，来解决上述难题。这种方式集中于采用相对少量的相对更高速率存储器，例如DRAM来提供性能，同时使用明显更廉价和密集的非易失性随机存取存储器(NVRAM)来实现系统存储器块。下面所述的本发明的实施例定义平台配置，其能够实现NVRAM的使用的分级存储器子系统组织。存储器分级结构中的NVRAM的使用还实现新使用，例如扩展引导空间和大容量存储实现，如下面详细描述。
[0012]图1示出按照本发明的实施例的高速缓存和系统存储器布置。具体来说，图1示出存储器分级结构，包括:一组内部处理器高速缓存120，充当远存储器高速缓存121的“近存储器”，其可包括一个或多个内部高速缓存106和外部高速缓存107-109，以及“远存储器” 122。在本发明的一些实施例中可用于“远存储器”的一种特定类型的存储器是非易失性随机存取存储器(“NVRAM”)。因此，下面提供NVRAM的概述，之后接着远存储器和近存储器的概述。[0013]A.非易失性随机存取存储器(“NVRAM”)
存在NVRAM的许多可能技术选择，包括PCM、相变存储器和开关(PCMS)(后者是前者的更具体实现)、字节可寻址永久存储器(BPRAM)、存储类存储器(SCM)、通用存储器、Ge2Sb2Te5、可编程金属化单元(PMC)、电阻存储器(RRAM)、RESET (非晶)单元、SET (结晶)单元、PCME、0Vshinsky存储器、铁电存储器(又称作聚合物存储器和聚(N-乙烯基咔唑))、铁磁存储器(又称作自旋电子、SPRAM (自旋转移矩RAM)、STRAM (自旋隧穿RAM)、磁阻存储器、磁存储器、磁随机存取存储器(MRAM))以及半导体-氧化物-氮化物-氧化物-半导体(S0N0S,又称作介电存储器)。
NVRAM具有下列特性:
(1)它即使在去除功率之后也保持其内容，与固态硬盘(SSD)中使用的闪速存储器相似，但是与易失性的SRAM和DRAM不同；
(2)比诸如SRAM和DRAM的易失性存储器要低的功率消耗；
(3)与SRAM和DRAM相似的随机存取(也称作随机可寻址)；
(4)以比SSD中存在的闪存(其只能够每次一个“块”来重写和擦除一在大小方面对于NOR闪存最小为64 Kbyte以及对NAND闪存为16 Kbyte)要低的粒度等级可重写和可擦除；
(5)用作系统存储器并且分配有系统存储器地址空间的全部或者一部分；
(6)能够使用事务协议(支持区分不同事务的事务标识符(ID)以使得那些事务能够无序完成的协议)通过总线耦合到处理器，并且允许以足够小的粒度等级的存取以支持作为系统存储器的NVRAM的操作(例如，诸如64或128字节的高速缓存线大小)。例如，总线可以是存储器总线(例如，诸如DDR3、DDR4等的DDR总线)，通过其运行事务协议(与正常使用的非事务协议相反)。作为另一个示例，总线可以是通过其正常运行事务协议(本地事务协议)的总线，例如PCI express (PCIE)总线、桌面管理界面(DMI)总线或者利用事务协议和足够小的事务有效载荷大小(例如，诸如64或128字节的高速缓存线大小)的任何其它类型的总线；以及
(6)下列一个或多个:
a)比非易失性存储器/存储技术(例如闪存)要快的写入速度；
b)极高的读取速度(比闪存和近存储器要快或者等于DRAM读取速度)；
c)直接可写(而不是像SSD中使用的闪速存储器那样要求在写入数据之前进行擦除(以Is进行重写))；
d)在故障之前更大数量的写入(比SSD中使用的闪存和引导ROM要多)；和/或
如上所述，与闪速存储器(其必须每次一个完整“块”来重写和擦除)相对照，在任何
给定实现中用以存取NVRAM的粒度等级可取决于特定存储器控制器和特定存储器总线或者NVRAM耦合到其的其它类型的总线。例如，在NVRAM用作系统存储器的一些实现中，尽管以字节的粒度来存取的固有能力，但是NVRAM可以以高速缓存线(例如64字节或128字节高速缓存线)的粒度来存取，因为高速缓存线是存储器子系统存取存储器的等级。因此，当NVRAM部署在存储器子系统中时，它可在与同一存储器子系统中使用的DRAM(例如“近存储器”)相同的粒度等级来存取。即使如此，由存储器控制器和存储器总线或者其它类型的总线对NVRAM的存取的粒度等级也比由闪存所使用的块大小以及I/O子系统的控制器和总线的存取大小要小。
[0014]NVRAM还可合并损耗平衡算法以考虑如下事实:在远存储器级的存储单元在多个写入存取之后开始损耗，特别是在大量写入例如在系统存储器实现中可发生的情况下。由于高循环计数块最可能这样损耗，所以损耗平衡通过与低循环计数块交换高循环计数块的地址，来扩展跨远存储器单元的写入。注意，大多数地址交换通常对应用程序是透明的，因为它由硬件、低级软件(例如低级驱动程序或操作系统)或者两者的组合来处理。
B.远存储器
本发明的一些实施例的远存储器122采用NVRAM来实现，但是不一定局限于任何特定存储器技术。远存储器122根据其特性和/或它在存储器/存储分级结构中的应用与其它指令和数据存储器/存储技术是可加以区分的。例如，远存储器122不同于:
静态随机存取存储器(SRAM)，其可用于分别专门用于处理器核101-104的每个的第O级和第I级内部处理器高速缓存101a-b、102a-b、103a-b、103a_b和104a_b以及由处理器核所共享的低级高速缓存(LLC) 105 ；
动态随机存取存储器(DRAM)，配置为处理器100内部(例如在与处理器100相同的管芯上)的高速缓存106，和/或配置为处理器外部(例如在与处理器100相同或不同的封装中)的一个或多个高速缓存107-109 ;以及
闪速存储器/磁盘/光盘，作为大容量存储(未示出)来应用；以及存储器，例如闪速存储器或者其它只读存储器(R0M)，作为固件存储器(其可以指引导ROM、BIOS闪存和/或TPM闪存)(未示出)来应用。
[0015]远存储器122可用作指令和数据存储，其是由处理器100直接可寻址的，并且与作为大容量存储所应用的闪存/磁盘/光盘相对照，能够与处理器100保持同步。此外，如上所述以及如以下详细描述，远存储器122可放置于存储器总线上，并且可与存储器控制器(其又与处理器100直接通信)直接通信。
远存储器122可与其它指令和数据存储技术(例如DRAM)相结合，以便形成混合存储器(又称作并存PCM和DRAM ;第一级存储器和第二级存储器；FLAM(闪存和DRAM))。注意，包括PCM/PCMS的上述技术的至少一些可用作大容量存储来作为对系统存储器的替代或补充，并且在以这种方式应用时无需是由处理器随机可存取的、字节可寻址的或者直接可寻址。
为了便于说明，应用的其余部分的大多数将涉及作为远存储器122的技术选择的“NVRAM”或者更具体来说是“PCM”或“PCMS”。因此，术语NVRAM、PCM、PCMS和远存储器可在下列论述中可互换地使用。但是，应当认识到，如上所述，不同技术也可用于远存储器。而且，NVRAM也并不局限于用作远存储器。
[0016]C.近存储器
“近存储器” 121是在远存储器122前面所配置的存储器的中间级，其具有相对于远存储器的较低读取/写入存取等待时间，和/或更加对称读取/写入存取等待时间(即，具有大致等于写入时间的读取时间)。在一些实施例中，近存储器121具有比远存储器122明显要低的写入等待时间但是具有相似(例如略低或相等)读取等待时间；例如，近存储器121可以是易失性存储器，例如易失性随机存取存储器(VRAM)，并且可包括DRAM或者其它高速基于电容器的存储器。但是要注意，本发明的基本原理并不局限于这些特定存储器类型。另外相比于远存储器122，近存储器121可具有相对更低密度，和/或更高的制造费用。
[0017]在一个实施例中，近存储器121配置在远存储器122与内部处理器高速缓存120之间。在以下所述的实施例的一些中，近存储器121配置为一个或多个存储器侧高速缓存(MSC) 107-109，以掩蔽远存储器的性能和/或使用限制，包括例如读取/写入等待时间限制和存储器降级限制。在这些实现中，MSC 107-109和远存储器122的组合以近似、相当或超过仅使用DRAM作为系统存储器的系统的性能等级进行操作。如下面详细论述，虽然在图1中示为“高速缓存”，但是近存储器121可包括其中它执行其它作用的模式，作为对执行高速缓存的作用的补充或替代。
近存储器121能够位于处理器管芯上(如(一个或多个)高速缓存106)和/或位于处理器管芯外部(如高速缓存107-109)(例如在位于CPU封装的独立管芯上，位于具有到CPU封装的高带宽链路的CPU封装外部，例如在存储器双列直插存储器模块(DIMM)、扩充卡/夹层卡或者计算机主板上)。近存储器121可耦合成使用单个或多个高带宽链路，例如DDR或其它事务高带宽链路(如以下详细描述)与处理器100进行通信。
[0018]示范系统存储器分配方案
图1示出在本发明的实施例中如何相对系统物理地址(SPA)空间116-119来配置各级高速缓存101-109。如所述，这个实施例包括具有一个或多个核101-104的处理器100，其中各个核具有其自己的专用上级高速缓存(L0)101a-104a和中间级高速缓存(MLC) (LI)高速缓存101b-104b。处理器100还包括共享LLC 105。这些各个高速缓存级的操作是很好被理解的，并且在这里不作详细描述。
[0019]图1所示的高速缓存107-109可专用于特定系统存储器地址范围或者一组非邻近地址范围。例如，高速缓存107专用于充当系统存储器地址范围#1 116的MSC，以及高速缓存108和109专用于充当系统存储器地址范围#2 117和#3 118的非重叠部分的MSC。后一种实现可用于其中将由处理器100所使用的SPA空间交织为由高速缓存107-109所使用的地址空间(例如，当配置为MSC时)的系统。在一些实施例中，这后一个地址空间称作存储器通道地址(MCA)空间。在一个实施例中，内部高速缓存101a-106执行整个SPA空间的缓存操作。
如本文所使用的系统存储器是对于运行于处理器100的软件可见的和/或直接可寻址的；而在高速缓冲存储器101a-109没有形成系统地址空间的直接可寻址部分的意义上可对软件透明地操作，但是核还可支持指令的执行，以允许软件向一个或多个高速缓存的部分或全部提供某种控制(配置、策略、暗示等)。系统存储器细分为区域116-119可作为系统配置过程的一部分手动执行(例如由系统设计人员)，和/或可由软件自动执行。
[0020]在一个实施例中，系统存储器区域116-119使用远存储器(例如PCM)、以及在一些实施例中使用配置为系统存储器的近存储器来实现。系统存储器地址范围#4表示一个地址范围，其使用高速存储器，例如DRAM(其可以是按照系统存储器模式(与缓存模式相反)所配置的近存储器)来实现。
[0021]图2示出按照本发明的实施例的存储器/存储分级结构140以及近存储器144和NVRAM的不同可配置操作模式。存储器/存储分级结构140具有多级，其中包括:(I)高速缓存级150，其可包括处理器高速缓存150A(例如图1中的高速缓存101A-105)和作为远存储器150B的高速缓存的可选近存储器(按照如本文所述的某些操作模式)；(2)系统存储器级151，其可包括远存储器151B(例如，NVRAM，如PCM)(当近存储器存在时)，(或者当近存储器不存在时只是作为系统存储器174的NVRAM)以及可选地作为系统存储器151A进行操作的近存储器(按照如本文所述的某些操作模式)；(3)大容量存储级152，其可包括闪速/磁/光大容量存储152B和/或NVRAM大容量存储152A (例如NVRAM 142的一部分)；以及(4)固件存储器级153，其可包括BIOS闪存170和/或BIOS NVRAM 172和可选的可信平台模式(TPM)NVRAM 173。
如所示，近存储器144可实现成工作在多种不同模式，包括:第一模式，其中它作为远存储器的高速缓存进行操作(作为FM 150B的高速缓存的近存储器)；第二模式，其中它作为系统存储器151A进行操作，并且占用SPA空间的一部分(有时称作近存储器“直接存取”模式)；以及一个或多个附加操作模式，例如暂存器192或者写缓冲器193。在本发明的一些实施例中，近存储器是可分区的，其中各分区可并发地工作在所支持模式的不同模式；以及不同实施例可通过硬件(例如熔丝、引脚)、固件和/或软件(例如经过MSC控制器124中的一组可编程范围寄存器，例如其中可存储不同的二进制代码以识别各模式和分区)来支持分区的配置(例如大小、模式)。
[0022]图2中的系统地址空间A 190用来示出当近存储器配置为远存储器150B的MSC时的操作。在这种配置中，系统地址空间A 190表示整个系统地址空间(并且系统地址空间B 191不存在)。备选地，系统地址空间B 191用来示出在为近存储器的全部或者一部分被指派系统地址空间的一部分时的实现。在这个实施例中，系统地址空间B 191表示向近存储器151A所指派的系统地址空间的范围，以及系统地址空间A 190表示向NVRAM 174所指派的系统地址空间的范围。
[0023]另外，在充当远存储器150B的高速缓存时，近存储器144可在MSC控制器124的控制下工作在各种子模式中。在这些模式的每个中，在近存储器没有形成系统地址空间的直接可寻址部分的意义上，近存储器地址空间(NMA)对软件是透明的。这些模式包括但并不限于以下:
(I)回写缓存模式:在这种模式中，充当FM高速缓存150B的近存储器的全部或部分用作NVRAM远存储器(FM) 15IB的高速缓存。在处于回写模式时，每一个写操作最初定向到作为FM 150B的高速缓存的近存储器(假定对其定向写入的高速缓存线存在于高速缓存中)。仅当作为FM 150B的高速缓存的近存储器中的高速缓存线将由另一个高速缓存线来替代时，才执行对应写操作以更新NVRAM FM 151B (与以下所述的直写模式相反，其中每个写操作立即传播到NVRAM FM 151B)。
[0024](2)近存储器旁路模式:在这种模式中，所有读和写绕过充当FM高速缓存150B的匪，并且直接转到NVRAM FM 151B。例如当应用不是高速缓存友好的或者要求数据以高速缓存线的粒度致力于持久化时，可使用这种模式。在一个实施例中，由处理器高速缓存150A和充当FM高速缓存150B的匪所执行的缓存相互无关地进行操作。因此，数据可缓存在充当FM高速缓存150B的匪中，其没有缓存在处理器高速缓存150A中(并且其在一些情况下可能不准许被缓存在处理器高速缓存150A中)，反过来也是一样。因此，可指定为在处理器高速缓存中“不可缓存的”某些数据可缓存在充当FM高速缓存150B的匪中。
[0025](3)近存储器读-高速缓存写旁路模式:这是上述模式的变化，其中允许来自NVRAM FM 151 B的永久数据的读缓存(即，永久数据缓存在作为用于只读操作的远存储器150B的高速缓存的近存储器中)。当永久数据的大多数是“只读”并且应用使用是高速缓存友好时，这是有用的。
[0026](4)近存储器读-高速缓存直写模式:这是近存储器读-高速缓存写旁路模式的变化，其中除了读缓存之外还缓存写命中。对作为FM 150B的高速缓存的近存储器的每一个写入引起对FM 151B的写入。因此，由于高速缓存的直写性质，高速缓存线持久仍然得到保证。
[0027]在近存储器直接存取模式中起作用时，作为系统存储器151A的近存储器的全部或部分是软件直接可见的，并且形成SPA空间的部分。这种存储器可完全在软件控制之下。这种方案可创建软件的非均匀存储器地址(NUMA)存储器域，其中它相对于NVRAM系统存储器174从近存储器144获得更高性能。作为举例而不是限制，这种使用可用于某些高性能计算(HPC)和图形应用(其要求对某些数据结构的极快速存取。
在一个备选实施例中，近存储器直接存取模式通过“牵制”近存储器中的某些高速缓存线(即，具有也并发地存储在NVRAM 142中的数据的高速缓存线)来实现。这种牵制可在较大的多路组关联高速缓存中有效地进行。
[0028]图2还示出NVRAM 142的一部分可用作固件存储器。例如，BIOS NVRAM 172部分可用来存储BIOS镜像(作为对在BIOS闪存170中存储BIOS信息的替代或补充)。BIOSNVRAM部分172可以是SPA空间的一部分，并且是由运行于处理器核101-104上的软件直接可寻址的，而BIOS闪存170是经过1/0子系统115可寻址的。作为另一个示例，可信平台模块(TPM)NVRAM 173部分可用来保护敏感系统信息(例如加密密钥)。
[0029]因此，如所示，NVRAM 142可实现成工作在多种不同模式，包括作为远存储器151B(例如，当近存储器144存在/进行操作时，无论近存储器是否经由MSC控制124充当FM的高速缓存(在一个或多个高速缓存101A-105之后并且在没有MSC控制124的情况下直接存取));只是NVRAM系统存储器174 (不是作为远存储器，因为没有近存储器存在/进行操作；并且在没有MSC控制124的情况下存取)；NVRAM大容量存储152A ；B10S NVRAM 172 ；以及TPM NVRAM 173。虽然不同实施例可按照不同方式来指定NVRAM模式，图3描述解码表333的使用。
[0030]图3示出其上可实现本发明的实施例的示范计算机系统300。计算机系统300包括处理器310以及具有用于系统存储器、大容量存储和可选固件存储器的NVRAM 142的存储器/存储子系统380。在一个实施例中，NVRAM 142包括由计算机系统300用于存储数据、指令、状态和其它永久和非永久信息的整个系统存储器和存储分级结构。如先前所述，NVRAM 142能够配置成实现系统存储器、大容量存储和固件存储器、TPM存储器等的典型存储器和存储分级结构中的作用。在图3的实施例中，NVRAM 142分区为FM 151B、NVRAM大容量存储152A、B10S NVRAM 173和TMP NVRAM 173。还预期具有不同作用的存储分级结构，并且NVRAM 142的应用并不局限于上述作用。
作为举例，描述当作为FM 150B的高速缓存的近存储器处于回写缓存中时的操作。在一个实施例中，虽然作为FM 150B的高速缓存的近存储器处于上述回写缓存模式中，但是读操作将首先到达MSC控制器124，其将执行查找以确定所请求数据是否存在于充当FM150B的高速缓存的近存储器中(例如利用标签高速缓存342)。如果存在的话，则它将经过1/0子系统115将数据返回到请求CPU核101-104或1/0装置。如果数据不存在的话，则MSC控制器124将向NVRAM控制器332发送请求连同系统存储器地址。NVRAM控制器332将使用解码表333来将系统存储器地址转换成NVRAM物理装置地址(PDA)，并且将读操作定向到远存储器151B的这个区域。在一个实施例中，解码表333包括地址间接表(AIT)组件，NVRAM控制器332使用其在系统存储器地址与NVRAM PDA之间进行转换。在一个实施例中，作为实现成分配存储器地址操作并且由此降低对NVRAM FM 151B的损耗的损耗平衡算法的一部分来更新AIT。备选地，AIT可以是NVRAM控制器332中存储的独立表。
在接收来自NVRAM FM 151B的所请求数据时，NVRAM控制器332将所请求数据返回给MSC控制器124，其将数据存储在充当FM高速缓存150B的MSC近存储器中，并且还通过I/O子系统115将数据发送给请求处理器核101-104或I/O装置。对这个数据的后续请求可直接从充当FM高速缓存150B的近存储器来服务，直到它由其它某些NVRAM FM数据替代。
[0031]如所述，在一个实施例中，存储器写操作也首先转到MSC控制器124，其将它写入充当FM高速缓存150B的MSC近存储器中。在回写缓存模式中，在接收写操作时，数据可能没有直接发送给NVRAM FM 151B。例如，仅当充当FM高速缓存150B (其中存储数据)的MSC近存储器中的位置必须再用于存储不同系统存储器地址的数据时，数据才可发送给NVRAMFM 151B。当这种情况发生时，MSC控制器124注意到数据在NVRAM FM 151B中不是当前的，以及因此将从充当FM高速缓存150B的近存储器中对它进行检索，并且将它发送给NVRAM控制器332JVRAM控制器332查找系统存储器地址的PDA，并且将数据写到NVRAM FM 151B。
[0032]图3中，NVRAM控制器332示为使用三个独立线路连接到FM 15IB、NVRAM大容量存储152A和BIOS NVRAM 172。但是，这不一定意味着存在将NVRAM控制器332连接到NVRAM142的这些部分的三个独立物理总线或通信通道。而是在一些实施例中，公共存储器总线或者另一类型的总线(例如以下针对图4A-M所述的那些总线)用来在通信上将NVRAM控制器332连接到FM 151B、NVRAM大容量存储152A和BIOS NVRAM 172。例如，在一个实施例中，图3中的三个线条表示总线，例如存储器总线(例如DDR3、DDR4等总线)，NVRAM控制器332通过其实现与NVRAM 142进行通信的事务协议。NVRAM控制器332还可通过支持本地事务协议的总线(例如PCI express总线、桌面管理界面(DMI)总线或者利用事务协议和足够小的事务有效载荷大小(例如，诸如64或128字节的高速缓存线大小)的任何其它类型的总线)来与NVRAM 142进行通信。
[0033]在一个实施例中，计算机系统300包括集成存储器控制器(MC) 331，其执行处理器310的中央存储器存取控制，存储器控制器(MC) 331耦合到:1)存储器侧高速缓存(MSC)控制器124，以控制对充当远存储器高速缓存150B的近存储器(NM)的存取；以及2)NVRAM控制器332，以控制对NVRAM 142的存取。虽然图3中示为独立单元，但是MSC控制器124和NVRAM控制器332可在逻辑上形成MC 331的一部分。
[0034]在所示实施例中，MSC控制器124包括一组范围寄存器336，其指定用于充当远存储器高速缓存150B的NM的操作模式(例如，回写缓存模式、近存储器旁路模式等，以上所述)。在所示实施例中，DRAM 144用作用于充当远存储器150B的高速缓存的NM的存储器技术。响应存储器存取请求，MSC控制器124可确定(根据范围寄存器336中指定的操作模式)该请求是否能够从充当FM 150B的高速缓存的匪来服务或者该请求是否必须发送给NVRAM控制器332，其然后可从NVRAM 142的远存储器(FM)部分151B来服务于该请求。
[0035]在NVRAM 142采用PCMS来实现的一个实施例中，NVRAM控制器332是PCMS控制器，其采用符合PCMS技术的协议来执行存取。如先前所述，PCMS存储器固有地能够以字节的粒度来存取。然而，NVRAM控制器332可在较低粒度等级，例如高速缓存线(例如64位或128位高速缓存线)或者符合存储器子系统的任何其它粒度等级来存取基于PCMS的远存储器151B。本发明的基本原理并不局限于用于存取基于PCMS的远存储器151B的任何特定粒度等级。但是，一般来说，当基于PCMS的远存储器151B用来形成系统地址空间的一部分时，粒度等级将高于传统上用于例如闪存的其它非易失性存储技术的粒度等级，闪存只能以“块”等级来执行重写和擦除操作(在大小方面对于NOR闪存最小为64 Kbyte以及对于 NAND 闪存为 16 Kbyte)。
[0036]在所示实施例中，NVRAM控制器332能够读取配置数据，以便从解码表333来建立NVRAM 142的先前所述模式、大小等，或者备选地能够依靠从MC 331和I/O子系统315所传递的解码结果。例如，在制造时或者在现场，计算机系统300能够将解码表333编程为将NVRAM 142的不同区域标记为系统存储器、经由SATA接口所展示的大容量存储、经由USB批量传输(BOT)接口所展示的大容量存储、支持TPM存储的加密存储等等。将存取导向NVRAM装置142的不同分区的方法是经由解码逻辑进行。例如，在一个实施例中，各分区的地址范围在解码表333中定义。在一个实施例中，当MC 331接收存取请求时，请求的目标地址经过解码以揭示该请求是定向到存储器、NVRAM大容量存储还是I/O。如果它是存储器请求，贝丨J MC 331和/或MSC控制器124还从目标地址来确定该请求是定向到作为FM 150B的高速缓存的FM或者定向到FM 151B。对于FM 151B存取，将请求转发到NVRAM控制器332。如果请求被定向到1/0(例如非存储和存储I/O装置)，则IMC 331将这个请求传递给I/O子系统115。I/O子系统115还对地址进行解码，以确定该地址指向NVRAM大容量存储152A、BIOS NVRAM 172还是其它非存储或存储I/O装置。如果这个地址指向NVRAM大容量存储152A或BIOS NVRAM 172，则子系统115将该请求转发到NVRAM控制器332。如果这个地址指向TMP NVRAM 173，则I/O子系统115将该请求传递给TPM 334以执行安全存取。
[0037]在一个实施例中，转发到NVRAM控制器332的各请求伴随指示存取类型的属性(又称作“事务类型”)。在一个实施例中，NVRAM控制器332可模拟所请求存取类型的存取协议，使得平台的其余部分仍然不知道由NVRAM 142在存储器和存储分级结构中执行的多个作用。在备选实施例中，NVRAM控制器332可执行对NVRAM 142的存储器存取，而不管它是哪一种事务类型。要理解，解码路径能够与以上所述的不同。例如，MC 331可对存取请求的目标地址进行解码，并且确定它是否定向到NVRAM 142。如果它定向到NVRAM 142，则IMC 331按照解码表333来生成属性。基于该属性，IMC 331则将请求转发到适当的下游逻辑(例如NVRAM控制器332和I/O子系统315)以执行所请求数据存取。在又一个实施例中，如果对应属性没有从上游逻辑(例如MC 331和I/O子系统315)传递，则NVRAM控制器332可对目标地址进行解码。也可实现其它解码路径。
[0038]诸如本文所述的新存储器架构的存在提供大量新的可能性。虽然下面进一步更为详细地进行论述，但是下面立即快速强调这些可能性的一部分。
[0039]按照一个可能实现，NVRAM 142充当系统存储器中的传统DRAM技术的完全替代或补充。在一个实施例中，NVRAM 142表示引入第二级系统存储器(例如，系统存储器可被看作具有包括作为高速缓存150B(DRAM装置340的一部分)的近存储器的第一级系统存储器以及包括远存储器(FM) 15IB (NVRAM 142的一部分)的第二级系统存储器)。按照一些实施例，NVRAM 142充当闪速/磁/光大容量存储152B的完全替代或补充。如先前所述，在一些实施例中，即使NVRAM 152A能够具有字节级可寻址性，NVRAM控制器332仍然可根据实现(例如，64 Kbyte、128 Kbyte等)按照多个字节的块来存取NVRAM大容量存储152A。由NVRAM控制器332从NVRAM大容量存储152A存取数据的特定方式可对处理器310所运行的软件是透明的。例如，即使可从闪速/磁/光大容量存储152A以不同方式来存取NVRAM大容量存储152A，操作系统仍然可将NVRAM大容量存储152A看作是标准大容量存储装置(例如串行ATA硬盘驱动器或者其它标准形式的大容量存储装置)。
在NVRAM大容量存储152A充当闪速/磁/光大容量存储152B的完全替代的一个实施例中，不需要将存储驱动程序用于块可寻址存储存取。去除来自存储存取的存储驱动程序开销能够增加存取速度并且节省功率。在期望NVRAM大容量存储152A对OS和/或应用看来是作为块可存取并且与闪速/磁/光大容量存储152B是不可区分的备选实施例中，模拟存储驱动程序能够用来向用于存取NVRAM大容量存储152A的软件展示块可存取接口(例如，通用串行总线(USB)批量传输(BOT) 1.0、串行高级技术附连(SATA) 3.0等)。
[0040]在一个实施例中，NVRAM 142充当固件存储器，例如BIOS闪存362和TPM闪存372(图3中以虚线示出，以指示它们是可选的)的完全替代或补充。例如，NVRAM 142可包括BIOS NVRAM 172部分以补充或替代BIOS闪存362，并且可包括TPM NVRAM 173部分以补充或替代TPM闪存372。固件存储器还能够存储由TPM 334用来保护敏感系统信息(例如加密密钥)的系统永久状态。在一个实施例中，将NVRAM 142用于固件存储器消除了对第三方闪存部件存储对系统操作关键的代码和数据的需要。
然后继续图3的系统的论述，在一些实施例中，计算机系统100的架构可包括多个处理器，但是为了简洁起见，图3中示出单个处理器310。处理器310可以是任何类型的数据处理器，包括通用或专用中央处理器单元(CPU)、专用集成电路(ASIC)或者数字信号处理器(DSP)。例如，处理器310可以是通用处理器，例如Core? i3、i5、i7、2 Duo和Quad、Xeon ?或者Itanium ?处理器,其全部可从加利福尼亚圣克拉拉的Intel Corporation得至丨J。备选地，处理器310可来自另一个公司，例如ARM Holdings, Ltd (Synnyvale, CA)、MIPSTechnologies (Synnyvale, CA)等。处理器310可以是专用处理器,例如网络或通信处理器、压缩引擎、图形处理器、协处理器、嵌入式处理器等。处理器310可在一个或多个封装中包含的一个或多个芯片上实现。处理器310可以是一个或多个衬底的一部分和/或可使用多种工艺技术的任一种(例如BiCMOS、CMOS或NM0S)在一个或多个衬底上实现。在图3所示的实施例中，处理器310具有芯片上系统(SOC)配置。
[0041 ] 在一个实施例中，处理器310包括集成图形单元311，其包括用于运行图形命令，例如3D或2D图形命令的逻辑。虽然本发明的实施例并不局限于任何特定集成图形单元311，但是在一个实施例中，图形单元311能够运行工业标准图形命令，例如由Open GL和/或Direct X应用编程接口 (API)(例如OpenGL 4.1和Direct X 11)所规定的那些命令。
[0042]处理器310还可包括一个或多个核101-104，但是再次为了清楚起见，图3中示出单个核。在许多实施例中，一个或多个核101-104包括内部功能块，例如一个或多个执行单元、退出单元、一组通用和特定寄存器等。如果一个或多个核是多线程或超线程的，则各硬件线程也可被认为是“逻辑”核。核101-104在架构和/或指令集方面可以是同构或异构的。例如，一部分核可以是有序的，而其它核是无序的。作为另一个示例，两个或更多核可以能够运行同一指令集，而其它核可以能够仅运行那个指令集的子集或者不同的指令集。
[0043]处理器310还可包括一个或多个高速缓存，例如高速缓存313，其可实现为SRAM和/或DRAM。在未示出的许多实施例中，除了高速缓存313之外的附加高速缓存实现成使得多级高速缓存存在于一个或多个核101-104中的执行单元与存储器装置150BU51B之间。例如，共享高速缓存单元集合可包括上级高速缓存(例如第I级(LI)高速缓存)、中间级高速缓存(例如第2级(L2)、第3级(L3)、第4级(L4)或者其它级高速缓存)、(LLC)和/或其不同组合。在不同的实施例中，高速缓存313可按照不同方式来分配，并且在不同实施例中可以是许多不同大小其中之一。例如，高速缓存313可以是8兆字节(MB)高速缓存、16MB高速缓存等。另外，在不同实施例中，高速缓存可以是直接映射高速缓存、全关联高速缓存、多路组关联高速缓存或者具有另一种类型的映射的高速缓存。在包括多个核的其它实施例中，高速缓存313可包括在所有核之间共享的一个大部分，或者可分为若干独立功能层面(例如每个核一个层面)。高速缓存313还可包括在所有核之间共享的一部分以及作为每个核的独立功能层面的若干其它部分。
[0044]处理器310还可包括归属代理314,其包括协调和操作一个或多个核101-104的那些组件。归属代理单元314可包括例如功率控制单元(P⑶)和显示单元。P⑶可以是或者包括调节一个或多个核101-104和集成图形单元311的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
[0045]如所述，在一些实施例中，处理器310包括集成存储器控制器(MC) 331、近存储器高速缓存(MSC)控制器和NVRAM控制器332，其全部能够在与处理器310相同的芯片上或者在连接到处理器310的独立芯片和/或封装上。DRAM装置144可以在与MC 331和MSC控制器124相同的芯片或者不同的芯片上；因此，一个芯片可具有处理器310和DRAM装置144 ;一个芯片可具有处理器310和另一个DRAM装置144以及(这些芯片可以在相同或不同的封装中)；一个芯片可具有一个或多个核101-104和另一个MC 331、MSC控制器124和DRAM 144(这些芯片可以在相同或不同的封装中)；一个芯片可具有一个或多个核101-104、另一个MC 331和MSC控制器124和另一个DRAM 144 (这些芯片可以在相同或不同的封装中)；等等。
在一些实施例中，处理器310包括耦合到MC 331的I/O子系统115。I/O子系统115实现处理器310与下列串联或并行I/O装置之间的通信:一个或多个网络336 (例如局域网、广域网或因特网)、存储I/O装置(例如闪速/磁/光大容量存储152B、B10S闪存362、TPM闪存372)以及一个或多个非存储I/O装置337 (例如显示器、键盘、扬声器等)。I/O子系统115可包括平台控制集线器(PCH)(未示出)，其还包括若干I/O适配器338和其它I/O电路，以提供对存储和非存储I/O装置和网络的存取。为了实现这个方面，I/O子系统115可具有用于所使用的每个I/O协议的至少一个集成I/O适配器338。I/O子系统115能够在与处理器310相同的芯片上或者在连接到处理器310的独立芯片和/或封装上。
[0046]I/O适配器338将处理器310中利用的主机通信协议转换成与特定I/O装置兼容的协议。对于闪速/磁/光大容量存储152B，I/O适配器338可转换的协议的一些包括外设部件互连(PCI)-Express (PC1-E) 3.0、USB 3.0、SATA 3.0、小型计算机系统接口 (SCSI)Ultra-640以及电气和电子工程师协会(ffiEE) 1394“Firewire”等等。对于BIOS闪存362，I/O适配器338可转换的协议的一些包括串行外设接口(SPI)、Microwire等等。另外，可存在一个或多个无线协议I/O适配器。无线协议等等的示例用于个人区域网络(例如IEEE802.15和蓝牙4.0)、无线局域网(例如基于IEEE 802.11的无线协议)和蜂窝协议中。
[0047]在一些实施例中，I/O子系统115耦合到TPM控制334以控制对系统永久状态(例如安全数据、加密密钥、平台配置信息等)的存取。在一个实施例中，这些系统永久状态存储在TMP NVRAM 173中，并且经由NVRAM控制器332来存取。
[0048]在一个实施例中，TPM 334是具有密码功能性的安全微控制器。TPM 334具有多个信任相关能力，例如用于确保由TPM所保护的数据只可用于同一 TPM的SEAL能力。TPM334能够使用其加密能力来保护数据和密钥(例如秘密)。在一个实施例中，TPM 334具有唯一和秘密RSA密钥，这允许它认证硬件装置和平台。例如，TPM 334能够验证寻求对计算机系统300中存储的数据的存取的系统是预期的系统。TPM 334也能够报告平台(例如计算机系统300)的完整性。这允许外部资源(例如网络上的服务器)确定平台的可信度，但是不防止用户接入平台。
[0049]在一些实施例中，I/O子系统315还包括管理引擎(ME) 335，其是允许系统管理员监测、维护、更新、升级和修复计算机系统300的微处理器。在一个实施例中，系统管理员能够通过经由网络336编辑解码表333的内容来远程配置计算机系统300。
为了便于说明，应用的其余部分有时表示作为PCMS装置的NVRAM 142。PCMS装置包括多层(垂直堆叠)PCM单元阵列，其是非易失性的，具有低功率消耗，并且在比特级是可修改的。因此，术语NVRAM装置和PCMS装置可在下列论述中可互换地使用。但是，应当知道，如上所述，除了 PCMS之外的不同技术也可用于NVRAM 142。
[0050]应当理解，计算机系统能够将NVRAM 142用于系统存储器存取、大容量存储、固件存储器和/或其它存储器和存储目的，即使那个计算机系统的处理器没有处理器310的所有上述组件，或者具有比处理器310要多的组件。
[0051]在图3所示的具体实施例中，MSC控制器124和NVRAM控制器332位于与处理器310相同的管芯或封装(称作CPU封装)上。在其它实施例中，MSC控制器124和/或NVRAM控制器332可位于管芯外或CPU封装外，通过诸如存储器总线(例如DDR总线(例如DDR3、DDR4等))、PCI express总线、桌面管理接口(DMI)总线或者任何其它类型总线的总线耦合到处理器310或CPU封装。
[0052]示范PCM总线和封装配置
图4A-M示出多种不同部署，其中处理器、近存储器和远存储器按照不同方式来配置和封装。具体来说，图4A-M所示的平台存储器配置系列实现新非易失性系统存储器的使用，例如PCM技术或者更具体来说是PCMS技术。
虽然相同数字标号用于图4A-M中的多个附图，但是这不一定意味着由那些数字标号所标识的结构始终是相同的。例如，虽然相同数字在若干附图中用来标识集成存储器控制器(MC)331和CPU 401，但是这些组件可在不同附图中以不同方式来实现。没有强调这些差别中的一些，因为它们不是与了解本发明的基本原理相关的。
[0053]虽然下面描述若干不同系统平台配置方式，但是这些方式分成两大类别:分离架构，以及统一架构。简言之，在分离架构方案中，存储器侧高速缓存(MSC)控制器(例如位于处理器管芯中或者CPU封装中的独立管芯上)截取所有系统存储器请求。存在两个独立接口，其从那个控制器(其离开CPU封装)“向下游流动”，以耦合到近存储器和远存储器。各接口设计用于特定类型的存储器，并且各存储器能够在性能和容量方面单独缩放。
[0054]在统一架构方案中，单个存储器接口离开处理器管芯或CPU封装，并且所有存储器请求均发送给这个接口。MSC控制器连同近和远存储器子系统一起合并在这单个接口上。这个存储器接口必须设计成满足处理器的存储器性能要求，并且必须至少支持事务、无序协议，因为PCMS装置可能不是按顺序处理读取请求。按照上述一般类别，可采用下列特定平台配置。
[0055]以下所述的实施例包括各种类型的总线/通道。术语“总线”和“通道”在本文中同义地使用。每个DIMM插槽的存储器通道数量将取决于计算机系统(具有支持例如每个插槽三个存储器通道的一些CPU封装)中使用的特定CPU封装。
[0056]另外,在使用DRAM的以下所述的实施例中，实际上可使用任何类型的DRAM存储器通道，作为举例而非限制包括DDR通道(例如DDR3、DDR4、DDR5等)。因此，虽然DDR因其在工业中的广泛接受、所产生价格点等是有利的，但是本发明的基本原理并不局限于任何特定类型的DRAM或易失性存储器。
图4A示出包括作为充当CPU封装401中在处理器管芯上或者在独立管芯上)的FM( BP,MSC)的高速缓存的近存储器进行操作的一个或多个DRAM装置403-406以及一个或多个NVRAM装置，例如驻留在DIMM 450-451上、充当远存储器的PCM存储器的分离架构的一个实施例。CPU封装401上的高带宽链路407将单个或多个DRAM装置403-406互连到处理器310，其寄宿集成存储器控制器(MC) 331和MSC控制器124。虽然图4A和以下所述的其它附图中示为独立单元，但是在一个实施例中，MSC控制器124可集成在存储器控制器331 中。
[0057]DIMM 450-451使用定义具有DDR地址、数据和控制线和电压的DDR通道440 (例如，如电子器件工程联合委员会(JEDEC)所定义的DDR3或DDR4标准)的DDR插槽和电连接。DIMM 450-451上的PCM装置提供这个分离架构的远存储器容量，其中到CPU封装401的DDR通道440能够携带DDR和事务协议。与其中处理器310或者CPU封装中的其它逻辑(例如MC 331或MSC控制器124)传送命令和接收直接响应的DDR协议相对照，用来与PCM装置进行通信的事务协议允许CPU 401发出各自通过唯一事务ID来识别的一系列事务。命令由PCM DI丽的接收PCM DI丽上的PCM控制器来服务，其向CPU封装401潜在无序地回送响应。处理器310或者CPU封装401中的其它逻辑通过其事务ID (其随响应所发送)来识别各个事务响应。上述配置允许系统支持基于标准DDR DRAM的DIMM(通过DDR电连接使用DDR协议)和基于PCM的DI丽配置(通过相同DDR电连接使用事务协议)。
图4B示出分离架构，其使用通过DDR通道440所耦合的基于DDR DRAM的DMM 452来形成近存储器(其充当MSC)。处理器310寄宿存储器控制器331和MSC控制器124。NVRAM装置，例如PCM存储器装置驻留在基于PCM的DI丽453上，其使用CPU封装401外的附加DDR通道442上的DDR插槽和电连接。基于PCM的DIMM 453提供这个分离架构的远存储器容量，其中到CPU封装401的DDR通道442基于DDR电连接并且能够携带DDR和事务协议。这允许系统采用变化数量的DDR DRAM DIMM 452(例如DDR4 DIMM)和PCM DIMM 453来配置，以实现预期容量和/或性能点。
[0058]图4C示出分离架构，其寄宿充当CPU封装401上(在处理器管芯上或者在独立管芯上)的存储器侧高速缓存(MSC)的近存储器403-406。CPU封装上的高带宽链路407用来将单个或多个DRAM装置403-406互连到处理器310，其寄宿存储器控制器331和MSC控制器124，如分离架构所定义的。NVRAM (例如PCM存储器)装置驻留在PCI Express卡或扩充卡455上，其通过PCI Express总线454使用PCI Express电连接和PCI Express协议或者不同事务协议。PCI Express卡或扩充卡455上的PCM装置提供这个分离架构的远
存储器容量。
[0059]图4D是分离架构，其使用基于DDR DRAM的DIMM 452和DDR通道440来形成近存储器(其充当MSC)。处理器310寄宿存储器控制器331和MSC控制器124。NVRAM (例如PCM存储器)装置455驻留在PCI Express卡或扩充卡上，其通过PCI Express链路454使用PCI Express电连接和PCI Express协议或者不同事务协议。PCI Express卡或扩充卡455上的PCM装置提供这个分离架构的远存储器容量，其中CPU封装401外的存储器通道接口提供 DDR DRAM DIMM 452 的多个 DDR 通道 440。
[0060]图4E示出统一架构，其寄宿充当MSC的近存储器以及远存储器NVRAM，例如PCIExpress卡或扩充卡456 (其通过PCI Express总线454来使用PCI Express电连接和PCIExpress协议或者不同事务协议)上的PCM。处理器310寄宿集成存储器控制器331，但是在这种统一架构情况下，MSC控制器124连同DRAM近存储器和NVRAM远存储器一起驻留在卡或扩充卡456上。
[0061]图4F示出统一架构，其寄宿充当MSC的近存储器以及远存储器NVRAM，例如使用DDR通道457的DIMM 458上的PCM。这个统一架构中的近存储器包含各个DIMM 458上充当那个相同DMM 458上的PCM装置(其形成那个特定DIMM的远存储器)的存储器侧高速缓存的DRAM。MSC控制器124连同近存储器和远存储器一起驻留在各DIMM 458上。在这个实施例中，DDR总线457的多个存储器通道被提供在CPU封装外。这个实施例的DDR总线457通过DDR电连接来实现事务协议。
[0062]图4G示出混合分离结构，由此MSC控制器124驻留在处理器310上，以及近存储器和远存储器接口共享同一 DDR总线410。这个配置使用基于DRAM的DDR DIMM 411a作为充当MSC的近存储器，其中基于PCM的DMM 411b ( S卩，远存储器)使用DDR插槽和NVRAM (例如PCM存储器装置)驻留在DDR总线410的同一存储器通道上。这个实施例的存储器通道同时携带DDR和事务协议，以便分别对近存储器和远存储器DIMM 411a、411b进行寻址。
[0063]图4H示出统一架构，其中充当存储器侧高速缓存的近存储器461a驻留在夹层卡或扩充卡461上，采取基于DRAM的DDR DI丽的形式。存储器侧高速缓存(MSC)控制器124位于扩充卡的DDR和PCM控制器460上，其可具有连接到夹层卡/扩充卡461上的DDR DMM通道470并且通过(一个或多个)高性能互连462，例如差分存储器链路互连到CPU的两个或更多存储器通道。关联远存储器461b位于同一夹层卡/扩充卡461上，并且由使用DDR通道470并且装载有NVRAM (例如PCM装置)的DIMM来形成。
[0064]图41示出统一架构，其能够用作对通过DDR总线471连接到其DDR存储器子系统上的CPU封装401的DDR存储器子系统和DIMM 464的存储器容量扩展。对于这个配置中的附加的基于NVM的容量，充当MSC的近存储器驻留在夹层卡或扩充卡463上，采取基于DRAM的DDR DIMM 463a的形式。MSC控制器124位于扩充卡的DDR和PCM控制器460上，其可具有连接到夹层卡/扩充卡上的DDR DIMM通道470并且通过一个或多个高性能互连462(例如差分存储器链路)互连到CPU的两个或更多存储器通道。关联远存储器463b位于同一夹层卡/扩充卡463上，并且由使用DDR通道470并且装载有NVRAM (例如PCM装置)的DIMM 463b来形成。
[0065]图4J是统一架构，其中充当存储器侧高速缓存(MSC)的近存储器采取DRAM的形式驻留在每一个DMM 465上。DMM 465在将CPU封装401与位于DMM上的MSC控制器124耦合的高性能互连/通道462，例如差分存储器链路上。关联远存储器位于相同DIMM465上，并且由NVRAM (例如PCM装置)来形成。
[0066]图4K示出统一架构，其中充当MSC的近存储器采取DRAM的形式驻留在每个DMM466上。DMM在将CPU封装401与位于DMM上的MSC控制器124连接的一个或多个高性能互连470上。关联远存储器位于相同DIMM 466上，并且由NVRAM(例如PCM装置)形成。
[0067]图4L示出分离架构，其使用DDR总线471上的基于DDR DRAM的DMM 464来形成必要的近存储器(其充当MSC)。处理器310寄宿集成存储器控制器331和存储器侧高速缓存控制器124。NVRAM (例如PCM存储器)形成远存储器，远存储器驻留在使用高性能互连468的卡或扩充卡467上，高性能互连468使用事务协议向CPU封装401进行传递。寄宿远存储器的卡或扩充卡467寄宿单个缓冲器/控制器，其能够控制多个基于PCM的存储器或者在那个扩充卡上连接的多个基于PCM的DIMM。
[0068]图4M示出统一架构，其可使用卡或扩充卡469上的DRAM来形成必要的近存储器(其充当MSC)。NVRAM (例如PCM存储器)装置形成远存储器，远存储器也驻留在卡或扩充卡469 (其使用到CPU封装401的高性能互连468)上。寄宿远存储器的卡或扩充卡469寄宿单个缓冲器/控制器，其能够控制多个基于PCM的装置或者在那个扩充卡469上的多个基于PCM的DIMM，并且还集成存储器侧高速缓存控制器124。
[0069]在上述实施例的一些，例如图4G所示的实施例中，DRAM DMM 411a和基于PCM的DIMM 411b驻留在同一存储器通道上。因此，相同的地址/控制和数据线集合用来将CPU连接到DRAM和PCM存储器。为了减少经过CPU网格互连的数据业务量，在一个实施例中，与基于PCM的DMM的公共存储器通道上的DDR DMM配置成充当基于PCM的DMM中存储的数据的唯一 MSC。在这种配置中，基于PCM的DIMM中存储的远存储器数据仅缓存在同一存储器通道内的DDR DIMM近存储器中，由此将存储器事务定位到那个特定存储器通道。
[0070]另外，为了实现上述实施例，系统地址空间在逻辑上可在不同存储器通道之间细分。例如，如果存在四个存储器通道，则系统地址空间的％可分配给各存储器通道。如果各存储器通道提供有一个基于PCMS的DIMM和一个DDR DIMM，则DDR DIMM可配置成充当系统地址空间的那个％部分的MSC。
系统存储器和大容量存储装置的选择可取决于其上采用本发明的实施例的电子平台的类型。例如，在个人计算机、平板计算机、笔记本计算机、智能电话、移动电话、特征电话、个人数字助理(PDA)、便携媒体播放器、便携游戏装置、游戏控制台、数码相机、开关、集线器、路由器、机顶盒、数字录像机或者具有较小的大容量存储要求的其它装置中，大容量存储可单独使用NVRAM大容量存储152A或者使用NVRAM大容量存储152A与闪速/磁/光大容量存储152B相结合来实现。在具有较大的大容量存储要求的其它电子平台(例如大规模服务器)中，大容量存储可使用磁存储(例如硬盘驱动器)或者磁存储、光存储、全息存储、大容量闪速存储器和NVRAM大容量存储152A的任何组合来实现。在这样的情况下，负责存储的系统硬件和/或软件可实现各种智能永久存储分配技术，以按照有效或者有用的方式在FM 151B/NVRAM存储152A与闪速/磁/光大容量存储152B之间分配永久程序代码和数据块。
例如，在一个实施例中，大功率服务器配置有近存储器(例如DRAM)、PCMS装置和用于大量永久存储的磁大容量存储装置。在一个实施例中，笔记本计算机配置有近存储器和PCMS装置，其执行远存储器和大容量存储装置的作用(即，其在逻辑上分区以执行如图3所示的这些作用)。家用或办公台式计算机的一个实施例与笔记本计算机相似地配置，但是还可包括一个或多个磁存储装置以提供大量永久存储能力。
平板计算机或蜂窝电话装置的一个实施例配置有PCMS存储器，但是潜在地没有近存储器并且没有附加大容量存储(为了节约成本/省电)。但是，平板/电话可配置有可拆卸大容量装置，例如闪存或PCMS存储棒。
各种其它类型的装置可如上所述来配置。例如，便携媒体播放器和/或个人数字助理(PDA)可按照与上述平板/电话相似的方式来配置，游戏控制台可按照与台式计算机或膝上型计算机相似的方式来配置。可相似地配置的其它装置包括数码相机、路由器、机顶盒、数字录像机、电视机和汽车。
[0071]MSC架构的实施例
在本发明的一个实施例中，系统存储器中的DRAM块采用PCM来替代。如先前所述，PCM以相对于DRAM明显要低的成本提供存储器容量的显著改进，并且是非易失性的。但是，某些PCM特性，例如不对称读-写性能、写循环持续极限以及其非易失性的性质使它对于在没有引起主要软件改变的情况下直接替代DRAM是棘手的。以下所述的本发明的实施例经过软件增强来提供集成PCM，同时还实现更新使用的软件透明方式。这些实施例促进存储器子系统架构的成功转变，并且提供使用单个PCM池来合并存储器和存储的方式，因而减轻对平台中的独立非易失性存储层的需要。
[0072]图5A所示的具体实施例包括:一个或多个处理器核501，其具有内部存储器管理单元(MMU) 502，用于生成存储器请求；以及一个或多个内部CPU高速缓存503，用于按照所指定高速缓存管理策略来存储程序代码和数据线。如先前所述，高速缓存管理策略可包括排他的高速缓存管理策略(其中存在于分级结构的一个特定高速缓存级中的任何线在任何其它高速缓存级中不存在)或者包含高速缓存管理策略(其中复制高速缓存线存储在高速缓存分级结构的不同级。)。可用于管理内部高速缓存503的特定高速缓存管理策略是本领域的技术人员完全了解的，并且因此在这里将不作详细描述。本发明的基本原理并不局限于任何特定高速缓存管理策略。
[0073]还在图5A中示出的是归属代理505，其通过生成存储器请求的存储器通道地址(MCA)来提供对MSC 510的存取。归属代理505负责管理所指定存储器地址空间，并且解析定向到那个存储器空间的存储器存取冲突。因此，如果任何核需要存取给定地址空间，则它将向那个归属代码505发送请求，归属代理505则将向那个特定MMU 502发送请求。在一个实施例中，每个MMU 502分配一个归属代理505 ;但是,在一些实施例中，单个归属代理505可服务于一个以上存储器管理单元502。
[0074]如图5A所示，MSC 510配置在基于PCM的远存储器519前面。MSC 510管理对近存储器518的存取，并且在适当时(例如在无法从近存储器518来服务请求时)向远存储器控制器521转发存储器存取请求(例如读和写)。MSC 510包括高速缓存控制单元512，其响应标签高速缓存511而进行操作，标签高速缓存511存储识别近存储器518中包含的高速缓存线的标签。在操作中，当高速缓存控制单元512确定存储器存取请求能够从近存储器518来服务(例如响应高速缓存命中)时，它生成近存储器地址(NMA)以识别近存储器518中存储的数据。近存储器控制单元515解释NMA，并且响应地生成电信号以存取近存储器518。如先前所述，在一个实施例中，近存储器是动态随机存取存储器(DRAM)。在这种情况下，电信号可包括行地址选通(RAS)和列地址选通(CAS)信号。但是应当注意，本发明的基本原理并不局限于DRAM用于近存储器。
确保软件透明的存储器应用的另一个组件是优化的PCM远存储器控制器521，其管理PCM远存储器530特性，同时仍然提供所需的性能。在一个实施例中，PCM控制器521包括地址间接表520，其将高速缓存控制单元515所生成的MCA转换成用来对PCM远存储器530直接寻址的PDA。这些转换可在通常为5 KB的“块”粒度发生。要求转换，这是因为在一个实施例中，远存储器控制器521在整个PCM装置地址空间连续移动PCM块，以便确保没有因对任何特定块的高频率写入引起的损耗热点。如先前所述，这种技术在本文中有时称作“损耗平衡”。
[0075]因此，MSC 510由高速缓存控制单元512来管理，高速缓存控制单元512允许MSC510吸收、聚合和过滤对PCM远存储器530的事务(例如读和写)。高速缓存控制单元512管理近存储器518与PCM远存储器530之间的所有数据移动和一致性要求。另外，在一个实施例中，MSC高速缓存控制器512与一个或多个CPU进行接口，并且提供传统基于DRAM的存储器子系统中使用的标准同步加载/存储接口。
[0076]现在将在图5A所示架构的上下文中描述示范读和写操作。在一个实施例中，读操作将首先到达MSC控制器512，其将执行查找以确定所请求数据是否存在(例如利用标签高速缓存511)。如果存在的话，则它将数据返回到请求CPU核501或I/O装置(未示出)。如果数据不存在的话，MSC控制器512将向PCM远存储器控制器521发送该请求连同系统存储器地址(本文中又称作存储器通道地址或MCA)。PCM控制器521将使用地址间接表520来将地址转换成PDA，并且将读操作定向到PCM的这个区域。在接收来自PCM远存储器530的所请求数据时，PCM控制器521将所请求数据返回到MSC控制器512，其将数据存储在MSC近存储器518中，并且还将数据发送给请求CPU核501或I/O装置。对这个数据的后续请求可直接从MSC近存储器518来服务，直到它由另外某些PCM数据来替代。
[0077]在一个实施例中，存储器写操作还首先去到MSC控制器512，其将它写入MSC近存储器518。在这个实施例中，当接收写操作时，数据不可直接发送给PCM远存储器530。例如，仅当其中存储数据的MSC近存储器518中的位置必须再用于存储不同系统存储器地址的数据时，数据才可发送给PCM远存储器530。当这种情况发生时，MSC控制器512注意到数据在PCM远存储器530中不是最近的，以及因而将从近存储器518中对它进行检索，并且将它发送给PCM控制器521。PCM控制器521查找系统存储器地址的PDA，并且然后将数据写到PCM远存储器530。
[0078]在一个实施例中，MSC近存储器518的大小将通过工作负荷存储器要求以及近和远存储器性能来规定。对于基于DRAM的MSC，大小可设置成工作负荷存储器占用面积的大小或者PCM远存储器530大小的1/10。与当前处理器/系统架构中存在的常规高速缓存相t匕，这种MSC非常大。作为举例而不是限制，对于128 GB的PCM远存储器大小，MSC近存储器的大小能够大至16 GB。
[0079]图5B示出与MSC 510的一个实施例关联的附加细节。这个实施例包括一组逻辑单元，其负责命令和寻址，其中包括:命令缓冲器跟踪单元542，用于缓冲命令/地址；以及高速缓存取模式校验单元544，其响应来自MSC范围寄存器(RR)单元545的控制信号而选择MSC操作模式。下面描述若干示范操作模式。简言之，这些可包括近存储器用于传统缓存作用中的模式以及近存储器518形成系统存储器的一部分的模式。标签校验/命令调度器550使用来自标签高速缓存511的标签来确定是否特定高速缓存线存储在近存储器518中，并且近存储器控制器515生成通道地址信号(例如CAS和RAS信号)。
这个实施例还包括负责数据路由选择和处理的一组逻辑单元，其包括一组数据缓冲器546用于存储从近存储器所取的或者存储到近存储器的数据。在一个实施例中，还包括预取数据高速缓存547用于存储从近存储器和/或远存储器所预取的数据。但是，预取数据高速缓存547是可选的，并且不是遵照本发明的基本原理必要的。
[0080]纠错码(ECC)生成器/校验器单元552生成和校验ECC以确保写到近存储器或者从其中读取的数据没有差错。如以下所述，在本发明的一个实施例中，ECC生成器/校验器单元552修改成存储高速缓存标签。特定ECC是本领域的技术人员完全了解的，并且因此在这里不作详细描述。通道控制器553将近存储器518的数据总线耦合到MSC 510，并且生成存取近存储器518的必要电信令(例如DRAM近存储器的RAS和CAS信令)。
[0081]还在图5B中示出的是用于将MSC 510耦合到远存储器的远存储器控制接口 548。具体来说，远存储器控制接口 548生成对远存储器进行寻址所需的MCA，并且在数据缓冲器546与远存储器之间传递数据。
如所述，与当前处理器/系统架构中存在的常规高速缓存相比，一个实施例中采用的近存储器518非常大。因此，保持到近存储器地址的系统存储器地址转换的标签高速缓存511也可能非常大。存储和查找MSC标签的成本能够是对构建大高速缓存的明显阻碍。因此，在本发明的一个实施例中，这个问题使用新方案来解决，新方案将高速缓存标签存储于MSC中分配的存储中供ECC保护，由此基本上消除标签的存储成本。
这个实施例在图5C中一般示出，图5示出集成标签高速缓存和ECC单元554，其用于存储/管理高速缓存标签、存储ECC数据并且执行ECC操作。如所示，当执行标签校验操作(例如以确定特定的数据块是否存储在近存储器高速缓存518中)时，所存储标签根据请求而提供给标签校验/命令调度器550。
[0082]图示出一组示范数据524的组织以及对应ECC 523和标签522。如所示，标签522与ECC 523并存于标签高速缓存/ECC单元544的存储器(例如在一个实施例中的DDRDRAM)中。在这个示例中，总共64字节的若干数据块已经读入标签高速缓存/ECC单元554中。ECC校验/生成器单元554a使用数据525来生成ECC，并且将所生成ECC与关联数据的现有ECC 523进行比较。在这个示例中，对64字节的数据525生成4字节ECC。但是，本发明的基本原理并不局限于ECC的任何特定类型或大小。另外应当注意，术语“数据”在本文中广义地用来表示可执行程序代码和数据，其均可存储在图所示的数据存储525中。
[0083]在一个实施例中，3字节(24位)标签522与图所示的位指派一起使用。具体来说，位00至16是地址位，其提供高速缓存线的高地址位。对于具有56位的系统地址(例如SPA[55:00])，位00至16映射到系统地址的位55-29，从而允许512 MB的最小高速缓存大小。返回到3字节标签，保留位17-19 ;位20-21是目录位，其提供关于高速缓存线的远程CPU缓存的信息(例如提供关于其上缓存该线的其它CPU的指示)；位21-22指示高速缓存线的当前状态(例如，00=干净；01=脏；10和11=未使用)；以及位23指示高速缓存是否有效(例如，1=有效；0=无效)。
利用如上所述的直接映射高速缓存架构(其允许近存储器地址从系统存储器地址直接被提取)降低或消除在MSC 510能够读取之前查找标签存储的等待时间成本，由此显著改进性能。此外，也消除校验高速缓存标签以判定MSC 510是否具有所需数据的时间，因为它与从MSC读取的数据的ECC校验并行地进行。
在某些条件下，存储具有数据的标签可对写入造成问题。写入首先读取数据，以便确保它没有改写另外某个地址的数据。每一个写入之前的这种读取可能变为高成本的。本发明的一个实施例采用脏线标签高速缓存，其保持最近存取的近存储器地址(NMA)的标签。由于许多写入针对最近存取的地址，所以适当的小标签高速缓存能够获得有效命中率，以在写入之前过滤大多数读取。
[0084]与包括PCM远存储器控制器521和一组PCM远存储器模块530a_i的PCM DI丽519的一个实施例关联的附加细节在图5E中示出。在一个实施例中，单个PCM远存储器池530a-1在系统存储器与存储使用之间共享。在这个实施例中，整个PCM池530a_i可细分为4 KB大小的“块”。PCM描述符表(TOT) 565将每个PCM块的使用识别为存储器或存储。例如，PDT的每行可表示具有识别每个块的使用的特定列的特定块(例如，1=存储器；0=存储)。在这个实施例中，初始系统配置能够将PCM 530a-1中的PCM块在存储与存储器使用之间分区(即，通过对TOT 565编程)。在一个实施例中，同一个表用来排除不良块，并且为损耗平衡操作提供共享块。另外，PDT 565还可包括将每个PCMS块映射到由软件所使用的“逻辑”块地址。在系统存储器的情况下，逻辑块地址与MCA或SPA是相同的。每当因损耗平衡而移动PCMS块时，需要这种关联以更新地址间接表(AIT) 563。当这种情况发生时，由软件所使用的逻辑块地址必须映射到不同的PCMS装置地址(PDA)。在一个实施例中，这种映射存储在AIT中，并且对每一损耗平衡移动来更新。
[0085]如所示，PCM控制器521包括系统物理地址(SPA) -PCM映射器556，其响应损耗管理单元555和地址间接单元563而进行操作，以将SPA映射到PCM块。在一个实施例中，损耗管理逻辑555实现损耗平衡算法，以考虑PCM 530a-530i的存储单元在过多写入和/或擦除存取之后开始损耗的事实。损耗平衡通过例如迫使具有低循环计数的数据块移动，并且由此允许高循环数据块被放置在存储低循环数据块的存储单元中，来将写入和擦除散布于PCM装置的存储器单元。通常，块的大多数没有循环，但是高循环计数块最可能出故障，并且损耗平衡将高循环计数块的地址与低循环计数块交换。损耗管理逻辑555可使用一个或多个计数器和寄存器来跟踪循环计数(例如，每次检测到循环时可使计数器递增1，并且结果可存储在寄存器集合中)。
在一个实施例中，地址间接逻辑563包括地址间接表(AIT)，其包含应当将写操作定向到其中的PCM块的指示。AIT可用来在存储器与存储使用之间自动移动块。从软件角度来看，对所有块的存取使用传统存储器加载/存储语义(即，损耗平衡和地址间接操作对软件透明的发生)。在一个实施例中，AIT用来将软件所生成的SPA转换成PDA。因为对均匀损耗PCMS装置的需要而要求这种转换，数据将需要绕PDA空间移动以避免任何热点。当这种移动发生时，SPA与PDA之间的关系将发生变化，以及AIT将被更新以反映这个新转换。
[0086]接着SPA到PCM映射，调度器单元557将基本PCM操作(例如读取和/或写入)调度到PCM装置530a-1，并且PCM协议引擎558生成执行读/写操作所需的电信令。ECC单元562执行检错和纠错操作，以及数据缓冲器561暂时缓冲从PCM装置530a_I所读取或者写到PCM装置530a-1的数据。永久写缓冲器559用来保存被保证回写到PCMS的数据，甚至在非预计功率故障的情况下(例如，它使用非易失性存储来实现)。包括刷新支持逻辑560，以便周期地和/或按照所指定数据刷新算法(例如在永久写缓冲器达到所指定阈值之后)将永久写缓冲器刷新到PCMS。
[0087]在一个实施例中，MSC 510自动将存储存取直接路由到PCM远存储器控制器521以及将存储器存取路由到MSC高速缓存控制单元512。到达PCM远存储器控制器521的存储存取被看作是常规读取和写入，以及如常应用本文所述的地址间接和损耗平衡机制。在本发明的一个实施例中采用附加优化，其能够当数据需要在存储与存储器之间移动时实现。由于使用公共PCM池530a-1，所以数据移动能够通过只改变转换表(例如AIT)中的指针来消除或推迟。例如，当数据从存储传送到存储器时，识别特定物理PCM存储位置中的数据的指针可被更新以指示同一物理PCM存储位置这时是系统存储器中的存储器位置。在一个实施例中，这由硬件按照软件透明的方式进行以提供性能和功率有益效果。
[0088]除了软件透明操作模式之外，MSC控制器512的一个实施例还提供如MSC范围寄存器(RR) 545所指示的备选操作模式。这些操作模式可包括但并不限于以下方面:
I)存储类应用的PCM存储器的直接存取。这种使用还将要求MSC控制器512确保提交给PCM 519的写入实际上提交到永久状态。
[0089]2)近存储器518的混合使用，向软件展示人用于直接使用的部分，同时将其余部分保持为MSC。在向软件展示近存储器518的一部分供直接使用时，那个部分在系统地址空间中是直接可寻址的。这允许某些应用在高性能小区域(近存储器518)与相对更低性能块区(远存储器530)之间显式划分其存储器分配。相比之下，作为MSC中的高速缓存所分配的部分没有形成系统地址空间的部分(而是充当远存储器530的高速缓存，如本文所述)。
[0090]如先前所述，MSC架构定义成使得若干不同系统分区方式是可能的。这些方式分成两大类:
(1)分离架构:在这个方案中，MSC控制器512位于CPU中，并且截取所有系统存储器请求。存在来自退出CPU的MSC的两个独立接口，连接近存储器(例如DRAM)和远存储器(例如PCM)。各接口设计用于特定类型的存储器，并且各存储器能够在性能和容量方面单独缩放。
(2)统一架构:在这个方案中，单个存储器接口退出CPU，并且将所有存储器请求发送给这个接口。MSC控制器512连同近存储器(例如DRAM)和远存储器(例如PCM)子系统在CPU外部合并在这个单接口上。在一个实施例中，这个存储器接口设计成满足CPU的存储器性能要求，并且支持事务无序协议。近和远存储器要求在这些接口的每个上按照“统一”方式来满足。
[0091]在上述类的范围之内，若干不同划分选项是可行的，下面描述其中一部分。
[0092](I)分离示例: 近存储器:DDR5 DIMM
近存储器接口:一个或多个DDR5通道
远存储器:PCI express (PCIe)卡上的PCM控制器/装置
远存储器接口:xl6 PCIe, Gen 3
2)统一示例:
CPU存储器接口:一个或多个KTMI (或QPMI)通道扩充卡上具有MSC/PCM控制器的近/远存储器 MSC/PCM控制器外的近存储器接口:DDR5接口 MSC/PCM控制器外的远存储器接口:PCM装置接口具有不同近存储器操作模式的实施例
如上所述，两级存储器分级结构可用于引入快速非易失性存储器，例如作为系统存储器的PCM，同时使用非常大的基于DRAM的近存储器。近存储器可用作硬件管理高速缓存。但是，一些应用不是硬件高速缓存友好的，并且因此会获益于使用这种存储器的备选方式。因为在任何给定时间可存在运行于服务器上的若干不同应用，所以本发明的一个实施例允许并发地实现多种使用模式。另外，一个实施例提供控制为这些使用模式的每个分配近存储器的能力。
[0093]在一个实施例中，MSC控制器512提供使用近存储器的下列模式。如先前所述，在一个实施例中，当前操作模式可通过MSC范围寄存器(RR) 545中存储的操作码来指定。
[0094](I)回写缓存模式:在这种模式中，近存储器518的全部或部分用作PCM存储器530的高速缓存。在处于回写模式时，每一个写操作最初定向到近存储器518 (假定对其定向写入的高速缓存线存在于高速缓存中)。仅当近存储器518中的高速缓存线将由另一个高速缓存线来替代时，才执行对应写操作以更新PCM远存储器(与以下所述的直写模式相反，其中每个写操作直接传播到远存储器530)。
[0095]在一个实施例中，读操作将首先到达MSC高速缓存控制器512，其将执行查找，以确定所请求数据是否存在于PCM远存储器518中(例如利用标签高速缓存511)。如果存在的话，则它将数据返回到请求CPU核501或I/O装置(图5A中未示出)。如果数据不存在的话，则MSC高速缓存控制器512将向PCM远存储器控制器521发送请求连同系统存储器地址。PCM远存储器控制器521将系统存储器地址转换成PCM物理装置地址(PDA)，并且将读操作定向到远存储器530的这个区域。如先前所述，这种转换可利用地址间接表(AIT)563，PCM控制器521使用其在系统存储器地址与PCM PDA之间进行转换。在一个实施例中，作为实现成分配存储器地址操作并且由此降低对PCM FM 530的损耗的损耗平衡算法的一部分，来更新AIT。
[0096]在接收来自PCM FM 530的所请求数据时，PCM FM控制器521将所请求数据返回到MSC控制器512，其将数据存储在MSC近存储器518中，并且还将数据发送给请求处理器核501或I/O装置(图5A中未示出)。对这个数据的后续请求可直接从MSC近存储器518来服务，直到它由另外某个PCM FM数据来替代。
[0097]在一个实施例中，存储器写操作也首先转到MSC控制器512，其将它写入充当FM高速缓存518的MSC近存储器中。在这个实施例中，当接收写操作时，数据不可直接发送给PCM FM 530。例如，仅当其中存储数据、充当FM高速缓存1，315.72 cm的MSC近存储器中的位置必须再用于存储不同系统存储器地址的数据时，数据才可发送给PCM FM 530。当这种情况发生时，MSC控制器512注意到数据在PCM FM 530中不是最近的，以及因此将从充当FM高速缓存518的近存储器中对它进行检索，并且将它发送给PCM FM控制器521。PCM控制器521查找系统存储器地址的PDA，并且然后将数据写到PCM FM 530。
[0098](2)近存储器旁路模式:在这种模式中，所有读和写绕过充当FM高速缓存518的NM，并且直接转到PCM远存储器530。例如当应用不是高速缓存友好的或者要求数据以高速缓存线的粒度提交为持久化时，可使用这种模式。在一个实施例中，由处理器高速缓存503和充当FM高速缓存518的匪所执行的缓存相互无关地进行操作。因此，数据可缓存在充当FM高速缓存518的匪，其没有缓存在处理器高速缓存503中(并且其在一些情况下可能不准许被缓存在处理器高速缓存503中)，反过来也是一样。因此，可指定为在处理器高速缓存503中“不可缓存的”某些数据可缓存在充当FM高速缓存518的匪中。
[0099](3)近存储器读-高速缓存写旁路模式:这是上述模式的变化，其中允许来自PCM519的永久数据的读缓存(S卩，永久数据缓存在用于只读操作的MSC 510中)。当永久数据的大多数是“只读”并且应用使用是高速缓存友好的时，这是有用的。
[0100](4)近存储器读-高速缓存直写模式:这是前一种模式的变化，其中除了读缓存之外还缓存写命中。对MSC近存储器518的每一个写入引起对PCM远存储器530的写入。因此，由于高速缓存的直写性质，高速缓存线持久化仍然得到保证。
[0101](5)近存储器直接存取模式:在这种模式中，近存储器的全部或部分是软件直接可见的，并且形成系统存储器地址空间的部分。这种存储器可完全在软件控制之下。从PCM存储器519到近存储器的这个区域的任何数据移动要求显式软件副本。这种方案可创建软件的非均匀存储器地址(NUMA)存储器域，其中它相对于PCM远存储器530从近存储器518获得高许多的性能。这种使用可用于某些高性能计算(HPC)和图形应用(其要求对某些数据结构的极快速存取。这种近存储器直接存取模式相当于“牵制”近存储器中的某些高速缓存线。这种牵制可在较大的多路组关联高速缓存中有效地进行。
[0102]下表A概括上述操作模式的每个。
【权利要求】
1.一种多级存储器系统,包括: 处理器，具有用于运行指令和处理数据的多个核以及用于按照第一高速缓存管理策略来缓存指令和数据的一个或多个处理器高速缓存；第一级存储器，具有与其关联的第一组特性，所述第一组特性包括第一读存取速度和第一写存取速度；以及第二级存储器，具有与其关联的第二组特性，所述第二组特性包括其中至少一个分别比所述第一读存取速度或第一写存取速度相对更低的第二读和写存取速度、使得所述第二级存储器在功率被去除时保持其内容的非易失性、使得其中存储的指令或数据可在相当于所述计算机系统的存储器子系统的粒度来存取的随机存取和随机存取和存储器子系统可寻址性；存储器控制器，用于接收存储器请求并且在所述第一与所述第二级存储器之间分配所述存储器请求，所述存储器控制器指定所述第一级存储器的多种不同操作模式，包括第一模式，其中所述第一级存储器作为所述第二级存储器的存储器高速缓存进行操作；以及第二模式，其中向所述第一级存储器分配系统地址空间的第一地址范围，其中向所述第二级存储器分配所述系统地址空间的第二地址范围，其中所述第一范围和第二范围表示整个系统地址空间。
2.如权利要求1所述的系统，其中，当所述存储器控制器在处于所述第一操作模式时指定多个子模式时，所述子模式包括回写缓存操作模式，使得仅当所述第一级存储器中的高速缓存线将由另一个高速缓存线替代时才执行写操作以更新所述第二级存储器。
3.如权利要求1所述的系统，其中，当所述存储器控制器在处于所述第一操作模式时指定多个子模式时，所述子模式包括第一级存储器旁路模式，其中所有读和写直接去到所述第二级存储器。
4.如权利要求1所述的系统，其中，当所述存储器控制器在处于所述第一操作模式时指定多个子模式时，所述子模式包括第一级存储器读-高速缓存-写模式，其中写直接去到所述第二级存储器，并且准许所述第一级存储器中的永久数据的读缓存。
5.如权利要求1所述的系统，其中，当所述存储器控制器在处于所述第一操作模式时指定多个子模式时，所述子模式包括第一级存储器读-高速缓存直写模式，其中准许所述第一级存储器中的永久数据的读缓存，并且还缓存写命中。
6.如权利要求1所述的系统，其中，所述第一组特性之一包括第一功率消耗等级，以及所述第二组特性包括比所述第一功率消耗等级相对更低的第二功率消耗等级。
7.如权利要求1所述的系统，其中，所述第一组特性之一包括第一密度，以及所述第二组特性包括比所述第一密度相对更高的第二密度。
8.如权利要求1所述的系统，其中，所述第二组特性之一包括所述第二级存储器直接可写，使得不要求在写之前擦除现有数据。
9.如权利要求1所述的系统，其中，所述第一级存储器包括动态随机存取存储器(DRAM)，以及其中所述一个或多个处理器高速缓存包括静态随机存取存储器(SRAM)。
10.如权利要求9所述的系统，其中，所述第二级存储器包括相变存储器(PCM)。
11.如权利要求10所述的系统，其中，所述PCM存储器包括相变存储器和开关(PCMS)。
12.如权利要求1所述的系统，还包括:大容量存储装置，用于永久地存储指令和数据，所述大容量存储装置在通信上通过接口耦合到所述第一级存储器和所述第二级存储器。
13.如权利要求1所述的系统，其中，所述第一写存取速度比所述第二写存取速度相对更高，但是所述第一读存取速度近似于所述第二读存取速度。
14.如权利要求13所述的系统，其中，所述第一写存取速度比所述第二写存取速度至少要高一个数量级。
15.如权利要求1所述的系统，其中，所述第一组特性包括第一读存取等待时间和第一写存取等待时间，以及所述第二组特性包括第二读存取等待时间和第二写存取等待时间，其中至少一个分别比所述第一读存取等待时间或第二写存取等待时间相对更高。
16.如权利要求1所述的系统，其中，制造每单位大小的所述第二级存储器比所述第二级存储器要便宜。
17.如权利要求1所述的系统，其中，所述第一高速缓存管理策略与所述第二高速缓存管理策略无关地进行操作。
18.如权利要求1所述的计算机系统，其中，存储器子系统可寻址性包括以高速缓存线的粒度的可寻址性。
19.一种计算机系统，包括: 处理器，具有用于运行指令和处理数据的多个核以及用于按照第一高速缓存管理策略来缓存指令和数据的一个或多个处理器高速缓存；第一级存储器，具有与其关联的第一组特性，所述第一组特性包括第一读存取速度和第一写存取速度；以及第二级存储器，具有与其关联的第二组特性，所述第二组特性包括其中至少一个分别比所述第一读存取速度或第一写存取速度相对更低的第二读和写存取速度、使得所述第二级存储器在功率被去除时保持其内容的非易失性、使得其中存储的指令或数据可在相当于所述计算机系统的存储器子系统的粒度来存取的随机存取和存储器子系统可寻址性；存储器控制器，用于接收存储器请求并且在所述第一与所述第二级存储器之间分配所述存储器请求，所述存储器控制器可配置成使所述第一级存储器按照多种不同操作模式进行操作，其中所述第一级存储器作为所述第二级存储器的存储器高速缓存进行操作，所述模式的至少一个包括回写缓存操作模式，使得仅当所述第一级存储器中的高速缓存线将由另一个高速缓存线替代时，才执行写操作以更新所述第二级存储器。
20.如权利要求19所述的系统，其中，所述模式之一包括第一级存储器旁路模式，其中所有读和写直接去到所述第二级存储器。
21.如权利要求19所述的系统，其中，所述模式之一包括第一级存储器读-高速缓存-写模式，其中写直接去到所述第二级存储器，并且准许所述第一级存储器中的永久数据的读缓存。
22.如权利要求19所述的系统，其中，所述模式之一包括第一级存储器读-高速缓存直写模式，其中准许所述第一级存储器中的永久数据的读缓存，并且还缓存写命中。
23.如权利要求19所述的系统，其中，所述第一组特性之一包括第一功率消耗等级，以及所述第二组特性包括比所述第一功率消耗等级相对更低的第二功率消耗等级。
24.如权利要求19所述的系统，其中，所述第一组特性之一包括第一密度，以及所述第二组特性包括比所述第一密度相对更高的第二密度。
25.如权利要求19所述的系统，其中，所述第二组特性之一包括所述第二级存储器直接可写，使得不要求在写之前擦除现有数据。
26.如权利要求19所述的系统，其中，所述第一级存储器包括动态随机存取存储器(DRAM)，以及其中所述一个或多个处理器高速缓存包括静态随机存取存储器(SRAM)。
27.如权利要求26所述的系统，其中，所述第二级存储器包括相变存储器(PCM)。
28.如权利要求27所述的系统，其中，所述PCM存储器包括相变存储器和开关(PCMS)。
29.如权利要求19所述的系统，还包括: 大容量存储装置，用于永久地存储指令和数据，所述大容量存储装置在通信上通过接口耦合到所述第一级存储器和所述第二级存储器。
30.如权利要求19所述的系统，其中，所述第一写存取速度比所述第二写存取速度相对更高，但是所述第一读存取速度近似于所述第二读存取速度。
31.如权利要求30所述的系统，其中，所述第一写存取速度比所述第二写存取速度至少要高一个数量级。
32.如权利要求19所述的系统，其中，所述第一组特性包括第一读存取等待时间和第一写存取等待时间，以及所述第二组特性包括第二读存取等待时间和第二写存取等待时间，其中至少一个分别比所述第一读存取等待时间或第二写存取等待时间相对更高。
33.如权利要求19所述的系统，其中，制造每单位大小的所述第二级存储器比所述第二级存储器要便宜。
34.如权利要求19所述的系统，其中，所述第一高速缓存管理策略与所述第二高速缓存管理策略无关地进行操作。
【文档编号】G06F13/14GK103946811SQ201180075096
【公开日】2014年7月23日申请日期:2011年9月30日优先权日:2011年9月30日
【发明者】R.K.拉马努詹, R.阿加瓦尔, G.J.欣顿申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R.K.拉马努詹;R.阿加瓦尔;G.J.欣顿
技术所有人：英特尔公司
我是此专利的发明人

上一篇：用于向量计算和累计的装置和方法
上一篇：在逻辑驱动器模型下呈现直接存取的存储设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。