多寄存器存储器访问指令、处理器、方法和系统的制作方法_4

文档序号:9493648阅读:来源:国知局
紧缩整数/紧缩浮点/矢量整数/矢量浮点流水线和/或存储器访 问流水线,每一个流水线具有它们自己的调度器单元、物理寄存器文件单元和/或执行群 集,且在单独的存储器访问流水线的情况下,实现某些实施例,其中只有这个流水线的执行 群集具有存储器访问单元1064)。也应理解,在单独的流水线被使用的场合,这些流水线中 的一个或多个可以是无序发布/执行,而其余是有序的。
[0086] 这组存储器访问单元1064耦合到存储器单元1070,其包括耦合到数据高速缓存 单元1074的数据TLB单元1072,数据高速缓存单元1074耦合到2级(L2)高速缓存单元 1076。在一个示例性实施例中,存储器访问单元1064可包括装入单元、存储地址单元和存 储数据单元,其中每一个耦合到在存储器单元1070中的数据TLB单元1072。指令高速缓存 单元1034进一步耦合到在存储器单元1070中的2级(L2)高速缓存单元1076。L2高速缓 存单元1076耦合到高速缓存的一个或多个其它级并最终耦合到主存储器。
[0087] 作为示例,示例性寄存器重命名无序发布/执行核心架构可如下实现流水线 1000 :1)指令取出1038执行取出和长度解码级1002和1004 ;2)解码单元1040执行解码 级1006 ;3)重命名/分配器单元1052执行分配级1008和重命名级1010 ;4)调度器单元 1056执行调度器级1012 ;5)物理寄存器文件单元1058和存储器单元1070执行寄存器读 取/存储器读取级1014 ;执行群集1060执行执行级1016 ;6)存储器单元1070和物理寄存 器文件单元1058执行写回/存储器写入级1018 ;7)在异常处理级1022中涉及各种单元; 以及8)引退单元1054和物理寄存器文件单元1058执行提交级1024。
[0088] 核心1090可支持一个或多个指令集(例如x86指令集(具有添加了较新版本 的一些扩展);MIPSTechnologiesofSunnyvale,CA的MIPS指令集;ARMHoldingsof Sunnyvale,CA的ARM指令集(具有可选的额外扩展例如NEON)),包括本文所述的指令。在 一个实施例中,核心1090包括支持紧缩数据指令集扩展(例如AVXUAVX2)的逻辑,从而允 许使用紧缩数据执行由很多多媒体应用使用的操作。
[0089] 应理解,核心可支持多线程(执行两个或多个并行组的操作或线程),并可以 用各种方式来这么做,包括时间分片多线程、同时多线程(其中单个物理核心为每一 个线程提供逻辑核心,物理核心是同时多线程的)或其组合(例如其后例如在Inte丨卸 Hyperthreading技术中的时间分片取出和解码和同时多线程)。
[0090] 虽然在无序执行的上下文中描述了寄存器重命名,应理解,可在有序架构中使 用寄存器重命名。虽然处理器的所示实施例也包括单独的指令和数据高速缓存单元 1034/1074和共享L2高速缓存单元1076,可选的实施例可具有指令和数据的单个内部高速 缓存,例如1级(L1)内部高速缓存或内部高速缓存的多个级。在一些实施例中,系统可包 括内部高速缓存和在核心和/或处理器外部的外部高速缓存的组合。可选地,所有高速缓 存可以在核心和/或处理器外部。
[0091] 特定的示例性有序核心架构
[0092]图11A-B示出更具体的示例性有序核心架构的方框图,该核心将是在芯片中的几 个逻辑块之一(包括相同类型和/或不同类型的其它核心)。逻辑块通过高带宽互联网络 (例如环形网络)与某个固定功能逻辑、存储器I/O接口和其它必要的I/O逻辑通信,取决 于应用。
[0093] 图11A是根据本发明的实施例的单处理器核心连同它到管芯上互连网络1102的 连接及它的2级(L2)高速缓存1104的本地子集的方框图。在一个实施例中,指令解码器 1100支持具有紧缩数据指令集扩展的x86指令集。L1高速缓存1106允许对在标量和矢量 单元内的高速缓存存储器的低时延访问。虽然在一个实施例中(为了简化设计)标量单元 1108和矢量单元1110使用单独的寄存器组(分别为标量寄存器1112和矢量寄存器1114) 且在它们之间传输的数据被写到存储器并接着从1级(L1)高速缓存1106被读回,本发明 的可选实施例可使用不同的方法(例如使用单个寄存器组或包括允许数据在这两个寄存 器文件之间传输而没有被写入和读回的通信路径)。
[0094] L2高速缓存1104的本地子集是被分成单独的本地子集的全局L2高速缓存的部 分,每处理器核心一个本地子集。每一个处理器核心具有到L2高速缓存1104的它自己的 本地子集的直接访问路径。由处理器核心读取的数据存储在它的L2高速缓存子集1104中 并可与访问它们自己的本地L2高速缓存子集的其它处理器一起并行地被快速访问。由处 理器核心写入的数据存储在它自己的L2高速缓存子集1104中并从其它子集清除,如果必 要。环形网络确保共享数据的一致性。环形网络是双向的以允许代理例如处理器核心、L2 高速缓存和其它逻辑块在芯片内与彼此通信。每一个环形数据路径是每方向1012位宽。
[0095] 图11B是根据本发明的实施例的在图11A中的处理器核心的部分的展开图。图 11B包括L1高速缓存1104的L1数据高速缓存1106A部分以及关于矢量单元1110和矢量 寄存器1114的更多细节。具体地,矢量单元1110是16宽矢量处理单元(VPU)(见16宽 ALU1128),其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持使用拌合 (swizzle)单元1120拌合寄存器输入,使用数字转换单元1122A-B进行的数字转换以及使 用复制单元1124对存储器输入的复制。写入掩码寄存器1126允许断定(predicate)因而 产生的矢量写入。
[0096] 具有集成存储器控制器和图形的处理器
[0097] 图12是根据本发明的实施例的可具有多于一个核心、可具有集成存储器控制器、 并可具有集成图形的处理器1200的方框图。在图12中的实线框示出具有单个核心1202A、 系统代理1210、一组一个或多个总线控制器单元1216的处理器1200,而虚线框的可选添加 示出具有多个核心1202A-N、在系统代理单元1210中的一组一个或多个集成存储器控制器 单元1214和专用逻辑1208的可选处理器1200。
[0098] 因此,处理器1200的不同实现可包括:1)CPU,其具有作为集成图形和/或科学 (吞吐量)逻辑的专用逻辑1208(其可包括一个或多个核心)和作为一个或多个通用核心 (例如通用有序核心、通用无序核心、这两者的组合)的核心1202A-N;2)协处理器,其具有 主要为图形和/或科学(吞吐量)设计的作为大量专用核心的核心1202A-N;以及3)协处 理器,其具有作为大量通用有序核心的核心1202A-N。因此,处理器1200可以是通用处理 器、协处理器或专用处理器,例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图 形处理单元)、高吞吐量多集成核心(MIC)协处理器(包括30或更多核心)、嵌入式处理器 等。处理器可以在一个或多个芯片上实现。处理器1200可以是一个或多个衬底的一部分 和/或可使用多种处理器技术中的任一个(例如BiCM0S、CM0S或NM0S)在一个或多个衬底 上实现。
[0099] 存储器等级结构包括在核心内的高速缓存的一个或多个级、一组或一个或多个共 享高速缓存单元1206和耦合到这组集成存储器控制器单元1214的外部存储器(未示出)。 这组共享高速缓存单元1206可包括一个或多个中级高速缓存,例如第2级(L2)、第3级 (L3)、第4级(L4)或高速缓存的其它级、最后一级高速缓存(LLC)和/或其组合。虽然在 一个实施例中基于环的互连单元1212将集成图形逻辑1208、这组共享高速缓存单元1206 和系统代理单元1210/集成存储器控制器单元1214互连,可选的实施例可使用用于将这样 的单元互连的任何数量的公知技术。在一个实施例中,在一个或多个高速缓存单元1206和 核心1202-A-N之间维持一致性。
[0100] 在一些实施例中,一个或多个核心1202A-N有多线程的能力。系统代理1210包括 协调和操作核心1202A-N的那些部件。系统代理单元1210可包括例如功率控制单元(P⑶) 和显示单元。P⑶可以是或包括调节核心1202A-N和集成图形逻辑1208的功率状态所需的 逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
[0101] 核心1202A-N从架构指令集方面来说可以是同构的或异构的;也就是说,两个或 更多个核心1202A-N可能能够执行相同的指令集,而其它核心可能能够只执行那个指令集 的子集或不同的指令集。
[0102] 示例性计算机架构
[0103] 图13-16是示例性计算机架构的方框图。膝上型计算机、台式计算机、手持PC、个 人数字助理、工程设计工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字 信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放 器、手持设备和各种其它电子设备的在本领域中已知的其它系统设计和配置也是合适的。 通常,能够合并处理器和/或如本文公开的其它执行逻辑的多种系统或电子设备通常是合 适的。
[0104] 现在参考图13,其示出根据本发明的一个实施例的系统1300的方框图。系统1300 可包括耦合到控制器中心1320的一个或多个处理器1310、1315。在一个实施例中,控制器 中心1320包括图形存储器控制器中心(GMCH) 1390和输入/输出中心(Ι0Η) 1350(其可以 在单独的芯片上);GMCH1390包括存储器1340和协处理器1345耦合到的存储器和图形控 制器;Ι0Η1350将输入/输出(I/O)设备1360耦合到GMCH1390。可选地,存储器和图形 控制器中的一个或两个集成在处理器(如在本文所述的)内,存储器1340和协处理器1345 在单个芯片中与Ι0Η1350 -起直接耦合到处理器1310和控制器中心1320。
[0105] 在图13中用虚线表示额外的处理器1315的可选性质。每一个处理器1310、1315 可包括在本文所述的一个或多个处理核心,且可以是处理器1200的某个版本。
[0106] 存储器1340可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者 的组合。对于至少一个实施例,控制器中心1320经由多点总线例如前端总线(FSB)、点对点 接口例如QuickPath互连(QPI)或类似的连接1395与处理器1310U315通信。
[0107] 在一个实施例中,协处理器1345是专用处理器,例如高吞吐量MIC处理器、网络或 通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。在一个实施例中,控制器中心 1320可包括集成图形加速器。
[0108] 从包括架构、微架构、热、功率消耗特性等的一系列优点的度量方面,在物理资源 1310、1315之间可以有各种差异。
[0109] 在一个实施例中,处理器1310执行控制一般类型的数据处理操作的指令。嵌入指 令内的可以是协处理器指令。处理器1310将这些协处理器指令识别为具有应由附加的协 处理器1345执行的类型。对应地,处理器1310向协处理器1345发出在协处理器总线或其 它互连上的这些协处理器指令(或表示协处理器指令的控制信号)。协处理器1345接受并 执行所接收的协处理器指令。
[0110] 现在参考图14,其示出根据本发明的实施例的第一更具体的示例性系统1400的 方框图。如图14所示,多处理器系统1400是点对点互连系统,并包括经由点对点互连1450 耦合的第一处理器1470和第二处理器1480。每一个处理器1470和1480可以是处理器 1200的某个版本。在本发明的一个实施例中,处理器1470和1480分别是处理器1310和 1315,而协处理器1438是协处理器1345。在另一实施例中,处理器1470和1480分别是处 理器1310和协处理器1345。
[0111] 示出分别包括集成存储器控制器(MC)单元1472和1482的处理器1470和1480。 处理器1470还包括点对点(P-P)接口 1476和1478作为它的总线控制器单元的部分;类似 地,第二处理器1480包括P-P接口 1486和1488。处理器1470U480可经由点对点(P-P)接 口 1450使用P-P接口电路1478、1488来交换信息。如在图14中所示的,頂C1472和1482 将处理器耦合到对应的存储器,即存储器1432和存储器1434,其可以是在本地附接到相应 的处理器的主存储器的部分。
[0112] 处理器1470、1480可每一个经由单独的P-P接口 1452、1452使用点对点接口电路 1476、1494、1486、1498与芯片组1490交换信息。芯片组1490可以可选地经由高性能接口 1439与协处理器1438交换信息。在一个实施例中,协处理器1438是专用处理器,例如高吞 吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器等。
[0113] 共享高速缓存(未示出)可包括在任一处理器中或在这两个处理器之外,还经由 P-P互连与处理器连接,使得任一或两个处理器的本地高速缓存信息可存储在共享高速缓 存中(如果处理器被置于低功率模式中)。
[0114] 芯片组1490可经由接口 1496耦合到第一总线1416。在一个实施例中,第一总线 1416可以是外围部件互连(PCI)总线或诸如PCIExpress总线或另一第三代I/O互连总线 的总线,虽然本发明的范围不被如此限制。
[0115] 如图14所示,各种I/O设备1414可连同将第一总线1416耦合到第二总线1420 的总线桥1418-起耦合到第一总线1416。在一个实施例中,一个或多个额外的处理器 1415,例如协处理器、高吞吐量MIC处理器、GPGPU、加速器(例如图形加速器或数字信号处 理(DSP)单元)、现场可编程门阵列或任何其它处理器,耦合到第一总线1416。在一个实施 例中,第二总线1420可以是低管脚计数(LPC)总线。在一个实施例中,各种设备可耦合到 第二总线1420,包括例如键盘和/或鼠标1422、通信设备1427和存储单元1428例如磁盘 驱动器或可包括指令/代码和数据1430的其它大容量存储设备。此外,音频I/O1424可 耦合到第二总线1420。注意,其它架构是可能的。例如,不是图14的点对
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1