访问作为多个较小寄存器或组合的较大寄存器的寄存器组的处理器、方法和系统的制作方法_4

文档序号:9510124阅读:来源:国知局
令和数据高速缓存单元834/874和共享L2高速缓存单元876,备选实施例可对于指令和数据两者具有单个内部高速缓存,例如I级(LI)内部高速缓存,或多级内部高速缓存。在一些实施例中,系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。备选地,高速缓存中的全部可在核和/或处理器外部。
[0071]
具体示范性有序核架构
图9A-B图示更具体的示范性有序核架构的框图,该核将是芯片中的若干逻辑块(其包括具有相同类型和/或不同类型的其他核)中的一个。逻辑块通过根据应用具有一些固定功能逻辑、存储器I/O接口和其他必要I/O逻辑的高带宽互连网络(例如,环型网络)来通
?目O
[0072]图9Α是根据本发明的实施例的单个处理器核连同它到片上互连网络902的连接以及它的2级(L2)高速缓存904的本地子集的框图。在一个实施例中,指令解码器900支持具有组装数据指令集扩展的x86指令集。LI高速缓存906允许对高速缓存存储器对于标量和向量单元的低延迟访问。尽管在一个实施例中(为了简化设计),标量单元908和向量单元910使用独立寄存器组(分别地,标量寄存器912和向量寄存器914)并且在它们之间传输的数据被写入存储器并且然后从I级(LI)高速缓存906读回,本发明的备选实施例可使用不同的方法(例如,使用单个寄存器组或包括通信路径,其允许数据在两个寄存器文件直接传输而不被写回和读回)。
[0073]L2高速缓存904的本地子集是全局L2高速缓存的部分,其分成独立本地子集,每个处理器核一个。每个处理器核具有到它自己的L2高速缓存904的本地子集的直接访问路径。处理器核读取的数据存储在它的L2高速缓存子集904中并且可以与其他处理器核访问它们自己的本地L2高速缓存子集并行地被快速访问。处理器核写入的数据存储在它自己的L2高速缓存子集904中并且如必要的话从其他子集清理。环型网络对共享数据确保一致性。环型网络是双向的,以允许例如处理器核、L2高速缓存和其他逻辑块等代理在芯片内彼此通信。每个环型数据路径每个方向是1012位宽。
[0074]图9B是根据本发明的实施例的图9A中的处理器核的部分的展开图。图9B包括LI高速缓存904的LI数据高速缓存906A部分,以及关于向量单元910和向量寄存器914的更多细节。具体地,向量单元910是16宽向量处理单元(VPU)(参见16宽ALU 928),其执行整数、单精度浮点和双精度浮点指令中的一个或多个。VPU支持用搅合单元920搅合寄存器输入、利用数值转换单元922A-B的数值转换以及对存储器输入用复制单元924复制。写入掩码寄存器926允许预测所得的向量写入。
[0075] 具有集成存储器控制器和图形的处理器
图10是根据本发明的实施例可具有超过一个核、可具有集成存储器控制器并且可具有集成图形的处理器1000的框图。图10中的实线框图示处理器1000,其具有单核1002A、系统代理1010、一组一个或多个总线控制器单元1016,而虚线框的可选添加图示备选处理器1000,其具有多个核1002A-N、系统代理单元1010中的一组一个或多个集成存储器控制器单元组1014和专用逻辑1008。
[0076]从而,处理器1000的不同实现可包括:1) CPU,其中专用逻辑1008是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核),并且核1002A-N是一个或多个通用核(例如,通用有序核、通用无序核、两者的组合);2)协处理器,其中核1002A-N是主要针对图形和/或科学(吞吐量)的大量专用核;以及3)协处理器,其中核1002A-N是大量通用有序核。从而,处理器1000可以是通用处理器、协处理器或专用处理器,例如网络或通信处理器、压缩引擎、图形处理器、GPGPU (通用图形处理单元)、高吞吐量的许多集成核(MIC)协处理器(其包括30个或以上的核)、嵌入式处理器或类似物。处理器可在一个或多个芯片上实现。处理器1000可以是一个或多个衬底的一部分和/或可在一个或多个衬底上使用许多工艺技术中的任一个来实现,例如BiCMOS、CMOS或NM0S。
[0077]存储器层级包括在核内的一个或多个级别的高速缓存、一组一个或多个共享高速缓存单元1006和耦合于该组集成存储器控制器单元1014的外部存储器(未示出)。共享高速缓存单元组1006可包括一个或多个中间级别的高速缓存,例如2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存、最后级别的高速缓存(LLC)和/或其组合。尽管在一个实施例中基于环的互连单元1012使集成图形逻辑1008、共享高速缓存单元组1006和系统代理单元1010/集成存储器控制器单元1014互连,备选实施例可使用任何数量的众所周知的技术用于互连这样的单元。在一个实施例中,维持一个或多个高速缓存单元1006与核1002-A-N之间的一致性。
[0078]在一些实施例中,核1002A-N中的一个或多个能够多线程。系统代理1010包括协调并且操作核1002A-N的那些部件。系统代理单元1010可包括例如功率控制单元(P⑶)和显示单元。P⑶可以是或包括用于调节核1002A-N和集成图形逻辑1008的功率状态所需要的逻辑和部件。显示单元用于驱动一个或多个外部连接的显示器。
[0079]核1002A-N从架构指令集方面来看可以是同构或异构的;8卩,核1002A-N中的两个或以上可能够执行相同指令集,而其他可仅能够执行该指令集的子集或不同指令集。
[0080]
示范性计算机架构
图11-14是示范性计算机架构的框图。本领域内已知的对于便携式电脑、台式机、手持PC、个人数字助理、工程化工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、手机、便携式媒体播放器、手持设备和各种其他电子设备的其他系统设计和配置也是适合的。一般,能够包含如本文公开的处理器和/或其他执行逻辑的很多种系统或电子设备一般是适合的。
[0081]现在参考图11,示出根据本发明的一个实施例的系统1100的框图。该系统1100可包括一个或多个处理器1110、1115,其耦合于控制器集线器1120。在一个实施例中,控制器集线器1120包括图形存储器控制器集线器(GMCH) 1190和输入/输出集线器(1H) 1150(其可在独立芯片上);GMCH 1190包括存储器和图形控制器,存储器1140和协处理器1145耦合于这些图形控制器;1H 1150使输入/输出(I/O)设备1160耦合于GMCH 1190。备选地,存储器和图形控制器中的一个或两个在处理器内集成(如本文描述的),存储器1140和协处理器1145直接耦合于处理器1110和在具有1H 1150的单芯片中的控制器集线器
1120ο
[0082]额外处理器1115的可选性质在图11中用折线指示。每个处理器1110、1115可包括本文描述的处理核中的一个或多个并且可以是某一版本的处理器1000。
[0083]存储器1140可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或两者的组合。对于至少一个实施例,控制器集线器1120经由多点总线(例如前端总线(FSB))、点到点接口(例如QuickPath互连(QPI))或相似连接1195与处理器1110、1115通信。
[0084]在一个实施例中,协处理器1145是通用处理器,例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器或类似物。在一个实施例中,控制器集线器1120可包括集成图形加速器。
[0085]从品质(其包括架构、微架构、热、功耗特性及类似物)的度量谱方面来看,在物理资源1110、1115之间可以存在多种差异。
[0086]在一个实施例中,处理器1110执行指令,其控制通用类型的数据处理操作。协处理器指令可嵌入指令内。处理器1110将这些协处理器指令识别为应由附连协处理器1145执行的类型。因此,处理器1110在协处理器总线或其他互连上向协处理器1145发出这些协处理器指令(或代表协处理器指令的控制信号)。协处理器1145接受并且执行接收的协处理器指令。
[0087]现在参考图12,示出根据本发明的实施例的第一更具体示范性系统1200的框图。如在图12中示出的,多处理器系统1200是点到点互连系统,并且包括经由点到点互连1250而耦合的第一处理器1270和第二处理器1280。处理器1270和1280中的每个可以是某一版本的处理器1000。在本发明的一个实施例中,处理器1270和1280分别是处理器1110和1115,而协处理器1238是协处理器1145。在另一个实施例中,处理器1270和1280分别是处理器1110和协处理器1145。
[0088]示出处理器1270和1280,其分别包括集成存储器控制器(DC)单元1272和1282。处理器1270还包括点到点(P-P)接口 1276和1278作为它的总线控制器单元的部分;相似地,第二处理器1280包括P-P接口 1286和1288。处理器1270、1280可经由点到点(P-P)接口 1250使用P-P接口电路1278、1288交换信息。如在图12中示出的,IMC 1272和1282使处理器耦合于相应的存储器,即存储器1232和存储器1234,其可以是本地附连到相应处理器的主存储器的部分。
[0089]处理器1270、1280每个可使用点到点接口电路1276、1294、1286、1298经由个体P-P接口 1252、1254与芯片集1290交换信息。芯片集1290可可选地经由高性能接口 1239与协处理器1238交换信息。在一个实施例中,协处理器1238是专用处理器,例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、嵌入式处理器或类似物。
[0090]共享高速缓存(未示出)可包括在任一处理器中或在两个处理器外部,然而经由P-P互连与处理器连接,使得如果处理器被放置到低功率模式则任一或两个处理器的本地高速缓存信息可存储在共享高速缓存中。
[0091]芯片集1290可经由接口 1296耦合于第一总线1216。在一个实施例中,第一总线1216可以是外围部件互连(PCI)总线,或例如PCI Express总线或另一个第三代I/O互连总线等总线,但本发明的范围不受此限制。
[0092]如在图12中示出的,各种I/O设备1214连同总线桥1218可耦合于第一总线1216,该总线桥1218使第一总线1216耦合于第二总线1220。在一个实施例中,例如协处理器、高吞吐量MIC处理器、GPGPU、加速器(例如,图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其他处理器等一个或多个额外处理器1215耦合于第一总线1216。在一个实施例中,第二总线1220可以是低引脚计数(LPC)总线。各种设备可耦合第二总线1220,其包括例如键盘和/或鼠标1222、通信设备1227和存储单元1228,例如盘驱动器或其他大容量存储设备,其在一个实施例中可包括指令/代码和数据1230。此外,音频I/O 1224可耦合于第二总线1220。注意其他架构是可能的。例如,代替图12的点到点架构,系统可实现多点总线或其他这样的架构。
[0093]现在参考图13,示出根据本发明的实施例的第二更具体的示范性系统1300的框图。图12和图13中的类似元件承载类似的标号,并且图12的某些方面已经从图13省略以避免混淆图13的其他方面。
[0094]图13图示处理器1270、1280可分别包括集成存储器和I/O控制逻辑(“CL”)1272和1282。从而,CL 1272、1282包括集成存储器控制器单元并且包括I/O控制逻辑。图13图示不仅存储器1232、1234耦合于CL 1272、1282,而且I/O设备1314也耦合
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1