用于将多个位向左移并将多个1拉入较低有效位的指令的制作方法_4

文档序号:9204227阅读:来源:国知局
逻辑 块之一(包括相同类型和/或不同类型的其它核)。根据应用,这些逻辑块通过高带宽的互 连网络(例如,环形网络)与一些固定的功能逻辑、存储器I/O接口和其它必要的I/O逻辑 通信。
[0073] 图8A是根据本发明的各实施例的单个处理器核以及它与管芯上互连网络802的 连接及其二级(L2)高速缓存的本地子集804的框图。在一个实施例中,指令解码器800支 持具有紧缩数据指令集扩展的 x86指令集。Ll高速缓存806允许对进入标量和向量单元中 的高速缓存存储器的低等待时间访问。尽管在一个实施例中(为了简化设计),标量单元 808和向量单元810使用分开的寄存器集合(分别为标量寄存器812和向量寄存器814), 并且在这些寄存器之间转移的数据被写入到存储器并随后从一级(LI)高速缓存806读回, 但是本发明的替代实施例可以使用不同的方法(例如使用单个寄存器集合或包括允许数 据在这两个寄存器组之间传输而无需被写入和读回的通信路径)。
[0074] L2高速缓存的本地子集804是全局L2高速缓存的一部分,该全局L2高速缓存被 划分成多个分开的本地子集,即每个处理器核一个本地子集。每个处理器核具有到其自己 的L2高速缓存804的本地子集的直接访问路径。被处理器核读出的数据被存储在其L2高 速缓存子集804中,并且可以与其它处理器核访问其自己的本地L2高速缓存子集并行地被 快速访问。被处理器核写入的数据被存储在其自己的L2高速缓存子集804中,并在必要的 情况下从其它子集清除。环形网络确保共享数据的一致性。环形网络是双向的,以允许诸 如处理器核、L2高速缓存和其它逻辑块之类的代理在芯片内彼此通信。每个环形数据路径 为每个方向1012位宽。
[0075] 图8B是根据本发明的各实施例的图8A中的处理器核的一部分的展开图。图8B 包括Ll高速缓存804的Ll数据高速缓存806A部分,以及关于向量单元810和向量寄存器 814的更多细节。具体地说,向量单元810是16宽向量处理单元(VPU)(见16宽ALU 828), 该单元执行整型、单精度浮点以及双精度浮点指令中的一个或多个。该VPU通过混合单元 820支持对寄存器输入的混合、通过数值转换单元822A-B支持数值转换、并通过复制单元 824支持对存储器输入的复制。写掩码寄存器826允许断言所得的向量写入。
[0076] 具有集成存储器控制器和图形器件的处理器
[0077] 图9是根据本发明的各实施例可能具有多于一个核、可能具有集成存储器控制 器、以及可能具有集成图形器件的处理器900的框图。图9中的实线框示出具有单个核 902A、系统代理910、一个或多个总线控制器单元916的集合的处理器900,而虚线框的可 选附加示出具有多个核902A-N、系统代理单元910中的一个或多个集成存储器控制器单元 914的集合以及专用逻辑908的替代处理器900。
[0078] 因此,处理器900的不同实现可包括:I) CPU,其中专用逻辑908是集成图形和/或 科学(吞吐量)逻辑(其可包括一个或多个核),并且核902A-N是一个或多个通用核(例 如,通用的有序核、通用的无序核、这两者的组合);2)协处理器,其中核902A-N是旨在主 要用于图形和/或科学(吞吐量)的多个专用核;以及3)协处理器,其中核902A-N是多 个通用有序核。因此,处理器900可以是通用处理器、协处理器或专用处理器,诸如例如网 络或通信处理器、压缩引擎、图形处理器、GPGPU (通用图形处理单元)、高吞吐量的集成众 核(MIC)协处理器(包括30个或更多核)、或嵌入式处理器等。该处理器可以被实现在一 个或多个芯片上。处理器900可以是一个或多个衬底的一部分,和/或可以使用诸如例如 BiCMOS、CMOS或NMOS等的多个加工技术中的任何一个技术将该处理器实现在一个或多个 衬底上。
[0079] 存储器层次结构包括在各核内的一个或多个级别的高速缓存、一个或多个共享高 速缓存单元906的集合、以及耦合至集成存储器控制器单元914的集合的外部存储器(未 示出)。该共享高速缓存单元906的集合可以包括一个或多个中间级高速缓存,诸如二级 (L2)、三级(L3)、四级(L4)或其它级别的高速缓存、末级高速缓存(LLC)、和/或其组合。尽 管在一个实施例中,基于环的互连单元912将集成图形逻辑908、共享高速缓存单元906的 集合以及系统代理单元910/集成存储器控制器单元914互连,但替代实施例可使用任何数 量的公知技术来将这些单元互连。在一个实施例中,可以维护一个或多个高速缓存单元906 和核902-A-N之间的一致性(coherency)。
[0080] 在一些实施例中,核902A-N中的一个或多个核能够多线程化。系统代理910包括 协调和操作核902A-N的那些组件。系统代理单元910可包括例如功率控制单元(P⑶)和 显示单元。P⑶可以是或包括用于调整核902A-N和集成图形逻辑908的功率状态所需的逻 辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
[0081] 核902A-N在架构指令集方面可以是同构的或异构的;即,这些核902A-N中的两个 或更多个核可能能够执行相同的指令集,而其它核可能能够执行该指令集的仅仅子集或不 同的指令集。
[0082] 示例性计算机架构
[0083] 图10-13是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持 PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数 字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播 放器、手持设备以及各种其它电子设备的其它系统设计和配置也是合适的。一般地,能够包 含本文中所公开的处理器和/或其它执行逻辑的多个系统和电子设备一般都是合适的。
[0084] 现在参考图10,所示出的是根据本发明一个实施例的系统1000的框图。系统 1000可以包括一个或多个处理器1010、1015,这些处理器耦合到控制器中枢1020。在一 个实施例中,控制器中枢1020包括图形存储器控制器中枢(GMCH) 1090和输入/输出中枢 (IOH) 1050(其可以在分开的芯片上);GMCH 1090包括存储器和图形控制器,存储器1040 和协处理器1045耦合到该存储器和图形控制器;IOH 1050将输入/输出(I/O)设备1060 耦合到GMCH 1090。或者,存储器和图形控制器中的一个或两者被集成在处理器内(如本文 中所描述的),存储器1040和协处理器1045直接耦合到处理器1010以及控制器中枢1020, 该控制器中枢与IOH 1050处于单个芯片中。
[0085] 附加处理器1015的任选性质用虚线表示在图10中。每一处理器1010、1015可包 括本文中描述的处理核中的一个或多个,并且可以是处理器900的某一版本。
[0086] 存储器1040可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者 的组合。对于至少一个实施例,控制器中枢1020经由诸如前端总线(FSB)之类的多分支总 线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1095与处理器1010、1015 进行通信。
[0087] 在一个实施例中,协处理器1045是专用处理器,诸如例如高吞吐量MIC处理器、网 络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。在一个实施例中,控 制器中枢1020可以包括集成图形加速器。
[0088] 在物理资源1010、1015之间会存在包括架构、微架构、热、和功耗特征等的一系列 品质度量方面的各种差异。
[0089] 在一个实施例中,处理器1010执行控制一般类型的数据处理操作的指令。协处理 器指令可嵌入在这些指令中。处理器1010将这些协处理器指令识别为应当由附连的协处 理器1045执行的类型。因此,处理器1010在协处理器总线或者其它互连上将这些协处理 器指令(或者表示协处理器指令的控制信号)发布到协处理器1045。协处理器1045接受 并执行所接收的协处理器指令。
[0090] 现在参考图11,所示为根据本发明的一实施例的更具体的第一示例性系统1100 的框图。如图11所示,多处理器系统1100是点对点互连系统,并包括经由点对点互连1150 耦合的第一处理器1170和第二处理器1180。处理器1170和1180中的每一个都可以是处 理器900的某一版本。在本发明的一个实施例中,处理器1170和1180分别是处理器1010 和1015,而协处理器1138是协处理器1045。在另一实施例中,处理器1170和1180分别是 处理器1010和协处理器1045。
[0091] 处理器1170和1180被示为分别包括集成存储器控制器(MC)单元1172和1182。 处理器1170还包括作为其总线控制器单元的一部分的点对点(P-P)接口 1176和1178 ;类 似地,第二处理器1180包括点对点接口 1186和1188。处理器1170、1180可以使用点对点 (P-P)接口电路1178、1188经由P-P接口 1150来交换信息。如图11所示,頂C 1172和1182 将各处理器耦合至相应的存储器,即存储器1132和存储器1134,这些存储器可以是本地附 连至相应的处理器的主存储器的部分。
[0092] 处理器1170U180可各自经由使用点对点接口电路1176、1194、1186、1198的各个 P-P接口 1152、1154与芯片组1190交换信息。芯片组1190可以可选地经由高性能接口 1139 与协处理器1138交换信息。在一个实施例中,协处理器1138是专用处理器,诸如例如高吞 吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。
[0093] 共享高速缓存(未示出)可以被包括在任一处理器之内,或被包括在两个处理器 外部但仍经由P-P互连与这些处理器连接,从而如果将某处理器置于低功率模式时,可将 任一处理器或两个处理器的本地高速缓存信息存储在该共享高速缓存中。
[0094] 芯片组1190可经由接口 1196耦合至第一总线1116。在一个实施例中,第一总线 1116可以是外围组件互连(PCI)总线,或诸如PCI Express总线或其它第三代I/O互连总 线之类的总线,但本发明的范围并不受此限制。
[0095] 如图11所示
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1