用于执行多个乘法操作的方法和装置的制造方法_2

文档序号：9235256阅读：来源：国知局

执行解码级106 ; 3)重命名/分配器单元152执行分配级108和重命名级110 ;4)调度器单元156执行调度级112 ;5)物理寄存器组单元158和存储器单元170执行寄存器读取/存储器读取级114 ; 执行群集160执行执行级116 ;6)存储器单元170和物理寄存器组单元158执行写回/存储器写入级118;7)各单元可牵设到异常处理级122;W及8)引退单元154和物理寄存器组单元158执行提交级124。
[0036] 核190可支持一个或多个指令集（例如，x86指令集（具有与较新版本一起添加的一些扩展）；加利福巧亚州桑巧维尔市的MIPS技术公司的MIPS指令集；加利福巧州桑巧维尔市的ARM控股的ARM指令集（具有诸如NEON等可选附加扩展）），其中包括本文中描述的各指令。在一个实施例中，核190包括用于支持紧缩数据指令集扩展（例如，在下文中描述的AVX1、AVX2和/或某种形式的一般向量友好指令格式扣=0和/或U = 1))的逻辑，从而允许很多多媒体应用使用的操作能够使用紧缩数据来执行。
[0037] 应当理解，核可支持多线程化（执行两个或更多个并行的操作或线程的集合），并且可W按各种方式来完成该多线程化，此各种方式包括时分多线程化、同步多线程化（其中单个物理核为该物理核正在同步多线程化的各线程中的每一个线程提供逻辑核）、或其组合（例如，时分取出和解码W及此后诸如用Irrtel瑕超线程化技术来同步多线程化）。
[003引尽管在无序执行的上下文中描述了寄存器重命名，但应当理解，可W在有序架构中使用寄存器重命名。尽管所示出的处理器的实施例还包括分开的指令和数据高速缓存单元134/174 W及共享L2高速缓存单元176,但替代实施例可W具有用于指令和数据两者的单个内部高速缓存，诸如例如一级（L1)内部高速缓存或多个级别的内部高速缓存。在一些实施例中，该系统可包括内部高速缓存和在核和/或处理器外部的外部高速缓存的组合。或者，所有高速缓存都可W在核和/或处理器的外部。
[0039] 图2是根据本发明的各实施例的可能具有一个W上核、可能具有集成存储器控制器、W及可能具有集成图形器件的处理器200的框图。图2中的实线框示出具有单个核 202A、系统代理210、一个或多个总线控制器单元216的集合的处理器200,而虚线框的可选附加示出具有多个核202A-N、系统代理单元210中的一个或多个集成存储器控制器单元 214的集合W及专用逻辑208的替代处理器200。
[0040] 因此，处理器200的不同实现可包括；1) CPU,其中专用逻辑208是集成图形和/或科学（吞吐量）逻辑（其可包括一个或多个核），并且核202A-N是一个或多个通用核（例如，通用有序核、通用无序核、该两者的组合）；2)协处理器，其中核202A-N是旨在主要用于图形和/或科学（吞吐量）的多个专用核；W及3)协处理器，其中核202A-N是多个通用有序核。因此，处理器200可W是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元）、高吞吐量的集成众核0OC)协处理器（包括30个或更多核）、或嵌入式处理器等。该处理器可W被实现在一个或多个巧片上。处理器200可W是一个或多个衬底的一部分，和/或可W使用诸如例如BiCM0S、CM0S 或NM0S等的多个加工技术中的任何一个技术将处理器200实现在一个或多个衬底上。
[0041] 存储器层次结构包括在各核内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元206的集合、W及禪合至集成存储器控制器单元214的集合的外部存储器（未示出）。该共享高速缓存单元206的集合可W包括一个或多个中间级高速缓存，诸如二级 (L2)、S级（L3)、四级（L4)或其他级别的高速缓存、末级高速缓存（LLC)、和/或其组合。尽管在一个实施例中，基于环的互连单元212将集成图形逻辑208、共享高速缓存单元206的集合W及系统代理单元210/集成存储器控制器单元214互连，但替代实施例可使用任何数量的公知技术来将该些单元互连。在一个实施例中，维持一个或多个高速缓存单元206和棱 202-A-N 么间的一致性（coherency)。
[00创在一些实施例中，核202A-N中的一个或多个核能够多线程化。系统代理210包括协调和操作核202A-N的那些组件。系统代理单元210可包括例如功率控制单元（PCU)和显示单元。PCU可W是或可包括用于调整核202A-N和集成图形逻辑208的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。
[0043] 核202A-N在架构指令集方面可W是同构的或异构的；即，该些核202A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。在一个实施例中，核202A-N是异构的并且包括下述"小型"核和"大型"核。
[0044] 图3-6是示例性计算机架构的框图。本领域已知的对膝上型设备、台式机、手持 PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器值SP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备W及各种其他电子设备的其他系统设计和配置也是合适的。一般地，能够包含本文中所公开的处理器和/或其他执行逻辑的多个系统和电子设备一般都是合适的。
[0045] 现在参考图3,所示出的是根据本发明一个实施例的系统300的框图。系统300可 W包括一个或多个处理器310、315,该些处理器禪合到控制器中枢320。在一个实施例中，控制器中枢320包括图形存储器控制器中枢佑MCH) 390和输入/输出中枢（IOH) 350 (其可 W在分开的巧片上）；GMCH 390包括存储器和图形控制器，存储器340和协处理器345禪合到该存储器和图形控制器；IOH 350将输入/输出（I/O)设备360禪合到GMCH390。或者，存储器和图形控制器中的一个或两者可W被集成在处理器内（如本文中所描述的），存储器340和协处理器345直接禪合到处理器310 W及控制器中枢320,该控制器中枢与IOH 350处于单个巧片中。
[0046] 附加处理器315的任选性质用虚线表示在图3中。每一处理器310、315可包括本文中描述的处理核中的一个或多个，并且可W是处理器200的某一版本。
[0047] 存储器340可W是例如动态随机存取存储器值RAM)、相变存储器（PCM)或该两者的组合。对于至少一个实施例，控制器中枢320经由诸如前端总线（FSB)之类的多分支总线、诸如快速通道互连（QPI)之类的点对点接口、或者类似的连接395与处理器310、315进行通信。
[0048] 在一个实施例中，协处理器345是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。在一个实施例中，控制器中枢320可W包括集成图形加速器。
[0049] 在物理资源310、315之间可W存在包括架构、微架构、热、和功耗特征等的一系列品质度量方面的各种差异。
[0化0] 在一个实施例中，处理器310执行控制一般类型的数据处理操作的指令。协处理器指令可嵌入在该些指令中。处理器310将该些协处理器指令识别为应当由附连的协处理器345执行的类型。因此，处理器310在协处理器总线或者其他互连上将该些协处理器指令（或者表示协处理器指令的控制信号）发布到协处理器345。协处理器345接受并执行所接收的协处理器指令。
[0化1] 现在参考图4,所示为根据本发明的一实施例的更具体的第一示例性系统400的框图。如图4所示，多处理器系统400是点对点互连系统，并包括经由点对点互连450禪合的第一处理器470和第二处理器480。处理器470和480中的每一个都可W是处理器200 的某一版本。在本发明的一个实施例中，处理器470和480分别是处理器310和315,而协处理器438是协处理器345。在另一实施例中，处理器470和480分别是处理器310和协处理器：345。
[0化引处理器470和480被示为分别包括集成存储器控制器（IMC)单元472和482。处理器470还包括作为其总线控制器单元的一部分的点对点（P-巧接口 476和478 ;类似地，第二处理器480包括点对点接口 486和488。处理器470、480可W使用点对点（P-巧接口电路478、488经由P-P接口 450来交换信息。如图4所示，IMC 472和482将各处理器禪合至相应的存储器，即存储器432和存储器434,该些存储器可W是本地附连至相应的处理器的主存储器的部分。
[0053] 处理器470、480可各自使用点对点接口电路476、494、486、498经由各个P-P接口 452、454与巧片组490交换信息。巧片组490可W可选地经由高性能接口 439与协处理器 438交换信息。在一个实施例中，协处理器438是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。
[0化4]共享高速缓存（未示出）可W被包括在任一处理器之内，或被包括在两个处理器外部但仍经由P-P互连与该些处理器连接，从而如果将某处理器置于低功率模式时，可将任一处理器或两个处理器的本地高速缓存信息存储在该共享高速缓存中。
[0化5]巧片组490可经由接口 496禪合至第一总线416。在一个实施例中，第一总线416 可W是外围组件互连（PCI)总线，或诸如PCI Express总线或另一第S代I/O互连总线之类的总线，但本发明的范围并不受此限制。
[0化6] 如图4所示，各种I/O设备414可W连同总线桥416禪合到第一总线418,该总线桥将第一总线416禪合至第二总线420。在一个实施例中，诸如协处理器、高吞吐量MIC处理器、GPGPU的处理器、加速器（诸如例如图形加速器或数字信号处理器值S巧单元）、现场可编程口阵列或任何其他处理器的一个或多个附加处理器415禪合到第一总线416。在一个实施例中，第二总线420可W是低引脚计数（LPC)总线。各种设备可W被禪合至第二总线420,在一个实施例中该些设备包括例如键盘/鼠标422、通信设备427 W及诸如可包括指令/代码和数据430的盘驱动器或其他大容量存储设备的存储单元428。此外，音频I/O 424可W被禪合至第二总线420。注意，其他架构是可能的。例如，代替图4的点对点架构，系统可W实现多分支总线或其他该类架构。
[0化7] 现在参考图5,所示为根据本发明的实施例的更具体的第二示例性系统500的框图。图4和图5中的相同部件用相同附图标记表示，并从图5中省去了图4中的某些方面，W避免使图5的其他方面变得模糊。
[0化引图5示出处理器470、480可分别包括集成存储器和I/O控制逻辑（"化"）472和 482。因此，CL472、482包括集成存储器控制器单元并包括I/O控制逻辑。图5示出不仅存储器432、434禪合至化472、482,而且I/O设备514也禪合至控制逻辑472、482。传统 I/O设备515被禪合至巧片组490。
[0化9] 现在参照图6,所示出的是根据本发明一个实施例的SoC 600的框图。图2中相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图6中，互连单元602被禪合至；应用处理器610,该应用处理器包括一个或多个核202A-N的集合W及共享高速缓存单元206 ;系统代理单元210 ;总线控制器单元216 ;集成存储器控制器单元 214 ;-组或一个或多个协处理器620,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器（SRAM)单元630 ;直接存储器存取值MA)单元632 及用于禪合至一个或多个外部显示器的显示单元640。在一个实施例中，协处理器620包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。
[0060] 本文公开的机制的各实施例可W被实现在硬件、软件、固件或该些实现方法的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入设备W及至少一个输出设备。
[0061] 可将程序代码（诸如图4中示出的代码430)应用于输入指令，W执行本文描述的各功能并生成输出信息。可W按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器值SP)、微控制器、专用集成电路 (ASIC)或微处理器之类的处理器的任何系统。
[0062] 程序代码可W用高级程序化语言或面向对象的编程语言来实现，W便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本文中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可W是编译语言或解释语言。
[0063] 至少一个实施例的一个或多个方面可W由存储在代表处理器之内的各种逻辑的机器可读介质上的表示性指令来实现，指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为"IP核"的该些表示可W被存储在有形的机器可读介质上，并被提供给多个客户或生产设施W加载到实际制造该逻辑或处理器的制造机器中。
[0064]

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6