用于加载-索引-和-收集操作的指令和逻辑的制作方法

文档序号:15104496发布日期:2018-08-04 16:32阅读:272来源:国知局

本公开涉及处理逻辑、微处理器以及关联的指令集架构的领域,所述指令集架构当由处理器或其它处理逻辑执行时执行逻辑、数学或其它功能操作。



背景技术:

微处理器系统正变得越来越常见。多处理器系统的应用包括动态域分区,一直到桌面计算。为了利用多处理器系统,要执行的代码可被分成多个线程以用于由各种处理实体执行。每个线程可彼此并行执行。当指令在处理器上接收时,它们可以被解码成项或指令字(其是本机(native)或更本机的)以用于在处理器上执行。处理器可在片上系统中实现。通过存储在阵列中的索引对存储器的间接读和写入访问可以在密码学、图形遍历、分类和稀疏矩阵应用中使用。

附图描述:

在附图的图中作为示例而非限制示出了实施例:

图1A是根据本公开的实施例用可包含执行指令的执行单元的处理器形成的示范计算机系统的框图;

图1B示出了根据本公开的实施例的数据处理系统;

图1C示出了用于执行文本字符串比较操作的数据处理系统的其它实施例;

图2是根据本公开的实施例可包含执行指令的逻辑电路的处理器的微架构的框图;

图3A示出了根据本公开的实施例的多媒体寄存器中的各种打包数据类型表示;

图3B示出了根据本公开的实施例的可能寄存器中的数据存储格式;

图3C示出了根据本公开的实施例的多媒体寄存器中的各种有符号和无符号的打包数据类型表示;

图3D示出了操作编码格式的实施例;

图3E示出了根据本公开的实施例的具有40位或更多位的另一可能操作编码格式;

图3F示出了根据本公开的实施例的又一可能操作编码格式;

图4A是示出根据本公开实施例的有序流水线和寄存器重命名阶段、无序发布/执行流水线的框图;

图4B是示出根据本公开实施例的要包含在处理器中的有序架构核以及寄存器重命名逻辑、无序发布/执行逻辑的框图;

图5A是根据本公开实施例的处理器的框图;

图5B是根据本公开实施例的核的示例实现的框图;

图6是根据本公开实施例的系统的框图;

图7是根据本公开实施例的第二系统的框图;

图8是根据本公开实施例的第三系统的框图;

图9是根据本公开实施例的片上系统的框图;

图10示出了根据本公开的实施例的可执行至少一个指令的含有中央处理单元和图形处理单元的处理器;

图11是示出根据本公开实施例的IP核的开发的框图;

图12示出根据本公开的实施例,第一类型的指令可如何由不同类型的处理器仿真;

图13示出根据本公开的实施例的对比将源指令集中的二进制指令转换成目标指令集中二进制指令的软件指令转换器的使用的框图;

图14是根据本公开的实施例的处理器的指令集架构的框图;

图15是根据本公开的实施例的处理器的指令集架构的更详细框图;

图16是根据本公开的实施例的用于处理器的指令集架构的执行流水线的框图;

图17是根据本公开的实施例的用于利用处理器的电子装置的框图;

图18是根据本公开的实施例的对于用于向量操作的指令和逻辑的示例系统的说明,所述向量操作用以从索引阵列加载索引并基于那些索引从稀疏存储器中的位置收集元素;

图19是示出根据本公开的实施例的用以执行扩展向量指令的处理器核的框图;

图20是示出根据本公开的实施例的示例扩展向量寄存器堆的框图;

图21是根据本公开的实施例的用以执行从索引阵列加载索引并基于那些索引从稀疏存储器中的位置收集元素的操作的说明;

图22A和22B示出根据本公开的实施例的加载-索引-和-收集指令的相应形式的操作;

图23示出根据本公开的实施例的用于从索引阵列加载索引并基于那些索引从稀疏存储器中的位置收集元素的示例方法。

具体实施方式

以下描述描述了用于在处理设备上执行用以从索引阵列加载索引并基于那些索引从稀疏存储器中的位置收集元素的向量操作的指令和处理逻辑。此类处理设备可包括无序处理器。在以下描述中,阐述了众多特定细节,诸如处理逻辑、处理器类型、微架构条件、事件、启动(enablement)机制等,以便提供本公开的实施例的更透彻理解。然而,本领域技术人员将认识到,没有此类特定细节也可实践实施例。此外,一些众所周知的结构、电路等尚未详细示出,以避免不必要地使本公开的实施例混淆。

尽管以下实施例参考处理器进行描述,但其它实施例可应用于其它类型集成电路和逻辑装置。本公开的实施例的类似技术和教导可应用于可受益于更高流水线吞吐量和改进性能的其它类型电路或半导体装置。本公开的实施例的教导可应用于执行数据操纵的任何处理器或机器。然而,实施例不限于执行512位、256位、128位、64位、32位或16位数据操作的处理器或机器,并且可应用于其中可执行数据操纵或管理的任何处理器和机器。此外,以下描述提供了示例,并且附图为了示出目的示出了各种示例。然而,这些示例不应被理解为限制意义,因为它们仅仅意图提供本公开的实施例的示例,而不是提供本公开的实施例的所有可能实现的详尽列表。

尽管以下示例在执行单元和逻辑电路的上下文中描述了指令处置和分发(distribution),但本公开的其它实施例可通过存储在机器可读有形介质上的数据或指令实现,所述指令当由机器执行时使机器执行与本公开的至少一个实施例一致的功能。在一个实施例中,与本公开的实施例关联的功能体现在机器可执行指令中。指令可用于使可用指令编程的通用或专用处理器执行本公开的步骤。本公开的实施例可提供为计算机程序产品或软件,该产品或软件可包括机器或计算机可读介质,其上存储有可用于编程计算机(或其它电子装置)以执行根据本公开的实施例的一个或多个操作的指令。更进一步,本公开的实施例的步骤可由包含用于执行所述步骤的固定功能逻辑的特定硬件组件执行,或者由编程的计算机组件和固定功能硬件组件的任何组合执行。

用于对逻辑编程以执行本公开的实施例的指令可被存储在系统中的存储器内,诸如DRAM、高速缓存、闪速存储器或其它存储装置内。更进一步,指令可经由网络或通过其它计算机可读介质分发。从而,机器可读介质可包含用于存储或传送由机器(例如计算机)可读形式的信息的任何机制,但其不限于软盘、光盘、紧凑盘只读存储器(CD-ROM)、以及磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪速存储器或在因特网上经由电、光、声或其它形式传播信号(例如载波、红外信号、数字信号等)传送信息中使用的有形机器可读存储装置。相应地,计算机可读介质可包含适合于存储或传送由机器(例如计算机)可读形式的电子指令或信息的任何类型有形机器可读介质。

设计从创建到模拟到制造可经过各种阶段。表示设计的数据可用多种方式表示该设计。首先,如在模拟中可能有用的,硬件可使用硬件描述语言或另一功能描述语言表示。附加地,在设计过程的某些阶段,可产生具有逻辑和/或晶体管栅的电路级模型。更进一步,设计在某一阶段可达到用硬件模型表示各种装置的物理布局的数据级。在其中使用一些半导体制造技术的情况下,表示硬件模型的数据可以是规定在用于产生集成电路的掩膜的不同掩膜层上存在或缺乏各种特征的数据。在设计的任何表示中,数据都可存储在任何形式的机器可读介质中。存储器或者磁或光存储装置(诸如盘)可以是机器可读介质,以存储经由调制或以其它方式生成以传送信息的光波或电波传送的此类信息。在传送指示或携带代码或设计的电载波时,就执行电信号的复制、缓冲或重新传送而言,可进行新的拷贝。从而,通信提供商或网络提供商可在有形机器可读介质上至少暂时存储体现本公开实施例的技术的制品,诸如被编码到载波中的信息。

在现代处理器中,可使用若干不同执行单元来处理和执行各种代码和指令。一些指令可能更快地完成,而其它指令可能花了若干时钟周期完成。指令吞吐量越快,处理器的总体性能越好。从而,使许多指令尽可能快地执行会是有利的。然而,可存在具有更大复杂性并且在执行时间和处理器资源方面要求更大的某些指令,诸如浮点指令、加载/存储操作、数据移动等。

当在因特网、文本和多媒体应用中使用更多计算机系统时,已经随时间引入了附加处理器支持。在一个实施例中,指令集可与一个或多个计算机架构关联,包含数据类型、指令、寄存器架构、寻址模式、存储器架构、中断和异常处置以及外部输入和输出(I/O)。

在一个实施例中,指令集架构(ISA)可由一个或多个微架构实现,微架构可包含用于实现一个或多个指令集的处理器逻辑和电路。相应地,具有不同微架构的处理器可共享公共指令集的至少一部分。例如,Intel® Pentium 4处理器、Intel® CoreTM处理器以及来自加利福尼亚州,Sunnyvale 的Advanced Micro Devices, Inc的处理器实现了几乎相同版本的x86指令集(具有已经对于较新版本被添加的一些扩展),但具有不同的内部设计。类似地,由其它处理器开发公司(诸如ARM Holding, Ltd、MIPS或他们的被许可人或采纳方)设计的处理器可共享公共指令集的至少一部分,但可包含不同处理器设计。例如,ISA的相同寄存器架构可使用新或公知的技术在不同微架构中以不同方式实现,包括专用物理寄存器、使用寄存器重命名机制(例如,使用寄存器别名表(RAT)、重新排序缓冲器(ROB)和引退寄存器堆)的一个或多个动态分配的物理寄存器。在一个实施例中,寄存器可包括一个或多个寄存器、寄存器架构、寄存器堆或可以或可以不由软件程序器可寻址的其它寄存器集。

指令可包含一个或多个指令格式。在一个实施例中,除了其它之外,指令格式还可指示要规定的各种字段(位数、位的位置等)、要执行的操作以及在其上将执行操作的操作数。在另外实施例中,一些指令格式可由指令模板(或子格式)进一步定义。例如,给定的指令格式的指令模板可被定义成具有指令格式字段的不同子集,和/或定义成具有不同解释的给定字段。在一个实施例中,指令可使用指令格式(并且如果定义了,则在那个指令格式的指令模板中的给定一个模板中)表述,并且规定或指示操作以及操作将在其上进行操作的操作数。

科学、金融、自动向量化通用、RMS(识别、挖掘和合成)及视觉和多媒体应用(例如,2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频操纵)可要求对大量数据项执行相同操作。在一个实施例中,单指令多数据(SIMD)指使得处理器对多个数据元素执行操作的指令的类型。在逻辑上可将寄存器中的位划分成多个固定大小或可变大小数据元素(每个元素表示单独的值)的SIMD技术可使用在处理器中。例如,在一个实施例中,可将64位寄存器中的位组织为包含4个单独16位数据元素的源操作数,每个元素表示单独的16位值。此类型的数据可称为“打包”(packed)数据类型或“向量”数据类型,并且此数据类型的操作数可称为打包数据操作数或向量操作数。在一个实施例中,打包数据项或向量可以是在单个寄存器内存储的打包数据元素的序列,并且打包数据操作数或向量操作数可以是SIMD指令(或“打包数据指令”或“向量指令”)的源或目的地操作数。在一个实施例中,SIMD指令指定要对两个源向量操作数执行的单向量操作,以生成相同或不同大小的具有相同或不同数量的数据元素和以相同或不同的数据元素顺序的目的地向量操作数(也称为结果向量操作数)。

例如由具有包括x86、MMXTM、流播SIMD扩展(SSE)、SSE2、SSE3、SSE4.1及SSE4.2指令的指令集的Intel® CoreTM处理器,诸如ARM Cortex®系列处理器的具有包括向量浮点(VFP)和/或NEON指令的指令集的ARM处理器,以及诸如由中国科学院的计算技术研究所(ICT)开发的龙芯(Loongson)系列处理器的MIPS处理器所采用的SIMD技术已经在应用性能方面实现了相当大的改进(CoreTM和MMXTM是加利福尼亚州Santa Clara的Intel Corporation的注册商标或商标)。

在一个实施例中,目的地和源寄存器/数据可以是表示对应数据或操作的源和目的地的常规术语。在一些实施例中,它们可通过具有与描绘的那些名称或功能不同的名称或功能的寄存器、存储器或其它存储区域来实现。例如,在一个实施例中,“DEST1”可以是临时存储寄存器或其它存储区域,而“SRC1”和“SRC2”可以是第一和第二源存储寄存器或其它存储区域并以此类推。在其它实施例中,两个或更多个SRC和DEST存储区域可对应于相同存储区域(例如,SIMD寄存器)内的不同数据存储元素。在一个实施例中,例如通过将对第一和第二源数据执行的操作的结果写回到用作目的地寄存器的所述两个源寄存器中的一个,源寄存器之一也可充当目的地寄存器。

图1A是根据本公开的实施例的用可包括执行单元以执行指令的处理器形成的示范计算机系统的框图。根据本公开(例如本文描述的实施例中的),系统100可包括诸如处理器102的组件,以采用包括执行用于处理数据的算法的逻辑的执行单元。系统100可表示基于根据加利福尼亚州Santa Clara的Intel Corporation可用的PENTIUM® III、PENTIUM®4、XeonTM、Itanium®、XScaleTM和/或StrongARMTM微处理器的处理系统,尽管也可使用其它系统(包括具有其它微处理器的PC、工程工作站、机顶盒等)。在一个实施例中,样本系统100可执行从华盛顿Redmond的Microsoft Corporation可得到的WindowsTM操作系统的某个版本,尽管也可使用其它操作系统(例如,UNIX和Linux)、嵌入式软件和/或图形用户界面。因此,本公开的实施例不限于硬件电路和软件的任何特定组合。

实施例并不限于计算机系统。本公开的实施例可在诸如手持式装置和嵌入式应用的其它装置中使用。手持式装置的一些示例包括蜂窝电话、因特网协议装置、数码相机、个人数字助理(PDA)及手持式PC。嵌入式应用可包括微控制器、数字信号处理器(DSP)、片上系统、网络计算机(NetPC)、机顶盒、网络中枢、广域网(WAN)交换机或可执行根据至少一个实施例的一个或多个指令的任何其它系统。

计算机系统100可包含处理器102,处理器102可包含一个或多个执行单元108以执行根据本公开一个实施例执行至少一个指令的算法。一个实施例可在单个处理器桌上型计算机或服务器系统的上下文中描述,而其它实施例可包含在多处理器系统中。系统100可以是“中枢”系统架构的示例。系统100可包含用于处理数据信号的处理器102。处理器102可包含复杂指令集计算机(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现指令集组合的处理器或任何其它处理装置,诸如例如数字信号处理器。在一个实施例中,处理器102可耦合到处理器总线110,其可在处理器102与系统100中的其它组件之间传送数据信号。系统100的元件可执行本领域技术人员众所周知的常规功能。

在一个实施例中,处理器102可包含1级(L1)内部高速缓冲存储器104。取决于架构,处理器102可具有单个内部高速缓存或多级内部高速缓存。在另一实施例中,高速缓冲存储器可驻留在处理器102外部。取决于具体实现和需要,其它实施例也可包含内部和外部高速缓存二者的组合。寄存器堆106可将不同类型的数据存储在各种寄存器中,包含整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。

执行单元108(包含执行整数和浮点运算的逻辑)也驻留在处理器102中。处理器102也可包含存储某些宏指令的微代码的微代码(ucode)ROM。在一个实施例中,执行单元108可包含处置打包指令集109的逻辑。通过在通用处理器102的指令集中包括打包指令集109,连同执行指令的关联电路,可使用通用处理器102中的打包数据执行由许多多媒体应用使用的操作。从而,通过使用处理器的数据总线的完全宽度来对打包数据执行操作,可加速和更有效地执行许多多媒体应用。这可消除跨处理器的数据总线传输更小数据单元来一次一个数据元素执行一个或多个操作的需要。

执行单元108的实施例也可用在微控制器、嵌入式处理器、图形装置、DSP以及其它类型逻辑电路中。系统100可包含存储器120。存储器120可实现为动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、闪速存储器装置或其它存储器装置。存储器120可存储由数据信号表示的可由处理器102执行的指令119和/或数据121。

系统逻辑芯片116可耦合到处理器总线110和存储器120。系统逻辑芯片116可包含存储器控制器中枢(MCH)。处理器102可经由处理器总线110与MCH 116通信。MCH 116可提供到存储器120的高带宽存储器路径118,其用于指令119和数据121的存储以及用于图形命令、数据和组织结构(texture)的存储。MCH 116可在处理器102、存储器120和系统100中的其它组件之间引导数据信号,并在处理器总线110、存储器120和系统I/O 122之间桥接数据信号。在一些实施例中,系统逻辑芯片116可提供用于耦合到图形控制器112的图形端口。MCH 116可通过存储器接口118耦合到存储器120。图形卡112可通过加速图形端口(AGP)互连114耦合到MCH 116。

系统100可使用专有中枢接口总线122将MCH 116耦合到I/O控制器中枢(ICH)130。在一个实施例中,ICH 130可经由本地I/O总线提供到一些I/O装置的直接连接。本地I/O总线可包含用于将外设连接到存储器120、芯片集和处理器102的高速I/O总线。示例可包含音频控制器129、固件中枢(闪速BIOS)128、无线收发器126、数据存储装置124、含有用户输入接口125(其可包含键盘接口)的遗留I/O控制器123、串行扩展端口127(诸如通用串行总线(USB))和网络控制器134。数据存储装置124可包括硬盘驱动器、软盘驱动器、CD-ROM装置、闪速存储器装置或其它大容量存储装置。

对于系统的另一实施例,根据一个实施例的指令可与片上系统一起使用。片上系统的一个实施例由处理器和存储器组成。用于一个此类系统的存储器可包含闪速存储器。闪速存储器可位于与处理器和其它系统组件相同的管芯上。此外,诸如存储器控制器或图形控制器的其它逻辑块也可位于片上系统上。

图1B示出了实现本公开的实施例的原理的数据处理系统140。本领域技术人员将容易认识到,本文描述的实施例可通过备选处理系统操作,而不脱离本公开实施例的范围。

根据一个实施例,计算机系统140包括用于执行至少一个指令的处理核159。在一个实施例中,处理核159表示任何类型架构的处理单元,包含但不限于CISC、RISC或VLIW型架构。处理核159还可适合于以一个或多个工艺技术的制造,并且通过充分详细地表示在机器可读介质上,处理核159可适合于促进所述制造。

处理核159包括执行单元142、寄存器堆集合145、以及解码器144。处理核159还可包含对理解本公开实施例不必要的附加电路(未示出)。执行单元142可执行由处理核159接收的指令。除了执行典型处理器指令,执行单元142可执行打包指令集143中的指令,以便执行对打包数据格式的操作。打包指令集143可包含用于执行本公开实施例的指令以及其它打包指令。执行单元142可通过内部总线耦合到寄存器堆145。寄存器堆145可表示处理核159上的用于存储信息(包含数据)的存储区域。如先前所提到的,要理解到,存储区域可存储可能不关键的打包数据。执行单元142可耦合到解码器144。解码器144可将由处理核159接收的指令解码成控制信号和/或微代码入口点。响应于这些控制信号和/或微代码入口点,执行单元142执行适当操作。在一个实施例中,解码器可解释指令的操作码,其将指示应该对在指令内指示的对应数据执行什么操作。

处理核159可与总线141耦合,以便与各种其它系统装置通信,所述各种其它系统装置例如可包含但不限于:同步动态随机存取存储器(SDRAM)控制146、静态随机存取存储器(SRAM)控制147、突发闪速存储器接口148、个人计算机存储卡国际协会(PCMCIA)/紧凑型闪存(CF)卡控制149、液晶显示器(LCD)控制150、直接存储器存取(DMA)控制器151以及备选总线主接口152。在一个实施例中,数据处理系统140还可包括I/O桥154以便经由I/O总线153与各种I/O装置通信。此类I/O装置例如可包含但不限于通用异步接收器/传送器(UART)155、通用串行总线(USB)156、蓝牙无线UART 157和I/O扩展接口158。

数据处理系统140的一个实施例提供移动、网络和/或无线通信以及可执行包含文本字符串比较操作的SIMD操作的处理核159。处理核159可采用各种音频、视频、成像和通信算法编程,所述算法包含:离散变换,诸如Walsh-Hadamard变换、快速傅里叶变换(FFT)、离散余弦变换(DCT)以及它们的相应逆变换;压缩/解压缩技术,诸如色彩空间变换、视频编码运动估计或视频解码运动补偿;以及调制/解调(MODEM)功能,诸如脉冲译码调制(PCM)。

图1C示出了执行SIMD文本字符串比较操作的数据处理系统的其它实施例。在一个实施例中,数据处理系统160可包含主处理器166、SIMD协处理器161、高速缓冲存储器167和输入/输出系统168。输入/输出系统168可选地可耦合到无线接口169。SIMD协处理器161可执行包含根据一个实施例的指令的操作。在一个实施例中,处理核170可适合于以一个或多个工艺技术的制造,并且通过充分详细地在机器可读介质上表示,处理核170可适合于促进制造所有或部分数据处理系统160(包含处理核170)。

在一个实施例中,SIMD协处理器161包括执行单元162和寄存器堆集合164。主处理器166的一个实施例包括解码器165以识别指令集163中的指令(包含根据一个实施例的指令)以用于由执行单元162执行。在其它实施例中,SIMD协处理器161还包括至少部分解码器165(示出为165B)以解码指令集163中的指令。处理核170还可包含对理解本公开实施例可不必要的附加电路(未示出)。

在操作中,主处理器166执行数据处理指令流,其控制通用类型的数据处理操作(包含与高速缓冲存储器167和输入/输出系统168的交互)。嵌入在数据处理指令流内的可以是SIMD协处理器指令。主处理器166的解码器165将这些SIMD协处理器指令识别为应该由附连的SIMD协处理器161执行的类型。相应地,主处理器166在协处理器总线166上发布这些SIMD协处理器指令(或表示SIMD协处理器指令的控制信号)。从协处理器总线171,可由任何附连的SIMD协处理器接收这些指令。在此情况下,SIMD协处理器161可接受并执行预期用于它的任何接收的SIMD协处理器指令。

数据可经由无线接口169接收以便由SIMD协处理器指令处理。对于一个示例,语音通信可以以数字信号形式被接收,其可由SIMD协处理器指令处理以重新生成代表语音通信的数字音频样本。对于另一个示例,压缩的音频和/或视频可以数字位流形式被接收,其可由SIMD协处理器指令处理以重新生成数字音频样本和/或运动视频帧。在处理核170的一个实施例中,主处理器166和SIMD协处理器161可被集成到单个处理核170中,处理核170包括执行单元162、寄存器堆集合164、以及识别指令集163中的指令(包含根据一个实施例的指令)的解码器165。

图2是根据本公开的实施例的可包含执行指令的逻辑电路的处理器200的微架构的框图。在一些实施例中,可实现根据一个实施例的指令,以对具有字节、字、双字、四字等大小以及诸如单和双精度整数和浮点数据类型的数据类型的数据元素进行操作。在一个实施例中,有序前端201可实现处理器200的一部分,该部分可获取要执行的指令,并且有序前端201准备所述指令以稍后在处理器流水线中进行使用。前端201可包含几个单元。在一个实施例中,指令预获取器226从存储器中获取指令,并将指令馈送到指令解码器228,其又解码或解释这些指令。例如,在一个实施例中,解码器将接收的指令解码成机器可执行的称为“微指令”或“微操作”(也称为微op或uop)的一个或多个操作。在其它实施例中,解码器将指令解析成操作码和对应的数据以及控制字段,它们可由微架构使用以执行根据一个实施例的操作。在一个实施例中,追踪(trace)高速缓存230可将解码的uop汇编成uop队列234中的程序排序的序列或追踪以便执行。当追踪高速缓存230遇到复杂指令时,微代码ROM 232提供完成该操作所需的uop。

一些指令可被转换成单个微-op,而其它指令需要几个微-op来完成整个操作。在一个实施例中,如果需要多于四个微-op来完成指令,则解码器228可访问微代码ROM 232以执行指令。在一个实施例中,指令可被解码成小数量的微-op,以便在指令解码器228进行处理。在另一实施例中,指令可被存储在微代码ROM 232内,如果需要若干微-op来完成操作的话。追踪高速缓存230指的是入口点可编程逻辑阵列(PLA),其用来确定针对读取微代码序列的正确微指令指针,以完成来自微代码ROM 232的根据一个实施例的一个或多个指令。在微代码ROM 232完成对指令的微-op进行排序后,机器的前端201可恢复从追踪高速缓存230获取微-op。

无序执行引擎203可准备指令以用于执行。无序执行逻辑具有多个缓冲器,以在指令沿流水线向下并且被调度用于执行时,平滑处理和重新排序指令的流以优化性能。分配器/寄存器重命名器215中的分配器逻辑分配每个uop为了执行而所需要的机器缓冲器和资源。分配器/寄存器重命名器215中的寄存器重命名逻辑将逻辑寄存器重命名到寄存器堆中的条目上。在指令调度器(存储器调度器209、快速调度器202、慢速/通用浮点调度器204和简单浮点调度器206)前面,分配器215还为两个uop队列(一个用于存储器操作(存储器uop队列207),并且一个用于非存储器操作(整数/浮uop队列205))之一中的每个uop分配条目。Uop调度器202、204、206基于其相关性输入寄存器操作数源的准备度和uop完成其操作需要的执行资源的可用性,确定uop何时准备就绪执行。一个实施例的快速调度器202可在主时钟周期的每半个周期上进行调度,而其它调度器可每主处理器时钟周期仅调度一次。调度器对于分派端口进行裁决以调度uop以便执行。

寄存器堆208、210可布置在调度器202、204、206与执行块211中的执行单元212、214、216、218、220、222、224之间。寄存器堆208、210中的每个分别执行整数运算和浮点运算。每个寄存器堆208、210可包含旁路网络,其可向新的相关uop进行旁路或转发尚未写入寄存器堆中的刚刚完成的结果。整数寄存器堆208和浮点寄存器堆210可相互传递数据。在一个实施例中,整数寄存器堆208可被分成两个单独的寄存器堆,一个寄存器堆用于数据的低阶32位,而第二寄存器堆用于数据的高阶32位。浮点寄存器堆210可包含128位宽条目,因为浮点指令通常具有从64位到128位宽的操作数。

执行块211可含有执行单元212、214、216、218、220、222、224。执行单元212、214、216、218、220、222、224可执行指令。执行块211可包含存储微指令需要执行的整数和浮点数据操作数值的寄存器堆208、210。在一个实施例中,处理器200可包括若干执行单元:地址生成单元(AGU)212、AGU 214、快速ALU 216、快速ALU 218、慢速ALU 220、浮点ALU 222、浮点移动单元224。在另一实施例中,浮点执行块222、224可执行浮点、MMX、SIMD和SSE或其它运算。在又一个实施例中,浮点ALU 222可包含64位×64位浮点除法器以执行除法、平方根和余数微-op。在各种实施例中,涉及浮点值的指令可用浮点硬件处置。在一个实施例中,ALU运算可传到高速ALU执行单元216、218。高速ALU 216、218可以通过时钟周期一半的有效等待时间执行快速运算。在一个实施例中,最复杂的整数操作去到慢速ALU 220,因为慢速ALU 220可包括用于长等待时间类型操作的整数执行硬件,如乘法器、位移、标记逻辑和分支处理。存储器加载/存储操作可以由AGU 212、214执行。在一个实施例中,整数ALU 216、218、220可对64位数据操作数执行整数运算。在其它实施例中,可实现ALU 216、218、220以支持各种数据位大小,包含16、32、128、256等。类似地,可实现浮点单元222、224以支持具有各种宽度位的一系列操作数。在一个实施例中,浮点单元222、224可结合SIMD和多媒体指令对128位宽打包数据操作数进行操作。

在一个实施例中,在父负载(parent load)已经完成执行之前,uop调度器202、204、206分派相关操作。由于在处理器200中可推测性地调度和执行uop,所以处理器200还可包含处置存储器丢失的逻辑。如果数据加载在数据高速缓存中丢失,则流水线中可存在执行中(in flight)相关操作,其已经为调度器留下了暂时不正确的数据。重放机制跟踪和重新执行使用不正确数据的指令。可能只需要重放相关操作,并且可允许完成独立操作。处理器的一个实施例的调度器和重放机制也可设计成捕捉用于文本字符串比较运算的指令序列。

术语“寄存器”可指的是可用作标识操作数的指令的部分的板载处理器存储位置。换而言之,寄存器可以是从处理器的外部可使用的那些寄存器(从程序器的角度而言)。然而,在一些实施例中,寄存器可能不限于特定类型的电路。相反,寄存器可存储数据,提供数据,并且执行本文中描述的功能。本文中描述的寄存器可由处理器内的电路使用任何数量的不同技术实现,诸如专用物理寄存器、使用寄存器重命名的动态分配物理寄存器、专用和动态分配物理寄存器的组合等。在一个实施例中,整数寄存器存储32位整数数据。一个实施例的寄存器堆也包含用于打包数据的8个多媒体SIMD寄存器。对于下面的讨论,可将寄存器理解为设计成保持打包数据的数据寄存器,诸如来自加利福尼亚州Santa Clara的Intel Corporation的以MMX技术实现的微处理器中的64位宽MMXTM寄存器(在一些实例中也称为“mm”寄存器)。在整数和浮点形式两者中可用的这些MMX寄存器可与伴随SIMD 和SSE指令的打包数据元素一起操作。类似地,与SSE2、SSE3、SSE4或更高版本(一般称为“SSEx”)技术有关的128位宽XMM寄存器可保持此类打包数据操作数。在一个实施例中,在存储打包数据和整数数据中,寄存器无需区分所述两种数据类型。在一个实施例中,整数和浮点数据可包含在相同寄存器堆或不同寄存器堆中。此外,在一个实施例中,浮点和整数数据可存储在不同寄存器或相同寄存器中。

在以下图形的示例中,可描述多个数据操作数。图3A示出根据本公开的实施例的在多媒体寄存器中的各种打包数据类型表示。图3A示出用于128位宽操作数的打包字节310、打包字320和打包双字(dword)330的数据类型。此示例的打包字节格式310可以为128位长,并且包含16个打包字节数据元素。字节例如可定义为8位的数据。用于每个字节数据元素的信息可存储在针对字节0的位7到位0、针对字节1的位15到位8、针对字节2的位23到位16及最后针对字节15的位120到位127中。因此,在寄存器中可使用所有可用位。此存储布置增大了处理器的存储效率。此外,利用访问的16个数据元素,现在可并行对16个数据元素执行一个操作。

通常,数据元素可包括与相同长度的其它数据元素一起存储在单个寄存器或存储器位置中的单独数据段。在与SSEx技术有关的打包数据序列中,XMM寄存器中存储的数据元素的数量可以是128位除以单独数据元素的以位为单位的长度。类似地,在与MMX和SSE技术有关的打包数据序列中,MMX寄存器中存储的数据元素的数量可以是64位除以单独数据元素的以位为单位的长度。虽然图3A中示出的数据类型可以为128位长,但本公开的实施例也可利用64位宽或其它大小的操作数操作。此示例的打包字格式320可以为128位长,并且包含8个打包字数据元素。每个打包字包含16位的信息。图3A的打包双字格式330可以为128位长,并且包含4个打包双字数据元素。每个打包双字数据元素包含32位的信息。打包四字可以为128位长,并且包含2个打包四字数据元素。

图3B示出根据本公开的实施例的可能寄存器中的数据存储格式。每个打包数据可包括多于一个独立数据元素。示出了三个打包数据格式;打包半精度型341、打包单精度型342和打包双精度型343。打包半精度型341、打包单精度型342和打包双精度型343的一个实施例包含固定点数据元素。对于另一实施例,打包半精度型341、打包单精度型342和打包双精度型343中的一个或多个可包含浮点数据元素。打包半精度型341的一个实施例可以为128位长,其包含8个16位数据元素。打包单精度型342的一个实施例可以为128位长,并且包含4个32位数据元素。打包双精度型343的一个实施例可以为128位长,并且包含2个64位数据元素。将领会的是,此类打包数据格式可进一步扩展到其它寄存器长度,例如,96位、160位、192位、224位、256位或更多。

图3C示出根据本公开的实施例的在多媒体寄存器中的各种有符号和无符号的打包数据类型表示。无符号的打包字节表示344示出在SIMD寄存器中的无符号的打包字节的存储。每个字节数据元素的信息可存储在针对字节0的位7到位0、针对字节1的位15到位8、针对字节2的位23到位16及最后针对字节15的位120到位127中。因此,在寄存器中可使用所有可用位。此存储布置可增大处理器的存储效率。此外,利用访问的16个数据元素,现在可以并行方式对16个数据元素执行一个操作。有符号的打包字节表示345示出有符号的打包字节的存储。要注意的是,每个字节数据元素的第8位可以是符号指示符。无符号的打包字表示346示出在SIMD寄存器中可如何存储字7到字0。有符号的打包字表示347可类似于无符号的打包字寄存器中的表示346。要注意的是,每个字数据元素的第16位可以是符号指示符。无符号的打包双字表示348显示如何存储双字数据元素。有符号的打包双字表示349可类似于无符号的打包双字寄存器中的表示348。要注意的是,必需的符号位可以是每个双字数据元素的第32位。

图3D示出操作编码(操作码)的实施例。此外,格式360可包括寄存器/存储器操作数寻址模式,其与万维网(www) at intel.com/design/litcentr上从加利福尼亚州Santa Clara的Intel Corporation可获得的“IA-32 Intel架构软件开发员手册第2卷:指令集参考”(IA-32 Intel Architecture Software Developer's Manual Volume 2: Instruction Set Reference)中描述的操作码格式的类型相对应。在一个实施例中,指令可通过字段361和362中的一个或多个字段编码。可标识直到每指令两个操作数位置,包括直到两个源操作数标识符364和365。在一个实施例中,目的地操作数标识符366可与源操作数标识符364相同,而在其它实施例中,它们可不同。在另一实施例中,目的地操作数标识符366可与源操作数标识符365相同,而在其它实施例中,它们可不同。在一个实施例中,通过源操作数标识符364和365标识的源操作数之一可通过文本字符串比较运算的结果被改写,而在其它实施例中,标识符364对应于源寄存器元素,并且标识符365对应于目的地寄存器元素。在一个实施例中,操作数标识符364和365可标识32位或64位源和目的地操作数。

图3E示出根据本公开的实施例的具有40或更多个位的另一可能操作编码(操作码)格式370。操作码格式370与操作码格式360相对应,并且包括可选前缀字节378。根据一个实施例的指令可通过字段378、371和372的一个或多个字段编码。通过源操作数标识符374和375以及通过前缀字节378,可标识直到每指令两个操作数位置。在一个实施例中,前缀字节378可用于标识32位或64位源和目的地操作数。在一个实施例中,目的地操作数标识符376可与源操作数标识符374相同,而在其它实施例中,它们可不同。对于另一实施例,目的地操作数标识符376可与源操作数标识符375相同,而在其它实施例中,它们可不同。在一个实施例中,指令对通过操作数标识符374和375标识的一个或多个操作数进行操作,并且通过操作数标识符374和375标识的一个或多个操作数可通过指令的结果被改写,而在其它实施例中,通过标识符374和375标识的操作数可被写入另一寄存器中的另一数据元素。操作码格式360和370允许由MOD字段363和373和由可选缩放-索引-基础和位移字节部分地指定的寄存器到寄存器、存储器到寄存器、寄存器接(by)存储器、寄存器接寄存器、寄存器接中间物、寄存器到存储器寻址。

图3F示出根据本公开的实施例的又一可能操作编码(操作码)格式。64位单指令多数据(SIMD)算术运算可通过协处理器数据处理(CDP)指令被执行。操作编码(操作码)格式380描绘具有CDP操作码字段382和389的一个此类CDP指令。CDP指令的类型,对于另一实施例,操作可通过字段383、384、387和388的一个或多个字段编码。可标识直到每指令三个操作数位置,包括直到两个源操作数标识符385和390以及一个目的地操作数标识符386。协处理器的一个实施例可对8、16、32和64位值进行操作。在一个实施例中,可对整数数据元素执行指令。在一些实施例中,可使用条件字段381,有条件地执行指令。对于一些实施例,源数据大小可由字段383编码。在一些实施例中,可对SIMD字段进行零(Z)、负(N)、进位(C)和溢出(V)检测。对于一些指令,饱和的类型可由字段384编码。

图4A是根据本公开的实施例的示出有序流水线和寄存器重命名阶段、无序发布/执行流水线的框图。图4B是根据本公开的实施例的示出有序架构核和寄存器重命名逻辑、无序发布/执行流水线(要被包括在处理器中)的框图。图4A中的实线框示出有序流水线,而虚线框示出寄存器重命名、无序发布/执行流水线。类似地,图4B中的实线框示出有序架构逻辑,而虚线框示出寄存器重命名逻辑和无序发布/执行逻辑。

在图4A中,处理器流水线400可包括获取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(也称为分派或发布)阶段412、寄存器读/存储器读阶段414、执行阶段416、写回/存储器写入阶段418、异常处置阶段422及提交阶段424。

在图4B中,箭头表示在两个或更多个单元之间的耦合,并且箭头的方向指示在那些单元之间数据流的方向。图4B显示处理器核490,其包括耦合到执行引擎单元450的前端单元430,并且两者均可耦合到存储器单元470。

核490可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核、或者混合或备选核类型。在一个实施例中,核490可以是专用核,诸如,例如网络或通信核、压缩引擎、图形核等。

前端单元430可包括耦合到指令高速缓存单元434的分支预测单元432。指令高速缓存单元434可耦合到指令转化后备缓冲器(TLB) 436。TLB 436可耦合到指令获取单元438,其耦合到解码单元440。解码单元440可将指令解码,并且生成作为输出的一个或多个微操作、微代码入口点、微指令、其它指令或其它控制信号,它们可从原始指令解码或者以其它方式反映原始指令或者可从原始指令得到。解码器可使用各种不同机制实现。适合机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中,指令高速缓存单元434可还耦合到存储器单元470中的2级(L2)高速缓存单元476。解码单元440可耦合到执行引擎单元450中的重命名/分配器单元452。

执行引擎单元450可包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456表示任何数量的不同调度器,包括预留站、中央指令窗口等。调度器单元456可耦合到物理寄存器堆单元458。每个物理寄存器堆单元458表示一个或多个物理寄存器堆,这些寄存器堆中的不同寄存器堆存储一个或多个不同数据类型,诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、等,状态(例如,作为要执行的下一指令的地址的指令指针)等。物理寄存器堆单元458可由引退单元454重叠以示出其中可实现寄存器重命名和无序执行的各种方式(例如,使用一个或多个重排序缓冲器和一个或多个引退寄存器堆;使用一个或多个将来文件、一个或多个历史缓冲器和一个或多个引退寄存器堆;使用寄存器映射和寄存器池等)。通常,架构寄存器可从处理器外部或者从程序器的角度而言是可见的。寄存器可能不限于任何已知特定类型的电路。各种不同类型的寄存器只要如本文中所述存储和提供数据,它们便是适合的。适合寄存器的示例包括但可不限于专用物理寄存器、使用寄存器重命名的动态分配物理寄存器、专用和动态分配物理寄存器的组合等。引退单元454和物理寄存器堆单元458可耦合到执行集群460。执行集群460可包括一个或多个执行单元462的集合和一个或多个存储器访问单元464的集合。执行单元462可执行各种操作(例如,移位、加法、减法、乘法),并且对各种类型的数据(例如,标量浮点、打包整数、打包浮点、向量整数、向量浮点)进行执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个执行单元,但其它实施例可只包括一个执行单元或全部执行所有功能的多个执行单元。调度器单元456、物理寄存器堆单元458和执行集群460示为可能是多个,这是因为某些实施例为某些类型的数据/操作创建单独的流水线(例如,标量整数流水线、标量浮点/打包整数/打包浮点/向量整数/向量浮点流水线和/或存储器存取流水线,每个流水线具有其自己的调度器单元、物理寄存器堆单元和/或执行集群 - 并且在单独的存储器存取流水线的情况下,可实现其中仅此流水线的执行集群具有存储器访问单元464的某些实施例)。还应理解的是,在使用单独流水线的情况下,一个或多个这些流水线可以是无序发布/执行,并且其余的流水线是有序的。

存储器访问单元464的集合可耦合到存储器单元470,其可包括耦合到数据高速缓存单元474的数据TLB单元472,数据高速缓存单元474耦合到2级(L2)高速缓存单元476。在一个示范实施例中,存储器访问单元464可包括负载单元、存储地址单元和存储数据单元,它们中的每个可耦合到存储器单元470中的数据TLB单元472。L2高速缓存单元476可耦合到一个或多个其它级的高速缓存,并且最终耦合到主存储器。

作为示例,示范寄存器重命名、无序发布/执行核架构可如下实现流水线400:1)指令获取438可执行获取阶段和长度解码阶段402和404;2)解码单元440可执行解码阶段406;3)重命名/分配器单元452可执行分配阶段408和重命名阶段410;4)调度器单元456可执行调度阶段412;5)物理寄存器堆单元458和存储器单元470可执行寄存器读/存储器读阶段414;执行集群460可执行执行阶段416;6)存储器单元470和物理寄存器堆单元458可执行写回/存储器写入阶段418;7)各种单元可涉及异常处置阶段422的执行;以及8)引退单元454和物理寄存器堆单元458可执行提交阶段424。

核490可支持一个或多个指令集(例如,x86指令集(其中对于较新版本已添加一些扩展);加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集;加利福尼亚州Sunnyvale的ARM Holdings的ARM指令集(具有诸如NEON的可选另外扩展))。

应理解的是,核可以以多种方式支持多线程(执行两个或更多个并行的操作或线程的集合)。例如通过包括时间片多线程、同时多线程(其中,单个物理核提供用于物理核在同时进行多线程的每个线程的逻辑核)或其组合,可执行多线程支持。此类组合例如可包括时间片获取和解码及之后的同时多线程,诸如在Intel®超线程技术中一样。

虽然寄存器重命名可在无序执行的上下文中描述,但应理解的是,可在有序架构中使用寄存器重命名。虽然处理器的所示实施例也可包括单独的指令和数据高速缓存单元434/474及共享L2高速缓存单元476,但其它实施例可具有用于指令和数据两者的单个内部高速缓存,诸如例如1级(L1)内部高速缓存,或多个级的内部高速缓存。在一些实施例中,系统可包括内部高速缓存和可在核和/或处理器外的外部高速缓存的组合。在其它实施例中,所有高速缓存可在核和/或处理器的外部。

图5A是根据本公开的实施例的处理器500的框图。在一个实施例中,处理器500可包括多核处理器。处理器500可包括通信地耦合到一个或多个核502的系统代理510。此外,核502和系统代理510可通信地耦合到一个或多个高速缓存506。核502、系统代理510和高速缓存506可经一个或多个存储器控制单元552通信地耦合。此外,核502、系统代理510和高速缓存506可经存储器控制单元552通信地耦合到图形模块560。

处理器500可包括用于将核502、系统代理510和高速缓存506及图形模块560互连的任何适合机制。在一个实施例中,处理器500可包括基于环形的互连单元508以将核502、系统代理510和高速缓存506及图形模块560互连。在其它实施例中,处理器500可包括用于将此类单元互连的任何数量的公知技术。基于环形的互连单元508可利用存储器控制单元552以促进互连。

处理器500可包括存储器层级,该层级包括核内的一个或多个级的高速缓存、诸如高速缓存506的一个或多个共享高速缓存单元或耦合到集成存储器控制器单元552的集合的外部存储器(未示出)。高速缓存506可包括任何适合的高速缓存。在一个实施例中,高速缓存506可包括诸如2级(L2)、3级(L3)、4级(L4)或其它级的高速缓存的一个或多个中间级高速缓存、末级高速缓存(LLC)和/或其组合。

在各种实施例中,一个或多个核502可执行多线程。系统代理510可包括用于协调和操作核502的组件。系统代理510例如可包括功率控制单元(PCU)。PCU可以是或者包括对于调节核502的功率状态所需的逻辑和组件。系统代理510可包括用于驱动一个或多个外部连接的显示器或图形模块560的显示引擎512。系统代理510可包括用于针对图形的通信总线的接口514。在一个实施例中,接口514可通过PCI高速(PCIe)来实现。在另外的实施例中,接口514可通过PCI高速图形(PEG)来实现。系统代理510可包括直接媒体接口(DMI)516。DMI 516可在计算机系统的母板或其它部分上的不同桥之间提供链路。系统代理510可包括用于提供PCIe链路到计算系统的其它元素的PCIe桥518。PCIe桥518可使用存储器控制器520和一致性逻辑522实现。

核502可以以任何适合的方式实现。核502可在架构和/或指令集方面是同构或异构的。在一个实施例中,一些核502可以是有序的,而其它核可以是无序的。在另一实施例中,两个或更多个核502可执行相同指令集,而其它核可只执行该指令集的子集或不同指令集。

处理器500可包括诸如可从加利福尼亚州Santa Clara的Intel Corporation获得的CoreTM i3、i5、i7、2 Duo和Quad、XeonTM、ItaniumTM、XScaleTM或StrongARMTM处理器等的通用处理器。处理器500可从诸如ARM Holdings, Ltd、MIPS等的另一公司提供。处理器500可以是专用处理器,诸如例如网络或通信处理器、压缩引擎、图形处理器、协处理器、嵌入式处理器等。处理器500可在一个或多个芯片上实现。处理器500可以是使用诸如例如BiCMOS、COMS或NMOS的多个处理技术的任何技术的一个或多个衬底的一部分,和/或可在衬底上实现。

在一个实施例中,高速缓存506的一个给定高速缓存可由核502的多个核共享。在另一实施例中,高速缓存506的一个给定高速缓存可专用于核502之一。高速缓存506到核502的指派可由高速缓存控制器或其它适合机制处理。通过实现给定高速缓存506的时间片,可由两个或更多个核502共享高速缓存506的一个给定高速缓存。

图形模块560可实现集成图形处理子系统。在一个实施例中,图形模块560可包括图形处理器。此外,图形模块560可包括媒体引擎565。媒体引擎565可提供媒体编码和视频解码。

图5B是根据本公开的实施例的核502的示例实现的框图。核502可包括通信地耦合到无序引擎580的前端570。核502可通过高速缓存层级503,通信地耦合到处理器500的其它部分。

前端570可以以任何适合的方式实现,例如,如上所述部分或完全由前端201实现。在一个实施例中,前端570可通过高速缓存层级503与处理器500的其它部分进行通信。在另外实施例中,前端570可从处理器500的部分获取指令,并且在指令传递到无序执行引擎580时准备处理器流水线中以后要使用的指令。

无序执行引擎580可以以任何适合的方式实现,例如,如上所述部分或完全通过无序执行引擎203来实现。无序执行引擎580可准备从前端570接收的指令以供执行。无序执行引擎580可包括分配模块582。在一个实施例中,分配模块582可分配处理器500的资源或诸如寄存器或缓冲器的其它资源以执行给定指令。分配模块582可在调度器中进行分配,如存储器调度器、快速调度器或浮点调度器。此类调度器可在图5B中由资源调度器584表示。分配模块582可完全或部分通过结合图2描述的分配逻辑来实现。资源调度器584可基于给定资源的源的准备度和执行指令需要的执行资源的可用性,确定指令何时准备就绪以执行。资源调度器584可例如通过如上所述的调度器202、204、206来实现。资源调度器584可对一个或多个资源调度指令的执行。在一个实施例中,此类资源可在核502的内部,并且例如可示出为资源586。在另一实施例中,此类资源可在核502的外部,并且例如可由高速缓存层级503访问。资源例如可包括存储器、高速缓存、寄存器堆或寄存器。核502内部的资源可由图5B中的资源586表示。在必需时,可例如通过高速缓存层级503,协调写入资源586或从中读取的值和处理器500的其它部分。在指令是指派的资源时,可将它们置于重新排序缓冲器588中。重新排序缓冲器588可在指令执行时追踪指令,并且可基于处理器500的任何适合准则,选择性地将其执行重新排序。在一个实施例中,重新排序缓冲器588可标识可独立执行的指令或一系列指令。此类指令或一系列指令可与其它此类指令并行执行。核502中的并行执行可通过任何适合数量的单独执行块或虚拟处理器执行。在一个实施例中,给定核502内的多个虚拟处理器可访问诸如存储器、寄存器和高速缓存的共享资源。在其它实施例中,处理器500内的多个处理实体可访问共享资源。

高速缓存层级503可以以任何适合的方式实现。例如,高速缓存层级503可包括诸如高速缓存572、574的一个或多个更低或中级高速缓存。在一个实施例中,高速缓存层级503可包括通信地耦合到高速缓存572、574的LLC 595。在另一实施例中,LLC 595可在对处理器500的所有处理实体可访问的模块590中实现。在另外的实施例中,模块590可在来自Intel, Inc的处理器的非核心模块中实现。模块590可包括对于执行核502所必需,但可能不在核502内实现的处理器500的部分或子系统。除LLC 595外,模块590例如可包括硬件接口、存储器一致性协调器、处理器间互连、指令流水线或存储器控制器。通过模块590,并且更具体地说,通过LLC 595,可对可用于处理器500的RAM 599进行访问。此外,核502的其它实例可类似地访问模块590。可部分通过模块590,促进核502的实例的协调。

图6-8可示出适合于包含处理器500的示范系统,而图9可示出可包含一个或多个核502的示范性片上系统(SoC)。在本领域已知的用于膝上型计算机、桌面型计算机、手持式PC、个人数字助理、工程设计工作站、服务器、网络装置、网络中枢、交换机、嵌入式处理器、数字信号处理器(DSP)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持式装置和各种其它电子装置的其它系统设计和实现也可以是适合的。一般而言,结合处理器和/或本文所公开的其它执行逻辑的大量系统或电子装置一般可以是适合的。

图6示出了根据本公开实施例的系统600的框图。系统600可包含一个或多个处理器610、615,其可耦合到图形存储器控制器中枢(GMCH)620。在图6中用虚线表示附加处理器615的可选性质。

每个处理器610、615可以是某版本的处理器500。然而,应该指出,在处理器610、615中可能不存在集成图形逻辑和集成存储器控制单元。图6示出了GMCH 620可耦合到存储器640,存储器640例如可以是动态随机存取存储器(DRAM)。对于至少一个实施例,DRAM可与非易失性高速缓存关联。

GMCH 620可以是芯片集,或者芯片集的一部分。GMCH 620可与处理器610、615通信,并控制处理器610、615与存储器640之间的交互。GMCH 620也可充当处理器610、615与系统600的其它元件之间的加速总线接口。在一个实施例中,GMCH 620经由多点总线(诸如前侧总线(FSB)695)与处理器610、615通信。

更进一步,GMCH 620可耦合到显示器645(诸如平板显示器)。在一个实施例中,GMCH 620可包含集成图形加速器。GMCH 620可进一步耦合到输入/输出(I/O)控制器中枢(ICH) 650,其可用于将各种外设装置耦合到系统600。外部图形装置660可包含耦合到ICH 650的分立图形装置,连同另一外设装置670。

在其它实施例中,在系统600中也可存在附加的或不同的处理器。例如,附加处理器610、615可包含可与处理器610相同的附加处理器、可与处理器610异质或不对称的附加处理器、加速器(诸如例如图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列或任何其它处理器。在品质度量谱(包含架构、微架构、热、功耗特性等)方面,在物理资源610、615之间可能存在各种差异。这些差异在处理器610、615之间可有效地将它们自己标明为不对称并且异质。对于至少一个实施例,各种处理器610、615可驻留在同一管芯封装中。

图7示出了根据本公开实施例的第二系统700的框图。如图7中所示,多处理器系统700可包含点对点互连系统,并且可包经由点对点互连750耦合的第一处理器770和第二处理器780。处理器770和780中的每个可以如一个或多个处理器610、615一样,是某版本的处理器500。

虽然图7可示出两个处理器770、780,但要理解,本公开的范围不限于此。在其它实施例中,在给定处理器中可存在一个或多个附加处理器。

示出处理器770和780分别包含集成存储器控制器单元772和782。处理器770还可包含点对点(P-P)接口776和778作为其总线控制器单元的一部分;类似地,第二处理器780可包含P-P接口786和788。处理器770、780可经由点对点(P-P)接口750使用P-P接口电路778、788交换信息。如图7中所示,IMC 772和782可将处理器耦合到相应存储器,即存储器732和存储器734,它们在一个实施例中可以是本地附连到相应处理器的主存储器的部分。

处理器770、780可各自经由单独P-P接口752、754使用点对点接口电路776、794、786、798与芯片集790交换信息。在一个实施例中,芯片集790还可经由高性能图形接口739与高性能图形电路738交换信息。

共享高速缓存(未示出)可被包含在任一处理器中或两个处理器外,仍经由P-P互连与处理器连接,使得任一或两个处理器的本地高速缓存信息可被存储在共享高速缓存中(如果处理器被置于低功率模式的话)。

芯片集790可经由接口796耦合到第一总线716。在一个实施例中,第一总线716可以是外设组件互连(PCI)总线,或诸如PCI高速总线的总线,或另一个第三代I/O互连总线,尽管本公开的范围不限于此。

如图7中所示,各种I/O装置714可耦合到第一总线716,连同将第一总线716耦合到第二总线720的总线桥718。在一个实施例中,第二总线720可以是低管脚计数(LPC)总线。在一个实施例中,各种装置可耦合到第二总线720,例如包含键盘和/或鼠标722、通信装置727和存储单元728,诸如盘驱动器或可包含指令/代码和数据730的其它大容量存储装置。进一步说,音频I/O 724可耦合到第二总线720。要指出,其它架构可以是可能的。例如,代替图7的点对点架构,系统可实现多点总线或其它此类架构。

图8示出了根据本公开实施例的第三系统800的框图。图7和图8中的相似的元件带有相似的附图标记,并且已经从图8中省略了图7的某些方面,以便避免使图8的其它方面混淆。

图8示出处理器770、780可分别包含集成存储器和I/O控制逻辑(“CL”) 872和882。对于至少一个实施例,CL 872、882可包含集成存储器控制器单元,诸如上面结合图5和图7所描述的。此外,CL 872、882也可包含I/O控制逻辑。图8不仅示出了存储器732、734可耦合到CL 872、882,而且I/O装置814也可耦合到控制逻辑872、882。遗留I/O装置815可耦合到芯片集790。

图9示出了根据本公开实施例的SoC 900的框图。图5中的相似元件带有相似附图标记。还有,虚线框可表示更高级SoC上的可选特征。互连单元902可耦合到:应用处理器910,其可包含一个或多个核502A-N的集合以及共享高速缓存单元506;系统代理单元510;总线控制器单元916;集成存储器控制器单元914;媒体处理器集合或一个或多个媒体处理器920,其可包含集成图形逻辑908、用于提供静止和/或视频相机功能性的图像处理器924、用于提供硬件音频加速的音频处理器926以及用于提供视频编码/解码加速的视频处理器928;静态随机存取存储器(SRAM)单元930;直接存储器存取(DMA)单元932;以及用于耦合到一个或多个外部显示器的显示单元940。

图10示出了根据本公开的实施例的可执行至少一个指令的含有中央处理单元(CPU)和图形处理单元(GPU)的处理器。在一个实施例中,执行根据至少一个实施例的操作的指令可由CPU执行。在另一实施例中,指令可由GPU执行。在又一实施例中,指令可通过由GPU和CPU执行的操作组合执行。例如,在一个实施例中,根据一个实施例的指令可被接收和解码以便在CPU上执行。然而,解码指令内的一个或多个操作可由CPU执行,并且结果返回到GPU以用于指令的最后引退。相反,在一些实施例中,CPU可充当主处理器,并且GPU充当协处理器。

在一些实施例中,受益于高度并行吞吐量处理器的指令可由GPU执行,而受益于处理器的性能(其受益于深流水线架构)的指令可由CPU执行。例如,图形、科学应用、金融应用和其它并行工作负荷可受益于GPU的性能,并被相应地执行,而更多序列应用(诸如操作系统内核或应用代码)可更适合于CPU。

在图10中,处理器1000包含CPU 1005、GPU 1010、图像处理器1015、视频处理器1020、USB控制器1025、UART控制器1030、SPI/SDIO控制器1035、显示装置1040、存储器接口控制器1045、MIPI控制器1050、闪速存储器控制器1055、双数据速率(DDR)控制器1060、安全性引擎1065和I2S/I2C控制器1070。其它逻辑和电路可包含在图10的处理器中,包含更多CPU和GPU以及其它外设接口控制器。

至少一个实施例的一个或多个方面可由存储在表示处理器内的各种逻辑的机器可读介质上的代表性数据实现,其当由机器读取时使机器制造执行本文描述的技术的逻辑。称为“IP核”的此类表示可存储在有形机器可读介质(“带”)上,并供应给各种消费者或制造设施,以加载到实际上制造逻辑或处理器的制造机器中。例如,诸如由ARM Holdings, Ltd开发的CortexTM族处理器和中国科学院计算技术研究所(ICT)开发的龙芯IP核的IP核可许可或销售到各种客户或被许可人,诸如Texas Instruments、Qualcomm、Apple或Samsung,并且在由这些客户或被许可人生产的处理器中实现。

图11示出了根据本公开实施例示出IP核的开发的框图。存储装置1110可包含模拟软件1120和/或硬件或软件模型1110。在一个实施例中,表示IP核设计的数据可经由存储器1140(例如硬盘)、有线连接(例如因特网)1150或无线连接1160提供给存储装置1110。由模拟工具和模型生成的IP核信息然后可被传送到制造设施1165,其中它可由第三方制造以执行根据至少一个实施例的至少一个指令。

在一些实施例中,一个或多个指令可对应于第一类型或架构(例如x86),并且在不同类型或架构(例如ARM)的处理器上转化或仿真。根据一个实施例,指令因此可在任何处理器或处理器类型(包含ARM、x86、MIPS、GPU)或其它处理器类型或架构上执行。

图12示出了根据本公开实施例,可如何由不同类型的处理器仿真第一类型的指令。在图12中,程序1205含有可执行与根据一个实施例的指令相同或基本上相同功能的一些指令。然而,程序1205的指令可属于与处理器1215不同或不兼容的类型和/或格式,意味着,程序1205中的类型的指令可能不能够由处理器1215本地执行。然而,在仿真逻辑1210的帮助下,程序1205的指令可被转化成可由处理器1215本地执行的指令。在一个实施例中,仿真逻辑可实施在硬件中。在另一实施例中,仿真逻辑可实施在有形、机器可读介质中,其含有将程序1205中的类型的指令转化成由处理器1215本地可执行的类型。在其它实施例中,仿真逻辑可以是固定功能或可编程硬件以及存储在有形、机器可读介质上的程序的组合。在一个实施例中,处理器含有仿真逻辑,而在其它实施例中,仿真逻辑存在于处理器外部,并且可由第三方提供。在一个实施例中,处理器可通过执行在处理器中含有的或与处理器关联的微代码或固件来加载实施在含有软件的有形、机器可读介质中的仿真逻辑。

图13示出了根据本公开的实施例的对比使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。在所示出的实施例中,指令转换器可以是软件指令转换器,尽管指令转换器可以用软件、固件、硬件或它们的各种组合实现。图13示出可使用x86编译器1304采用编译高级语言1302的程序以生成x86二进制代码1306,其可由具有至少一个x86指令集核的处理器1316本地执行。具有至少一个x86指令集核的处理器1316表示可通过兼容执行或以其它方式处理(1)Intel x86指令集核的指令集的实质部分或(2)定向为在具有至少一个x86指令集核的Intel处理器上运行的应用或其它软件的对象代码版本,来执行与具有至少一个x86指令集核的Intel处理器基本上相同功能,以便实现与具有至少一个x86指令集核的Intel处理器基本上相同结果的任何处理器。x86编译器1304表示可以可操作以生成x86二进制代码1306(例如对象代码)的编译器,二进制代码1306可在具有或没有附加连锁处理的情况下在具有至少一个x86指令集核的处理器1316上执行。类似地,图13示出采用高级语言1302的程序可使用备选指令集编译器1308编译以生成备选指令集二进制代码1310,其可由没有至少一个x86指令集核的处理器1314(例如,具有执行加利福尼亚州Sunnyvale的MIPS Technologies的MIPS指令集,和/或执行加利福尼亚州Sunnyvale的ARM Holdings的ARM指令集的核的处理器)本地执行。指令转换器1312可用于将x86二进制代码1306转换成可由没有x86指令集核的处理器1314本地执行的代码。这个转换的代码可能不与备选指令集二进制代码1310相同;然而,转换的代码将完成一般操作,并且由来自备选指令集的指令组成。从而,指令转换器1312表示通过仿真、模拟或任何其它过程,允许不具有x86指令集处理器或核的处理器或其它电子装置执行x86二进制代码1306的软件、固件、硬件或其组合。

图14是根据本公开实施例的处理器的指令集架构1400的框图。指令集架构1400可包含任何适合数量或种类的组件。

例如,指令集架构1400可包含处理实体,诸如一个或多个核1406、1407和图形处理单元1415。核1406、1407可通过任何适合的机制(诸如通过总线或高速缓存)通信地耦合到其余指令集架构1400。在一个实施例中,核1406、1407可通过L2高速缓存控制1408通信地耦合,L2高速缓存控制1408可包含总线接口单元1409和L2高速缓存1411。核1406、1407和图形处理单元1415可通过互连1410通信地彼此耦合,并耦合到指令集架构1400的剩余部分。在一个实施例中,图形处理单元1415可使用视频码1420(其定义其中具体视频信号将被编码和解码以便输出的方式)。

指令集架构1400还可包含任何数量或种类的接口、控制器或用于与电子装置或系统的其它部分对接或通信的其它机制。此类机制例如可促进与外设、通信装置、其它处理器或存储器的交互。在图14的示例中,指令集架构1400可包含液晶显示器(LCD)视频接口1425、订户接口模块(SIM)接口1430、引导ROM接口1435、同步动态随机存取存储器(SDRAM)控制器1440、闪存控制器1445和串行外设接口(SPI)主单元1450。LCD视频接口1425例如可从GPU 1415并且例如通过移动工业处理器接口(MIPI)1490或高清多媒体接口(HDMI)1495向显示器提供视频信号的输出。此类显示器例如可包含LCD。SIM接口1430可提供对或从SIM卡或装置的访问。SDRAM控制器1440可提供对或从诸如SDRAM芯片或模块1460的存储器的访问。闪存控制器1445可提供对或从诸如闪存存储器1465或RAM的其它实例的存储器的访问。SPI主单元1450可提供对或从诸如蓝牙模块1470、高速3G调制解调器1475、全球定位系统模块1480或实现诸如802.11的通信标准的无线模块1485的通信模块的访问。

图15是根据本公开实施例的处理器的指令集架构1500的更详细框图。指令架构1500可实现指令集架构1400的一个或多个方面。更进一步,指令集架构1500可示出用于执行处理器内指令的模块和机制。

指令架构1500可包含通信地耦合到一个或多个执行实体1565的存储器系统1540。更进一步,指令架构1500可包含通信地耦合到执行实体1565和存储器系统1540的高速缓存和总线接口单元(诸如单元1510)。在一个实施例中,将指令加载到执行实体1565可由一个或多个执行阶段执行。此类阶段例如可包含指令预获取阶段1530、双指令解码阶段1550、寄存器重命名阶段1555、发布阶段1560和写回阶段1570。

在一个实施例中,存储器系统1540可包含执行的指令指针1580。执行的指令指针1580可存储标识一批指令内最旧的、未指派的指令的值。最旧的指令可对应于最低程序指令(Program Order,PO)值。PO可包含唯一数量的指令。此类指令可以是由多个串(strand)表示的线程内的单个指令。PO可在排序指令中用于确保代码的正确执行语义。PO可通过诸如评估指令中编码的PO的增量而不是绝对值的机制来重构。此类重构的PO可被称为“RPO”。尽管本文可提到PO,但此类PO可与RPO互换使用。串可包含是取决于彼此的数据的指令序列。在编译时间,串可由二进制转化器布置。执行串的硬件可按根据各种指令的PO的次序执行给定串的指令。线程可包含多个串,使得不同串的指令可取决于彼此。给定串的PO可以是串中尚未从发布阶段分派执行的最旧的指令的PO。相应地,给定多个串的线程,每个串包含按PO排序的指令,执行的指令指针1580可存储线程中最旧的——由最低号码示出的——PO。

在另一个实施例中,存储器系统1540可包含引退指针1582。引退指针1582可存储标识最后引退的指令的PO的值。引退指针1582例如可由引退单元454设置。如果尚没有指令引退,则引退指针1582可包含空值。

执行实体1565可包含处理器通过其可执行指令的任何适合数量和种类的机制。在图15的示例中,执行实体1565可包含ALU/乘法单元(MUL)1566、ALU 1567和浮点单元(FPU)1568。在一个实施例中,此类实体可利用在给定地址1569内含有的信息。执行实体1565与阶段1530、1550、1555、1560、1570组合可共同形成执行单元。

单元1510可采用任何适合的方式实现。在一个实施例中,单元1510可执行高速缓存控制。在此类实施例中,单元1510从而可包含高速缓存1525。在另外实施例中,高速缓存1525可实现为具有任何适合大小(诸如0、128k、256k、512k、1M或2M字节的存储器)的L2统一高速缓存。在另一、另外的实施例中,高速缓存1525可实现在纠错代码存储器中。在另一实施例中,单元1510可执行到处理器或电子装置的其它部分的总线对接。在此类实施例中,单元1510从而可包含用于通过互连、处理器内总线、处理器间总线或其它通信总线、端口或线路通信的总线接口单元1520。总线接口单元1520可提供对接以便例如执行生成存储器和输入/输出地址,以便在执行实体1565与指令架构1500外部的系统部分之间传送数据。

为了进一步促进其功能,总线接口单元1520可包含用于生成中断和到处理器或电子装置的其它部分的其它通信的中断控制和分发单元1511。在一个实施例中,总线接口单元1520可包含处置针对多个处理核的高速缓存访问和一致性的探听控制单元1512。在另外的实施例中,为了提供此类功能性,探听控制单元1512可包含处置不同高速缓存之间信息交换的高速缓存到高速缓存传送单元。在另一、另外实施例中,探听控制单元1512可包含一个或多个探听过滤器1514,其监视其它高速缓存(未示出)的一致性,使得高速缓存控制器(诸如单元1510)不用必须直接执行此类监视。单元1510可包含用于同步指令架构1500的动作的任何适合数量的定时器1515。还有,单元1510可包含AC端口1516。

存储器系统1540可包含用于存储对于指令架构1500的处理需要的信息的任何适合的数量和种类的机制。在一个实施例中,存储器系统1540可包含用于存储信息(诸如写入到存储器或寄存器或从存储器或寄存器读回的缓冲器)的负载存储单元1546。在另一实施例中,存储器系统1540可包含转化后备缓冲器(TLB)1545,其提供了物理地址与虚拟地址之间的地址值的查找。在又一实施例中,存储器系统1540可包含用于促进访问虚拟存储器的存储器管理单元(MMU)1544。在又一实施例中,存储器系统1540可包含预获取器1543,用于在指令实际需要被执行之前从存储器请求此类指令以便减少延时。

执行指令的指令架构1500的操作可通过不同阶段执行。例如,使用单元1510指令预获取阶段1530可通过预获取器1543访问指令。检索的指令可被存储在指令高速缓存1532中。预获取阶段1530可实现用于快速环路模式的选项1531,其中执行形成环路的一系列指令,环路足够小以在给定高速缓存内拟合。在一个实施例中,执行此类执行例如可无需从指令高速缓存1532访问附加指令。预获取什么指令的确定例如可由分支预测单元1535进行,单元1535可访问全局历史1536中的执行指示、目标地址1537的指示或确定接下来将执行代码的分支1557中的哪个的返回栈1538的内容。此类分支有可能作为结果预获取。分支1557可通过如下面所描述的其它操作阶段产生。指令预获取阶段1530可提供指令及有关将来指令的任何预测到双指令解码阶段1550。

双指令解码阶段1550可将接收的指令转化成可执行的基于微代码的指令。双指令解码阶段1550每时钟周期可同时解码两个指令。更进一步,双指令解码阶段1550可将其结果传到寄存器重命名阶段1555。此外,双指令解码阶段1550可从其解码和微代码的最终执行中确定任何结果分支。此类结果可输入到分支1557中。

寄存器重命名阶段1555可将对虚拟寄存器或其它资源的引用转化成对物理寄存器或资源的引用。寄存器重命名阶段1555可包含寄存器池1556中此类映射的指示。寄存器重命名阶段1555可更改所接收的指令,并将结果发送到发布阶段1560。

发布阶段1560可向执行实体1565发布或分派命令。此类发布可按无序方式执行。在一个实施例中,多个指令可在执行之前在发布阶段1560保持。发布阶段1560可包含用于保持此类多个命令的指令队列1561。可基于任何可接受的判据,诸如用于执行给定指令的资源的可用性或适用性,由发布阶段1560向具体处理实体1565发布指令。在一个实施例中,发布阶段1560可重新排序指令队列1561内的指令,使得所接收的第一指令可能不是所执行的第一指令。基于指令队列1561的排序,附加分支信息可被提供给分支1557。发布阶段1560可将指令传到执行实体1565以用于执行。

在执行时,写回阶段1570可将数据写入到寄存器、队列或指令集架构1500的其它结构中,以传递给定命令的完成。取决于在发布阶段1560中布置的指令次序,写回阶段1570的操作可实现要被执行的附加指令。指令集架构1500的执行可由追踪单元1575监视或调试。

图16是根据本公开实施例的用于处理器的指令集架构的执行流水线1600的框图。执行流水线1600例如可示出图15的指令架构1500的操作。

执行流水线1600可包含步骤或操作的任何适合的组合。在1605,可进行接下来要执行的分支的预测。在一个实施例中,此类预测可基于先前指令的执行及其结果。在1610,对应于预测的执行分支的指令可被加载到指令高速缓存中。在1615,可获取指令高速缓存中的一个或多个此类指令以便执行。在1620,已经获取的指令可被解码成微代码或更特定的机器语言。在一个实施例中,可同时解码多个指令。在1625,可重新指配解码指令内对寄存器或其它资源的引用。例如,可引用对应物理寄存器替换对虚拟寄存器的引用。在1630,指令可被分派给队列以便执行。在1640,可执行指令。可按任何适合的方式执行此类执行。在1650,可向适合的执行实体发布指令。其中执行指令的方式可取决于执行指令的特定实体。例如,在1655,ALU可执行算术函数。ALU可针对其操作利用单个时钟周期以及两个移位器。在一个实施例中,可采用两个ALU,并且从而在1655可执行两个指令。在1660,可进行结果分支的确定。程序计数器可用于指定分支将进行到其的目的地。1660可在单个时钟周期内执行。在1665,浮点算术可由一个或多个FPU执行。浮点操作可需要执行多个时钟周期,诸如2个到10个周期。在1670,可执行乘法和除法运算。此类运算可在4个时钟周期中执行。在1675,可执行对寄存器或流水线1600其它部分的加载和存储操作。操作可包含加载和存储地址。此类运算可在4个时钟周期中执行。在1680,写回操作可根据需要由1655-1675的结果操作执行。

图17是根据本公开的实施例的用于利用处理器1710的电子装置1700的框图。电子装置1700例如可包括笔记本电脑、超级本、计算机、塔式服务器、机架服务器、刀片服务器、膝上型计算机、桌上型计算机、平板、移动装置、电话、嵌入式计算机或任何其它适合的电子装置。

电子装置1700可包括通信地耦合到任何适合数量或种类的组件、外设、模块或装置的处理器1710。此类耦合可通过任何适合种类的总线或接口来实现,诸如I2C总线、系统管理总线(SMBus)、低引脚计数(LPC)总线、SPI、高清晰音频(HDA)总线、串行高级技术附件(SATA)总线、USB总线(版本1、2、3)或通用异步接收器/传送器(UART)总线。

此类组件例如可包括显示器1724、触摸屏1725、触摸板1730、近场通信(NFC)单元1745、传感器中枢1740、热传感器1746、高速芯片集(EC)1735、可信平台模块(TPM)1738、BIOS/固件/闪存存储器1722、数字信号处理器1760、诸如固态磁盘(SSD)或硬盘驱动器(HDD)的驱动器1720、无线局域网(WLAN)单元1750、蓝牙单元1752、无线广域网(WWAN)单元1756、全球定位系统(GPS)1775、诸如USB 3.0相机的相机1754、或例如以LPDDR3标准实现的低功率双倍数据率(LPDDR)存储器单元1715。这些组件每个可以以任何适合的方式实现。

此外,在各种实施例中,其它组件可通过上面讨论的组件通信地耦合到处理器1710。例如,加速计1741、环境光传感器(ALS)1742、罗盘1743和陀螺仪1744可以通信地耦合到传感器中枢1740。热传感器1739、风扇1737、键盘1736和触摸板1730可以通信地耦合到EC 1735。扬声器1763、耳机1764和麦克风1765可以通信地耦合到音频单元1762,音频单元又可通信地耦合到DSP 1760。音频单元1762例如可包括音频编解码器和D类放大器。SIM卡1757可以通信地耦合到WWAN单元1756。诸如WLAN单元1750和蓝牙单元1752以及WWAN单元1756的组件可以以下一代规格(NGFF)实现。

本公开的实施例涉及用于执行以向量寄存器为目标的一个或多个向量操作的指令和处理逻辑,向量操作中的至少一些操作操作以使用从索引阵列检索的索引值来访问存储器位置。图18是根据本公开的实施例的用于向量操作的指令和逻辑的示例系统1800的说明,所述向量操作用以从索引阵列加载索引并基于那些索引从随机位置或稀疏存储器中的位置收集元素。

收集操作通常可以对根据由指令指定(或编码在指令中)的基地址寄存器、索引寄存器和/或缩放因子的内容计算的地址执行一系列存储器访问(读操作)。例如,密码学,图形遍历,分类或稀疏矩阵应用可以包括用以通过一系列索引值加载索引寄存器的一个或多个指令以及用以执行收集使用那些索引值间接寻址的数据元素的一个或多个其它指令。本文描述的加载-索引-和-收集指令可以加载对于收集操作所需的索引并且还执行收集操作。这可以包括,对于要从随机位置或稀疏存储器中的位置收集的每个数据元素,从存储器中的索引阵列中的具体定位检索索引值,计算存储器中的数据元素的地址,使用计算的地址收集(检索)数据元素,并将收集的数据元素存储在目的地向量寄存器中。数据元素的地址可以基于针对所述指令指定的基地址和从索引阵列(其地址针对所述指令被指定)检索的索引值来计算。在本公开的实施例中,可以使用这些加载-索引-和-收集指令来将数据元素收集到应用中的目的地向量中(其中数据元素已经以随机顺序存储在存储器中)。例如,它们可以被存储作为稀疏阵列的元素。

在本公开的实施例中,扩展向量指令的编码可以包括间接标识存储器中的多个索引的目的地位置的缩放-索引-基础(SIB)类型存储器寻址操作数。在一个实施例中,SIB类型存储器操作数可以包括标识基地址寄存器的编码。基地址寄存器的内容可以表示存储器中的基地址,从所述基地址计算存储器中的具体位置的地址。例如,基地址可以是其中存储要被收集的数据元素的位置块中的第一位置的地址。在一个实施例中,SIB类型存储器操作数可以包括标识存储器中的索引阵列的编码。所述阵列的每个元素可以指定索引或偏移值,其可用于从基地址计算其中存储了要被收集的数据元素的位置块内的相应位置的地址。在一个实施例中,SIB类型存储器操作数可以包括指定当计算相应的目的地地址时要被应用到每个索引值的缩放因子的编码。例如,如果在SIB类型存储器操作数中编码缩放因子值4,则从索引阵列的元素获得的每个索引值可以乘以4,并且然后添加到基地址以计算要被收集的数据元素的地址。

在一个实施例中,形式为vm32 {x,y,z}的SIB类型存储器操作数可以标识使用SIB类型存储器寻址指定的存储器操作数的向量阵列。在此示例中,存储器地址阵列使用公共基址寄存器、常数缩放因子和包含单独元素(其每个是32位索引值)的向量索引寄存器来指定。向量索引寄存器可以是XMM寄存器(vm32x)、YMM寄存器(vm32y)或ZMM寄存器(vm32z)。在另一实施例中,形式为vm64 {x,y,z}的SIB类型存储器操作数可以标识使用SIB类型存储器寻址指定的存储器操作数的向量阵列。在此示例中,存储器地址阵列使用公共基址寄存器、常数缩放因子和包含单独元素(其每个是64位索引值)的向量索引寄存器来指定。向量索引寄存器可以是XMM寄存器(vm64x)、YMM寄存器(vm64y)或ZMM寄存器(vm64z)。

系统1800可以包括处理器、SoC、集成电路或其它机制。例如,系统1800可以包括处理器1804。虽然处理器1804在图18中示出和描述为示例,但是可以使用任何适合的机制。处理器1804可以包括用于执行以向量寄存器为目标的向量操作的任何适合机制,包括操作以使用从索引阵列检索的索引值访问存储器位置的那些向量操作。在一个实施例中,此类机制可以在硬件中实现。处理器1804可以完全或部分地由图1-17中描述的元件实现。

要在处理器1804上执行的指令可以被包括在指令流1802中。指令流1802可以由例如编译器、即时解释器或其它适合的机制(其可以或可以不被包括在系统1800中)生成,或者可以由引起指令流1802的代码的起草者(drafter)来指定。例如,编译器可以取得应用代码并且以指令流1802的形式生成可执行代码。指令可以由处理器1804从指令流1802接收。指令流1802可以以任何适合的方式加载到处理器1804。例如,要由处理器1804执行的指令可以从存储装置、从其它机器或从诸如存储器系统1830的其它存储器加载。指令可以到达驻留存储器(例如RAM)并且在其中可用,其中从存储装置获取要由处理器1804执行的指令。指令可以通过例如预获取器或获取单元(诸如指令获取单元1808)从驻留存储器获取。在一个实施例中,指令流1802可以包括执行一个或多个基于通道的跨步存储操作的指令。例如,指令流1802可以包括“VPSTORE4”指令、“VPSTORE3”指令或“VPSTORE2”指令。注意到指令流1802可以包括除执行向量操作的那些指令以外的指令。

在一个实施例中,指令流1802可以包括指令,其用以执行向量操作来从索引阵列加载索引,并且基于那些索引从存储器中的随机位置或稀疏存储器中的位置收集元素。例如,在一个实施例中,指令流1802可以包括一个或多个“LoadlndicesAndGather”类型指令,以加载索引值(按需要一次一个),所述索引值要用于计算要被收集的具体数据元素的存储器中的地址。地址可以计算为针对所述指令指定的基地址以及从针对所述指令标识的索引阵列检索的索引值的和(在具有或没有缩放的情况下)。所收集的数据元素可以并被存储在针对所述指令指定的目的地向量寄存器中的连续位置中。注意到,指令流1802还可以包括除了执行向量操作的那些指令以外的指令。

处理器1804可以包括前端1806,前端1806可以包括指令获取流水线阶段(诸如指令获取单元1808)和解码流水线阶段(诸如决定单元1810)。前端1806可以使用解码单元1810来接收和解码来自指令流1802的指令。解码的指令可以被分派、分配和调度以用于由流水线的分配阶段(诸如分配器1814)的执行并被分配到特定执行单元1816以用于执行。要由处理器1804执行的一个或多个特定指令可以包括在针对由处理器1804的执行而定义的库中。在另一实施例中,特定指令可以由处理器1804的具体部分作为目标。例如,处理器1804可以识别指令流1802中的以软件执行向量操作的尝试,并且可以将指令发布到执行单元1816中的具体一个。

在执行期间,可以通过存储器子系统1820进行对数据或附加指令(包括驻留在存储器系统1830中的数据或指令)的访问。此外,来自执行的结果可以存储在存储器子系统1820中,并且可以随后被刷新到存储器系统1830。存储器子系统1820可以包括例如存储器、RAM或高速缓存层级,其可以包括一个或多个1级(LI)高速缓存1822或2级(L2)高速缓存1824,其的一些可以由多个核1812或处理器1804共享。在由执行单元1816执行之后,可以通过引退单元1818中的写回阶段或引退阶段来引退指令。此类执行流水线的各种部分可以由一个或多个核1812执行。

执行向量指令的执行单元1816可以以任何适合的方式来实现。在一个实施例中,执行单元1816可包括或可以通信地耦合到存储器元件以存储执行一个或多个向量操作所需的信息。在一个实施例中,执行单元1816可以包括用以执行向量操作以从索引阵列加载索引并基于那些索引从随机位置或稀疏存储器中的位置收集元素的电路。例如,执行单元1816可以包括用以实现一个或多个形式的向量LoadlndicesAndGather类型指令的电路。这些指令的示例实现在下面更详细地描述。

在本公开的实施例中,处理器1804的指令集架构可以实现被定义为Intel®高级向量扩展512(Intel® AVX-512)指令的一个或多个扩展向量指令。处理器1804可以隐式地或通过解码和执行特定指令来识别这些扩展向量操作中的一个要被执行。在此类情况下,可以将扩展向量操作引导至执行单元1816中的具体一个以用于指令的执行。在一个实施例中,指令集架构可以包括对512位SIMD操作的支持。例如,由执行单元1816实现的指令集架构可以包括32个向量寄存器(每个向量寄存器是512位宽),以及对高达512位宽的向量的支持。由执行单元1816实现的指令集架构可以包括用于目的地操作数的高效合并和有条件执行的八个专用屏蔽寄存器。至少一些扩展向量指令可以包括对广播的支持。至少一些扩展的向量指令可以包括对嵌入屏蔽的支持以使能预测。

至少一些扩展向量指令可以将相同的操作同时应用于存储在向量寄存器中的向量的每个元素。其它扩展向量指令可以将相同的操作应用于多个源向量寄存器中的对应元素。例如,可以通过扩展向量指令将相同的操作应用于存储在向量寄存器中的打包数据项的每个单独数据元素。在另一示例中,扩展向量指令可以指定要对两个源向量操作数的相应数据元素执行的单个向量操作,以生成目的地向量操作数。

在本公开的实施例中,至少一些扩展向量指令可以由处理器核内的SIMD协处理器执行。例如,核1812内的一个或多个执行单元1816可以实现SIMD协处理器的功能性。SIMD协处理器可以完全或部分地由图1-17中描述的元件实现。在一个实施例中,指令流1802内的由处理器1804接收的扩展向量指令可以被引导至实现SIMD协处理器的功能性的执行单元1816。

如图18中所示出的,在一个实施例中,LoadlndicesAndGather类型指令可以包括指示要被收集的数据元素的大小和/或类型的{size}参数。在一个实施例中,要被收集的所有数据元素可以是相同大小。

在一个实施例中,LoadIndicesAndGather类型指令可以包括标识所述指令的目的地向量寄存器的REG参数。

在一个实施例中,LoadIndicesAndGather类型指令可以包括两个存储器地址参数,一个参数标识对于存储器中的数据元素位置的群组的基地址,另一个参数标识存储器中的索引阵列。在一个实施例中,这些存储器地址参数中的一个或两个可以被编码在缩放-索引-基础(SIB)类型存储器寻址操作数中。在另一实施例中,这些存储器地址参数中的一个或两个可以是指针。

在一个实施例中,如果要应用屏蔽,则LoadIndicesAndGather类型指令可以包括标识具体掩码寄存器的{ kn }参数。如果要应用屏蔽,LoadlndicesAndGather类型指令可以包括指定屏蔽类型的{z}参数。在一个实施例中,如果针对所述指令包括{z}参数,则这可以指示当将指令的结果写入其目的地向量寄存器时要应用零屏蔽。如果针对所述指令中不包括{z}参数,则这可以指示在将指令结果写入到其目标向量寄存器时要应用合并屏蔽。下面将更详细地描述使用零屏蔽和合并屏蔽的示例。

图18中所示出的LoadlndicesAndGather类型指令的一个或多个参数可以是对于所述指令固有的。例如,在不同的实施例中,这些参数的任何组合可以被编码在对于指令的操作码格式的位或字段中。在其它实施例中,图18中所示的LoadlndicesAndGather类型指令的一个或多个参数可以是对于所述指令可选的。例如,在不同的实施例中,这些参数的任何组合可以在调用指令时被指定。

图19示出根据本公开的实施例的执行SIMD操作的数据处理系统的示例处理器核1900。处理器1900可以完全或部分地由图1-18中描述的元件实现。在一个实施例中,处理器核1900可以包括主处理器1920和SIMD协处理器1910。SIMD协处理器1910可以完全或部分地由图1-17中描述的元件实现。在一个实施例中,SIMD协处理器1910可以实现图18中所示的执行单元1816中的一个的至少一部分。在一个实施例中,SIMD协处理器1910可以包括SIMD执行单元1912和扩展向量寄存器堆1914。SIMD协处理器1910可执行扩展SIMD指令集1916的操作。扩展SIMD指令集1916可包括一个或多个扩展向量指令。这些扩展向量指令可以控制包括与驻留在扩展向量寄存器堆1914中的数据的交互的数据处理操作。

在一个实施例中,主处理器1920可以包括解码器1922,以识别扩展SIMD指令集1916的指令以用于由SIMD协处理器1910的执行。在其它实施例中,SIMD协处理器1910可以包括解码器(未示出)的至少一部分以解码扩展SIMD指令集1916的指令。处理器核1900还可以包括对于理解本公开的实施例可能不必需的附加电路(未示出)。

在本公开的实施例中,主处理器1920可以执行控制一般类型的数据处理操作(包括与高速缓存1924和/或寄存器堆1926的交互)的数据处理指令流。嵌入在所述数据处理指令流内的可以是扩展SIMD指令集1916的SIMD协处理器指令。主处理器1920的解码器1922可以将这些SIMD协处理器指令识别为具有应当由附连的SIMD协处理器1910执行的类型。相应地,主处理器1920可以在协处理器总线1915上发布这些SIMD协处理器指令(或表示SIMD协处理器指令的控制信号)。从协处理器总线1915,这些指令可由任何附连的SIMD协处理器接收。在图19中所示的示例实施例中,SIMD协处理器1910可以接受并执行打算用于在SIMD协处理器1910上的执行的任何接收的SIMD协处理器指令。

在一个实施例中,主处理器1920和SIMD协处理器1920可以集成到单个处理器核1900中,所述单个处理器核1900包括执行单元、寄存器堆集合和解码器以识别扩展SIMD指令集1916的指令。

图18和图19中描绘的示例实现仅仅是说明性的,并不意味着对本文所描述的用于执行扩展向量操作的机制的实现进行限制。

图20是示出根据本公开的实施例的示例扩展向量寄存器堆1914的框图。扩展向量寄存器堆1914可以包括32个SIMD寄存器(ZMM0-ZMM31),其的每个是512位宽。每个ZMM寄存器的低256位被混叠到相应的256位YMM寄存器。每个YMM寄存器的低128位被混叠到相应的128位XMM寄存器。例如,寄存器ZMM0(示出为2001)的位255至0被混叠到寄存器YMM0,并且寄存器ZMM0的位127至0被混叠到寄存器XMM0。类似地,寄存器ZMM1(示出为2002)的位255到0被混叠到寄存器YMM1,寄存器ZMM1的位127到0被混叠到寄存器XMM1,寄存器ZMM2(示出为2003)的位255到0被混叠到寄存器YMM2,寄存器ZMM2的位127至0被混叠到寄存器XMM2,等等。

在一个实施例中,扩展SIMD指令集1916中的扩展向量指令可以对扩展向量寄存器堆1914中的任何寄存器进行操作,包括寄存器ZMM0-ZMM31、寄存器YMM0-YMM15和寄存器XMM0-XMM7。在另一实施例中,在开发Intel® AVX-512指令集架构之前实现的遗留SIMD指令可以对扩展向量寄存器堆1914中的YMM或XMM寄存器的子集进行操作。例如,在一些实施例中通过一些遗留SIMD指令的访问可以限于寄存器YMM0-YMM15或寄存器XMM0-XMM7。

在本公开的实施例中,指令集架构可以支持访问高达四个指令操作数的扩展向量指令。例如,在至少一些实施例中,扩展向量指令可访问图20中所示的32个扩展向量寄存器ZMM0-ZMM31中的任何寄存器作为源或目的地操作数。在一些实施例中,扩展向量指令可以访问八个专用屏蔽寄存器中的任何寄存器。在一些实施例中,扩展向量指令可以访问16个通用寄存器中的任何寄存器作为源操作数或目的地操作数。

在本公开的实施例中,扩展向量指令的编码可以包括指定要执行的具体向量操作的操作码。扩展向量指令的编码可以包括标识8个专用屏蔽寄存器k0-k7中的任何屏蔽寄存器的编码。所标识的屏蔽寄存器的每个位可以在向量操作被应用于相应的源向量元素或目的地向量元素时支配向量操作的行为。例如,在一个实施例中,这些屏蔽寄存器中的七个(k1-k7)可以用于有条件地支配扩展向量指令的每数据元素计算操作。在此示例中,如果未设置对应的屏蔽位,则不会针对给定的向量元素执行所述操作。在另一实施例中,屏蔽寄存器k1-k7可用于有条件地支配对扩展向量指令的目的地操作数的每元素更新。在此示例中,如果未设置对应的屏蔽位,则给定的目的地元素不随操作的结果而更新。

在一个实施例中,扩展向量指令的编码可以包括指定要应用于扩展向量指令的目的地(结果)向量的屏蔽类型的编码。例如,此编码可以指定合并屏蔽或零屏蔽是否应用于执行向量操作。如果此编码指定合并屏蔽,则任何目的地向量元素(屏蔽寄存器中的其对应位未设置)的值可保留在目的地向量中。如果此编码指定了零屏蔽,则任何目的地向量元素(屏蔽寄存器中的其对应位未设置)的值可利用目的地向量中的零值替换。在一个示例实施例中,屏蔽寄存器k0不被用作向量操作的谓词(predicate)操作数。在此示例中,将否则选择屏蔽k0的编码值可以替代地选择全1的隐式屏蔽值,由此有效地禁用屏蔽。在此示例中,屏蔽寄存器k0可用于将一个或多个屏蔽寄存器作为源或目的地操作数的任何指令。

在一个实施例中,扩展向量指令的编码可以包括指定压缩到源向量寄存器中或要压缩到目的地向量寄存器中的数据元素的大小的编码。例如,编码可以指定每个数据元素是字节、字、双字或四字等。在另一实施例中,扩展向量指令的编码可以包括指定压缩到源向量寄存器中或要压缩到目的地向量寄存器中的数据元素的数据类型的编码。例如,编码可以指定数据表示单精度整数或双精度整数,或者多个支持的浮点数据类型中的任何一个。

在一个实施例中,扩展向量指令的编码可以包括指定存储器地址或存储器寻址模式(通过其访问源或目的地操作数)的编码。在另一实施例中,扩展向量指令的编码可以包括指定作为指令的操作数的标量整数或标量浮点数的编码。虽然本文描述了特定的扩展向量指令及其编码,但这些仅仅是可以在本公开的实施例中实现的扩展向量指令的示例。在其它实施例中,可以在指令集架构中实现更多更少或不同的扩展向量指令,并且它们的编码可以包括更多、更少或不同的信息以控制它们的执行。

在一个实施例中,在与用以执行收集的指令的其它序列相比时,LoadlndicesAndGather指令的使用可以改进通过存储在阵列中的索引来使用对存储器的间接读访问的稀疏矩阵应用和密码学、图遍历、分类(等等)。在一个实施例中,不是指定地址集合(从其加载索引的向量),那些地址可以转而被提供作为对LoadlndicesAndGather指令的索引阵列,所述指令都将加载阵列的每个元素并且然后将其用作对于收集操作的索引。收集操作中要使用的索引的向量可以被存储在存储器中的连续位置中。例如,在一个实施例中,在阵列中的第一定位中起始,可以存在包含第一索引值的四个字节,接着是包含第二索引值的四个字节,等等。在一个实施例中,索引阵列的起始地址(在存储器中)可以被提供给LoadIndicesAndGather指令,并且索引值可以连续地被存储在开始于该地址的存储器中。在一个实施例中,LoadlndicesAndGather指令可以加载从该定位起始的64个字节并使用它们(一次四个)来执行收集。

如下面更详细描述的,在一个实施例中,LoadlndicesAndGather指令的语义可以如下:

LoadlndicesAndGatherD kn (ZMMn, Addr A, Addr B)

在此示例中,收集操作要检索32位双字元素,目的地向量寄存器被指定为ZMMn,存储器中的索引阵列的起始地址是Addr A,存储器中的潜在收集元素位置的起始地址(基地址)是Addr B,并且针对所述指令指定的掩码是掩码寄存器kn。此指令的操作可以通过以下示例伪代码来示出。在此示例中,VLEN(或向量长度)可以表示用于收集操作的索引向量中的长度,也就是存储在索引阵列中的索引值的数量。

For(i = 0..VLEN) {

If (kn [i] is true) then {

idx = mem[B[i]];

dst[i] = mem[A[idx]];

}

}

}

在一个实施例中,合并屏蔽对于LoadlndicesAndGather指令可以是可选的。在另一实施例中,零屏蔽对于LoadlndicesAndGather指令可以是可选的。在一个实施例中,LoadlndicesAndGather指令可以支持VLEN的多个可能值,诸如8、16、32或64。在一个实施例中,LoadlndicesAndGather指令可以支持索引阵列B[i]中的元素的多个可能大小,诸如32位或64位值,其的每个可以表示一个或多个索引值。在一个实施例中,LoadlndicesAndGather指令可以支持存储器位置A[i]中的数据元素的多种可能类型和大小,包括单或双精度浮点,64位整数等等。在一个实施例中,由于索引加载和收集被组合成一个指令,如果硬件预获取单元识别来自阵列B的索引可以被预获取,则它可以自动预获取它们。在一个实施例中,预获取单元还可以自动预获取来自通过B间接访问的阵列A的值。

在本公开的实施例中,用于执行由处理器核(诸如系统1800中的核1812)或由SIMD协处理器(诸如SIMD协处理器1910)实现的扩展向量操作的指令可以包括用以执行向量操作以从索引阵列加载索引,并基于那些索引从随机位置或稀疏存储器中的位置收集元素的指令。例如,这些指令可以包括一个或多个“LoadlndicesAndGather”指令。在本公开的实施例中,可以使用这些LoadIndicesAndGather指令来加载(按需要一次一个)要用于计算要被收集的具体数据元素的存储器中的地址的每个索引值。可以将地址计算为针对所述指令指定的基地址与从针对所述指令标识的索引阵列检索的索引值的和(在具有或没有缩放的情况下)。收集的数据元素可以存储在针对所述指令指定的目的地向量寄存器中的连续位置中。

图21是根据本公开的实施例的用以执行从索引阵列加载索引并且基于那些索引从随机位置或稀疏存储器中的位置收集元素的操作的说明。在一个实施例中,系统1800可执行指令来执行操作以从索引阵列加索引数并基于那些索引从随机位置或稀疏存储器中的位置收集元素。例如,可以执行LoadlndicesAndGather指令。此指令可以包括任何适合数量和种类的操作数、位、标志、参数或其它元素。在一个实施例中,LoadlndicesAndGather指令的调用可以引用目的地向量寄存器。目的地向量寄存器可以是扩展向量寄存器(从随机位置或稀疏存储器中的位置收集的数据元素通过LoadlndicesAndGather指令被存储到其中)。LoadlndicesAndGather指令的调用可以引用存储器中的基地址,从所述基地址计算存储器中的具体位置的地址(要被收集的数据元素存储在所述具体位置)。例如,LoadlndicesAndGather指令可以引用对于数据元素位置群组中的第一位置的指针,所述位置的一些存储要由指令收集的数据元素。LoadlndicesAndGather指令的调用可以引用存储器中的索引阵列,其的每个可以指定从基地址的偏移或索引值,其可用于计算包含要由指令收集的数据元素的位置的地址。在一个实施例中,LoadlndicesAndGather指令的调用可以采用缩放-索引-基础(SIB)类型存储器寻址操作数来引用基地址寄存器和存储器中的索引阵列。基地址寄存器可以标识存储器中的基地址,从所述基地址计算存储器中的具体位置的地址(要被收集的数据元素存储在所述具体位置)。存储器中的索引阵列可以指定从基地址的偏移或索引,其可用于计算要由指令收集的每个数据元素的地址。例如,LoadlndicesAndGather指令的执行可以对于存储在索引阵列中的连续定位中的索引阵列中的每个索引值,使索引值从索引阵列中被检索,使存储在存储器中的具体数据元素的地址基于索引值和基地址被计算,使数据元素从在计算的地址的存储器被检索,以及使检索的数据元素被存储在目的地向量寄存器中的下一连续定位中。

在一个实施例中,LoadlndicesAndGather指令的调用可以在计算要由指令收集的数据元素的相应地址时指定要应用于每个索引值的缩放因子。在一个实施例中,缩放因子可以被编码在SIB类型存储器寻址操作数中。在一个实施例中,缩放因子可以是1、2、4、8。指定的缩放因子可以取决于要由指令收集的单独数据元素的大小。在一个实施例中,LoadlndicesAndGather指令的调用可指定要由指令收集的数据元素的大小。例如,大小参数可以指示数据元素是字节、字、双字或四字。在另一示例中,大小参数可以指示数据元素表示有符号或无符号的浮点值。在另一实施例中,LoadlndicesAndGather指令的调用可以指定要由指令收集的数据元素的最大数量。在一个实施例中,LoadlndicesAndGather指令的调用可以指定要应用于指令的单独操作的掩码寄存器,或者何时将操作的结果写入到目的地向量寄存器。例如,掩码寄存器可以包括对于每个潜在地收集的数据元素的相应位。其对应于包含对于该数据元素的索引值的索引阵列中的定位。在此示例中,如果对于给定数据元素的相应位被设置,则可以检索其索引值,可以计算其地址,并且可以检索给定的数据元素并将其存储在目的地向量寄存器中。如果未设置给定数据元素的相应位,则针对给定数据元素可以取消这些操作。在一个实施例中,如果要应用屏蔽,则LoadlndicesAndGather指令的调用可以指定要应用于结果的屏蔽的类型,诸如合并屏蔽或零屏蔽。例如,如果应用合并屏蔽并且未设置对于给定数据元素的掩码位,则存储在目的地向量寄存器内的位置中的值可以保留,给定数据元素在LoadlndicesAndGather指令的执行之前(其以被收集)会以其它方式存储到所述位置。在另一示例中,如果应用零屏蔽并且未设置给定数据元素的掩码位,则可以将NULL值(例如全零)写入到目的地向量寄存器中的位置,给定数据元素(其以被收集)会以其它方式被存储到所述位置。在其它实施例中,可以在LoadlndicesAndGather指令的调用中引用更多,更少或不同的参数。

在图21中示出的示例实施例中,在(1),LoadlndicesAndGather指令及其参数(其可以包括上面描述的寄存器和存储器地址操作数、缩放因子、要被收集的数据元素的大小的指示、要被收集的数据元素的最大数量的指示、标识具体掩码寄存器的参数、指示屏蔽类型的参数中的任何个或所有)可以由SIMD执行单元1912接收。例如,在一个实施例中,LoadlndicesAndGather指令可以由核1812内的分配器1814发布到SIMD协处理器1910内的SIMD执行单元1912。在另一实施例中,LoadLndicesAndGather指令可以由主处理器1920的解码器1922发布到SIMD协处理器1910内的SIMD执行单元1912。LoadIndicesAndGather指令可以由SIMD执行单元1912逻辑地执行。

在此示例中,LoadlndicesAndGather指令的参数可以将扩展向量寄存器堆1914内的扩展向量寄存器ZMMn(2101)标识为所述对于指令的目的地向量寄存器。在此示例中,可能潜在地被收集的数据元素被存储在存储器系统1803中的数据元素位置2103中的各种元素位置中。存储在数据元素位置2103中的数据元素可以全部是相同大小,并且大小可以由LoadlndicesAndGather指令的参数指定。可能潜在地被收集的数据元素可以以任何随机顺序被存储在数据元素位置2103内。在此示例中,数据元素位置2103内第一可能位置(可以从其收集数据元素)在图21中示出为基地址位置。基地址位置2104的地址可以由LoadlndicesAndGather指令的参数来标识。在此示例中,如果指定,则SIMD执行单元1912内的掩码寄存器2102可以被标识为掩码寄存器,其内容要用在应用于所述指令的屏蔽操作中。在此示例中,要在LoadlndicesAndGather指令的收集操作中使用的索引值被存储在存储器系统1830中的索引阵列2105中。索引阵列2105包括,例如,在索引阵列内的第一(最低阶)定位(位置0)中的第一索引位置2106,在索引阵列内的第二定位(位置1)中的第二索引值2107等等。最后索引值2108被存储在索引阵列2105内的最后(最高阶定位)。

通过SIMD执行单元1912执行LoadlndicesAndGather指令可以包括,在(2)确定对应于下一潜在收集的掩码位是否为假,并且如果是这样,跳过下一潜在加载-索引-和-收集。例如,如果位0为假,则SIMD执行单元可以避免执行步骤(3)至(7)中的一些或全部步骤来收集数据元素,其地址可以使用第一索引值2106来计算,。然而,如果对应于下一潜在收集的掩码位为真,则可以执行下一潜在加载-索引-和-收集。例如,如果位1为真,或者如果屏蔽未被应用于指令,则SIMD执行单元可以执行步骤(3)至(7)的全部步骤以收集数据元素,其地址使用第二索引值2107和基地址位置2104的地址来计算。

对于其对应的掩码位为真的潜在加载-索引-和-收集或者当不应用屏蔽时,在(3),可以检索下一索引值。例如,在第一潜在加载-索引-和-收集期间,可以检索第一索引值2106,在第二潜在加载-索引-和-收集期间,可以检索第二索引值2106,等等。在(4),可以基于检索的索引值和基地址位置2104的地址来计算对于下一收集的地址。例如,对于下一收集的地址可以被计算为基地址和检索的索引值的和(在具有或没有缩放的情况下)。在(5),可以使用计算的地址在存储器中访问下一收集位置,并且在(6)可以从该收集位置检索数据元素。在(7),收集的数据元素可被存储到扩展向量寄存器堆1914中的目的地向量寄存器ZMMn(2101)。

在一个实施例中,LoadlndicesAndGather指令的执行可以包括针对要由指令从任何数据元素位置2103收集的数据元素中的每个元素重复图21中所示出的操作的步骤中的任何或全部步骤。例如,取决于对应的掩码位(屏蔽是否被应用),可以针对每个潜在加载-索引-和-收集执行步骤(2)或步骤(2)至(7),在其之后指令可以被引退。例如,如果将合并屏蔽应用于所述指令,并且如果因为对于此数据元素的掩码位为假而不将使用第一索引值2106间接访问的数据元素写入到目的地向量寄存器ZMMn(2101),在LoadlndicesAndGather指令的执行之前,包含在目的地向量寄存器ZMMn(2101)内的第一定位(定位0)的值可以被保留。在另一示例中,如果对所述指令应用零屏蔽,并且如果因为对于此数据元素的掩码位为假而不将使用第一索引值2106间接访问的数据元素写入到目的地向量寄存器ZMMn(2101),可将空值(例如全零)写入到目的地向量寄存器ZMMn(2101)内的第一定位(定位0)。在一个实施例中,当数据元素被收集时,其可被写入到与对于数据元素的索引值的定位对应的目的地向量寄存器ZMMn(2101)中的位置。例如,如果使用第二索引值2107间接访问的数据元素被收集,则其可被写入到目的地向量寄存器ZMMn(2101)内的第二定位(定位1)。

在一个实施例中,当从数据元素位置2103内的具体位置收集数据元素时,可以将它们中的一些或全部连同任何NULL值一起组装到目的地向量中(在被写入目的地向量寄存器ZMMn(2101)之前)。在另一实施例中,每个收集的数据元素或NULL值可以在其被获得或其值被确定时写出到目的地向量寄存器ZMMn(2101)。在此示例中,掩码寄存器2102在图21中示出为SIMD执行单元1912内的专用寄存器。在另一实施例中,掩码寄存器2102可以由在处理器中但是在SIMD执行单元1912外部的通用或专用寄存器来实现。在又一实施例中,掩码寄存器2102可以由扩展向量寄存器堆1914中的向量寄存器来实现。

在一个实施例中,扩展SIMD指令集架构可以实现多个版本或形式的向量操作,以从索引阵列加载索引并且基于那些索引从随机位置或稀疏存储器中的位置收集元素。这些指令形式可以包括,例如,下面示出的那些:

LoadIndicesAndGather {size} {kn} {z}(REG,PTR,PTR)

LoadIndicesAndGather {size} {kn} {z}(REG,[vm32],[vm32])

在上面示出的LoadlndicesAndGather指令的示例形式中,REG参数可以标识充当对于指令的目的地向量寄存器的扩展向量寄存器。在这些示例中,第一PTR值或存储器地址操作数可以标识存储器中的基地址位置。第二PTR值或存储器地址操作数可以标识存储器中的索引阵列。在LoadlndicesAndGather指令的这些示例形式中,“大小”修饰符可指定要从存储器中的位置收集并存储在目的地向量寄存器中的数据元素的大小和/或类型。在一个实施例中,指定的大小/类型可以是{B/W/D/Q/PS/PD}中的一个。在这些示例中,可选指令参数“kn”可以标识多个掩码寄存器中的具体一个。此参数可以在屏蔽要应用于LoadlndicesAndGather指令时被指定。在其中要应用屏蔽的实施例中(例如,如果针对指令指定了掩码寄存器),可选指令参数“z”可指示是否应应用置零屏蔽。在一个实施例中,如果此可选参数被设置,则可以应用零屏蔽,并且如果此可选参数未被设置或者此可选参数被省略,则可以应用合并屏蔽。在其它实施例(未示出)中,LoadlndicesAndGather指令可以包括指示要被收集的数据元素的最大数量的参数。在另一实施例中,要被收集的数据元素的最大数量可以由SIMD执行单元基于存储在索引值阵列中的索引值的数量来确定。在又一实施例中,要被收集的数据元素的最大数量可以由SIMD执行单元基于目的地向量寄存器的容量来确定。

图22A和22B示出了根据本公开的实施例的加载-索引-和-收集指令的相应形式的操作。更具体地,图22A示出没有指定可选掩码寄存器的加载-索引-和-收集指令的操作,并且图22B示出指定了可选掩码寄存器的类似的加载-索引-和-收集指令的操作。图22A和22B都示出了数据元素位置2103的群组,在其中作为收集操作的潜在目标的数据元素可以存储在稀疏存储器(例如,稀疏阵列)中的位置或随机位置中。在此示例中,数据元素位置2103中的数据元素按行组织。在此示例中,存储在数据元素位置2103内的最低阶地址中的数据元素G4790被示出在行2201中的基地址A(2104)。另一数据元素G17能存储在行2201内的地址2208。在此示例中,可以使用从第一索引值2106计算的地址(2209)访问的元素G0在行2203上示出。在此示例中,可以存在包含作为收集操作的潜在目标的数据元素(未示出)的行2201和2203之间的一个或多个行2202,以及包含作为收集操作的潜在目标的数据元素的行2203和2205之间的一个或多个行2204。在此示例中,行2206是包含作为收集操作的潜在目标的数据元素的阵列的最后行。

图22A和22B还示出索引阵列2105。在此示例中,存储在索引阵列2105中的索引按行组织。在此示例中,与数据元素G0对应的索引值被存储在索引阵列2105内的最低阶地址中(示出在行2210中的地址B(2106))。在此示例中,对应于数据元素G1的索引值被存储在索引阵列2105内的第二最低阶地址中(示出在行2210中的地址(2107))。在此示例中,索引阵列2105的全部四行2210、2211、2212和2213每个包含按顺序次序(sequential order)的四个索引值。最高阶索引值(对应于数据元素G15的索引值)被示出在行2213中的地址2108。如图22A和22B中所示出的,虽然存储在索引阵列2205中的索引值按顺序次序存储,但是由那些索引值间接访问的数据元素可以按任何顺序存储在存储器中。

在图22A中示出的示例中,向量指令LoadlndicesAndGatherD(ZMMn,Addr A,Addr B)的执行可产生在图22A的底部所示出的结果。在此示例中,在执行此指令之后,ZMMn寄存器2101包含按顺序次序的通过指令从数据元素位置2103内的位置收集的16个数据元素(G0-G15),其地址基于基地址2104以及从索引阵列2105中检索的相应索引值被计算。例如,存储在存储器中的地址2209的数据元素G0已被收集并存储在ZMMn寄存器2101的第一定位(定位0)中。从存储器收集并存储在ZMMn寄存器2101中的数据元素的其它数据元素的特定的位置未在附图中示出。

图22B示出了与图22A中所示出的指令的操作类似的但包括合并屏蔽的指令的操作。在此示例中,掩码寄存器kn(2220)包括16个位,每个位对应于索引阵列2105中的索引值和目的地向量寄存器ZMMn(2101)中的位置。在此示例中,定位5、10、11和16(位4、9、10和15)中的位为假,而剩余位为真。在图22B中所示出的示例中,向量指令LoadlndicesAndGatherD kn(ZMMn,Addr A,Addr B)的执行可以产生在图22B底部所示出的结果。在此示例中,在执行此指令之后,ZMMn寄存器2101包含通过指令从数据元素位置2103内的位置收集的12个数据元素G0-G3、G5-G8、以及G11-G14,其地址基于基地址2104以及从索引阵列2105中检索的相应索引值被计算。每个收集的元素被存储在与索引阵列2105中的其索引值的定位一致的定位中。例如,数据元素G0(其被存储在存储器中的地址2209)已被收集并存储在ZMMn寄存器2101的第一定位(定位0)中,数据元素G1已被收集并存储在第二定位(定位1)中,等等。然而,ZMMn寄存器2101内与掩码位4、9、10和15对应的四个定位包含没有由LoadlndicesAndGather指令收集的数据。替代地,这些值(示出为D4、D9、D10和D15)可以是在执行LoadlndicesAndGather指令之前被包含在那些定位中并且通过在其执行期间被应用的合并屏蔽被保留的值。在另一实施例中,如果对图22B中所示出的操作应用零屏蔽而不是合并屏蔽,则与掩码位4、9、10和15对应的ZMMn寄存器2101内的四个定位在执行LoadlndicesAndGather指令之后会包含NULL值(例如零)。

图23示出根据本公开的实施例的用于从索引阵列加载索引并基于那些索引从随机位置或稀疏存储器中的位置收集元素的示例方法2300。方法2300可以通过图1-22中所示出的任何元件来实现。方法2300可以由任何适合的准则发起并且可以在任何适合的点发起操作。在一个实施例中,方法2300可以在2305发起操作。方法2300可以包括比所示出的那些步骤更多或更少的步骤。此外,方法2300可以按与下面所示的那些顺序不同的顺序执行其步骤。方法2300可以在任何适合的步骤终止。此外,方法2300可以在任何适合的步骤重复操作。方法2300可以与方法2300的其它步骤并行执行任何其步骤,或者与其它方法的步骤并行执行任何其步骤。此外,方法2300可被执行多次以执行从索引阵列加载索引并且基于那些索引从随机位置或稀疏存储器中的位置收集元素。

在2305,在一个实施例中,可以接收并解码用以执行从索引阵列加载索引并且基于那些索引从随机位置或稀疏存储器中的位置收集元素的指令。例如,可以接收并解码LoadlndicesAndGather指令。在2310,指令和指令的一个或多个参数可以被引导至SIMD执行单元以用于执行。在一些实施例中,指令参数可以包括存储器中的索引阵列的标识符或到其的指针、对于存储器中的数据元素位置(包括要被收集的数据元素)的群组的基地址的标识符或到其的指针、目的地寄存器(其可以是扩展向量寄存器)的标识符、要被收集的数据元素的大小的指示、要被收集的数据元素的最大数量的指示、标识具体掩码寄存器的参数、或者指定屏蔽类型的参数。

在2315,在一个实施例中,第一潜在加载-索引-和-收集的处理可以开始。例如,可以开始在2320-2335中示出的步骤的第一迭代,其对应于针对所述指令标识的存储器中的索引阵列中的第一定位(位置i = 0)。如果(在2320)确定对应于索引阵列中的第一定位(位置0)的掩码位未被设置,则针对此迭代可以取消2330-2335中示出的步骤。在此情况下,在2325,可以保留在LoadlndicesAndGather指令的执行之前存储在目的地寄存器中的位置i(位置0)中的值。

如果(在2320)确定对应于索引阵列中的第一定位的掩码位被设置或者针对LoadlndicesAndGather操作尚未指定屏蔽,则在2330,要被收集的第一元素的索引值可以从索引阵列中的位置i(位置0)检索。在2335,可以基于针对指令指定的基地址与针对第一收集元素获得的索引值的和来计算第一收集元素的地址。在2340,可以从在计算的地址的存储器中的位置检索第一收集元素,在这之后可以将其存储在针对所述指令标识的目的地寄存器的位置i(位置0)中。

如果(在2350),确定存在更多潜在收集元素,则在2355,可开始下一潜在加载-指数-和-收集的处理。例如,可以开始对应于索引阵列中的第二定位(位置i = 2)的2320-2335中所示出的步骤的第二迭代。可以针对具有下一值i的每个附加迭代重复2320-2335中所示出的步骤,直到迭代(i)的最大数量已经被执行。对于每个附加迭代,如果(在2320)确定与指索引阵列中的下一定位(位置i)对应的掩码位未被设置,则可以针对此迭代取消2330-2335中示出的步骤。在此情况下,在2325,可以保留在LoadlndicesAndGather指令的执行之前存储在目的地寄存器中的位置i中的值。然而,如果(在2320)确定对应于索引阵列中的下一定位的掩码位被设置或者针对LoadlndicesAndGather操作尚未指定屏蔽,则在2330,对于要被收集的下一元素的索引值可以从索引阵列中的位置i被检索。在2335,可以基于针对指令指定的基地址与针对第一收集元素获得的索引值的和来计算第一收集元素的地址。在2340,可以从在计算的地址的存储器中的位置检索第一收集元素,在这之后可以将其存储在指令的目的地寄存器的位置i中。

在一个实施例中,迭代的数量可以取决于指令的参数。例如,指令的参数可以指定索引阵列中的索引值的数量。这可以表示所述指令的最大循环索引值,以及因此可以由指令收集的数据元素的最大数量。一旦已执行了最大数量的迭代(i),所述指令可以被引退(在2360)。

尽管若干示例描述了收集要存储在扩展向量寄存器(ZMM寄存器)中的数据元素的LoadlndicesAndGather指令的形式,在其它实施例中,这些指令可以收集要存储在具有的位少于512位的向量寄存器中的数据元素。例如,如果要被收集的数据元素的最大数量(基于它们的大小)可以以256位或更少位被存储,则LoadlndicesAndGather指令可以将收集的数据元素存储在YMM目的地寄存器或XMM目的地寄存器中。在上面描述的若干示例中,要被收集的数据元素所相对小的(例如32位),并且存在足够少的它们以至于它们全部可以存储在单个ZMM寄存器中。在其它实施例中,可以存在足够的要被收集的潜在数据元素(取决于数据元素的大小),以至于它们可以填充多个ZMM目的地寄存器。例如,可以存在价值多于512位的由指令收集的数据元素。

本文公开的机制的实施例可以在硬件、软件、固件或此类实现方法的组合中实现。本公开的实施例可以被实现为在包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置和至少一个输出装置的可编程系统上执行的计算机程序或程序代码。

程序代码可以应用于输入指令以执行本文所描述的功能并生成输出信息。可以以已知的方式将输出信息应用于一个或多个输出装置。为了本申请的目的,处理系统可以包括具有处理器(诸如,例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器)的任何系统。

程序代码可以以高级过程或面向对象的编程语言来实现以与处理系统通信。如果期望,程序代码还可以用汇编或机器语言来实现。事实上,本文描述的机制的范围不限于任何具体的编程语言。在任何情况下,语言可以是编译或解释语言。

至少一个实施例的一个或多个方面可以通过存储在机器可读介质上的代表性指令来实现,所述代表性指令表示处理器内的各种逻辑,所述逻辑当由机器读时使得机器制造逻辑以执行本文所描述的技术。称为“IP核”的此类表示可以存储在有形的,机器可读介质上,并且供应给各种客户或制造设施以加载到实际制作逻辑或处理器的制造机器中。

此类机器可读存储媒体可以包括(不限于)由机器或装置制造或形成的物品的非暂时性、有形布置,包括存储媒体(诸如硬盘、任何其它类型的盘(包括软盘、光盘、紧凑盘只读存储器(CD-ROM)、可重写紧凑盘(CD-RW)和磁光盘))、半导体装置(诸如只读存储器(ROM)、随机存取存储器(RAM)(诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM))、可擦除可编程只读存储器(EPROM)、闪速存储器、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡)或适合于存储电子指令的任何其它类型的媒体。

相应地,本公开的实施例还可以包括包含指令或包含诸如硬件描述语言(HDL)的设计数据的非暂时性有形机器可读媒体,其定义结构、电路、设备、处理器和/或本文描述的系统特征。此类实施例也可以被称为程序产品。

在一些情况下,指令转换器可用于将指令从源指令集转换为目标指令集。例如,指令转换器可以转化(例如,使用静态二进制转化,包括动态编译的动态二进制转化)、变形、仿真或以其它方式将指令转换为要由核处理的一个或多个其它指令。指令转换器可以以软件、硬件、固件或其组合来实现。指令转换器可以在处理器上、处理器外或部分在处理器上且部分在处理器外。

因此,公开了用于根据至少一个实施例执行一个或多个指令的技术。虽然已经在附图中描述和示出了某些示范性实施例,但是要理解,此类实施例仅仅是对其它实施例的说明而不是限制,并且此类实施例不限于所示和所描述的特定构造和布置,因为本领域普通技术人员在研究本公开时可以想起各种其它修改。在诸如此类的技术领域中(其中成长快并且不容易预见进一步进展),所公开的实施例可以在布置和细节上容易地可修改,如在不脱离本公开的原理或随附权利要求的范围的情况下通过实现技术进步所促进的。

本公开的一些实施例包括一种处理器。在这些实施例中的至少一些中,所述处理器可以包括用以接收指令的前端,用以解码指令的解码器,用以执行指令的核以及用以引退指令的引退单元。为了执行所述指令,核可以包括:第一逻辑,用以从索引阵列中的第一定位(其在存储器中的地址基于所述指令的第一参数)检索第一索引值,所述阵列中内第一定位要在所述索引阵列内的最低阶定位;第二逻辑,用以基于所述第一索引值以及所述存储器中的数据元素位置的群组的基地址来计算对于要从所述存储器收集的第一数据元素的地址,所述基地址基于所述指令的第二参数;以及第三逻辑,用以从通过针对所述第一数据元素计算的所述地址访问的所述存储器中的位置来检索所述第一数据元素;第四逻辑,用以将所述第一数据元素存储到由所述指令的第三参数标识的目的地向量寄存器中的第一定位,所述目的地向量寄存器中的第一定位要是所述目的地向量寄存器中的最低阶定位。结合任何上面实施例,核可以还包括:第五逻辑,用以从所述索引阵列内的第二定位检索第二索引值,所述阵列内的第二定位要与所述阵列内的所述第一定位相邻;第六逻辑,用以基于所述第二索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来计算对于要从所述存储器收集的第二数据元素的地址;第七逻辑,用以从通过针对所述第二数据元素计算的所述地址访问的所述存储器中的位置检索所述第二数据元素,所述第二数据元素要从其中被检索的位置要与所述第一数据元素要从其中被检索的位置不相邻;以及第八逻辑,用以将所述第二数据元素存储到所述目的地向量寄存器中的第二定位,所述目的地向量寄存器中的第二定位要与所述目的地向量寄存器中的第一定位相邻。结合任何上面实施例,针对所述第一数据元素计算的所述地址要与对于所述存储器中的数据元素位置的所述群组的所述基地址不同。结合任何上面实施例,所述核还包括第五逻辑,用以对于不超过要被收集的数据元素的最大数量的要被收集的每个附加数据元素,从所述索引阵列内的下一连续定位检索相应索引值;第六逻辑,用以基于所述相应的索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来针对所述附加数据元素中的每个元素计算对于所述附加数据元素的相应地址;第七逻辑,用以从通过针对所述附加数据元素计算的所述地址访问的所述存储器中的相应位置检索每个附加数据元素,所述附加数据元素要从其中被检索的所述位置中的至少两个要是不相邻位置;以及第八逻辑,用以将每个附加数据元素存储到所述目的地向量寄存器中的相应定位,所述附加元素被存储在其处的所述相应定位要是所述目的地向量寄存器中的连续位置,并且数据元素的所述最大数量要基于所述指令的第四参数。结合任何上面实施例,核还可以包括:第四逻辑,用以确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的第四参数来标识;第五逻辑,用以基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及第六逻辑,用以基于所述掩码中的所述位未被设置的所述确定,将所述值保留在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式存储到的位置。结合任何上面实施例,所述核还可以包括:高速缓存;第四逻辑,用以将来自所述索引阵列的附加索引值预获取到所述高速缓存中;第五逻辑,用以基于所述附加索引值计算对于要被收集的附加数据元素的地址;以及第六逻辑,用以将所述附加数据元素预获取到所述高速缓存中。结合任何上面实施例,所述核可以包括:第六逻辑,用以将对于要从所述存储器收集的所述第一数据元素的所述地址计算为所述第一索引值和对于所述存储器中的数据元素位置的所述群组的所述基地址的和。结合任何上面实施例,所述核可以包括第六逻辑,用以在已确定所述位是否被设置之后清除掩码寄存器中的每个位。结合任何上面实施例,所述核还可以包括:第四逻辑,用以确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的第四参数来标识;第五逻辑,用以基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及第六逻辑,用以将NULL值存储在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式被存储到的位置。在任何上面实施例中,所述核可以包括:第五逻辑,用以基于所述指令的参数确定所述数据元素的所述大小。在任何上面实施例中,所述核可以包括:第五逻辑,用以基于所述指令的参数确定所述数据元素的所述类型。在任何上面实施例中,所述指令的第一参数可以是指针。在任何上面实施例中,所述指令的第二参数可以是指针。在任何上面实施例中,所述核可以包括单指令多数据(SIMD)协处理器以实现所述指令的执行。在任何上面实施例中,所述处理器可以包括向量寄存器堆(其包括目的地向量寄存器)。

本公开的一些实施例包括一种方法。在这些实施例的至少一些中,所述方法可以包括在处理器中接收第一指令,解码所述第一指令,执行所述第一指令以及引退所述第一指令。执行第一指令可以包括:从索引阵列中的第一定位(其在存储器中的地址基于所述指令的第一参数)检索第一索引值,所述阵列内第一定位是所述索引阵列内的最低阶定位;基于以下所述第一索引值以及所述存储器中的数据元素位置的群组的基地址来计算要从所述存储器收集的第一数据元素的地址,所述基地址基于所述指令的第二参数;以及从通过针对所述第一数据元素计算的所述地址访问的所述存储器中的位置来检索所述第一数据元素;将所述第一数据元素存储到由所述指令的第三参数标识的目的地向量寄存器中的第一定位,所述目的地向量寄存器中的第一定位是所述目的地向量寄存器中的最低阶定位。结合任何上面实施例,所述方法可以包括:从所述索引阵列内的第二定位检索第二索引值,所述阵列内的第二定位与所述阵列内的所述第一定位相邻;基于所述第二索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来计算对于要从所述存储器收集的第二数据元素的地址;从通过针对所述第二数据元素计算的所述地址访问的所述存储器中的位置检索所述第二数据元素,所述第二数据元素从其中检索的位置与所述第一数据元素要从其中检索的位置不相邻;以及将所述第二数据元素存储到所述目的地向量寄存器中的第二定位,所述目的地向量寄存器中的第二定位与所述目的地向量寄存器中的第一定位相邻。结合任何上面实施例,针对所述第一数据元素计算的所述地址可以与所述存储器中的数据元素位置的所述群组的所述基地址不同。结合任何上面实施例,对于不超过要被收集的数据元素的最大数量的要被收集的至少两个附加数据元素,所述方法可以包括:从所述索引阵列内的下一连续定位检索相应的索引值;基于所述相应的索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来针对所述附加数据元素中的每个元素计算对于所述附加数据元素的相应地址;从通过针对所述附加数据元素计算的所述地址访问的所述存储器中的相应位置检索所述附加数据元素;以及将所述附加数据元素存储到所述目的地向量寄存器中的相应定位;从其中检索所述附加数据元素的所述位置中的至少两个可以是不相邻位置;所述附加数据元素被存储在其处的所述相应定位可以是所述目的地向量寄存器中的连续位置;以及数据元素的所述最大数量可以基于所述指令的第四参数。结合任何上面实施例,所述方法可以包括:确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的所述第四参数来标识;响应于确定所述掩码中的所述位未被设置而取消:检索所述附加索引值、基于所述附加索引值计算附加数据元素的地址、检索所述附加数据元素、以及将所述附加数据元素存储在所述目的地向量寄存器中;以及响应于确定所述掩码中的所述位未被设置,将所述值保留在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式存储到的位置。结合任何上面实施例,所述方法可以包括:将来自所述索引阵列的附加索引值预获取到高速缓存中;基于所述附加索引值计算对于要被收集的附加数据元素的地址;以及将所述附加数据元素预获取到所述高速缓存中。结合任何上面实施例,所述方法可以包括:将对于要从所述存储器收集的所述第一数据元素的所述地址计算为所述第一索引值和对于所述存储器中的数据元素位置的所述群组的所述基地址的和。结合任何上面实施例,所述方法可以包括:在已确定所述位是否被设置之后,清除掩码寄存器中的每个位。结合任何上面实施例,所述方法还可以包括:确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的第四参数来标识;基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及将NULL值存储在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式被存储到的位置。在任何上面实施例中,所述方法可以包括基于所述指令的参数确定所述数据元素的所述大小。在任何上面实施例中,所述方法可以包括基于所述指令的参数确定所述数据元素的所述类型。在任何上面实施例中,所述指令的第一参数可以是指针。在任何上面实施例中,所述指令的第二参数可以是指针。

本公开的一些实施例包括一种系统。在这些实施例中的至少一些中,所述系统可以包括用以接收指令的前端,用以解码指令的解码器,用以执行指令的核以及用以引退指令的引退单元。为了执行所述指令,核可以包括:第一逻辑,用以从索引阵列中的第一定位(其在存储器中的地址基于所述指令的第一参数)检索第一索引值,所述阵列中内第一定位要在所述索引阵列内的最低阶定位;第二逻辑,用以基于所述第一索引值以及所述存储器中的数据元素位置的群组的基地址来计算对于要从所述存储器收集的第一数据元素的地址,所述基地址基于所述指令的第二参数;以及第三逻辑,用以从通过针对所述第一数据元素计算的所述地址访问的所述存储器中的位置来检索所述第一数据元素;第四逻辑,用以将所述第一数据元素存储到由所述指令的第三参数标识的目的地向量寄存器中的第一定位,所述目的地向量寄存器中的第一定位要是所述目的地向量寄存器中的最低阶定位。结合任何上面实施例,核可以还包括:第五逻辑,用以从所述索引阵列内的第二定位检索第二索引值,所述阵列内的第二定位要与所述阵列内的所述第一定位相邻;第六逻辑,用以基于所述第二索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来计算对于要从所述存储器收集的第二数据元素的地址;第七逻辑,用以从通过针对所述第二数据元素计算的所述地址访问的所述存储器中的位置检索所述第二数据元素,所述第二数据元素要从其中被检索的位置要与所述第一数据元素要从其中被检索的位置不相邻;以及第八逻辑,用以将所述第二数据元素存储到所述目的地向量寄存器中的第二定位,所述目的地向量寄存器中的第二定位要与所述目的地向量寄存器中的第一定位相邻。结合任何上面实施例,针对所述第一数据元素计算的所述地址要与对于所述存储器中的数据元素位置的所述群组的所述基地址不同。结合任何上面实施例,所述核还包括第五逻辑,用以对于不超过要被收集的数据元素的最大数量的要被收集的每个附加数据元素,从所述索引阵列内的下一连续定位检索相应索引值;第六逻辑,用以基于所述相应的索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来针对所述附加数据元素中的每个元素计算对于所述附加数据元素的相应地址;第七逻辑,用以从通过针对所述附加数据元素计算的所述地址访问的所述存储器中的相应位置检索每个附加数据元素,所述附加数据元素要从其中被检索的所述位置中的至少两个要是不相邻位置;以及第八逻辑,用以将每个附加数据元素存储到所述目的地向量寄存器中的相应定位,所述附加元素被存储在其处的所述相应定位要是所述目的地向量寄存器中的连续位置,并且数据元素的所述最大数量要基于所述指令的第四参数。结合任何上面实施例,核还可以包括:第四逻辑,用以确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的第四参数来标识;第五逻辑,用以基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及第六逻辑,用以基于所述掩码中的所述位未被设置的所述确定,将所述值保留在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式存储到的位置。结合任何上面实施例,所述核还可以包括:高速缓存;第四逻辑,用以将来自所述索引阵列的附加索引值预获取到所述高速缓存中;第五逻辑,用以基于所述附加索引值计算对于要被收集的附加数据元素的地址;以及第六逻辑,用以将所述附加数据元素预获取到所述高速缓存中。结合任何上面实施例,所述核可以包括:第六逻辑,用以将对于要从所述存储器收集的所述第一数据元素的所述地址计算为所述第一索引值和对于所述存储器中的数据元素位置的所述群组的所述基地址的和。结合任何上面实施例,所述核可以包括第六逻辑,用以在已确定所述位是否被设置之后清除掩码寄存器中的每个位。结合任何上面实施例,所述核还可以包括:第四逻辑,用以确定掩码寄存器中的针对附加索引值的位被设置,所述掩码寄存器基于所述指令的第四参数来标识;第五逻辑,用以基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及第六逻辑,用以将NULL值存储在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式被存储到的位置。在任何上面实施例中,所述核可以包括:第五逻辑,用以基于所述指令的参数确定所述数据元素的所述大小。在任何上面实施例中,所述核可以包括:第五逻辑,用以基于所述指令的参数确定所述数据元素的所述类型。在任何上面实施例中,所述指令的第一参数可以是指针。在任何上面实施例中,所述指令的第二参数可以是指针。在任何上面实施例中,所述核可以包括单指令多数据(SIMD)协处理器以实现所述指令的执行。在任何上面实施例中,所述处理器可以包括向量寄存器堆(其包括目的地向量寄存器)。

本公开的一些实施例包括一种用于执行指令的系统。在这些实施例的至少一些中,所述方法可以包括用于接收第一指令,解码所述第一指令,执行所述第一指令以及引退所述第一指令的部件。用于执行第一指令的部件可以包括:用于从索引阵列中的第一定位(其在存储器中的地址基于所述指令的第一参数)检索第一索引值的部件,所述阵列内第一定位是所述索引阵列内的最低阶定位;用于基于以下所述第一索引值以及所述存储器中的数据元素位置的群组的基地址来计算要从所述存储器收集的第一数据元素的地址的部件,所述基地址基于所述指令的第二参数;以及用于从通过针对所述第一数据元素计算的所述地址访问的所述存储器中的位置来检索所述第一数据元素的部件;用于将所述第一数据元素存储到由所述指令的第三参数标识的目的地向量寄存器中的第一定位的部件,所述目的地向量寄存器中的第一定位是所述目的地向量寄存器中的最低阶定位。结合任何上面实施例,所述系统可以包括:用于从所述索引阵列内的第二定位检索第二索引值的部件,所述阵列内的第二定位与所述阵列内的所述第一定位相邻;用于基于所述第二索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来计算对于要从所述存储器收集的第二数据元素的地址的部件;用于从通过针对所述第二数据元素计算的所述地址访问的所述存储器中的位置检索所述第二数据元素的部件,所述第二数据元素从其中检索的位置与所述第一数据元素要从其中检索的位置不相邻;以及用于将所述第二数据元素存储到所述目的地向量寄存器中的第二定位的部件,所述目的地向量寄存器中的第二定位与所述目的地向量寄存器中的第一定位相邻。结合任何上面实施例,针对所述第一数据元素计算的所述地址可以与所述存储器中的数据元素位置的所述群组的所述基地址不同。结合任何上面实施例,对于不超过要被收集的数据元素的最大数量的要被收集的至少两个附加数据元素,所述系统可以包括:用于从所述索引阵列内的下一连续定位检索相应的索引值的部件;用于基于所述相应的索引值以及对于所述存储器中的数据元素位置的所述群组的所述基地址来针对所述附加数据元素中的每个元素计算对于所述附加数据元素的相应地址的部件;用于从通过针对所述附加数据元素计算的所述地址访问的所述存储器中的相应位置检索所述附加数据元素的部件;以及用于将所述附加数据元素存储到所述目的地向量寄存器中的相应定位的部件;从其中检索所述附加数据元素的所述位置中的至少两个可以是不相邻位置;所述附加数据元素被存储在其处的所述相应定位可以是所述目的地向量寄存器中的连续位置;以及数据元素的所述最大数量可以基于所述指令的第四参数。结合任何上面实施例,所述系统可以包括:用于确定掩码寄存器中的针对附加索引值的位被设置的部件,所述掩码寄存器基于所述指令的所述第四参数来标识;响应于确定所述掩码中的所述位未被设置而取消检索所述附加索引值、用于基于所述附加索引值计算附加数据元素的地址的部件、用于检索所述附加数据元素的部件、以及用于将所述附加数据元素存储在所述目的地向量寄存器中的部件;以及响应于确定所述掩码中的所述位未被设置,将所述值保留在所述目的地向量寄存器中的所述位置中,所述位置是所述附加数据元素会以其它方式存储到的位置。结合任何上面实施例,所述系统可以包括:用于将来自所述索引阵列的附加索引值预获取到高速缓存中的部件;用于基于所述附加索引值计算对于要被收集的附加数据元素的地址的部件;以及用于将所述附加数据元素预获取到所述高速缓存中的部件。结合任何上面实施例,所述系统可以包括:用于将对于要从所述存储器收集的所述第一数据元素的所述地址计算为所述第一索引值和对于所述存储器中的数据元素位置的所述群组的所述基地址的和的部件。结合任何上面实施例,所述系统可以包括:用于在已确定所述位是否被设置之后清除掩码寄存器中的每个位的部件。结合任何上面实施例,所述系统还可以包括:用于确定掩码寄存器中的针对附加索引值的位被设置的部件,所述掩码寄存器基于所述指令的第四参数来标识;基于所述掩码中的所述位未被设置的所述确定而取消:所述附加索引值的检索、基于所述附加索引值计算对于附加数据元素的地址、所述附加数据元素的检索、以及所述目的地向量寄存器中的所述附加数据元素存储的存储;以及用于将NULL值存储在所述目的地向量寄存器中的所述位置中的部件,所述位置是所述附加数据元素会以其它方式被存储到的位置。在任何上面实施例中,所述系统可以包括用于基于所述指令的参数确定所述数据元素的所述大小的部件。在任何上面实施例中,所述系统可以包括用于基于所述指令的参数确定所述数据元素的所述类型的部件。在任何上面实施例中,所述指令的第一参数可以是指针。在任何上面实施例中,所述指令的第二参数可以是指针。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1