用于提供向量横向比较功能的指令和逻辑的制作方法
【专利摘要】指令和逻辑提供向量横向比较功能。响应于指定目的地操作数、向量元素的大小、源操作数、以及与源操作数中的向量元素数据字段的部分相对应的掩码的指令,一些实施例从源操作数中的与掩码相对应的指定大小的数据字段中读取值,并比较所述值是否相等。在一些实施例中,响应于检测到不相等,可采取陷入。在一些替代实施例中,可设置标志。在其他替代实施例中,可针对相应的不相等值将掩码字段设置为被掩蔽状态。在一些实施例中,响应于源操作数的所有未被掩蔽数据字段等于特定值,可将该值广播至目的地操作数中的指定大小的所有数据字段。
【专利说明】用于提供向量横向比较功能的指令和逻辑
【技术领域】
[0001]本公开涉及处理逻辑、微处理器以及相关联的指令集体系结构的领域,该指令集体系结构在被处理器或其他处理逻辑所执行时运行逻辑、数学或其他功能性操作。具体而言,本公开涉及用于提供向量横向比较功能的指令和逻辑。
【背景技术】
[0002]目前的诸多处理器通常包括用于提供计算密集型操作但提供高度数据并行性的指令,这些指令可通过使用多种数据存储设备的高效实现来使用,这些数据存储设备诸如:单指令多数据(SIMD)向量寄存器。
[0003]对于一些算法,无法利用这样的高度数据并行性,并且因此未能充分利用向量资源。
[0004]另一方面,在高产处理器中通常不将容错和故障检测特征应用于诸如算术逻辑单元(ALU)之类的数据变换单元,因为该实现方式的成本超过了利润。然而,减小封装中的晶体管的尺寸并增加其数量、同时使器件更快和更高效会提高源于α粒子和其他偶然因素的故障概率。
[0005]此外,存在一些极端环境,其中容错是计算机系统的高度期望具有的特征。例如,海军研究生院(Naval Postgraduate School)的空间系统学术组(Space SystemsAcademic Group)曾使用现场可编程门阵列(FPGA)开发了可配置的容错处理器(CFTP)。然后它作为实验负载被部署在美国海军学院(USNA)MidSTAR-1卫星上。第二个CFTP系统CFTP-2则被部署为完全的陆基系统,并利用加州大学戴维斯分校的回旋加速器在质子束中被测试。
[0006]这样的FPGA实现方式可能限制原本可从例如超大规模集成(VLSI)之类所获得的性能优势,并且它们的实现方式还会更大和/或更重,且需要更高的供电电压。
[0007]到目前为止,尚未充分探索针对这样的性能和效率受限问题的潜在解决方案。
【专利附图】
【附图说明】
[0008]在附图的各图中通过示例而非限制地示出本发明。
[0009]图1A是执行用于提供向量横向比较功能的指令的系统的一个实施例的框图。
[0010]图1B是执行用于提供向量横向比较功能的指令的系统的另一实施例的框图。
[0011]图1C是执行用于提供向量横向比较功能的指令的系统的另一实施例的框图。
[0012]图2是执行用于提供向量横向比较功能的指令的处理器的一个实施例的框图。
[0013]图3A示出根据一个实施例的打包数据类型。
[0014]图3B示出根据一个实施例的打包数据类型。
[0015]图3C示出根据一个实施例的打包数据类型。
[0016]图3D示出根据一个实施例的用于提供向量横向比较功能的指令编码。
[0017]图3E示出根据另一实施例的用于提供向量横向比较功能的指令编码。[0018]图3F示出根据另一实施例的用于提供向量横向比较功能的指令编码。
[0019]图3G示出根据另一实施例的用于提供向量横向比较功能的指令编码。
[0020]图3H示出根据另一实施例的用于提供向量横向比较功能的指令编码。
[0021]图4A示出用于执行提供向量横向比较功能的指令的处理器微体系结构的一个实施例的要素。
[0022]图4B示出用于执行提供向量横向比较功能的指令的处理器微体系结构的另一实施例的要素。
[0023]图5是用于执行提供向量横向比较功能的指令的处理器的一个实施例的框图。
[0024]图6是用于执行提供向量横向比较功能的指令的计算机系统的一个实施例的框图。
[0025]图7是用于执行提供向量横向比较功能的指令的计算机系统的另一实施例的框图。
[0026]图8是用于执行提供向量横向比较功能的指令的计算机系统的另一实施例的框图。
[0027]图9是用于执行提供向量横向比较功能的指令的芯片上系统的一个实施例的框图。
[0028]图10是用于执行提供向量横向比较功能的指令的处理器的实施例的框图。
[0029]图11是提供向量横向比较功能的IP核开发系统的一个实施例的框图。
[0030]图12示出提供向量横向比较功能的体系结构仿真系统的一个实施例。
[0031]图13示出用于转换提供向量横向比较功能的指令的系统的一个实施例。
[0032]图14示出用于提供向量横向比较功能的装置的一个实施例。
[0033]图15示出用于提供向量横向比较功能的过程的一个实施例的流程图。
[0034]图16示出用于提供向量横向比较功能的过程的替代实施例的流程图。
[0035]图17示出用于提供向量横向比较功能的过程的另一替代实施例的流程图。
【具体实施方式】
[0036]以下描述公开了用于提供处理器、计算机系统或其他处理装置之内或与处理器、计算机系统或其他处理装置相关联的向量横向比较功能的指令和处理逻辑。
[0037]本申请中公开了用于提供向量横向比较功能的指令和逻辑。在一些实施例中,响应于一指令,该指令指定了目的地操作数、向量元素的大小、源操作数、以及与源操作数中的向量元素数据字段的部分相对应的掩码,从源操作数中的与由该指令指定的掩码相对应的指定大小的数据字段中读取值,并比较所述值是否相等。在一些实施例中,响应于检测到不相等,可采取陷入。在一些替代实施例中,响应于检测到不相等,可设置标志。在其他替代实施例中,响应于检测到不相等,可针对相应的不相等值将掩码字段设置为被掩蔽状态。在一些实施例中,响应于源操作数的所有未被掩蔽数据字段等于特定值,可将该值广播至目的地操作数中的指定大小的所有数据字段。
[0038]向量横向比较功能可提供容错和故障检测特征,这些容错和故障检测特征在没有高昂的实现成本的情况下在高产处理器中通常不可用。由于减少封装中的晶体管的尺寸并且增加晶体管的数量会提高由于α粒子和其他偶然因素引起的故障的概率,所以这些容错和故障检测特征越来越合乎需要。
[0039]在容错是计算机系统的高度期望具有的特征的一些极端环境下,具有向量横向比较功能的商用处理器可提供容错和故障检测以及可从高度集成获得的优势,同时更小且更轻,并且具有比诸如FPGA技术之类的其他替代技术更好的功率效率。
[0040]在以下描述中,陈述了诸如处理逻辑、处理器类型、微体系结构状况、事件、启用机制等多种特定细节,以提供对本发明实施例的更透彻理解。然而,本领域技术人员应当领会,没有这些具体细节也可实践本发明。此外,没有详细示出一些公知的结构、电路等等,以避免不必要地模糊本发明的实施例。
[0041]虽然下述的诸个实施例参照处理器来描述,但其他实施例也适用于其他类型的集成电路和逻辑设备。本发明的实施例的类似技术和教导可应用于其它类型的电路或半导体器件,这些其它类型的电路或半导体器件也可受益于更高的流水线吞吐量和提高的性能。本发明的诸个实施例的教导适用于执行数据操纵的任何处理器或机器。然而,本发明不限于执行512位、256位、128位、64位、32位、或16位数据运算的处理器或机器,并可适用于执行数据操纵或管理的任何处理器和机器。此外,下述描述提供了示例,并且附图出于示意性目的示出了多个示例。然而,这些示例不应该被理解为具有限制性目的,因为它们仅仅旨在提供本发明的诸个实施例的示例,而并非对本发明的实施例的所有可能实现方式进行穷举。
[0042]虽然下述的示例描述了在执行单元和逻辑电路情况下的指令处理和分配,但本发明的其他实施例也可通过存储在机器可读有形介质上的数据或指令来完成,这些数据或指令在被机器执行时使得机器执行与本发明至少一个实施例相一致的功能。在一个实施例中,与本发明的实施例相关联的功能被具体化在机器可执行指令中。这些指令可用来使通过这些指令编程的通用处理器或专用处理器执行本发明的步骤。本发明的诸个实施例也可以作为计算机程序产品或软件来提供,该计算机程序产品或软件可包括其上存储有指令的机器或计算机可读介质,这些指令可被用来对计算机(或其他电子设备)进行编程来执行根据本发明的实施例的一个或多个操作。另选地,本发明的诸个实施例的这些步骤可由包含用于执行这些步骤的固定功能逻辑的专用硬件组件来执行,或由经编程的计算机组件以及固定功能硬件组件的任何组合来执行。
[0043]被用于对逻辑进行编程以执行本发明的诸个实施例的指令可被存储在系统中的存储器(诸如,DRAM、高速缓存、闪存、或其他存储器)内。进一步的,指令可经由网络或其他计算机可读介质来分发。因此,计算机可读介质可包括用于以机器(诸如,计算机)可读的格式存储或发送信息的任何机制,但不限于:软盘、光盘、致密盘只读存储器(CD-ROM)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或在经由互联网通过电、光、声、或其他形式的传播信号(诸如,载波、红外信号、数字信号等)发送信息中所用的有形机器可读存储器。因此,计算机可读介质包括用于存储或发送机器(例如,计算机)可读形式的电子指令或信息的任何类型的有形机器可读介质。
[0044]设计会经历多个阶段,从创新到模拟到制造。表示设计的数据可用多种方式来表示该设计。首先,如模拟中将有用的,可使用硬件描述语言或其他功能性描述语言来表示硬件。此外,具有逻辑和/或晶体管门电路的电路级模型可在设计流程的其他阶段产生。此夕卜,大多数设计在某些阶段都到达表示硬件模型中多种设备的物理配置的数据水平。在使用常规半导体制造技术的情况下,表示硬件模型的数据可以是在不同掩模层上对用于生成集成电路的掩模指示不同特征的存在与否的数据。在任何的设计表示中,数据可被存储在任何形式的机器可读介质中。存储器或磁/光存储器(诸如,盘)可以是存储信息的机器可读介质,这些信息是经由光学或电学波来发送的,这些光学或电学波被调制或以其他方式生成以传送这些信息。当发送指示或承载代码或设计的电学载波时,执行电信号的复制、缓冲或重传情况时,制作一个新的副本。因此,通信提供商或网络提供商会在有形机器可读介质上至少临时地存储具体化本发明的诸个实施例的技术的物品(诸如,编码在载波中的信息)。
[0045]在现代处理器中,多个不同执行单元被用于处理和执行多种代码和指令。并不是所有指令都被同等地创建,因为其中有一些更快地被完成而另一些需要多个时钟周期来完成。指令的吞吐量越快,则处理器的总体性能越好。因此,使大量指令尽可能快地执行将会是有利的。然而,某些指令具有更大的复杂度,并需要更多的执行时间和处理器资源。例如,存在浮点指令、加载/存储操作、数据移动等等。
[0046]因为更多的计算机系统被用于互联网、文本以及多媒体应用,所以逐渐地引进更多的处理器支持。在一个实施例中,指令集可与一个或多个计算机体系结构相关联,一个或多个计算机体系结构包括数据类型、指令、寄存器体系结构、寻址模式、存储器体系结构、中断和异常处理以及外部输入输出(I/O)。
[0047]在一个实施例中,指令集体系结构(ISA)可由一个或更多微体系结构来实现,微体系结构包括用于实现一个或多个指令集的处理器逻辑和电路。因此,具有不同微体系结构的诸个处理器可共享公共指令集的至少一部分。例如,INTEL?奔腾四(Pentium4)处理器、丨ntel?酷睿(Core?)处理器、以及来自加利福尼亚州桑尼威尔(Sunnyvale)的超微半导体有限公司(Advanced Micro Devices, Inc.)的诸多处理器执行几乎相同版本的x86指令集(在更新的版本中加入了一些扩展),但具有不同的内部设计。类似地,由其他处理器开发公司(诸如,ARM控股有限公司、MIPS或它们的授权方或兼容方)所设计的诸多处理器可共享至少一部分公共指令集,但可包括不同的处理器设计。例如,ISA的相同寄存器体系结构在不同的微体系结构中可使用新的或已知的技术以不同方法来实现,包括专用物理寄存器、使用寄存器重命名机制(诸如,使用寄存器别名表RAT、重排序缓冲器R0B、以及引退寄存器组)的一个或多个动态分配物理寄存器。在一个实施例中,寄存器可包括:可由软件编程者寻址或不可寻址的一个或多个寄存器、寄存器体系结构、寄存器组、或其他寄存器
隹A
口 O
[0048]在一个实施例中,指令可包括一个或多个指令格式。在一个实施例中,指令格式可指示多个字段(位的数目、位的位置等)以特别指定将要被执行的操作以及将要被执行的操作的操作数。一些指令格式可进一步被指令模板(或子格式)所细分定义。例如,给定指令格式的指令模板可被定义为具有指令格式字段的不同的子集,和/或被定义为具有不同解释的给定字段。在一个实施例中,使用指令格式(并且,如果定义过,则以该指令格式的一个给定指令模板)来表示指令,并且该指令指定或指示操作以及该操作将操作的操作数。
[0049]科学应用、金融应用、自动向量化通用应用、RMS(识别、挖掘和合成)应用以及视觉和多媒体应用(诸如,2D/3D图形、图像处理、视频压缩/解压缩、语音识别算法和音频处理)可能需要对大量数据项执行相同的操作。在一个实施例中,单指令多数据(SMD)指的是使得处理器在多个数据元素上执行一操作的一种类型的指令。SMD技术可被用于处理器中,这些处理器将寄存器中的诸个位(bit)逻辑地划分入多个固定大小或可变大小的数据元素,每个数据元素表示单独的值。例如,在一个实施例中,64位寄存器中的诸个位可被组织为包含四个单独的16位数据元素的源操作数,每个数据元素表示单独的16位值。该数据类型可被称为“打包”数据类型或“向量”数据类型,并且该数据类型的操作数被称为打包数据操作数或向量操作数。在一个实施例中,打包数据项或向量可以是存储在单个寄存器中的打包数据元素的序列,并且打包数据操作数或向量操作数可以是SMD指令(或“打包数据指令”或“向量指令”)的源操作数或目的地操作数。在一个实施例中,SIMD指令指定了将要对两个源向量操作数执行的单个向量操作,以生成具有相同或不同大小的、具有相同或不同数量的数据元素的、具有相同或不同数据元素次序的目的地向量操作数(也被称为结果向量操作数)。
[0050]诸如由Intel?酷睿(Core?)处理器(具有包括x86、MMX?、流SMD扩展(SSE)、SSE2、SSE3、SSE4.1、SSE4.2指令的指令集)、ARM处理器(诸如,ARM Cortex?处理器族,具有包括向量浮点(VFP)和/或NEON指令的指令集)、MIPS处理器(诸如,中国科学院计算机技术研究所(ICT)开发的龙芯处理器族)所使用的SMD技术之类的SMD技术在应用性能上带来了极大的提高(Core?和MMX?是加利福尼亚州圣克拉拉市的英特尔公司的注册商标或商标)。
[0051]在一个实 施例中,目的地寄存器/数据和源寄存器/数据是表示对应数据或操作的源和目的地的通用术语。在一些实施例中,它们可由寄存器、存储器或具有与所示出的那些名称或功能不同的名称或功能的其他存储区域所实现。例如,在一个实施例中,“DEST1”可以是临时存储寄存器或其他存储区域,而“SRC1”和“SRC2”是第一和第二源存储寄存器或其他存储区域,等等。在其他实施例中,SRC和DEST存储区域中的两个或更多区域可对应于相同存储区域中的不同数据存储元素(例如,SIMD寄存器)。在一个实施例中,例如通过将对第一和第二源数据执行的操作的结果写回至两个源寄存器中作为目的地寄存器的那个寄存器,源寄存器中的一个也可以作为目的地寄存器。
[0052]图1A是根据本发明的一个实施例的示例性计算机系统的框图,具有包括执行单元以执行指令的处理器。根据本发明,诸如根据在此所描述的实施例,系统100包括诸如处理器102之类的组件,以采用包括逻辑的执行单元来执行算法以处理数据。系统100代表基于
可从美国加利福尼亚州圣克拉拉市的英特尔公司获得的PENTIUM? II1、PENTIUM?
4、Xeontm、Itaniumu、XScaletn^P/或StixmgARMtm微处理器的处理系统,不过也可使用其它
系统(包括具有其它微处理器的PC、工程工作站、机顶盒等)。在一个实施例中,样本系统100可执行可从美国华盛顿州雷蒙德市的微软公司买到的WINDOWStm操作系统的一个版本,不过也可使用其它操作系统(例如UNIX和Linux)、嵌入式软件、和/或图形用户界面。因此,本发明的各实施例不限于硬件和软件的任何具体组合。
[0053]实施例不限于计算机系统。本发明的替换实施例可被用于其他设备,诸如手持式设备和嵌入式应用。手持式设备的一些示例包括:蜂窝电话、互联网协议设备、数码相机、个人数字助理(PDA)、手持式PC。嵌入式应用可包括:微控制器、数字信号处理器(DSP)、芯片上系统、网络计算机(NetPC)、机顶盒、网络中枢、广域网(WAN)交换机、或可执行参照至少一个实施例的一个或多个指令的任何其他系统。
[0054]图1A是计算机系统100的框图,计算机系统100被形成为具有处理器102,处理器102包括一个或多个执行单元108以执行算法,以执行根据本发明的一个实施例的至少一个指令。参照单处理器桌面或服务器系统来描述了一个实施例,但替代实施例可被包括在多处理器系统中。系统100是“中枢”系统体系结构的示例。计算机系统100包括处理器102以处理数据信号。处理器102可以是复杂指令集计算机(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现指令集组合的处理器或任意其它处理器设备(诸如数字信号处理器)。处理器102耦合至处理器总线110,处理器总线110可在处理器102和系统100内的其他组件之间传输数据信号。系统100的诸个元素执行本领域所熟知的常规功能。
[0055]在一个实施例中,处理器102包括第一级(LI)内部高速缓存存储器104。取决于体系结构,处理器102可具有单个内部高速缓存或多级内部高速缓存。或者,在另一个实施例中,高速缓存存储器可位于处理器102的外部。其他实施例也可包括内部高速缓存和外部高速缓存的组合,这取决于特定实现和需求。寄存器组106可在多个寄存器(包括整数寄存器、浮点寄存器、状态寄存器、指令指针寄存器)中存储不同类型的数据。
[0056]执行单元108 (包括执行整数和浮点操作的逻辑)也位于处理器102中。处理器102还包括微代码(ucode) R0M,其存储用于特定宏指令的微代码。对于一个实施例,执行单元108包括处理打包指令集109的逻辑。通过将打包指令集109包括在通用处理器102的指令集内并包括相关的电路以执行这些指令,可使用通用处理器102中的打包数据来执行许多多媒体应用所使用的操作。因此,通过将处理器数据总线的全带宽用于对打包数据进行操作,许多多媒体应用可获得加速,并更为有效率地执行。这能减少在处理器数据总线上传输更小数据单元以在一个时间对一个数据元素执行一个或多个操作的需要。
[0057]执行单元108的替换实施例也可被用于微控制器、嵌入式处理器、图形设备、DSP以及其他类型的逻辑电路。系统100包括存储器120。存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备或其他存储器设备。存储器120可存储可由处理器102执行的指令和/或数据,数据由数据信号表示。
[0058]系统逻辑芯片116耦合至处理器总线110和存储器120。在所示出的实施例中的系统逻辑芯片116是存储器控制器中枢(MCH)。处理器102可经由处理器总线110与MCH116通信。MCHl 16提供至存储器120的高带宽存储器路径118,用于指令和数据存储,以及用于存储图形命令、数据和纹理。MCH116用于引导处理器102、存储器120以及系统100内的其他组件之间的数据信号,并在处理器总线110、存储器120和系统I/O接口总线122之间桥接数据信号。在一些实施例中,系统逻辑芯片116可提供耦合至图形控制器112的图形端口。MCH116经由存储器接口 118耦合至存储器120。图形卡112通过加速图形端口(AGP)互连114耦合至MCHl 16。
[0059]系统100使用外围设备中枢接口总线122以将MCH116耦合至I/O控制器中枢(ICH) 130。ICH130经由局部I/O总线提供至一些I/O设备的直接连接。局部I/O总线是高速I/O总线,用于将外围设备连接至存储器120、芯片组以及处理器102。一些示例是音频控制器、固件中枢(闪存BIOS) 128、无线收发机126、数据存储器124、包括用户输入和键盘接口的传统I/O控制器、串行扩展端口(诸如通用串行总线USB)以及网络控制器134。数据存储设备124可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备、或其他大容量存储设备。
[0060]对于系统的另一个实施例,根据一个实施例的指令可被用于芯片上系统。芯片上系统的一个实施例包括处理器和存储器。用于这样一个系统的存储器是闪存存储器。闪存存储器可位于与处理器和其他系统组件相同的管芯上。此外,诸如存储器控制器或图形控制器之类的其他逻辑块也可位于芯片上系统上。
[0061]图1B示出数据处理系统140,数据处理系统140实现本发明的一个实施例的原理。本领域的技术人员将容易理解,在此描述的诸个实施例可用于替代处理系统,而不背离本发明的实施例的范围。
[0062]计算机系统140包括处理核159,处理核159能执行根据一个实施例的至少一个指令。对于一个实施例,处理核159表示任何类型的体系结构的处理单元,包括但不限于:CISC,RISC或VLIW类型体系结构。处理核159也可适于以一种或多种处理技术来制造,并且通过充分详细地表示在机器可读介质上可以便于其制造。
[0063]处理核159包括执行单兀142、一组寄存器组145以及解码器144。处理核159也包括对于理解本发明的实施例不是必需的额外电路(没有示出)。执行单元142用于执行处理核159所接收到的指令。除了执行典型的处理器指令外,执行单元142也能执行打包指令集143中的指令,用于对打包数据格式执行操作。打包指令集143包括用于执行本发明的诸个实施例的指令以及其他打包指令。执行单元142通过内部总线而耦合至寄存器组145。寄存器组145表示处理核159上的存储区域,用于存储包括数据的信息。如前所述的,可以理解,该存储区域被用于存储打包数据不是关键。执行单元142耦合至解码器144。解码器144用于将处理核159所接收到的指令解码为控制信号和/或微代码进入点。响应于这些控制信号和/或微代码进入点,执行单元142执行合适的操作。在一个实施例中,解码器用于解释指令的操作码,操作码指示应当对该指令内所指示的对应数据执行何种操作。
[0064]处理核159耦合至总线141,用于与多个其他系统设备进行通信,这些系统设备包括但不限于:例如,同步动态随机存取存储器(SDRAM)控制器146、静态随机存取存储器(SRAM)控制器147、猝发闪存接口 148、个人计算机存储卡国际协会(PCMCIA)/致密闪存(CF)卡控制器149、液晶显示器(IXD)控制器150、直接存储器存取(DMA)控制器151、以及替代的总线主接口 152。在一个实施例中,数据处理系统140也包括I/O桥154,用于经由I/O总线153与多个I/O设备进行通信。这样的I/O设备可包括但不限于:例如,通用异步接收机/发射机(UART) 155、通用串行总线(USB) 156、蓝牙无线UART157、以及I/O扩展接口158。
[0065]数据处理系统140的一个实施例提供了移动通信、网络通信和/或无线通信,并提供了能够执行SMD操作的处理核159,SIMD操作包括向量横向比较功能。处理核159可编程有多种音频、视频、图像和通信算法,包括离散变换(诸如Walsh-Hadamard变换、快速傅立叶变换(FFT)、离散余弦变换(DCT)、以及它们相应的逆变换)、压缩/解压缩技术(诸如色彩空间变换)、视频编码运动估计或视频解码运动补偿、以及调制/解调(MODEM)功能(诸如脉冲编码调制PCM)。[0066]图1C示出了能够执行用于提供向量横向比较功能的指令的数据处理系统的其他替代实施例。根据一个替代实施例,数据处理系统160可包括主处理器166、SIMD协处理器161、高速缓存处理器167以及输入/输出系统168。输入/输出系统168可选地耦合至无线接口 169。SMD协处理器161能够执行包括根据一个实施例的指令的操作。处理核170可适于以一种或多种处理技术来制造,并且通过充分详细地表示在机器可读介质上可以便于包括处理核170的数据处理系统160的全部或一部分的制造。
[0067]对于一个实施例,SMD协处理器161包括执行单元162以及一组寄存器组164。主处理器166的一个实施例包括解码器165,用于识别指令集163的指令,指令集163包括根据一个实施例的用于由执行单元162所执行的指令。对于替换实施例,SIMD协处理器161也包括解码器165B的至少一部分以解码指令集163的指令。处理核170也包括对于理解本发明的实施例不是必需的额外电路(没有示出)。
[0068]在操作中,主处理器166执行数据处理指令流,数据处理指令流控制通用类型的数据处理操作,包括与高速缓存存储器167以及输入/输入系统168的交互。SMD协处理器指令嵌入数据处理指令流中。主处理器166的解码器165将这些SMD协处理器指令识别为应当由附连的SMD协处理器161来执行的类型。因此,主处理器166在协处理器总线171上发出这些SMD协处理器指令(或表示SMD协处理器指令的控制信号),任何附连的SIMD协处理器从协处理器总线171接收到这些指令。在该情况中,SMD协处理器161将接受并执行任何接收到的针对该SMD协处理器的SMD协处理器指令。
[0069]可经由无线接口 169接收数据以通过SMD协处理器指令进行处理。对于一个示例,语音通信可以数字信号的形式被接收到,其将被SMD协处理器指令所处理,以重新生成表示该语音通信的数字音频采样。对于另一个示例,压缩音频和/或视频可以数字位流的形式被接收到,其将被SMD协处理器指令所处理,以重新生成数字音频采样和/或运动视频巾贞。对于处理核170的一个实施例,主处理器166和SIMD协处理器161被集成在单个处理核170中,该单个处理核170包括执行单元162、一组寄存器组164、以及解码器165以识别指令集163的指令,指令集163包括根据一个实施例的指令。
[0070]图2是包括逻辑电路以执行根据本发明的一个实施例的指令的处理器200的微体系结构的框图。在一些实施例中,根据一个实施例的指令可被实现为对具有字节大小、字大小、双字大小、四字大小等并具有诸多数据类型(诸如单精度和双精度整数和浮点数据类型)的数据元素执行操作。在一个实施例中,有序前端201是处理器200的一部分,其获取将要被执行的指令,并准备这些指令以在稍后供处理器流水线使用。前端201可包括诸个单元。在一个实施例中,指令预取器226从存储器获取指令,并将指令馈送至指令解码器228,指令解码器228随后解码或解释指令。例如,在一个实施例中,解码器将所接收到的指令解码为机器可执行的被称为“微指令”或“微操作”(也称为微操作数或uop)的一个或多个操作。在其他实施例中,解码器将指令解析为操作码和对应的数据及控制字段,它们被微体系结构用于执行根据一个实施例的操作。在一个实施例中,追踪高速缓存230接受经解码的微操作,并将它们组装为程序有序序列或微操作队列234中的踪迹,以用于执行。当追踪高速缓存230遇到复杂指令时,微代码R0M232提供完成操作所需的微操作。
[0071]一些指令被转换为单个微操作,而其他指令需要若干个微操作以完成整个操作。在一个实施例中,如果需要超过四个微操作来完成指令,则解码器228访问微代码R0M232以进行该指令。对于一个实施例,指令可被解码为少量的微操作以用于在指令解码器228处进行处理。在另一个实施例中,如果需要若干微操作来完成操作,则可将指令存储在微代码R0M232中。追踪高速缓存230参考进入点可编程逻辑阵列(PLA)来确定正确的微指令指针,以从微代码ROM232读取微代码序列以完成根据一个实施例的一个或多个指令。在微代码ROM232完成对于指令的微操作序列化之后,机器的前端201恢复从追踪高速缓存230获取微操作。
[0072]无序引擎203是将指令准备好用于执行的单元。无序执行逻辑具有若干个缓冲器,用于将指令流平滑并且重排序,以优化指令流进入流水线后的性能,并调度指令流以供执行。分配器逻辑分配每个微操作需要的机器缓冲器和资源,以用于执行。寄存器重命名逻辑将诸个逻辑寄存器重命名为寄存器组中的条目。在指令调度器(存储器调度器、快速调度器202、慢速/通用浮点调度器204、简单浮点调度器206)之前,分配器逻辑也将每个微操作的条目分配入两个微操作队列中的一个,一个队列用于存储器操作,另一个队列用于非存储器操作。微操作调度器202、204、206基于对它们的依赖输入寄存器操作数源的准备就绪以及微操作完成它们的操作所需的执行资源的可用性来确定微操作何时准备好用于执行。一个实施例的快速调度器202可在主时钟周期的每半个上进行调度,而其他调度器可仅仅在每个主处理器时钟周期上调度一次。调度器对分配端口进行仲裁以调度微操作以便执行。
[0073]寄存器组208、210位于调度器202、204、206和执行块211中的执行单元212、214、216、218、220、222、224之间。也存在单独的寄存器组208、210,分别用于整数和浮点操作。一个实施例的每个寄存器组208、210也包括旁路网络,旁路网络可将刚完成的还没有被写入寄存器组的结果旁路或转发给新的依赖微操作。整数寄存器组208和浮点寄存器组210也能够彼此通信数据。对于一个实施例,整数寄存器组208被划分为两个单独的寄存器组,一个寄存器组用于低阶的32位数据,第二个寄存器组用于高阶的32位数据。一个实施例的浮点寄存器组210具有128位宽度的条目,因为浮点指令通常具有从64至128位宽度的操作数。
[0074]执行块211 包括执行单元 212、214、216、218、220、222、224,在执行单元 212、214、216、218、220、222、224中实际执行指令。该区块包括寄存器组208、210,寄存器组208、210存储微指令需要执行的整数和浮点数据操作数值。一个实施例的处理器200由多个执行单元组成:地址产生单元(AGU)212、AGU214、快速ALU(算术逻辑单元)216、快速ALU218、慢速ALU220、浮点ALU222、浮点移动单元224。对于一个实施例,浮点执行块222、224执行浮点、MMX, SIMD, SSE以及其他操作。一个实施例的浮点ALU222包括64位/64位浮点除法器,用于执行除法、平方根、以及余数微操作。对于本发明的诸个实施例,涉及浮点值的指令可使用浮点硬件来处理。在一个实施例中,ALU操作进入高速ALU执行单元216、218。一个实施例的高速ALU216、218可执行高速操作,有效等待时间为半个时钟周期。对于一个实施例,大多数复杂整数操作进入慢速ALU220,因为慢速ALU220包括用于长等待时间类型操作的整数执行硬件,诸如,乘法器、移位器、标记逻辑和分支处理。存储器加载/存储操作由AGU212、214来执行。对于一个实施例,整数ALU216、218、220被描述为对64位数据操作数执行整数操作。在替换实施例中,ALU216、218、220可被实现为支持大范围的数据位,包括
16、32、128、256等等。类似地,浮点单元222、224可被实现为支持具有多种宽度的位的操作数范围。对于一个实施例,浮点单元222、224可结合SMD和多媒体指令对128位宽度打包数据操作数进行操作。
[0075]在一个实施例中,在父加载完成执行之前,微操作调度器202、204、206就分派依赖操作。因为在处理器200中微操作被投机地调度和执行,所以处理器200也包括处理存储器未命中的逻辑。如果数据加载在数据高速缓存中未命中,则可能存在带有临时错误数据离开调度器并运行在流水线中的依赖操作。重放机制跟踪使用错误数据的指令,并重新执行这些指令。仅仅依赖操作需要被重放,而允许独立操作完成。处理器的一个实施例的调度器和重放机制也被设计为捕捉提供掩码寄存器与通用寄存器之间的转换的指令。
[0076]术语“寄存器”指代被用作为指令的一部分以标识操作数的板上处理器存储位置。换句话说,寄存器是那些处理器外部(从编程者的角度来看)可用的处理器存储位置。然而,一实施例的寄存器不限于表示特定类型的电路。相反,一实施例的寄存器能够存储并提供数据,并且能够执行在此所述的功能。在此所述的寄存器可由处理器中的电路使用任何数量不同技术来实现,诸如,专用物理寄存器、使用寄存器重命名的动态分配物理寄存器、专用和动态分配物理寄存器的组合,等等。在一个实施例中,整数寄存器存储三十二位整数数据。一个实施例的寄存器组也包含八个多媒体SIMD寄存器,用于打包数据。对于以下讨论,寄存器应被理解为设计成保存打包数据的数据寄存器,诸如来自美国加利福尼亚州圣克拉拉市的英特尔公司的启用了 MMX技术的微处理器的64位宽MMXtm寄存器(在一些实例中也称为“mm寄存器)。”这些MMX寄存器(可用在整数和浮点格式中)可与伴随SMD和SSE指令的打包数据元素一起操作。类似地,涉及SSE2、SSE3、SSE4或更新的技术(统称为“SSEx”)的128位宽XMM寄存器也可被用于保持这样打包数据操作数。在一个实施例中,在存储打包数据和整数数据时,寄存器不需要区分这两类数据类型。在一个实施例中,整数和浮点数据可被包括在相同的寄存器组中,或被包括在不同的寄存器组中。进一步的,在一个实施例中,浮点和整数数据可被存储在不同的寄存器中,或被存储在相同的寄存器中。
[0077]在下述附图的示例中,描述了多个数据操作数。图3A示出根据本发明的一个实施例的多媒体寄存器中的多种打包数据类型表示。图3A示出了打包字节310、打包字320、打包双字(dword)330的用于128位宽操作数的数据类型。本示例的打包字节格式310是128位长,并且包含十六个打包字节数据元素。字节在此被定义为是8位数据。每一个字节数据元素的信息被存储为:对于字节O存储在位7到位0,对于字节I存储在位15到位8,对于字节2存储在位23到位16,最后对于字节15存储在位120到位127。因此,在该寄存器中使用了所有可用的位。该存储配置提高了处理器的存储效率。同样,因为访问了十六个数据元素,所以现在可对十六个数据元素并行地执行一个操作。
[0078]通常,数据元素是单独的数据片,与具有相同长度的其他数据元素一起存储在单个寄存器或存储器位置中。在涉及SSEx技术的打包数据序列中,存储在XMM寄存器中的数据元素的数目是128位除以单个数据元素的位长。类似地,在涉及MMX和SSE技术的打包数据序列中,存储在MMX寄存器中的数据元素的数目是64位除以单个数据元素的位长。虽然图3A中所示的数据类型是128位长,但本发明的诸个实施例也可操作64位宽、256位宽、512位宽或其他大小的操作数。本示例的打包字格式320是128位长,并且包含八个打包字数据元素。每个打包字包含十六位的信息。图3A的打包双字格式330是128位长,并且包含四个打包双字数据元素。每个打包双字数据元素包含三十二位信息。打包四字是128位长,并包含两个打包四字数据元素。
[0079]图3B示出了替代的寄存器内数据存储格式。每个打包数据可包括超过一个独立数据元素。示出了三个打包数据格式:打包半数据元素314、打包单数据元素342、以及打包双数据元素343。打包半数据元素341、打包单数据元素342、打包双数据元素343的一个实施例包含定点数据元素。对于替代实施例,一个或多个打包半数据元素341、打包单数据元素342、打包双数据元素343可包含浮点数据元素。打包半数据元素341的一个替代实施例是一百二十八位长度,包含八个16位数据元素。打包单数据元素342的一个替代实施例是一百二十八位长度,且包含四个32位数据元素。打包双数据元素343的一个实施例是一百二十八位长度,且包含两个64位数据元素。可以理解的是,这样的打包数据格式进一步可被扩展至其他寄存器长度,例如,96位、160位、192位、224位、256位、512位或更长。
[0080]图3C示出了根据本发明的一个实施例的多媒体寄存器中的多种有符号和无符号打包数据类型表示。无符号打包字节表示344示出了 SMD寄存器中的无符号打包字节的存储。每一个字节数据元素的信息被存储为:对于字节O存储在位7到位0,对于字节I存储在位15到位8,对于字节2存储在位23到位16,等等,最后对于字节15存储在位120到位127。因此,在该寄存器中使用了所有可用的位。该存储配置可提高处理器的存储效率。同样,因为访问了十六个数据元素,所以可对十六个数据元素并行地执行一个操作。有符号打包字节表示345示出了有符号打包字节的存储。注意到,每个字节数据元素的第八位是符号指示符。无符号打包字表示346示出了 SMD寄存器中字7到字O如何被存储。有符号打包字表示347类似于无符号打包字寄存器内表示346。注意到,每个字数据元素的第十六位是符号指示符。无符号打包双字表示348示出了双字数据元素如何存储。有符号打包双字表示349类似于无符号打包双字寄存器内表示348。注意到,必要的符号位是每个双字数据元素的第三十二位。
[0081]图3D是与可从美国加利福尼亚州圣克拉拉市的英特尔公司的万维网intel.com/products/processor/manuals/上获得的“丨ntel? 64和IA-32英特尔体系结构软件开发者手册组合卷2A和2B:指令集参考A-Z(Intel Architecture Software Developer’s ManualCombined Volumes2A and2B:1nstruction Set Reference A_Z) ”中描述的运算码格式类型相对应的具有32或更多位的操作编码(操作码)格式360以及寄存器/存储器操作数寻址模式的一个实施例的描述。在一个实施例中,可通过一个或更多个字段361和362来编码指令。可以标识每个指令高达两个操作数位置,包括高达两个源操作数标识符364和365。对于一个实施例,目的地操作数标识符366与源操作数标识符364相同,而在其他实施例中它们不相同。对于替代实施例,目的地操作数标识符366与源操作数标识符365相同,而在其他实施例中它们不相同。在一个实施例中,由源操作数标识符364和365所标识的源操作数中的一个被指令的结果所覆写,而在其他实施例中,标识符364对应于源寄存器元素,而标识符365对应于目的地寄存器元素。对于一个实施例,操作数标识符364和365可被用于标识32位或64位的源和目的地操作数。
[0082]图3E示出了具有四十个或更多位的另一个替代操作编码(操作码)格式370。操作码格式370对应于操作码格式360,并包括可选的前缀字节378。根据一个实施例的指令可通过字段378、371和372中的一个或多个来编码。通过源操作数标识符374和375以及通过前缀字节378,可标识每个指令中高达两个操作数位置。对于一个实施例,前缀字节378可被用于标识32位或64位的源和目的地操作数。对于一个实施例,目的地操作数标识符376与源操作数标识符374相同,而在其他实施例中它们不相同。对于替代实施例,目的地操作数标识符376与源操作数标识符375相同,而在其他实施例中它们不相同。在一个实施例中,指令对由操作数标识符374和375所标识的一个或多个操作数进行操作,并且由操作数标识符374和375所标识的一个或多个操作数被指令的结果所覆写,然而在其他实施例中,由标识符374和375所标识的操作数被写入另一个寄存器中的另一个数据元素中。操作码格式360和370允许由MOD字段363和373以及由可选的比例-变址-基址(scale-1ndex-base)和位移(displacement)字节所部分指定的寄存器到寄存器寻址、存储器到寄存器寻址、由存储器对寄存器寻址、由寄存器对寄存器寻址、直接对寄存器寻址、寄存器至存储器寻址。
[0083]接下来转到图3F,在一些替换实施例中,64位(或128位、或256位、或512位或更多)单指令多数据(SMD)算术操作可经由协处理器数据处理(CDP)指令来执行。操作编码(操作码)格式380示出了一个这样的CDP指令,其具有CDP操作码字段382和389。对于替代实施例,该类型CDP指令操作可由字段383、384、387和388中的一个或多个来编码。可以对每个指令标识高达三个操作数位置,包括高达两个源操作数标识符385和390以及一个目的地操作数标识符386。协处理器的一个实施例可对8、16、32和64位值操作。对于一个实施例,对整数数据元素执行指令。在一些实施例中,使用条件字段381,可有条件地执行指令。对于一些实施例,源数据大小可通过字段383来编码。在一些实施例中,可对SIMD字段执行零(Z)、负(N)、进位(C)和溢出(V)检测。对于一些指令,饱和类型可通过字段384来编码。
[0084]接下来转到图3G,其描绘了根据另一实施例的与可从美国加利福尼亚州圣克拉拉市的英特尔公司的万维网(www) intel.com/products/processor/manuals/上获得的“Intel? 高级向量扩展编程参考(Intel? Advanced Vector Extensions ProgrammingReference)中描述的操作码格式类型相对应的用于提供向量横向比较功能的另一替代操作编码(操作码)格式397。
[0085]原始x86指令集向I字节操作码提供多种地址字节(syllable)格式以及包含在附加字节中的直接操作数,其中可从第一个“操作码”字节中获知附加字节的存在。此外,特定字节值被预留给操作码作为修改符(称为前缀prefix,因为它们被放置在指令之前)。当256个操作码字节的原始配置(包括这些特殊前缀值)耗尽时,指定单个字节以跳出(escape)到新的256个操作码集合。因为添加了向量指令(诸如,SMD),即便通过使用前缀进行了扩展以后,也需要产生更多的操作码,并且“两字节”操作码映射也已经不够。为此,将新指令加入附加的映射中,附加的映射使用两字节加上可选的前缀作为标识符。
[0086]除此外,为了便于在64位模式中实现额外的寄存器,在前缀和操作码(以及任何的用于确定操作码所需的跳出字节)之间使用额外的前缀(被称为“REX”)。在一个实施例中,REX具有4个“有效载荷”位,以指示在64位模式中使用附加的寄存器。在其他实施例中,可具有比4位更少或更多的位。至少一个指令集的通用格式(一般对应于格式360和/或格式370)被一般地不出如下:
[0087][prefixes] [rex] escape [escape2] opcode modrm (等等)
[0088]操作码格式397对应于操作码格式370,并包括可选的VEX前缀字节391 (在一个实施例中,以十六进制的C4或C5开始)以替换大部分的其他公共使用的传统指令前缀字节和跳出代码。例如,以下示出了使用两个字段来编码指令的实施例,其可在原始指令中不存在第二跳出代码时使用。在以下所示的实施例中,传统跳出由新的跳出值所表示,传统前缀被完全压缩为“有效载荷(payload)”字节的一部分,传统前缀被重新申明并可用于未来的扩展,并且加入新的特征(诸如,增加的向量长度以及额外的源寄存器区分符)。
[0089]
【权利要求】
1.一种处理器,包括: 向量寄存器,包括用于存储向量元素的值的第一多个数据字段; 解码级,用于解码第一指令,所述第一指令指定目的地操作数、向量元素的大小、所述第一多个数据字段的部分、以及源操作数;以及执行单元,用于响应于经解码的第一指令: 从所述源操作数中的具有所述向量元素大小的数据字段读取值; 比较从所述源操作数的所述数据字段读取的所述值彼此是否相等;以及 响应于检测到所述源操作数的一个或多个数据字段不相等,发信号通知检测到不相坐寸O
2.如权利要求1所述的处理器,其特征在于,所述第一指令指定掩码,所述掩码标识所述第一多个数据字段的所述部分,其中从所述源操作数中的数据字段读取的所述值对应于所述源操作 数中未被由所述第一指令指定的掩码所掩蔽的向量元素。
3.如权利要求2所述的处理器,其特征在于,所述执行单元用于,响应于所述源操作数的所有未被掩蔽数据字段等于特定值,将所述值广播至所述目的地操作数中的指定大小的所有数据字段。
4.如权利要求1所述的处理器,其特征在于,发信号通知所述检测包括引起与检测到不相等相对应的陷入。
5.如权利要求1所述的处理器,其特征在于,发信号通知所述检测包括将标志设置成与检测到不相等相对应的第一状态。
6.如权利要求1所述的处理器,其特征在于,发信号通知所述检测包括:对于相应的检测到的不相等的值,将掩码字段设置成被掩蔽状态。
7.如权利要求1所述的处理器,其特征在于,由所述第一指令指定的所述目的地操作数是由所述第一指令指定的所述源操作数。
8.一种机器可读介质,用于记录包括第一可执行指令的功能性描述素材,所述第一可执行指令如果由机器执行则使所述机器: 从由所述第一可执行指令指定的源操作数中的第一多个数据字段的部分读取值,所述第一多个数据字段用于存储被掩蔽和未被掩蔽的向量兀素的值; 比较从所述源操作数的所述数据字段读取的所述值彼此是否相等;以及响应于检测到来自所述源操作数的数据字段的一个或多个值不相等,发信号通知检测到不相等。
9.如权利要求8所述的机器可读介质,其特征在于,所述第一可执行指令指定掩码,所述掩码标识所述第一多个数据字段的所述部分,其中从所述源操作数中的数据字段读取的所述值对应于所述源操作数中未被由所述第一可执行指令指定的掩码所掩蔽的向量元素。
10.如权利要求9所述的机器可读介质,其特征在于,响应于所述源操作数的所有未被掩蔽数据字段等于特定值,使所述机器将所述值广播至所述目的地操作数中的指定大小的所有数据字段。
11.如权利要求9所述的机器可读介质,其特征在于,发信号通知检测到不相等包括引起与检测到不相等相对应的陷入。
12.如权利要求9所述的机器可读介质,其特征在于,发信号通知检测到不相等包括将标志设置成与检测到不相等相对应的第一状态。
13.如权利要求8所述的机器可读介质,其特征在于,发信号通知检测到不相等包括:对于相应的检测到的不相等的值,将掩码字段设置成被掩蔽状态。
14.一种处理系统,包括: 存储器;以及 第一多个处理器,所述第一多个处理器中的每一个包括: 向量寄存器,包括用于存储向量元素的值的第一多个数据字段; 解码级,用于解码第一指令,所述第一指令指定目的地操作数、向量元素的大小、所述第一多个数据字段的部分、以及源操作数;以及执行单元,用于响应于经解码的第一指令: 从所述源操作数中的具有所述向量元素大小的数据字段读取值; 比较从所述源操作数的所述数据字段读取的所述值彼此是否相等;以及 响应于检测到所述源操作数的一个或多个数据字段不相等,发信号通知检测到不相 坐寸ο
15.如权利要求14所述的处理系统,其特征在于,所述第一指令指定掩码,所述掩码标识所述第一多个数据字段的所述部分,其中从所述源操作数中的数据字段读取的所述值对应于所述源操作数中未被由所述第一指令指定的掩码所掩蔽的向量元素。
16.如权利要求15所述的处理系统,其特征在于,所述执行单元用于,响应于所述源操作数的所有未被掩蔽数据字段等于特定值,将所述值广播至所述目的地操作数中的指定大小的所有数据字段。
17.如权利要求14所述的处理系统,其特征在于,发信号通知所述检测包括将标志设置成与检测到不相等相对应的第一状态。
18.如权利要求14所述的处理系统,其特征在于,发信号通知所述检测包括引起与检测到不相等相对应的陷入。
19.如权利要求18所述的处理系统,其特征在于,发信号通知所述检测包括:对于相应的检测到的不相等的值,将掩码字段设置成被掩蔽状态。
20.如权利要求14所述的处理系统,其特征在于,由所述第一指令指定的所述目的地操作数是由所述第一指令指定的所述源操作数。
21.—种计算机实现的方法,包括: 接收第一指令,所述第一指令指定目的地操作数、源操作数、向量元素的大小、以及所述源操作数中的用于存储被掩蔽和未被掩蔽的向量元素的值的第一多个数据字段的部分; 从由所述第一指令指定的源操作数中的用于存储被掩蔽和未被掩蔽的向量元素的值的第一多个数据字段的部分读取值; 比较从所述源操作数的所述数据字段读取的所述值彼此是否相等;以及响应于检测到来自所述源操作数的数据字段的一个或多个值不相等,发信号通知检测到不相等。
22.如权利要求21所述的计算机实现的方法,其特征在于,所述第一指令指定掩码,所述掩码标识所述第一多个数据字段的所述部分,其中从所述源操作数中的数据字段读取的所述值对应于所述源操作数中未被由所述第一指令指定的掩码所掩蔽的向量元素。
23.如权利要求22所述的计算机实现的方法,其特征在于,响应于所述源操作数的所有未被掩蔽数据字段等于特定值,将所述值广播至所述目的地操作数中的指定大小的所有数据字段。
24.如权利要求21所述的计算机实现的方法,其特征在于,发信号通知检测到不相等包括将标志设置成与检测到不相等相对应的第一状态。
25.如权利要求21所述的计算机实现的方法,其特征在于,发信号通知检测到不相等包括引起与检测到不相等相对应的陷入。
26.如权利要求25所述的计算机实现的方法,其特征在于,发信号通知检测到不相等包括:对于相应的检测到的不相等的值,将掩码字段设置成被掩蔽状态。
27.如权利要求21所述的计算机实现的方法,其特征在于,由所述第一指令指定的所述目的地操作数是由所述第一指令指定的所述源操作数。
【文档编号】G06F9/305GK103959237SQ201180075149
【公开日】2014年7月30日 申请日期:2011年11月30日 优先权日:2011年11月30日
【发明者】E·乌尔德-阿迈德-瓦尔, C·R·扬特, S·赛尔, D·A·科什蒂杰 申请人:英特尔公司