用于预留比特的施行的设备和方法与流程

文档序号:14958909发布日期:2018-07-18 00:07阅读:180来源:国知局

本发明一般涉及计算机处理器的领域。更具体地说,本发明涉及用于预留比特的施行的方法和设备。



背景技术:

指令集或指令集架构(isa)是与编程有关的计算机架构的一部分,包括原生数据类型、指令、寄存器架结构、寻址模式、存储器架构、中断和异常处理及外部输入和输出(i/o)。应注意的是,术语“指令”在本文中通常指宏指令-其是被提供到处理器以便执行的指令-与微指令或微操作相反-其是处理器的解码器解码宏指令的结果。微指令或微操作能够配置成指示处理器上的执行单元执行操作以实现与宏指令关联的逻辑。

isa不同于作为用于实现指令集的一组处理器设计技术的微架构。带有不同微架构的处理器能够共享共用指令集。例如,intel®®pentium4处理器、intel®coretm™处理器和来自加利福尼亚州桑尼威尔(sunnyvale)的超微半导体有限公司(advancedmicrodevices,inc.)的处理器实现几乎相同版本的x86指令集(其中已采用较新版本来加入了一些扩展),但具有不同内部设计。例如,isa的相同寄存器架构可使用公知的技术在不同微架构中以不同方式来实现,包括专用物理寄存器、使用寄存器重命名机制(例如,使用寄存器别名表(rat)、重新排序缓冲器(rob)和引退寄存器堆)的一个或多个动态分配的物理寄存器。除非另有指定,否则短语寄存器架构(phrasesregisterarchitecture)、寄存器堆和寄存器在本文中用于指对软件/编程器可见的事物以及其中指令指定寄存器的方式。在要求区分的情况下,形容词“逻辑的”、“架构的”、或“软件可见的”将用于指示在寄存器架构中的寄存器/文件,而不同的形容词将用于指定给定微架构中的寄存器(例如,物理寄存器、重新排序缓冲器、隐退寄存器、寄存器池)。

指令包含一个或多个指令格式。给定指令格式定义各种字段(比特的数量,比特的位置),以除其它之外还指定要执行的操作和有关该操作要执行的操作数。一些指令格式通过指令模板(或子格式)的定义被进一步细分。例如,给定指令格式的指令模板可被定义成具有指令格式的字段(包含的字段一般为相同顺序,但由于存在包含的更少字段,因此,至少一些字段具有不同比特位置)的不同子集,和/或定义成具有以不同方式解译的给定字段。给定指令使用给定指令格式(并且,如果已定义,则采用该指令格式的指令模板中的给定一个)来表达,并且指定操作和操作数。指令流是指令的特定序列,其中序列中的每个指令是采用某个指令格式(并且如果已定义,则该指令格式的指令模板中的给定一个)的指令的出现。

许多情况下,isa定义可需要在被存储到存储器中并且在以后被加载的数据中预留比特。例如,rflags数据的大约20比特可被存储到异常栈上64比特存储器位置中。能够预留剩余40比特以供将来使用将是有用的。然而,目前没有适当地存在有效的施行策略。当前最佳实践仅仅是确保预留比特是全零。这是不足够的,由于软件可强制所有“预留”比特为零,以为了满足施行。然而,这意味着如果硬件将任何预留比特设置成1,则此1将不被软件保存,实质上强制比特在将来永远为0以确保与行为不当软件的后向兼容性。

附图说明

结合附图,从下面的详细描述中能够获得本发明的更好理解,其中:

图1a和1b是图示了根据本发明的实施例的一般矢量友好指令格式及其指令模板的框图;

图2a-d是图示了根据本发明的实施例的示范性特定矢量友好指令格式的框图;

图3是根据本发明的一个实施例的寄存器架构的框图;以及

图4a是图示了根据本发明的实施例的示范性有序获取、解码、引退流水线和示范性寄存器重命名、乱序发布/执行流水线两者的框图;

图4b是图示了根据本发明的实施例,要包括在处理器中的有序获取、解码、引退核的示范性实施例和示范性寄存器重命名、乱序发出/执行架构核两者的框图;

图5a是单个处理器核及其到管芯上互连网络的连接的框图;

图5b图示了根据本发明的实施例的图5a中处理器核的一部分的扩展图;

图6是根据本发明的实施例的单核处理器和带有集成存储器控制器和图形的多核处理器的框图;

图7图示了根据本发明的一个实施例的系统的框图;

图8图示了根据本发明的实施例的第二系统的框图;

图9图示了根据本发明的实施例的第三系统的框图;

图10图示了根据本发明的实施例的芯片上系统(soc)的框图;

图11图示了根据本发明的实施例,与软件指令转换器的使用进行对照来将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图;

图12图示了本发明的实施例可在其上被实现的示范性处理器;

图13图示了用于预留比特的施行的序列的一个实施例;以及

图14图示了根据本发明的一个实施例的方法。

具体实施方式

在下面的描述中,出于解释的目的,陈述了许多特定的细节以便提供下面描述的本发明的实施例的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明的实施例。在其它实例中,以框图形式示出已知的结构和装置,以免混淆本发明的实施例的基础原理。

示范性处理器架构和数据类型

指令集包括一个或多个指令格式。给定的指令格式定义各种字段(比特数量、比特位置)以在其它事物中指定要被执行的操作(操作码)和操作数(在其上要执行操作)。一些指令格式通过指令模板(或子格式)的定义被进一步分解。例如,给定的指令格式的指令模板可被定义以具有指令格式的字段的不同子集(包括的字段典型地采用相同顺序,但至少一些具有不同比特位置,因为包括有较少字段)和/或被定义以具有不同地解译的给定字段。因此,isa的每个指令使用给定的指令格式来表示(并且如果被定义,则采用该指令格式的指令模板中的给定一个)并且包括用于指定操作和操作数的字段。例如,示范性add指令具有特定操作码和指令格式,其包括用于指定那个操作码的操作码字段和用于选择操作数的操作数字段(源1/目的地和源2));以及指令流中的该add指令的出现将具有选择特定操作数的操作数字段中的特定内容。simd扩展的集合(涉及高级矢量扩展(avx)(avx1和avx2)以及使用矢量扩展(vex)编码方案)已被发布和/或公布(例如见intel®64和ia-32架构软件开发者手册(architecturessoftwaredevelopersmanual),2011年10月;以及见intel®高级矢量扩展编程参考(advancedvectorextensionsprogrammingreference),2011年6月)。

示范性指令格式

本文描述的指令的实施例可以采用不同格式实施。此外,示范性系统、架构和流水线在下文被详述。指令的实施例可在这样的系统、架构和流水线上执行,但不限于详述的那些。

a.一般矢量友好指令格式

矢量友好指令格式是适合用于矢量指令的指令格式(例如特定于矢量操作存在某些字段)。虽然描述了实施例,其中通过矢量友好指令格式支持矢量和标量两者操作,但备选实施例仅使用矢量友好格式的矢量操作。

图1a-1b是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其指令模板。图1a是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别a指令模板;而图1b是框图,其示出根据本发明的实施例的一般矢量友好指令格式和其类别b指令模板。具体地,对于一般矢量友好指令格式100,定义了类别a和类别b指令模板,它们两者包括无存储器访问105指令模板和存储器访问120指令模板。矢量友好指令格式的上下文中的术语“一般”指的是指令格式不被束缚于任何特定指令集。

虽然本发明的实施例将被描述,其中矢量友好指令格式支持以下项:带有32比特(4字节)或64比特(8字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小)(并且因此,64字节矢量由16个双字大小元素或备选地8个四字大小元素组成);带有16比特(2字节)或8比特(1字节)数据元素宽度(或大小)的64字节矢量操作数长度(或大小);带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的32字节矢量操作数长度(或大小);以及带有32比特(4字节)、64比特(8字节)、16比特(2字节)、或8比特(1字节)数据元素宽度(或大小)的16字节矢量操作数长度(或大小);但备选实施例可支持带有更多、更少、或不同数据元素宽度(例如,128比特(16字节)数据元素宽度)的更多、更少和/或不同矢量操作数大小(例如,256字节矢量操作数)。

图1a中的类别a指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、完整舍入(fullround)控制类型操作110指令模板,和无存储器访问、数据变换类型操作115指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板。图1b中的类别b指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、vsize类型操作117指令模板;以及2)在存储器访问120指令模板内,示出了存储器访问、写掩码控制127指令模板。

一般矢量友好指令格式100包括图1a-1b中所示出的以下按顺序列出的以下字段。

格式字段140—此字段中的特定值(指令格式标识符值)唯一地标识矢量友好指令格式,并因此标识指令流中矢量友好指令格式中的指令的出现。因而,此字段在它对于仅具有一般矢量友好指令格式的指令集不被需要的意义中是可选的。

基础操作字段142—它的内容识别出不同的基础操作。

寄存器索引字段144—它的内容直接或通过地址生成来指定源和目的地操作数的位置(它们在寄存器中或在存储器中)。这些包括用于从pxq(例如32x512、16x128、32x1024、64x1024)寄存器堆选择n个寄存器的比特的足够数量。虽然在一个实施例中n可多至三个源和一个目的地寄存器,但备选实施例可支持更多或更少的源和目的地寄存器(例如,可支持多至两个源,其中这些源之一还充当目的地;可支持多至三个源,其中这些源之一还充当目的地;可支持多至两个源和一个目的地)。

修改符(modifier)字段146—它的内容识别出一般矢量指令格式中指定存储器访问的指令与不指定存储器访问的那些指令的出现;那就是说,在无存储器访问105指令模板和存储器访问120指令模板之间进行识别。存储器访问操作对存储器层级进行读和/或写(在使用寄存器中的值来指定源和/或目的地地址的一些情况中),而非存储器访问操作不进行(例如,源和目的地是寄存器)。虽然在一个实施例中此字段还在三个不同方式之间选择以执行存储器地址运算,但备选实施例可支持用于执行存储器地址运算的更多、更少、或不同方式。

扩增(augmentation)操作字段150—它的内容识别出除了基础操作之外还要被执行的多种不同操作的哪一个。此字段是上下文特定的。在本发明的一个实施例中,此字段被划分成类别字段168、α字段152、和β字段154。扩增操作字段150允许操作的通用组在单个指令而不是2、3、或4个指令中被执行。

缩放(scale)字段160—它的内容允许用于存储器地址生成(例如,用于使用2缩放*索引+基址的地址生成)的索引字段的内容的缩放。

位移(displacement)字段162a—它的内容作为存储器地址生成(例如,用于使用2缩放*索引+基址+位移的地址生成)的部分被使用。

位移因子字段162b(注意,直接在位移因子字段162b上的位移字段162a的并置指示一个或另一个被使用)—它的内容作为地址生成的部分被使用;它指定要通过存储器访问的大小(n)来缩放的位移因子—其中n是存储器访问中的字节的数量(例如,用于使用2缩放*索引+基址+缩放的位移的地址生成)。冗余低顺序比特被忽略,并且因此,位移因子字段的内容被乘以存储器操作数总大小(n)以便生成要在运算有效地址中被使用的最终位移。n的值由处理器硬件在运行时间基于完整操作码字段174(本文中较后所描述)和数据操纵字段154c来确定。位移字段162a和位移因子字段162b在它们不被用于无存储器访问105指令模板和/或不同实施例可实现所述两个的仅一个或没有一个的意义中是可选的。

数据元素宽度字段164—它的内容识别出多个数据元素宽度的哪一个要被使用(在对于所有指令的一些实施例中;在对于指令的仅一些指令的其它实施例中)。此字段在以下意义上是可选的:如果仅一个数据元素宽度被支持和/或使用操作码的一些方面来支持数据元素宽度,则不需要此字段。

写掩码字段170—它的内容在按数据元素位置的基础上控制目的地矢量操作数中的那个数据元素位置是否反映基础操作和扩增操作的结果。类别a指令模板支持合并写掩蔽,而类别b指令模板支持合并和归零写掩蔽两者。在合并时,矢量掩码允许目的地中的元素的任何集合被保护免于在任何操作(由基础操作和扩增操作所指定的)的执行期间更新;在另外一个实施例中,保存其中对应掩码比特具有0的目的地的每个元素的旧值。相比之下,在归零时,矢量掩码允许目的地中的元素的任何集合在任何操作(由基础操作和扩增操作所指定的)的执行期间被归零;在一个实施例中,在对应掩码比特具有0值时,目的地的元素被设置成0。此功能性的子集是用于控制正被执行的操作的矢量长度(那就是说,正被修改的元素的跨度,从第一个到最后一个)的能力;然而,被修改的元素不必要是连续的。因此,写掩码字段170允许部分矢量操作,包括加载、存储、算术、逻辑、等等。虽然本发明的实施例被描述,其中写掩码字段170的内容选择含有要被使用的写掩码的多个写掩码寄存器之一(并且因此写掩码字段170的内容间接标识要被执行的掩蔽),但备选实施例转而或附加允许掩码写字段170的内容直接指定要被执行的掩蔽。

立即数字段172—它的内容允许立即数的规格。此字段在它在不支持立即数的一般矢量友好格式的实现中不存在和它在不使用立即数的指令中不存在的意义中是可选的。

类别字段168—它的内容在指令的不同类别之间进行识别。参考图1a-b,此字段的内容在类别a和类别b指令之间选择。在图1a-b中,圆角方形被用于指示在字段中呈现的特定值(例如,在图1a-b中相应对于类别字段168的类别a168a和类别b168b)。

类别a的指令模板

在类别a的非存储器访问105指令模板的情况中,α字段152被解译为rs字段152a,其内容识别出不同扩增操作类型的哪一个要被执行(例如,舍入152a.1和数据变换152a.2对于无存储器访问、舍入类型操作110,和无存储器访问、数据变换类型操作115指令模板被相应指定),而β字段154识别出所指定的类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162a、和位移缩放字段162b不存在。

无存储器访问指令模板—完整舍入控制类型操作

在无存储器访问完整舍入控制类型操作110指令模板中,β字段154被解译为舍入控制字段154a,其内容提供静态舍入。虽然在本发明的所描述的实施例中,舍入控制字段154a包括所有浮点异常(sae)字段156和舍入操作控制字段158的抑制,但备选实施例可支持可将这些概念两者编码成相同字段,或仅具有这些概念/字段的一个或另一个(例如,可具有仅舍入操作控制字段158)。

sae字段156—它的内容识别出是否禁用异常事件报告;在sae字段156的内容指示抑制被启用时,给定的指令不报告任何种类的浮点异常标记且不唤起(raise)任何浮点异常处置器。

舍入操作控制字段158—它的内容识别出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段158允许按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。

无存储器访问指令模板—数据变换类型操作

在无存储器访问数据变换类型操作115指令模板中,β字段154被解译为数据变换字段154b,其内容识别出多个数据变换的哪一个要被执行(例如,无数据变换、打乱(swizzle)、广播)。

在类别a的存储器访问120指令模板的情况中,α字段152被解译为驱逐提示字段152b,其内容识别出驱逐提示的哪一个要被使用(在图1a中,暂时152b.1和非暂时152b.2对于存储器访问、暂时125指令模板,和存储器访问、非暂时130指令模板被相应指定),而β字段154被解译为数据操纵字段154c,其内容识别出多个数据操纵操作(还已知为原语(primitive))的哪一个要被执行(例如,无操纵;广播;源的上转换;以及目的地的下转换)。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162a或位移缩放字段162b。

矢量存储器指令通过转换支持来执行自存储器的矢量加载和往存储器的矢量存储。如通过常规矢量指令,矢量存储器指令以数据元素式的方式将数据转移自/往存储器,实际上被转移的元素由作为写掩码被选择的矢量掩码的内容来指示。

存储器访问指令模板—暂时

暂时数据是这样的数据,其有可能被足够快地再使用以受益于进行高速缓冲存储器。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。

存储器访问指令模板—非暂时

非暂时数据是这样的数据,其不太可能被足够快地再使用以受益于在第1等级高速缓冲存储器中进行高速缓冲存储器并应被给定用于驱逐的优先权。然而,这是提示,并且不同处理器可以采用不同方式来实现它,包括完全忽略该提示。

类别b的指令模板

在类别b的指令模板的情况中,α字段152被解译为写掩码控制(z)字段152c,其内容识别出由写掩码字段170所控制的写掩蔽应是合并还是归零。

在类别b的非存储器访问105指令模板的情况中,β字段154的部分被解译为rl字段157a,其内容识别出不同扩增操作类型的哪一个要被执行(例如,舍入157a.1和矢量长度(vsize)157a.2对于无存储器访问、写掩码控制、部分舍入控制类型操作112指令模板,和无存储器访问、写掩码控制、vsize类型操作117指令模板被相应指定),而β字段154的剩余部分识别出指定类型的操作的哪个要被执行。在无存储器访问105指令模板中,缩放字段160、位移字段162a、和位移缩放字段162b不存在。

在无存储器访问、写掩码控制、部分舍入控制类型操作110指令模板中,β字段154的剩余部分被解译为舍入操作字段159a,并且异常事件报告被禁用(给定的指令不报告任何种类的浮点异常标记且不唤起任何浮点异常处置器)。

舍入操作控制字段159a—正如舍入操作控制字段158,它的内容识别出一组舍入操作的哪一个要执行(例如,上舍入、下舍入、朝零舍入和往最近舍入)。因此,舍入操作控制字段159a允许在按指令的基础上的舍入模式的改变。在本发明的一个实施例中,其中处理器包括用于指定舍入模式的控制寄存器,舍入操作控制字段150的内容覆盖那个寄存器值。

在无存储器访问、写掩码控制、vsize类型操作117指令模板中,β字段的剩余部分154被解译为矢量长度字段159b,其内容识别出多个数据矢量长度的哪一个要被执行(例如,128、256、或512字节)。

在类别b的存储器访问120指令模板的情况中,β字段154的部分被解译为广播字段157b,其内容识别出广播类型数据操纵操作是否要被执行,而β字段154的剩余部分被解译为矢量长度字段159b。存储器访问120指令模板包括缩放字段160、并可选地包括位移字段162a或位移缩放字段162b。

关于一般矢量友好指令格式100,完整操作码字段174被示出,包括格式字段140、基础操作字段142、和数据元素宽度字段164。虽然一个实施例被示出,其中完整操作码字段174包括所有这些字段,但在不支持所有这些字段的实施例中,完整操作码字段174包括少于所有这些字段。完整操作码字段174提供操作代码(操作码)。

扩增操作字段150、数据元素宽度字段164、和写掩码字段170允许这些特征在一般矢量友好指令格式中在按指令的基础上被指定。

写掩码字段和数据元素宽度字段的组合创建分类的(typed)指令,因为它们允许掩码基于不同数据元素宽度而被应用。

在类别a和类别b内建立的各种指令模板在不同情境中是有益的。在本发明的一些实施例中,不同处理器或处理器内的不同核可支持仅类别a、仅类别b、或两个类别。例如,打算用于通用计算的高性能通用乱序核可支持仅类别b,打算主要用于图形和/或科学(吞吐量)计算的核可支持仅类别a,以及打算用于两者的核可支持两个类别(当然,具有来自两个类别的模板和指令但不是来自两个类别的所有模板和指令的某些混合的核在本发明的界限之内)。同样,单个处理器可包括多个核,其的所有支持相同类别或其中不同核支持不同类别。例如,在带有单独的图形和通用核的处理器中,打算主要用于图形和/或科学计算的图形核之一可支持仅类别a,而通用核的一个或多个通用核可以是支持仅类别b的打算用于通用计算的带有乱序运行和寄存器重命名的高性能通用核。不具有单独的图形核的另一个处理器可包括支持类别a和类别b两者的更多一个通用有序或乱序核。当然,来自一个类别的特征可还被实现于本发明的不同实施例中的另一类别中。以高等级语言所写的程序将被翻译(例如,准时编译或静态编译)成多种不同可运行的形式,包括:1)具有用于运行的由目标处理器所支持的类别的仅指令的形式;或2)具有使用所有类别的指令的不同组合所写的备选例程并具有选择例程以基于由处理器(其当前正运行代码)所支持的指令来运行的控制流程代码(controlflowcode)的形式。

b.示范性特定矢量友好指令格式

图2是框图,其示出根据本发明的实施例的示范性特定矢量友好指令格式。图2示出特定矢量友好指令格式200,其在它指定位置、大小、解译、和字段的顺序、以及那些字段的一些字段的值的意义中是特定的。特定矢量友好指令格式200可被用于扩展x86指令集,并且因此字段的一些字段与现存x86指令集和其扩展(例如,avx)中所使用的那些字段类似或相同。此格式与带有扩展的现存x86指令集的前缀编码字段、真操作码字节字段、modr/m字段、sib字段、位移字段,和立即数字段保持一致。来自图2的字段所映射到其中的来自图1的字段被示出。

应被理解的是,尽管本发明的实施例为了说明性目的而参考一般矢量友好指令格式100的上下文中的特定矢量友好指令格式200来描述,但除非在声明之处,本发明不限于特定矢量友好指令格式200。例如,一般矢量友好指令格式100对于各种字段设想多种可能大小,而特定矢量友好指令格式200被示出为具有特定大小的字段。通过特定示例的方式,虽然数据元素宽度字段164被示出为特定矢量友好指令格式200中的一个比特字段,但本发明不被如此限制(那就是说,一般矢量友好指令格式100设想数据元素宽度字段164的其它大小)。

一般矢量友好指令格式100包括图2a中所示出的以下按顺序列出的以下字段。

evex前缀(字节0-3)202-以四字节形式来编码。

格式字段140(evex字节0,比特[7:0])-第一字节(evex字节0)是格式字段140,并且它含有0x62(被用于识别出本发明的一个实施例中的矢量友好指令格式的唯一值)。

第二-第四字节(evex字节1-3)包括提供特定能力的多个比特字段。

rex字段205(evex字节1,比特[7-5])—由以下项组成:evex.r比特字段(evex字节1,比特[7]—r)、evex.x比特字段(evex字节1,比特[6]—x)、和157bex字节1、比特[5]—b)。evex.r、evex.x、和evex.b比特字段提供与对应vex比特字段相同的功能性,并使用1s补码形式来编码,即zmm0被编码为1111b,zmm15被编码为0000b。指令的其它字段编码如本领域中已知的寄存器索引的较低三个比特(rrr、xxx、和bbb),使得rrrr、xxxx、和bbbb可通过添加evex.r、evex.x、和evex.b来形成。

rex'字段110—这是rex'字段110的第一部分并且是被用于编码扩展的32寄存器集合的较上16或较低16的evex.r'比特字段(evex字节1,比特[4]-r')。在本发明的一个实施例中,这个比特连同如以下所指示的其它比特以比特倒置的格式被存储以(在公知的x8632-比特模式中)识别出bound指令,其真操作码字节是62,但在modr/m字段(以下所描述的)中不接受mod字段中的11的值;本发明的备选实施例不以倒置的格式来存储这个比特和以下所指示的另一个比特。1的值被用于编码较低16个寄存器。换句话说,r'rrrr通过组合evex.r'、evex.r、和来自其它字段的另一个rrr来形成。

操作码映射字段215(evex字节1,比特[3:0]—mmmm)—它的内容编码所暗示的前导操作码字节(0f,0f38,或0f3)。

数据元素宽度字段164(evex字节2,比特[7]—w)-由符号evex.w来表示。evex.w被用于定义数据类型的粒度(大小)(32比特数据元素或64比特数据元素)。

evex.vvvv220(evex字节2,比特[6:3]-vvvv)-evex.vvvv的角色可包括以下项:1)evex.vvvv编码以倒置(1s补码)的形式所指定的第一源寄存器操作数,并对于带有2个或更多源操作数的指令有效;2)evex.vvvv编码对于某些矢量移位以1s补码形式所指定的目的地寄存器操作数;或者3)evex.vvvv不编码任何操作数,字段被保留并应含有1111b。因此,evex.vvvv字段220编码以倒置(1s补码)的形式所存储的第一源寄存器指定符(specifier)的4个低顺序比特。取决于指令,额外不同evex比特字段被用于将指定符大小扩展到32个寄存器。

evex.u168类别字段(evex字节2,比特[2]-u)—如果evex.u=0,则它指示类别a或evex.u0;如果evex.u=1,则它指示类别b或evex.u1。

前缀编码字段225(evex字节2,比特[1:0]-pp)—为基础操作字段提供附加比特。除了为evex前缀格式中的遗留sse指令提供支持以外,这还具有紧致simd前缀的益处(而不是要求字节以表示simd前缀,evex前缀要求仅2比特)。在一个实施例中,为了支持在遗留格式中和在evex前缀格式中两者都使用simd前缀(66h,f2h,f3h)的遗留sse指令,这些遗留simd前缀被编码到simd前缀编码字段中;并在运行时间在被提供给解码器的pla之前被扩展到遗留simd前缀中(所以pla能运行这些遗留指令的遗留和evex格式两者而不用修改)。尽管较新的指令能直接将evex前缀编码字段的内容用作操作码扩展,某些实施例为了一致性以类似方式来扩展但允许要由这些遗留simd前缀来指定的不同含意。备选实施例可将pla重新设计成支持2比特simd前缀编码,并因此不要求扩展。

α字段152(evex字节3,比特[7]—eh;还已知为evex.eh、evex.rs、evex.rl、evex.写掩码控制、和evex.n;还通过α来示出)—如之前所描述的,此字段是上下文特定的。

β字段154(evex字节3,比特[6:4]-sss,还已知为evex.s2-0、evex.r2-0、evex.rr1、evex.ll0、evex.llb;还通过βββ来示出)—如之前所描述的,此字段是上下文特定的。

rex'字段110—这是rex'字段的其余部分并且是可被用于编码扩展的32寄存器集合的较上16或较低16的evex.v'比特字段(evex字节3,比特[3]-v')。此比特以比特倒置的格式来存储。1的值被用于编码较低16个寄存器。换句话说,v'vvvv通过组合evex.v'、evex.vvvv来形成。

写掩码字段170(evex字节3,比特[2:0]-kkk)—它的内容指定如之前所描述的写掩码寄存器中寄存器的索引。在本发明的一个实施例中,特定值evex.kkk=000具有暗示没有写掩码被用于具体指令的特别行为(这可以以包括使用硬连线到所有寄存器的写掩码或绕过掩蔽硬件的硬件的多种方式来实现)。

真操作码字段230(字节4)还已知为操作码字节。操作码的部分在此字段中被指定。

modr/m字段240(字节5)包括mod字段242、reg字段244、和r/m字段246。如之前所描述的,mod字段242的内容在存储器访问和非存储器访问操作之间进行识别。reg字段244的角色能被概括成两种情境:编码目的地寄存器操作数或源寄存器操作数,或作为操作码扩展被对待并不被用于编码任何指令操作数。r/m字段246的角色可包括以下项:编码引用存储器地址的指令操作数,或者编码目的地寄存器操作数或源寄存器操作数。

缩放、索引、基址(sib)字节(字节6)—如之前所描述的,缩放字段150的内容被用于存储器地址生成。sib.xxx254和sib.bbb256—这些字段的内容之前已关于寄存器索引xxxx和bbbb被提到。

位移字段162a(字节7-10)—在mod字段242含有10时,字节7-10是位移字段162a,并且它与遗留32比特位移(disp32)相同地工作并在字节粒度工作。

位移因子字段162b(字节7)—在mod字段242含有01时,字节7是位移因子字段162b。此字段的位置与遗留x86指令集8比特位移(disp8)的位置相同,其在字节粒度工作。由于disp8是扩展的记号,它能仅定址于-128和127字节偏移之间;在64字节高速缓冲存储器行方面,disp8使用能被设置成仅四个真正有用的值-128、-64、0、和64的8比特;由于更大的范围常常被需要,disp32被使用;然而,disp32要求4字节。与disp8和disp32对照,位移因子字段162b是disp8的重新解译;在使用位移因子字段162b时,实际位移由乘以存储器操作数访问的大小(n)的位移因子字段的内容来确定。此类型的位移被称为disp8*n。这减少平均指令长度(用于位移但带有大得多的范围的单个字节)。此类压缩的位移基于有效位移是存储器访问的粒度的倍数并且因此地址偏移的冗余低顺序比特不需要被编码的假定。换句话说,位移因子字段162b替代遗留x86指令集8比特位移。因此,位移因子字段162b以与x86指令集8比特位移相同的方式来编码(所以在modrm/sib编码规则中没有改变),带有disp8被过载到disp8*n的仅有例外。换句话说,在编码规则或编码长度中不存在改变,仅除了在通过硬件的位移值的解译中之外(其需要通过存储器操作数的大小来缩放位移以获得字节式地址偏移)。

立即数字段172如之前所描述地操作。

完整操作码字段

图2b是框图,其示出根据本发明的一个实施例的构成完整操作码字段174的特定矢量友好指令格式200的字段。具体地,完整操作码字段174包括格式字段140、基础操作字段142、和数据元素宽度(w)字段164。基础操作字段142包括前缀编码字段225、操作码映射字段215、和真操作码字段230。

寄存器索引字段

图2c是框图,其示出根据本发明的一个实施例的构成寄存器索引字段144的特定矢量友好指令格式200的字段。具体地,寄存器索引字段144包括rex字段205、rex'字段210、modr/m.reg字段244、modr/m.r/m字段246、vvvv字段220、xxx字段254、和bbb字段256。

扩增操作字段

图2d是框图,其示出根据本发明的一个实施例的构成扩增操作字段150的特定矢量友好指令格式200的字段。在类别(u)字段168含有0时,它象征evex.u0(类别a168a);在它含有1时,它象征evex.u1(类别b168b)。在u=0并且mod字段242含有11(象征无存储器访问操作)时,α字段152(evex字节3,比特[7]—eh)被解译为rs字段152a。在rs字段152a含有1(舍入152a.1)时,β字段1454(evex字节3,比特[6:4]-sss)被解译为舍入控制字段154a。舍入控制字段154a包括一比特sae字段156和两比特舍入操作字段158。在rs字段152a含有0(数据变换152a.2)时,β字段154(evex字节3,比特[6:4]-sss)被解译为三比特数据变换字段154b。在u=0并且mod字段242含有00、01、或10(象征存储器访问操作)时,α字段152(evex字节3,比特[7]—eh)被解译为驱逐提示(eh)字段152b并且β字段154(evex字节3,比特[6:4]-sss)被解译为三比特数据操纵字段154c。

在u=1时,α字段152(evex字节3,比特[7]—eh)被解译为写掩码控制(z)字段152c。在u=1并且mod字段242含有11(象征无存储器访问操作)时,β字段154的部分(evex字节3,比特[4]-s0)被解译为rl字段157a;在它含有1(舍入157a.1)时,β字段154的剩余部分(evex字节3,比特[6-5]-s2-1)被解译为舍入操作字段159a,而在rl字段157a含有0(vsize157.a2)时,β字段154的剩余部分(evex字节3,比特[6-5]-s2-1)被解译为矢量长度字段159b(evex字节3,比特[6-5]-l1-0)。在u=1并且mod字段242含有00、01、或10(象征存储器访问操作)时,β字段154(evex字节3,比特[6:4]-sss)被解译为矢量长度字段159b(evex字节3,比特[6-5]-l1-0)和广播字段157b(evex字节3,比特[4]-b)。

c.示范性寄存器架构

图3是根据本发明的一个实施例的寄存器架构300的框图。在所示出的实施例中,存在512比特宽的32个矢量寄存器310;这些寄存器被引用为zmm0直到zmm31。较低的16个zmm寄存器的较低顺序256比特被覆载在寄存器ymm0-16上。较低的16个zmm寄存器的较低顺序128比特(ymm寄存器的较低顺序128比特)被覆载在寄存器xmm0-15上。特定矢量友好指令格式200在如以下表中所示出的这些覆载寄存器堆上操作。

换句话说,矢量长度字段159b在最大长度和一个或多个其它更短长度之间选择,其中每个此类更短长度是前述长度的一半长度;并且不带有矢量长度字段159b的指令模板在最大矢量长度上操作。进一步地,在一个实施例中,特定矢量友好指令格式200的类别b指令模板在打包的或标量的单/双精度浮点数据和打包的或标量的整数数据上操作。标量的操作是在zmm/ymm/xmm寄存器中最低顺序数据元素位置上执行的操作;更高顺序数据元素位置取决于实施例保持与它们在该指令之前一样或被归零。

写掩码寄存器315-在所示出的实施例中,存在8个写掩码寄存器(k0直到k7),每个的大小是64比特。在备选实施例中,写掩码寄存器315的大小是16比特。如之前所描述的,在本发明的一个实施例中,矢量掩码寄存器k0不能作为写掩码被使用;在将通常指示k0的编码被用于写掩码时,它选择0xffff的硬连线写掩码,对于那个指令有效地禁用写掩蔽。

通用寄存器325-在所示出的实施例中,存在连同现存x86寻址模式被用于寻址存储器操作数的十六个64-比特通用寄存器。这些寄存器通过名称rax、rbx、rcx、rdx、rbp、rsi、rdi、rsp、和r8直到r15来引用。

标量浮点栈寄存器堆(x87栈)345,在其上mmx打包整数平寄存器堆350被别名化-在所示出的实施例中,x87栈是用于使用x87指令集扩展在32/64/80比特浮点数据上执行标量浮点操作的八元素栈;而mmx寄存器被用于在64-比特打包整数数据上执行操作,还被用于为在mmx和xmm寄存器之间所执行的一些操作来保存操作数。

本发明的备选实施例可使用更宽或更窄的寄存器。另外,本发明的备选实施例可使用更多、更少、或不同寄存器堆和寄存器。

d.示范性核架构、处理器、和计算机架构

处理器核可以不同方式、为了不同目的、以及在不同处理器中被实现。例如,此类核的实现可包括:1)打算用于通用计算的通用有序核;2)打算用于通用计算的高性能通用乱序核;3)打算主要用于图形和/或科学(吞吐量)计算的专用核。不同处理器的实现可包括:1)包括打算用于通用计算的一个或多个通用有序核和/或打算用于通用计算的一个或多个通用乱序核的cpu;以及2)包括打算主要用于图形和/或科学(吞吐量)的一个或多个专用核的协同处理器。此类不同处理器导致不同计算机系统架构,其可包括:1)在与所述cpu单独的芯片上的协同处理器;2)在与cpu相同的封装中单独管芯上的协同处理器;3)在与cpu相同的管芯上的协同处理器(在该情况中,此类协同处理器有时被称为专用逻辑,诸如集成的图形和/或科学(吞吐量)逻辑,或被称为专用核);以及4)在可在相同管芯上包括所描述的cpu(有时被称为应用核或应用处理器)、以上所描述的协同处理器、和附加功能性的芯片上系统。示范性核架构接下来被描述,继之以示范性处理器和计算机架构的描述。

图4a是框图,其示出根据本发明的实施例的示范性有序流水线和示范性寄存器重命名、乱序发布/运行流水线两者。图4b是框图,其示出根据本发明的实施例的要被包括在处理器中的有序架构核的示范性实施例和示范性寄存器重命名、乱序发布/运行架构核两者。图4a-b中的实线框示出有序流水线和有序核,而虚线框的可选附加示出寄存器重命名、乱序发布/运行流水线和核。给定有序方面是乱序方面的子集,乱序方面将被描述。

在图4a中,处理器流水线400包括取阶段402、长度解码阶段404、解码阶段406、分配阶段408、重命名阶段410、调度(还已知为分派或发布)阶段412、寄存器读/存储器读阶段414、运行阶段416、写回/存储器写阶段418、异常处置阶段422、和提交阶段424。

图4b示出处理器核490,其包括耦合到运行引擎单元450的前端单元430,并且两者被耦合到存储器单元470。核490可以是简化指令集计算(risc)核、复杂指令集计算(cisc)核、非常长指令字(vliw)核、或混合或备选核类型。如仍有的另一个选项,核490可以是专用核,诸如例如网络或通信核、压缩引擎、协同处理器核、通用计算图形处理单元(gpgpu)核、图形核等等。

前端单元430包括耦合到指令高速缓冲存储器单元434的分支预测单元432,所述指令高速缓冲存储器单元434被耦合到指令翻译旁视(lookaside)缓冲器(tlb)436,其被耦合到指令取单元438,指令取单元438被耦合到解码单元440。解码单元440(或解码器)可解码指令,并生成为输出一个或多个微操作、微代码条目点、微指令、其它指令、或其它控制信号,其被解码自、或其以其它方式反映、或被推导自原始指令。使用各种不同机制,解码单元440可被实现。适合的机制的示例包括但不限于查找表、硬件实现、可编程逻辑阵列(pla)、微代码只读存储器(rom)、等等。在一个实施例中,核490包括存储用于某些宏指令的微代码的微代码rom或另一介质(例如,在解码单元440中或以别的方式在前端单元430内)。解码单元440被耦合到运行引擎单元450中的重命名/分配器单元452。

运行引擎单元450包括耦合到引退单元454和一个或多个调度器单元456的集合的重命名/分配器单元452。调度器单元456代表任何数量的不同调度器,包括保留站、中央指令窗口、等等。调度器单元456被耦合到物理寄存器堆单元458。物理寄存器堆单元458中的每个代表一个或多个物理寄存器堆,其不同物理寄存器堆存储一个或多个不同数据类型,诸如标量整数、标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点、状态(例如,是要被运行的下一个指令的地址的指令指针)、等等。在一个实施例中,物理寄存器堆单元458包括矢量寄存器单元、写掩码寄存器单元、和标量寄存器单元。这些寄存器单元可提供架构上的矢量寄存器、矢量掩码寄存器、和通用寄存器。物理寄存器堆单元458通过引退单元454来重叠以示出其中寄存器重命名和乱序运行可被实现的各种方式(例如,使用重排序缓冲器和引退寄存器堆;使用未来堆、历史缓冲器、和引退寄存器堆;使用寄存器映射和寄存器的池;等等)。引退单元454和物理寄存器堆单元458被耦合到运行集群460。运行集群460包括一个或多个运行单元462的集合和一个或多个存储器访问单元464的集合。运行单元462可执行各种操作(例如,移位、加法、减法、乘法)以及在各种类型的数据(例如,标量浮点、打包的整数、打包的浮点、矢量整数、矢量浮点)上执行。虽然一些实施例可包括专用于特定功能或功能的集合的多个运行单元,其它实施例可包括都执行所有功能的多个运行单元或仅一个运行单元。调度器单元456、物理寄存器堆单元458、和运行集群460被示出为可能是复数的,因为某些实施例对于某些类型的数据/操作来创建单独流水线(例如,标量整数流水线、标量浮点/打包的整数/打包的浮点/矢量整数/矢量浮点流水线、和/或存储器访问流水线,其各自具有它们自己的调度器单元、物理寄存器堆单元、和/或运行集群—并且在单独的存储器访问流水线的情况中,其中此流水线的仅运行集群具有存储器访问单元464的某些实施例被实现)。还应被理解的是,在单独流水线被使用之处,这些流水线的一个或多个流水线可以是乱序发布/运行,并且剩余的是有序。

存储器访问单元464的集合被耦合到存储器单元470,存储器单元470包括耦合到数据高速缓冲存储器单元474的数据tlb单元472,数据高速缓冲存储器单元474耦合到等级2(l2)高速缓冲存储器单元476。在一个示范性实施例中,存储器访问单元464可包括加载单元、存储地址单元、和存储数据单元,其的每个被耦合到存储器单元470中的数据tlb单元472。指令高速缓冲存储器单元434被进一步耦合到存储器单元470中的等级2(l2)高速缓冲存储器单元476。l2高速缓冲存储器单元476被耦合到一个或多个其它等级的高速缓冲存储器并最终到主存储器。

通过示例的方式,示范性寄存器重命名、乱序发布/运行核架构可实现如下流水线400:1)指令取438执行取及长度解码阶段402和404;2)解码单元440执行解码阶段406;3)重命名/分配器单元452执行分配阶段408和重命名阶段410;4)调度器单元456执行调度阶段412;5)物理寄存器堆单元458和存储器单元470执行寄存器读/存储器读阶段414;运行集群460执行运行阶段416;6)存储器单元470和物理寄存器堆单元458执行写回/存储器写阶段418;7)各种单元可在异常处置阶段422中被涉及;以及8)引退单元454和物理寄存器堆单元458执行提交阶段424。

核490可支持一个或多个指令集(例如,x86指令集(带有已随较新版本被添加的一些扩展);mipstechnologiesofsunnyvale,ca的mips指令集;armholdingsofsunnyvale,ca的arm指令集(带有诸如neon的可选附加扩展)),包括本文中所描述的指令。在一个实施例中,核490包括用于支持打包数据指令集扩展(例如,avx1、avx2)的逻辑,因此允许由许多多媒体应用来使用的操作使用打包的数据来执行。

应被理解的是,核可支持多线程(运行操作或线程的两个或更多并行集合),并可以多种方式来如此做,所述多种方式包括时间分段的多线程、同时多线程(在单个物理核为线程的每个提供逻辑核的情况中,那个物理核正进行同时多线程),或其组合(例如,诸如在intel®超线程技术中的时间分段的取和解码以及其后的同时多线程)。

虽然寄存器重命名在乱序运行的上下文中被描述,但应理解的是,寄存器重命名可被用在有序架构中。虽然处理器的所示出实施例还包括单独的指令和数据高速缓冲存储器单元434/474以及共享的l2高速缓冲存储器单元476,但备选实施例可具有用于指令和数据两者的单个内部高速缓冲存储器,诸如例如,等级1(l1)内部高速缓冲存储器、或多个等级的内部高速缓冲存储器。在一些实施例中,系统可包括内部高速缓冲存储器及外部于核和/或处理器的外部高速缓冲存储器的组合。备选地,所有高速缓冲存储器可外部于核和/或处理器。

图5a-b示出核将是芯片中若干逻辑块之一(包括相同类型和/或不同类型的其它核)的更特定示范性有序核架构的框图。逻辑块通过高带宽互连网络(例如,环网络)取决于应用而通信于一些固定的功能逻辑、存储器i/o接口、和另一必要i/o逻辑。

图5a是根据本发明的实施例的单个处理器核连同到管芯上互连网络502的它的连接并连同等级2(l2)高速缓冲存储器504的它的本地子集的框图。在一个实施例中,指令解码器500支持带有打包的数据指令集扩展的x86指令集。l1高速缓冲存储器506允许低等待时间访问以将存储器高速缓冲存储器到标量和矢量单元中。虽然在一个实施例中(为简化设计),标量单元508和矢量单元510使用单独的寄存器集合(相应地,是标量寄存器512和矢量寄存器514),并且在它们之间所转移的数据被写到存储器并然后从等级1(l1)高速缓冲存储器506读回,但本发明的备选实施例可使用不同手段(例如,使用单个寄存器集合或包括允许数据在所述两个寄存器堆之间被转移而不被写和读回的通信路径)。

l2高速缓冲存储器504的本地子集是全局l2高速缓冲存储器的部分,所述全局l2高速缓冲存储器被划分成单独的本地子集,每处理器核一个。每个处理器核具有到l2高速缓冲存储器504的它自己的本地子集的直接访问路径。由处理器核所读的数据被存储在其l2高速缓冲存储器子集504中并能被快速地访问,并行于其它处理器核访问它们自己的本地l2高速缓冲存储器子集。由处理器核所写的数据被存储在其自己的l2高速缓冲存储器子集504中并且如果必要则从其它子集中被冲刷。环网络确保共享的数据的一致性。环网络是双向的以允许诸如处理器核、l2高速缓冲存储器、和其它逻辑块的代理在芯片内互相通信。每个环数据-路径每方向是1012-比特宽。

图5b是根据本发明的实施例的图5a中的处理器核的部分的扩展的视图。图5b包括l1高速缓冲存储器504的l1数据高速缓冲存储器506a部分,以及关于矢量单元510和矢量寄存器514的更多细节。具体地,矢量单元510是16宽矢量处理单元(vpu)(见16宽alu528),其运行整数、单精度浮动、和双精度浮动指令的一个或多个。vpu支持在存储器输入上通过打乱单元520来打乱寄存器输入、通过数值转换单元522a-b来进行数值转换、以及通过复制单元524来进行复制。写掩码寄存器526允许预测结果的矢量写。

图6是根据本发明的实施例的可具有多于一个核、可具有集成存储器控制器、并可具有集成图形的处理器600的框图。图6中的实线框示出带有单个核602a、系统代理610、一个或多个总线控制器单元616的集合的处理器600,而虚线框的可选附加示出带有多个核602a-n、系统代理单元610中的一个或多个集成存储器控制器单元614的集合、和专用逻辑608的备选处理器600。

因此,处理器600的不同实现可包括:1)cpu,带有是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)的专用逻辑608、以及是一个或多个通用核(例如,通用有序核、通用乱序核、所述两个核的组合)的核602a-n;2)带有是打算主要用于图形和/或科学(吞吐量)的大量的专用核的核602a-n的协同处理器;以及3)带有是大量的通用有序核的核602a-n的协同处理器。因此,处理器600可以是通用处理器、协同处理器或专用处理器,诸如例如,网络或通信处理器、压缩引擎、图形处理器、gpgpu(通用图形处理单元)、高吞吐量许多集成核(mic)协同处理器(包括30或更多核)、嵌入式处理器等等。处理器可被实现在一个或多个芯片上。使用多个处理技术的任何个(诸如例如,bicmos、cmos、或nmos),处理器600可被实现在一个或多个衬底上和/或是其部分。

存储器层级包括核内高速缓冲存储器的一个或多个等级、共享的高速缓冲存储器单元606的集合或一个或多个、和耦合到集成存储器控制器单元614的集合的外部存储器(未示出)。共享的高速缓冲存储器单元606的集合可包括一个或多个中等级高速缓冲存储器,诸如等级2(l2)、等级3(l3)、等级4(l4)、或其它等级的高速缓冲存储器、最后等级高速缓冲存储器(llc)、和/或其组合。虽然在一个实施例中,基于环的互连单元612将集成图形逻辑608、共享的高速缓冲存储器单元606的集合、以及系统代理单元610/集成存储器控制器单元614互连,但备选实施例可使用用于互连此类单元的任何数量的公知技术。在一个实施例中,一个或多个高速缓冲存储器单元606和核602-a-n之间的一致性被维持。

在一些实施例中,核602a-n的一个或多个核有多线程的能力。系统代理610包括协调和操作核602a-n的那些组件。系统代理单元610可包括例如功率控制单元(pcu)和显示器单元。pcu可以是或包括为调节集成图形逻辑608和核602a-n的功率状态所需要的逻辑和组件。显示器单元用于驱动一个或多个外部连接的显示器。

核602a-n可关于架构指令集是同质或异质的;那就是说,核602a-n的两个或更多核可有运行相同指令集的能力,而其它的核可有运行不同指令集或那个指令集的仅子集的能力。

图7-10是示范性计算机架构的框图。在对于膝上型计算机、桌上型计算机、手持型pc、个人数字助理、工程工作站、服务器、网络装置、网络集线器、交换机、嵌入式处理器、数字信号处理器(dsp)、图形装置、视频游戏装置、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持装置、以及各种其它电子装置的领域中已知的其它系统设计和配置也是适合的。一般来说,能够合并如本文中所公开的处理器和/或其它运行逻辑的极多种的系统或电子装置一般是适合的。

现在参考图7,所示出的是根据本发明的一个实施例的系统700的框图。系统700可包括被耦合到控制器集线器720的一个或多个处理器710、715。在一个实施例中,控制器集线器720包括图形存储器控制器集线器(gmch)790和输入/输出集线器(ioh)750(其可在单独的芯片上);gmch790包括存储器740和协同处理器745被耦合到的存储器和图形控制器;ioh750将输入/输出(i/o)装置760耦合到gmch790。备选地,存储器和图形控制器之一或两者被集成在处理器(如本文中所描述的)内,存储器740和协同处理器745被直接耦合到处理器710、和带有ioh750的单个芯片中的控制器集线器720。

附加处理器715的可选性质在图7中用断线来指代。每个处理器710、715可包括本文中所描述的处理核中的一个或多个,并可以是处理器600的某版本。

存储器740可以是例如动态随机存取存储器(dram)、相变存储器(pcm)、或所述两个存储器的组合。对于至少一个实施例,控制器集线器720经由诸如前侧总线(fsb)的多点总线、诸如快速路径互连(qpi)的点对点接口、或类似连接795来与处理器710、715通信。

在一个实施例中,协同处理器745是专用处理器,诸如例如,高吞吐量mic处理器、网络或通信处理器、压缩引擎、图形处理器、gpgpu、嵌入式处理器等等。在一个实施例中,控制器集线器720可包括集成图形加速器。

物理资源710、715之间关于包括架构上、微架构上、热、功率耗用特性、和诸如此类的指标的规格的谱能存在多种不同。

在一个实施例中,处理器710运行控制一般类型的数据处理操作的指令。指令内所嵌入的可以是协同处理器指令。处理器710将这些协同处理器指令辨认为是应由附连的协同处理器745来运行的类型。因此,处理器710在协同处理器总线或其它互连上将这些协同处理器指令(或代表协同处理器指令的控制信号)发布到协同处理器745。协同处理器745接受并运行所接收的协同处理器指令。

现在参考图8,所示出的是根据本发明的实施例的第一更特定示范性系统800的框图。如图8中所示出的,多处理器系统800是点对点互连系统,并包括经由点对点互连850所耦合的第一处理器870和第二处理器880。处理器870和880中的每个可以是处理器600的某版本。在本发明的一个实施例中,处理器870和880相应是处理器710和715,而协同处理器838是协同处理器745。在另一个实施例中,处理器870和880相应是处理器710、协同处理器745。

处理器870和880被示出相应包括集成存储器控制器(imc)单元872和882。处理器870还包括作为它的总线控制器单元的部分的点对点(p-p)接口876和878;类似地,第二处理器880包括p-p接口886和888。使用p-p接口电路878、888,处理器870、880可经由点对点(p-p)接口850来互换信息。如图8中所示出的,imc872和882将处理器耦合到相应存储器(就是存储器832和存储器834),其可以是本地附连到相应处理器的主存储器的部分。

使用点对点接口电路876、894、886、898,处理器870、880可各自经由各个p-p接口852、854与芯片集890互换信息。芯片集890可以可选地经由高性能接口839与协同处理器838互换信息。在一个实施例中,协同处理器838是专用处理器,诸如例如,高吞吐量mic处理器、网络或通信处理器、压缩引擎、图形处理器、gpgpu、嵌入式处理器等等

共享的高速缓冲存储器(未示出)可被包括在任一处理器中或在两个处理器之外,又经由p-p互连与处理器连接,使得如果处理器被置于低功率模式中,则任一或两个处理器的本地高速缓冲存储器信息可被存储在共享的高速缓冲存储器中。

芯片集890可经由接口896来耦合到第一总线816。在一个实施例中,第一总线816可以是外围组件互连(pci)总线、或诸如pci高速总线或另一个第三代i/o互连总线的总线,尽管本发明的范畴未被如此限制。

如图8中所示出的,各种i/o装置814可连同总线桥818被耦合到第一总线816,总线桥818将第一总线816耦合到第二总线820。在一个实施例中,诸如协同处理器、高吞吐量mic处理器、gpgpu、加速器(诸如例如,图形加速器或数字信号处理(dsp)单元)、现场可编程门阵列、或任何其它处理器的一个或多个附加处理器815被耦合到第一总线816。在一个实施例中,第二总线820可以是低管脚计数(lpc)总线。各种装置可被耦合到第二总线820,包括例如键盘和/或鼠标822、通信装置827和诸如硬盘驱动器或其它大容量存储装置的存储单元828,其可包括指令/代码和数据830(在一个实施例中)。进一步地,音频i/o824可被耦合到第二总线820。注意,其它架构是可能的。例如,替代图8的点对点架构,系统可实现多点总线或另一此类架构。

现在参考图9,所示出的是根据本发明的实施例的第二更特定示范性系统900的框图。图8和9中的相似元件标有相似附图标记,并且图8的某些方面已从图9中被省略以便避免使图9的其它方面难以理解。

图9示出了处理器870、880可相应包括集成存储器以及i/o控制逻辑(“cl”)872和882。因此,cl872、882包括集成存储器控制器单元并包括i/o控制逻辑。图9示出了不仅存储器832、834被耦合到cl872、882,而且i/o装置914也被耦合到控制逻辑872、882。遗留i/o装置915被耦合到芯片集890。

现在参考图10,所示出的是根据本发明的实施例的soc1000的框图。图6中的类似元件标有相似附图标记。同样,虚线框在更高级的soc上是可选特征。在图10中,互连单元1002被耦合到:应用处理器1010,其包括一个或多个核202a-n的集合和共享的高速缓冲存储器单元606;系统代理单元610;总线控制器单元616;集成存储器控制器单元614;协同处理器1020的集合或一个或多个,其可包括集成图形逻辑、图像处理器、音频处理器、以及视频处理器;静态随机存取存储器(sram)单元1030;直接存储器访问(dma)单元1032;以及用于耦合到一个或多个外部显示器的显示器单元1040。在一个实施例中,协同处理器1020包括专用处理器,诸如例如,网络或通信处理器、压缩引擎、gpgpu、高吞吐量mic处理器、嵌入式处理器等等。

本文中所公开的机制的实施例可被实现在硬件、软件、固件、或此类实现手段的组合中。本发明的实施例可被实现为在可编程系统上运行的程序代码或计算机程序,所述可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置、和至少一个输出装置。

诸如图8中所示出的代码830的程序代码可被应用于输入指令以执行本文中所描述的功能并生成输出信息。输出信息可以已知方式被应用于一个或多个输出装置。为了此应用的目的,处理系统包括具有处理器(诸如例如:数字信号处理器(dsp)、微控制器、应用特定集成电路(asic)、或微处理器)的任何系统。

程序代码可被实现在高等级规程上(procedural)或面向对象的编程语言中以与处理系统通信。如果期望的话,则程序代码可还被实现在汇编或机器语言中。事实上,本文中所描述的机制不限于对任何具体编程语言的范畴中。在任何情况中,语言可以是编译或解译的语言。

至少一个实施例的一个或多个方面可由存储在机器可读介质上的代表性指令来实现,所述代表性指令表示处理器内的各种逻辑,其当由机器来读时促使该机器制作用于执行本文中所描述的技术的逻辑。此类表示(已知为“ip核”)可被存储在有形的、机器可读介质上并被供应给各种客户或制造设施以加载到实际做出逻辑或处理器的制作机器。

此类机器可读存储介质可包括由机器或装置所制造或形成的物品(article)的非暂态、有形的布置而没有限制,包括存储介质(诸如硬盘、包括软盘、光盘、紧致盘只读存储器(cd-rom)、可重写紧致盘(cd-rw)、和磁光盘的任何其它类型的盘)、半导体装置(诸如只读存储器(rom),诸如动态随机存取存储器(dram)、静态随机存取存储器(sram)的随机存取存储器(ram),可擦除可编程只读存储器(eprom)、闪速存储器、电可擦除可编程只读存储器(eeprom)、相变存储器(pcm)、磁或光卡、或适合于存储电子指令的任何其它类型的介质)。

因此,本发明的实施例还包括非暂态、有形的机器可读介质,所述介质含有指令或含有设计数据,诸如硬件描述语言(hdl),其定义本文中所描述的结构、电路、设备、处理器和/或系统特征。此类实施例可还被称为程序产品。

在一些情况中,指令转换器可被用于将指令从源指令集转换成目标指令集。例如,指令转换器可翻译(例如,使用静态二进制翻译、包括动态编译的动态二进制翻译)、变形、仿真、或以其它方式将指令转换成要由核来处理的一个或多个其它指令。指令转换器被实现在软件、硬件、固件、或其组合中。指令转换器可在处理器上、离开处理器、或部分在处理器上而部单独开处理器。

图11是框图,其对照根据本发明的实施例的使用软件指令转换器以将源指令集中的二进制指令转换成目标指令集中的二进制指令。在所示出的实施例中,指令转换器是软件指令转换器,尽管备选地指令转换器可被实现在软件、固件、硬件、或其各种组合中。图11示出使用x86编译器1104,用高等级语言1102的程序可被编译以生成x86二进制代码1106,其可由带有至少一个x86指令集核的处理器1116来原生运行。带有至少一个x86指令集核的处理器1116表示能如带有至少一个x86指令集核的intel处理器一样大体上执行相同功能的任何处理器,这通过兼容地运行或以其它方式处理(1)intelx86指令集核的指令集的实质部分,或(2)针对于在带有至少一个x86指令集核的intel处理器上运行的应用或另一软件的对象(object)代码版本,以便取得大体上与带有至少一个x86指令集核的intel处理器相同的结果。x86编译器1104表示可操作以生成x86二进制代码1106(例如,对象代码)的编译器,x86二进制代码1106能通过或不通过附加联接处理而在带有至少一个x86指令集核的处理器1116上被运行。类似地,图11示出了使用备选指令集编译器1108,用高等级语言1102的程序可被编译以生成备选指令集二进制代码1110,其可由不带有至少一个x86指令集核的处理器1114(例如,带有运行mipstechnologiesofsunnyvale,ca的mips指令集和/或运行armholdingsofsunnyvale,ca的arm指令集的核的处理器)来原生运行。指令转换器1112被用于将x86二进制代码1106转换成可由不带有x86指令集核的处理器1114来原生运行的代码。此被转换的代码不可能与备选指令集二进制代码1110相同,因为能够这样做的指令转换器难以做出;然而,被转换的代码将完成一般操作并由来自备选指令集的指令构成。因此,指令转换器1112表示软件、固件、硬件、或其组合,其通过仿真、模拟或任何其它过程而允许不具有x86指令集处理器或核的处理器或另一电子装置运行x86二进制代码1106。

用于预留比特的施行的设备和方法

如所提及的,在许多情况下,isa定义可需要在被存储到存储器中并且在以后被加载的数据中预留比特。例如,rflags数据的大约20比特可被存储到异常栈上64比特存储器位置中。能够预留剩余40比特以供将来使用将是有用的。然而,目前没有适当地存在有效的施行策略。当前最佳实践只是确保预留比特是全零。这是不足够的,由于软件可强制所有“预留”比特为零,以为了满足施行的。然而,这意味着如果硬件将任何预留比特设置成1,则此1将不被软件保存,实质上强制比特在将来永远为0以确保与行为不当软件的后向兼容性。

为解决此限制,在一个实施例中,在存储预留比特时,它们被填充有伪随机式样(pattern),其包含诸如奇偶性比特、校验和或循环冗余校验(crc)码的纠错比特。也就是说,将存在不需要由处理器供应商发行的简单和有效的方法,其测试伪随机式样是否有效,使得真实随机式样测试失败具有高概率。

更具体地说,在一个实施例中,在处理器将一些数据推送到带有预留比特的存储器时,预留比特被拆分成两个群组。第一群组含有在每个实例中可以不同的任意伪随机式样。第二群组含有随机比特的校验和。随机比特和校验和比特的数量可被调整,以最大化预留比特的任何组合的修改将被检测到的概率。群组可在预留比特字段内是交织的或连续的。

在一个实施例中,处理器将让软件通过提供的数据执行其预期功能性。处理器随后将从存储器(不一定从相同位置,因为它可能已被软件移动)加载数据。在加载时,硬件将验证预留比特群组中的第二个的校验和比特是否匹配第一预留比特群组的伪随机比特。如果比特不匹配,则处理器将确定软件已操纵预留比特,并且将造成不当的错误条件,诸如硬件异常。在其它方面,处理器将以软件未操纵预留比特的高置信度继续正常执行。

图12图示了本发明的实施例可在其上被实现的示范性处理器1255。如所图示的,执行存储器操作(例如,加载/存储操作)的存储器管理单元1290包含用于实现本文中描述的预留比特施行技术的预留比特施行逻辑1291。然而,应注意的是,预留比特施行逻辑1291可在包含例如执行单元1240的处理器的其它单元内被实现。

示范性处理器1255也包含多个核0-n,每个核包含一组通用寄存器(gpr)1205、一组矢量寄存器1206和一组掩码寄存器1207。在一个实施例中,多个矢量数据元素被封包到每个矢量寄存器1206中,矢量寄存器可具有用于存储两个256比特值、四个128比特值、八个64比特值、十六个32比特值等的512比特宽度。然而,本发明的基础原理不限于任何具体大小/类型的矢量数据。在一个实施例中,掩码寄存器1207包含用于对在矢量寄存器1206中存储的值执行比特掩码操作的八个64比特操作数掩码寄存器(例如,实现为上述掩码寄存器k0-k7)。然而,本发明的基础原理不限于任何具体掩码寄存器大小/类型。

为简单起见,图12中图示了单个处理器核(“核0”)的细节。然而,将理解的是,处理器1255的每个核可具有与核0相同组的逻辑。例如,每个核可包含用于根据指定的高速缓存管理策略,对指令和数据进行高速缓存的专用1级(l1)高速缓存1212和2级(l2)高速缓存1211。l1高速缓存1212包含用于存储指令的单独指令高速缓存1220和用于存储数据的单独数据高速缓存1221。在各种处理器高速缓存内存储的指令和数据以可以是固定大小(例如,长度64、128、512字节)的高速缓存线的粒度来管理。此示范性实施例的每个核具有用于从系统存储器1200和/或共享3级(l3)高速缓存1216获取指令的指令获取单元1210、用于解码指令(例如,解码程序指令成微操作或“uops”)的解码单元1220、用于执行指令的执行单元1240、以及用于引退指令和写回结果的写回单元1250。

指令获取单元1210包含各种众所周知的组件,包含用于存储要从系统存储器1200(或高速缓存之一)获取的下一指令的地址的下一指令指针1203、用于存储最近使用的虚拟到物理指令地址的映射以改进地址转化的速度的指令转化后备缓冲器(itlb)1204、用于推测性预测指令分支地址的分支预测单元1202、以及用于存储分支地址和目标地址的分支目标缓冲器(btb)1201。指令一旦被获取,随后便被流传送到包含解码单元1230、执行单元1240和写回单元1250的指令流水线的剩余级。这些单元中的每个的结构和功能被本领域技术人员很好地理解,并且在这里将不详细描述以免混淆本发明的不同实施例的相关方面。

在本发明的一个实施例中,在存储预留比特时,预留比特施行逻辑1291填充伪随机式样,其包含诸如奇偶性比特、校验和或其它循环冗余校验(crc)码的纠错比特。尤其,如图13中所示,在处理器1200将数据存储到带有预留比特1301的存储器1200时,它将预留比特拆分成含有可在每个实例中不同的任意伪随机式样1302的第一群组和含有随机比特的校验和1303的第二群组。随机比特1302和校验和1303比特的数量可被调整,以最大化预留比特的任何组合的修改将被检测到的概率。第一和第二群组可在预留比特字段1301内是交织的或连续的。

在一个实施例中,通过在处理器1200上的硬件上和/或在处理器1200上执行的软件上实现的伪随机数生成器(prng),生成伪随机式样。在一个实施例中,prng实现用于生成数字的序列的算法,该数字的序列的属性近似于随机数的序列的属性。然而,prng生成的序列不是真正随机的,因为它由包含真正随机值的一小组初始值(称为prng的种子)确定。

在一个实施例中,处理器1200然后将允许软件1310通过提供的数据执行其预期功能性。处理器1200然后将从存储器1200(不一定从相同位置,因为它可能已被软件1310移动)加载数据。在加载时,验证逻辑1316将使用预留比特群组中的第二个的校验和比特1301来验证第一预留比特群组的伪随机比特1302。如果比特不匹配(即,如果校验和计算指示伪随机比特已被修改),则预留比特施行逻辑1291将确定软件1310已操纵预留比特1301,并且将造成适当的错误条件,诸如硬件异常。在其它方面,如果验证逻辑1316使用校验和比特1303验证随机比特1302,则处理器1200将以软件未操纵预留比特1200的高置信度继续正常执行。

图14中图示了根据本发明的方法。方法可在上述系统架构的上下文内被实现,但不限于任何特定系统架构。

在1401,在存储预留比特时,生成伪随机式样,并且在1402,在伪随机式样之上生成纠错码(例如,校验和)。在1403,软件执行针对于数据的功能,并且在1404,从存储器加载回数据。在1405,使用纠错码来执行验证(例如,通过在伪随机比特之上执行纠错码计算)。如果验证指示在1406确定的匹配,则在软件未修改预留比特的假设下,正常执行在1407继续。如果验证失败(即,纠错码未指示匹配),则在1408生成错误条件。

本发明的实施例优于仅仅测试“预留”比特全部为零的当前解决方案。因此,如果软件强制所有“预留”比特为零,则处理器将检测不到软件行为不当的事实。将来,在硬件可能想要在任何比特中输入1值时,则行为不当的软件将不正确地清除它,其破坏预期硬件功能性。由于当前工作软件可能介入,这意味着“预留”比特实际上未被预留,并且将来硬件被阻止使用这些比特。

在一个实施例中,针对于在windows中的异常栈上的rflags字段,实现了本发明的实施例。然而,本发明的基础原理不限于任何具体实现。

在前述说明书中,本发明的实施例已参照其特定示范性实施例而被描述。然而,将明显的是,在不脱离如随附权利要求中所陈述的本发明的更广泛的精神和范围的情况下,可对其进行各种修改和更改。因此,要以说明性而不是限制性的意义考虑说明书和附图。

本发明的实施例可包含上面已描述的各种步骤。这些步骤可在机器可执行指令中实施,机器可执行指令可用于促使通用或专用处理器执行步骤。备选地,这些步骤可由含有用于执行步骤的硬连线逻辑的特定硬件组件执行,或者由编程的计算机组件和定制硬件组件的任何组合执行。

如本文中所述,指令可涉及硬件的特定配置,硬件诸如配置成执行某些操作或具有在以非暂态计算机可读介质实施的存储器中存储的预确定的功能性或软件指令的专用集成电路(asic)。因此,使用在一个或多个电子装置(例如,终端站、网络元素等)上存储和执行的代码和/或数据,能够实现图中示出的技术。此类电子装置使用计算机机器可读介质,诸如非暂态计算机机器可读存储介质(例如,磁盘、光盘、随机存取存储器、只读存储器、闪速存储器装置、相变存储器)和暂态计算机机器可读通信介质(例如,电气、光学、声学或其它形式的传播信号-诸如载波、红外信号、数字信号等),存储和传递(在内部和/或通过网络与其它电子装置一起进行)代码和数据。另外,此类电子装置一般包括耦合到诸如一个或多个存储装置(非暂态机器可读存储介质)、用户输入/输出装置(例如,键盘、触摸屏和/或显示器)和网络连接等一个或多个其它组件的一个或多个处理器的集合。该集合的处理器与其它组件的耦合一般是通过一个或多个总线和桥接器(也称为总线控制器)。携带网络业务的信号和存储装置分别表示一个或多个机器可读通信介质和机器可读存储媒体。因此,给定电子装置的存储装置一般存储代码和/或数据以便在该电子装置的该集合的一个或多个处理器上执行。当然,可使用软件、固件和/或硬件的不同组合,实现本发明的实施例的一个或多个部分。通篇本详细描述中,处于解释的目的,陈述了许多特定的细节以便提供本发明的详尽理解。然而,本领域的技术人员将明白,可在没有某些这些特定细节的情况下实践本发明。在某些实例中,未详细阐述众所周知的结构和功能,以便避免混淆本发明的主题。因此,应根据随后的权利要求来判断本发明的范围和精神。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1